①据消息人士称,谷歌正在推进一项新计划,使其AI芯片在运行 PyTorch(全球使用最广泛的AI软件框架)方面表现更佳; ②此举旨在挑战英伟达长期以来在AI芯片领域的主导地位。
财联社12月18日讯(编辑 夏军雄)据消息人士称,谷歌正在推进一项新计划,使其人工智能(AI)芯片在运行 PyTorch(全球使用最广泛的AI软件框架)方面表现更佳,此举旨在挑战英伟达长期以来在AI芯片领域的主导地位。
谷歌目标是让——其自研芯片张量处理单元(TPU)——成为英伟达GPU的可运行替代方案,但仅有硬件并不足以推动广泛采用。
知情人士称,该计划在谷歌公司内部被称为“TorchTPU”,旨在消除阻碍TPU芯片普及的一项关键障碍,即让已经基于PyTorch软件构建技术基础设施的客户,能够在TPU上获得完全兼容、对开发者友好的体验。
据悉,谷歌正在考虑将部分软件开源,以加快客户采用速度,该公司为TorchTPU项目投入了更多组织资源、战略重视度。
如果谷歌的TorchTPU项目取得成功,将有望显著降低企业从英伟达GPU转向其他方案的切换成本。
TPU普及面临障碍
尽管越来越多的企业开始尝试采用谷歌的TPU,但却在软件层面遇到障碍。
PyTorch是一个由Meta大力支持的开源项目,是AI模型开发者最常用的工具之一。在硅谷,很少有开发者会亲自编写英伟达、AMD或谷歌芯片实际执行的每一行代码。
相反,开发者依赖 PyTorch 等工具——这些工具由预先编写好的代码库和框架组成,能够自动化AI软件开发中的许多常见任务。
PyTorch最初发布于2016年,其发展历程与英伟达的CUDA紧密相连。一些华尔街分析师认为,CUDA是英伟达抵御竞争对手的最强护城河。
多年来,英伟达工程师一直致力于确保基于PyTorch开发的软件在其芯片上运行得尽可能快且高效。
相比之下,谷歌内部开发者团队长期采用另一套名为Jax的代码框架,其TPU芯片则通过名为XLA的工具来高效执行这些代码。谷歌自身的AI软件栈和性能优化大多围绕Jax构建,这使得谷歌芯片的使用方式与客户需求之间存在显著差。
知情人士称,企业客户一直向谷歌反映,TPU在AI工作负载上的采用难度较高,因为过去它们往往要求开发者从大多数人已在使用的PyTorch,转而切换到谷歌内部更偏好的机器学习框架Jax。
与Meta合作
知情人士还表示,为加快开发进度,谷歌正在与PyTorch的创建者和主要维护方Meta紧密合作。两家科技巨头还在讨论相关交易,让Meta获得更多TPU资源。
早期面向Meta的服务采用谷歌托管模式,即Meta等客户安装谷歌设计的芯片来运行谷歌软件和模型,由谷歌提供运维支持。
相关人士称,Meta在战略上有动力参与让TPU更易运行的软件开发,以降低推理成本,并让自身AI基础设施逐步摆脱对英伟达GPU的依赖,从而增强谈判筹码。
