谷歌开源工具支持人工智能模型开发
在一个典型的年份里,云未来——谷歌每年两次主要的开发者大会之一,另一个是 I/O — 几乎全部展示的都是受控的、有源代码保密、受API封锁限制的产品和服务。但是今年,无论是为了培养开发者的好感还是推进其生态系统雄心(或两者兼而有之),谷歌推出了一些主要针对支持生成类人工智能项目和基础设施的开源工具。
谷歌在2月份悄悄发布了MaxDiffusion,这是一个参考实现各种扩散模型的集合,比如图像生成器Stable Diffusion,它可以在XLA设备上运行。"XLA"代表加速线性代数,这是一个略显笨拙的缩写,指的是一种优化和加速特定类型人工智能工作负载的技术,包括微调和服务。
谷歌自己的张量处理单元(TPUs)是XLA设备,最近的英伟达GPU也是。
谷歌将推出Jetstream,一款新引擎用于运行生成式AI模型,具体来说是文本生成模型(不是Stable Diffusion)。目前只支持TPU,据称将来会兼容GPU。Jetstream为谷歌自家的Gemma 7B和Meta的Llama 2等模型提供高达3倍的“性能每美元”比率,谷歌声称。
谷歌云计算和机器学习基础架构总经理Mark Lohmeyer在一篇与TechCrunch分享的博客文章中写道:“随着客户将他们的AI工作负载投入生产,对成本效益高且性能优秀的推理堆栈的需求日益增加。”“JetStream满足了这一需求... 并且包括对流行的开源模型如Llama 2和Gemma的优化。”
现在,“3倍”的改进是一个相当大胆的说法,并不清楚谷歌是如何得出这个数字的。是使用哪一代的TPU?与哪个基准引擎相比?这里的“性能”是如何定义的呢?
我已经向谷歌询问了所有这些问题,如果收到回复,我会更新这篇帖子。
在谷歌开源贡献名单的倒数第二位是针对云端TPU和Nvidia GPU的文本生成AI模型MaxText的新加入。MaxText现在包括了Gemma 7B、OpenAI的GPT-3(GPT-4的前身)、Llama 2以及来自AI初创公司Mistral的模型——谷歌表示这些模型可以根据开发者的需求进行定制和细化调整。
Lohmeyer表示:“我们已经在TPUs上大大优化了[这些模型]的性能,并与Nvidia密切合作,优化了大型GPU集群上的性能。这些改进最大化了GPU和TPU的利用率,提高了能源效率和优化了成本。”
最后,谷歌与人工智能初创公司Hugging Face合作,推出了Optimum TPU,为将某些人工智能工作负载转移到TPUs提供了工具。根据谷歌的说法,目标是降低获取生成式人工智能模型运行在TPU硬件上的门槛,特别是文本生成模型。
但目前,Optimum TPU 还比较基础。它目前只能适配 Gemma 7B 模型。Optimum TPU 还不支持在 TPUs 上训练生成模型,只能运行这些模型。
谷歌在未来有望实现改进。