稳定扩散3已经到来,巩固了在AI图像方面对索拉和双子的早期领先优势

AI7号2024-02-221962

Chat中文版

Stability AI 宣布推出 Stable Diffusion 3,这是该公司最新、最强大的图像生成人工智能模型版本。虽然细节很少,但显然这是为了抵制最近公布的来自 OpenAI 和 Google 的竞争对手所引起的炒作。

我们很快会有一个更详细的技术分析,但目前您应该知道Stable Diffusion 3(SD3)基于一种新的架构,并且可以在各种硬件上运行(尽管您仍然需要一些强大的设备)。目前还没有发布,但您可以在这里注册等候名单。

SD3采用更新的“扩散变换器”技术,该技术于2022年首创,但在2023年进行了修订,现已达到可伸缩性。OpenAI令人印象深刻的视频生成器Sora显然也是基于类似的原理工作(论文的合著者威尔·皮布尔斯随后成为Sora项目的共同负责人)。它还采用了“流匹配”技术,这是另一种新技术,同样可以在不增加太多开销的情况下提高质量。

这个模型套件的参数范围从8亿(小于常用的SD 1.5)到80亿(大于SD XL),旨在在各种硬件上运行。你可能仍然需要一块性能强劲的GPU和专门用于机器学习工作的设置,但不像通常情况下只能使用OpenAI和谷歌模型那样受限于API。至于Anthropic,它并没有公开关注图像或视频生成,所以并不在此讨论范围内。

在X(原Twitter)公司,稳定扩散负责人埃马德·莫斯塔克指出,新模型能够进行多模态理解,包括视频输入和生成,这些正是他的竞争对手在API驱动的竞争对手中强调的所有内容。这些能力还只停留在理论阶段,但听起来似乎没有技术障碍阻止它们被包含在未来的发行版本中。

当然,现在无法比较这些模型,因为没有一个真正发布,我们所依靠的只是各种竞争性的主张和精心挑选的例子。但是稳定扩散有一个明显的优势:它作为时代精神的存在,是任何地方进行任何类型图像生成的首选模型,基本没有方法或内容上的固有限制。(实际上,SD3几乎肯定会在安全机制通过后引领出一种新的AI生成色情图片的时代。)

稳定扩散似乎想要成为你无法缺少的白标生成人工智能,而不是你不确定是否需要的精品生成人工智能。为此,该公司也在升级其工具,以降低使用门槛,不过和其他公告一样,这些改进都留给想象。

有趣的是,该公司在公告中将安全置于首位,强调:

这些保障措施究竟是什么?预览无疑会在一定程度上详细说明,而公开发布后则会进一步完善,或者根据您对这些事情的看法进行审查。我们很快就会了解更多,同时也会深入研究技术方面,以更好地理解这一新一代模型背后的理论和方法。

推荐阅读

Chrome将推出一款由Gemini技术驱动的内置人工智能写作工具

2024-02-22779
Chat中文版

谷歌暂停AI工具Gemini生成人物图像的能力,因为存在历史不准确性

2024-02-22667
Chat中文版

DatologyAI正在开发技术,自动筛选人工智能训练数据集

2024-02-221197
Chat中文版

人工智能领域的女性:Krystal Kauffman,分布式人工智能研究所的研究员

2024-02-222813
Chat中文版

安特勒创始人谈论在东南亚进行垂直人工智能投资的决定

2024-02-22349
Chat中文版