稳定扩散3已经到来,巩固了在AI图像方面对索拉和双子的早期领先优势
Stability AI 宣布推出 Stable Diffusion 3,这是该公司最新、最强大的图像生成人工智能模型版本。虽然细节很少,但显然这是为了抵制最近公布的来自 OpenAI 和 Google 的竞争对手所引起的炒作。
我们很快会有一个更详细的技术分析,但目前您应该知道Stable Diffusion 3(SD3)基于一种新的架构,并且可以在各种硬件上运行(尽管您仍然需要一些强大的设备)。目前还没有发布,但您可以在这里注册等候名单。
SD3采用更新的“扩散变换器”技术,该技术于2022年首创,但在2023年进行了修订,现已达到可伸缩性。OpenAI令人印象深刻的视频生成器Sora显然也是基于类似的原理工作(论文的合著者威尔·皮布尔斯随后成为Sora项目的共同负责人)。它还采用了“流匹配”技术,这是另一种新技术,同样可以在不增加太多开销的情况下提高质量。
这个模型套件的参数范围从8亿(小于常用的SD 1.5)到80亿(大于SD XL),旨在在各种硬件上运行。你可能仍然需要一块性能强劲的GPU和专门用于机器学习工作的设置,但不像通常情况下只能使用OpenAI和谷歌模型那样受限于API。至于Anthropic,它并没有公开关注图像或视频生成,所以并不在此讨论范围内。
在X(原Twitter)公司,稳定扩散负责人埃马德·莫斯塔克指出,新模型能够进行多模态理解,包括视频输入和生成,这些正是他的竞争对手在API驱动的竞争对手中强调的所有内容。这些能力还只停留在理论阶段,但听起来似乎没有技术障碍阻止它们被包含在未来的发行版本中。
当然,现在无法比较这些模型,因为没有一个真正发布,我们所依靠的只是各种竞争性的主张和精心挑选的例子。但是稳定扩散有一个明显的优势:它作为时代精神的存在,是任何地方进行任何类型图像生成的首选模型,基本没有方法或内容上的固有限制。(实际上,SD3几乎肯定会在安全机制通过后引领出一种新的AI生成色情图片的时代。)
稳定扩散似乎想要成为你无法缺少的白标生成人工智能,而不是你不确定是否需要的精品生成人工智能。为此,该公司也在升级其工具,以降低使用门槛,不过和其他公告一样,这些改进都留给想象。
有趣的是,该公司在公告中将安全置于首位,强调:
这些保障措施究竟是什么?预览无疑会在一定程度上详细说明,而公开发布后则会进一步完善,或者根据您对这些事情的看法进行审查。我们很快就会了解更多,同时也会深入研究技术方面,以更好地理解这一新一代模型背后的理论和方法。