Synthetaic声称在AI领域,合成数据与真实数据一样好

AI7号2024-02-061587

Chat中文版

还记得2023年的中国“间谍”气球吗?如果不记得,这里来提醒一下:大约一年前,一颗来自中国的高空气球在美国领空飞行,几乎没有被察觉。随后,美国空军发现并击落了这个气球,但对于好奇的民众来说,追溯气球的原始来源并不容易,直到像Synthetaic这样的人工智能公司利用卫星图像证明了它是可行的。

幸运的是,气球事件成为Synthetaic的一次有力产品演示机会,吸引了包括国防承包商Booz Allen Hamilton在内的投资者的关注。

Synthetaic在本周完成了一轮B轮融资,共筹集到1500万美元。这次融资由Lupa Systems和TitletownTech共同领投,TitletownTech是由Green Bay Packers和微软合作成立的风险投资公司。IBM Ventures和之前提到的Booz Allen Hamilton也参与了这次融资。到目前为止,Synthetaic累计融资达3250万美元。据首席执行官Corey Jaskolski表示,这笔新的资金将用于加速公司计算机视觉技术的商业化,并将员工数量增加至80人,几乎翻倍。预计到今年年底将达到这一目标。

“生成的图像数据量正在呈指数增长,这凸显了对先进人工智能解决方案管理和分析这一海量信息的需求不断增加,”Jaskolski在电子邮件采访中告诉TechCrunch。“我们已经看到,从这些海量数据中获取洞察力仍然是许多行业(如国防、地理空间、视频安全或基于无人机的监控)的重大痛点和优先事项。Synthetaic在无监督学习和数据分析方面的人工智能解决方案使我们能够在不断演变的技术领域中保持战略定位。”

杰斯科尔斯基是麻省理工学院毕业生,曾任国家地理杂志技术总监,他是个爱冒险的人。他在南极潜水冰山之间,下潜到海洋表面以下12500英尺来探索泰坦尼克号的残骸,带领一支以直升机为基础的团队制作了珠穆朗玛峰尼泊尔侧的地图,并深入洪水泛滥的洞穴中,在整理玛雅人祭品和冰河时代熊骨骼的同时勘察。

Chat中文版

那么是什么让像Jaskolski这样的勇于冒险的环球旅行者创办了Synthetaic呢?他说很简单:他意识到AI有潜力帮助分类世界上的信息,但受限于手动标注数据的需求。

“人工标注是AI训练的常规方式,”贾斯科尔斯基表示。“随着AI模型变得更大,它们的性能会变得更好,但是它们需要更多的数据用于训练,因为它们有越来越多的内部可调参数。长期以来,解决这个问题的行业方案就是让数百万人标注物体并训练AI,但如果我们不再需要人工标注的数据呢?”

Synthetaic是在2019年推出的,提供一款名为Rapid Automatic Image Categorization(RAIC)的工具,旨在自动化分析大数据集,尤其是不包含标签的卫星影像和视频。

许多 AI 模型是通过让人群(即标注员)对数据进行标注来进行训练,以便模型可以学习将某些注释(即标签)与数据的特征相关联。例如,一个模型如果被提供了许多带有每个品种注释的猫图片,最终它将“学会”区分长尾猫和短毛猫。

相对而言,用户向RAIC提供一张图片,RAIC会在数据集中找出图片的其他存在位置。

对于中国气球的情况,这使得Synthetaic的平台能够仅凭气球在太空中的简图和最近从气球被击落的区域获得的卫星图像,便能发现气球。

"RAIC能够处理稀缺或复杂的数据集,加速人工智能发展,改进预测建模,而不受数据数量或质量的限制。" Jaskolski说道。"这使得RAIC成为推动创新、提高运营效率和竞争优势的战略资产,特别适用于数据成为人工智能采纳和实施的瓶颈的情况。"

Synthetaic并不是唯一一个探索在模型训练中使用合成数据的公司。

2022年4月,Synthesis AI在风险投资轮融资中筹集了1700万美元,正在开发一款生成合成数据来训练各种类型AI系统的平台。两年前,Scale AI推出了一个计划,让机器学习工程师通过合成样本来增强现有的真实世界数据集。在其他地方,像Parallel Domain这样的公司正在为特定用例(如自动驾驶)创建合成数据。

2024年之前,根特公司预测用于人工智能和分析项目开发的数据中,将有60%是通过合成方式生成的。然而,尽管这个行业正在快速发展,一些专家担心合成数据的缺点和潜在危险被忽视了。

Chat中文版

在2020年1月的一项研究中,亚利桑那州立大学的研究人员表明,一种由教授的图像数据集训练的人工智能系统可以创建高度逼真的面孔,但这些面孔大多数是白人男性。该系统放大了原始数据集中的偏差,这不足为奇,因为该数据集主要捕捉到的是男性和白人教授。

Synthetaic的客户并没有因为风险而退缩,就事论事而言。

这家初创公司声称与美国空军合作,在地理空间数据中测试了由人工智能支持的物体检测技术,并与非营利性环保组织自然保护协会合作,识别了先前被认为已灭绝的鸟类物种。Synthetaic还与美国空军研究实验室AFWERX签订了合同,开发用于目标标注、人工智能建模和卫星图像中物体检测的技术。

贾斯科尔斯基认为,RAIC在无数其他领域有应用,从人工智能原型设计到基于无人机的监测和内容审核。他指出Synthetaic与CNN合作分析加沙战争图片以及与Planet Labs合作销售地球影像数据分析的例子,证明Synthetaic的业务对科技行业的低迷以及更广泛的宏观经济风险具有强大的抵御能力。

“Synthetaic的技术提供了一种改变性的方法来进行AI模型的训练和创建,解决了技术决策者的重要需求,”贾斯科尔斯基说。“对于高层管理人员来说,Synthetaic的RAIC意味着能够处理稀缺或复杂的数据集,加快AI的开发并改进预测建模,而不受数据数量或质量的限制。这使得RAIC成为推动创新、提高运营效率和竞争优势的战略资产,尤其是在数据成为AI采用和实施的瓶颈的应用场景中。”

推荐阅读

在竞选全面展开的一年中,Meta将扩大对人工智能生成图像的标注

2024-02-061724
Chat中文版

Ambience Healthcare筹集了7000万美元用于其由OpenAI和Kleiner Perkins领导的AI助手项目

2024-02-061993
Chat中文版

中国的创造性视频竞争升温

2024-02-06875
Chat中文版

Colossyan使用GenAI创建企业培训视频

2024-02-062050
Chat中文版

英国政府大力推出价值超过1亿美元的计划,激发“负责任”的人工智能研发

2024-02-061678
Chat中文版