Synthetaic声称在AI领域，合成数据与真实数据一样好

Chat中文版

还记得2023年的中国“间谍”气球吗？如果不记得，这里来提醒一下：大约一年前，一颗来自中国的高空气球在美国领空飞行，几乎没有被察觉。随后，美国空军发现并击落了这个气球，但对于好奇的民众来说，追溯气球的原始来源并不容易，直到像Synthetaic这样的人工智能公司利用卫星图像证明了它是可行的。

幸运的是，气球事件成为Synthetaic的一次有力产品演示机会，吸引了包括国防承包商Booz Allen Hamilton在内的投资者的关注。

Synthetaic在本周完成了一轮B轮融资，共筹集到1500万美元。这次融资由Lupa Systems和TitletownTech共同领投，TitletownTech是由Green Bay Packers和微软合作成立的风险投资公司。IBM Ventures和之前提到的Booz Allen Hamilton也参与了这次融资。到目前为止，Synthetaic累计融资达3250万美元。据首席执行官Corey Jaskolski表示，这笔新的资金将用于加速公司计算机视觉技术的商业化，并将员工数量增加至80人，几乎翻倍。预计到今年年底将达到这一目标。

“生成的图像数据量正在呈指数增长，这凸显了对先进人工智能解决方案管理和分析这一海量信息的需求不断增加，”Jaskolski在电子邮件采访中告诉TechCrunch。“我们已经看到，从这些海量数据中获取洞察力仍然是许多行业（如国防、地理空间、视频安全或基于无人机的监控）的重大痛点和优先事项。Synthetaic在无监督学习和数据分析方面的人工智能解决方案使我们能够在不断演变的技术领域中保持战略定位。”

杰斯科尔斯基是麻省理工学院毕业生，曾任国家地理杂志技术总监，他是个爱冒险的人。他在南极潜水冰山之间，下潜到海洋表面以下12500英尺来探索泰坦尼克号的残骸，带领一支以直升机为基础的团队制作了珠穆朗玛峰尼泊尔侧的地图，并深入洪水泛滥的洞穴中，在整理玛雅人祭品和冰河时代熊骨骼的同时勘察。

Chat中文版

那么是什么让像Jaskolski这样的勇于冒险的环球旅行者创办了Synthetaic呢？他说很简单：他意识到AI有潜力帮助分类世界上的信息，但受限于手动标注数据的需求。

“人工标注是AI训练的常规方式，”贾斯科尔斯基表示。“随着AI模型变得更大，它们的性能会变得更好，但是它们需要更多的数据用于训练，因为它们有越来越多的内部可调参数。长期以来，解决这个问题的行业方案就是让数百万人标注物体并训练AI，但如果我们不再需要人工标注的数据呢？”

Synthetaic是在2019年推出的，提供一款名为Rapid Automatic Image Categorization（RAIC）的工具，旨在自动化分析大数据集，尤其是不包含标签的卫星影像和视频。

许多 AI 模型是通过让人群（即标注员）对数据进行标注来进行训练，以便模型可以学习将某些注释（即标签）与数据的特征相关联。例如，一个模型如果被提供了许多带有每个品种注释的猫图片，最终它将“学会”区分长尾猫和短毛猫。

相对而言，用户向RAIC提供一张图片，RAIC会在数据集中找出图片的其他存在位置。

对于中国气球的情况，这使得Synthetaic的平台能够仅凭气球在太空中的简图和最近从气球被击落的区域获得的卫星图像，便能发现气球。

"RAIC能够处理稀缺或复杂的数据集，加速人工智能发展，改进预测建模，而不受数据数量或质量的限制。" Jaskolski说道。"这使得RAIC成为推动创新、提高运营效率和竞争优势的战略资产，特别适用于数据成为人工智能采纳和实施的瓶颈的情况。"

Synthetaic并不是唯一一个探索在模型训练中使用合成数据的公司。

2022年4月，Synthesis AI在风险投资轮融资中筹集了1700万美元，正在开发一款生成合成数据来训练各种类型AI系统的平台。两年前，Scale AI推出了一个计划，让机器学习工程师通过合成样本来增强现有的真实世界数据集。在其他地方，像Parallel Domain这样的公司正在为特定用例（如自动驾驶）创建合成数据。

2024年之前，根特公司预测用于人工智能和分析项目开发的数据中，将有60%是通过合成方式生成的。然而，尽管这个行业正在快速发展，一些专家担心合成数据的缺点和潜在危险被忽视了。

Chat中文版

在2020年1月的一项研究中，亚利桑那州立大学的研究人员表明，一种由教授的图像数据集训练的人工智能系统可以创建高度逼真的面孔，但这些面孔大多数是白人男性。该系统放大了原始数据集中的偏差，这不足为奇，因为该数据集主要捕捉到的是男性和白人教授。

Synthetaic的客户并没有因为风险而退缩，就事论事而言。

这家初创公司声称与美国空军合作，在地理空间数据中测试了由人工智能支持的物体检测技术，并与非营利性环保组织自然保护协会合作，识别了先前被认为已灭绝的鸟类物种。Synthetaic还与美国空军研究实验室AFWERX签订了合同，开发用于目标标注、人工智能建模和卫星图像中物体检测的技术。

贾斯科尔斯基认为，RAIC在无数其他领域有应用，从人工智能原型设计到基于无人机的监测和内容审核。他指出Synthetaic与CNN合作分析加沙战争图片以及与Planet Labs合作销售地球影像数据分析的例子，证明Synthetaic的业务对科技行业的低迷以及更广泛的宏观经济风险具有强大的抵御能力。

“Synthetaic的技术提供了一种改变性的方法来进行AI模型的训练和创建，解决了技术决策者的重要需求，”贾斯科尔斯基说。“对于高层管理人员来说，Synthetaic的RAIC意味着能够处理稀缺或复杂的数据集，加快AI的开发并改进预测建模，而不受数据数量或质量的限制。这使得RAIC成为推动创新、提高运营效率和竞争优势的战略资产，尤其是在数据成为AI采用和实施的瓶颈的应用场景中。”

推荐阅读

在竞选全面展开的一年中，Meta将扩大对人工智能生成图像的标注

Meta正在扩大对其社交媒体平台Facebook、Instagram和Threads上由人工智能生成的图像进行标注，以覆盖一些使用竞争对手的生成型人工智能工具创作的合成图像-至少在竞争对手使用被其称为“行业标准指示物”的内容来表明这些内容是由人工智能生成，并且Meta能够...

2024-02-061724

Ambience Healthcare筹集了7000万美元用于其由OpenAI和Kleiner Perkins领导的AI助手项目

人工智能在医疗领域扮演着越来越重要的角色，将这两个领域紧密结合的创业公司正在赢得客户和投资者的广泛关注。在最新的进展中，Ambience Healthcare开发了一个被称为“操作系统”的医疗组织助手，帮助临床医生完成繁重的行政工作...

2024-02-061993

中国的创造性视频竞争升温

周一，中国互联网巨头腾讯在GitHub上发布了其开源视频生成模型DynamiCrafter的新版本。腾讯以其视频游戏帝国和聊天应用WeChat而闻名，这是一个提醒，中国一些最大的科技公司一直在悄悄加大力度，以在文本和...

2024-02-06875

Colossyan使用GenAI创建企业培训视频

大多数人不会观看企业培训视频，或者在强制培训的情况下，也不会全神贯注地观看。根据视频技术提供商Kaltura最近的一项调查显示，75%的员工承认只是匆匆浏览培训视频，无声观看或者在同时进行其他任务时倾听。因此，考虑到培训的情况，企业需要思考如何去吸引员工的注意力，以保证培训的有效性。

2024-02-062050

英国政府大力推出价值超过1亿美元的计划，激发“负责任”的人工智能研发

英国政府最终公布了对去年三月份启动的AI监管咨询的回应。去年三月，英国政府发布了一份白皮书，明确了他们优先依靠现有法律和监管机构，并结合"情境特定"指导来轻监管这个颠覆性的高科技行业。完整的回应将被公开发布。

2024-02-061678