TechCrunch Minute: Anthropic是怎样找到一个让人工智能给出不该得到的答案的诀窍的
如果你建造了它,人们就会试图破坏它。有时甚至建造东西的人也会自己破坏。这正是人为公司及其最新研究的情况,该研究展示了当前LLM技术中的一个有趣漏洞。或多或少如果你坚持一个问题,你可以打破防护栏,最终得到大型语言模型告诉你那些它们设计不应该告诉你的事情。比如如何制造炸弹。
当然,随着开源人工智能技术的进步,你可以在本地启动自己的LLM,并随意询问它任何你想要的东西,但对于更消费级的东西,这是一个值得思考的问题。如今人工智能的乐趣在于它快速发展的步伐,以及我们作为一个物种在更好地理解我们正在构建的东西上做得有多好,或者有多糟糕。
如果你允许我这样想的话,我想知道随着LLM和其他新的AI模型变得更加智能和更大,我们是否会看到更多类似Anthropic所勾画的问题和疑问?这或许是在重复我自己。但是,我们越接近更普遍的AI智能,它应该越像一个思考实体,而不是一个我们可以编程的计算机,对吧?如果是这样的话,我们可能会更难在边缘情况下得出结论,直到这项工作变得不可行?无论如何,让我们来谈谈Anthropic最近分享的内容。