人工智能服务抗幻觉附加组件的可能性

shukla7789 · Post by **shukla7789** » Sat Jul 05, 2025 12:53 pm

发像 OpenIA 的 ChatGPT、谷歌的 Bard 等聊天机器人都存在幻觉问题（这是他们的说法，不是我们的）。它们会编造一些东西，然后以权威的语气说出来。这的确是个问题。但答案可能有点老套，就像家长可能会说的：“去查一下！”

试想一下，互联网档案馆与负责任的人工智能公司和研究项目合作，能够在庞大的图书馆中自动执行“查找”，从而使这些服务更加可靠、值得信赖。怎么做呢？

互联网档案馆和人工智能公司可以为聊天机器人提供反幻觉服务“附加组件”，该附加组件可以利用互联网档案馆的图书 海外数据 馆藏书（其中大部分是在生成人工智能之前发布的）引用支持证据并反驳聊天机器人的断言。

通过引用基于论文、书籍、报纸、杂志、电视、广播、政府文件的证据来支持和反对断言，我们可以为依靠屏幕寻找答案的一代人构建更强大、更可靠的知识基础设施。尽管许多生成式人工智能公司已经或打算将其模型连接到互联网，但互联网档案馆可以提供的独特之处在于我们拥有庞大的“历史互联网”内容集合。我们已经存档网络 27 年了，这意味着我们拥有数十年人类生成的知识。在我们可能看到人工智能生成内容急剧增加的时代，这可能会变得非常宝贵。因此，互联网档案馆插件不仅要利用互联网上的知识，还要利用互联网历史方面的知识。

这可能吗？我们认为是的，因为我们已经手动或借助互联网档案机器人维基百科社区等专用机器人为维基百科进行类似的工作。这些机器人已经修复了超过1700万个失效链接，并将100万条断言链接到超过25万本书的特定页面。在人工智能公司的帮助下，我们相信可以实现自动化流程，并对其服务生成的定制文章做出响应。聊天机器人使用的许多技术也可用于挖掘文献中的断言，并找出这些断言是在何时何地提出的。

其结果将是一个更加可靠的万维网，虚假信息和宣传将更容易受到挑战，从而被削弱。

是的，有四家大型出版商正在起诉，要求销毁互联网档案馆的大部分藏书，但我们正在对这项裁决提出上诉。我们认为，像互联网档案馆这样的研究型图书馆的职责之一，就是拥有能够让研究人员和公众以新的方式利用的藏书，从而了解他们的世界。

需要什么？共同的目标、合作伙伴和资金。我们认为公共人工智能研究实验室的作用在于挖掘海量藏品，而不会引发版权问题。虽然这些藏品本身就很丰富，但我们认为，收集、数字化并开放世界各地民主国家的出版物，将极大地扩展我们的语料库。

我们看到科学家、研究人员、人道主义者、伦理学家、工程师、政府和慈善家共同努力建设更好的互联网。