AI 搜索引擎大比拼

哥伦比亚大学对八款 AI 搜索引擎展开研究

3 月 13 日消息，据外媒 Techspot 报道，哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）近期对八款 AI 搜索引擎进行了深入研究，包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性，并记录了它们拒绝回答问题的频率。

测试方法与结果

研究人员从 20 家新闻机构中随机挑选了 200 篇报道（每家 10 篇），确保它们在谷歌搜索时能排在前三位，然后用相同的查询方式测试各 AI 搜索工具，并评估它们是否正确引用了文章内容、新闻机构名称和原始链接。测试结果显示，除 Perplexity 及其付费版外，其余 AI 搜索引擎的表现都不尽如人意。整体来看，AI 搜索引擎提供的答案有 60% 是不准确的，而且 AI 对错误答案的 “自信” 反而加剧了问题。

ChatGPT：自信满满但错误频繁

ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具，但其 “完全正确” 率仅 28%，而 “完全错误” 率高达 57%。即使承认了错误，ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中，几乎是 “无论如何都要给出答案”。这一现象用数据印证了外界多年来的担忧 —— 大语言模型不仅会出错，还擅长一本正经地胡说八道。

Grok-3 Search：错误率高达 94%

在所有测试的 AI 搜索引擎中，X 旗下的 Grok AI 表现尤为不堪，其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中，有 104 次拒绝作答，剩下的 96 次中，仅 16 次 “完全正确”，14 次 “部分正确”，66 次 “完全错误”，总体错误率接近 70%。

付费版并未显著提升准确性

这些 AI 工具的开发公司并未公开承认这些问题，却仍向用户收取每月 20 至 200 美元（当前约 145 至 1449 元人民币）的订阅费。此外，付费版 Perplexity Pro（20 美元 / 月）和 Grok-3 Search（40 美元 / 月）比免费版回答得更多，但错误率也更高。

结论

哥伦比亚大学的这项研究揭示了 AI 搜索引擎在准确性上的严重问题，尤其是它们在错误答案上的 “自信满满” 更是加剧了用户的困惑。虽然这些工具在回答问题时表现出高频率，但其错误率仍然令人担忧。用户在选择 AI 搜索引擎时，应保持谨慎，避免被错误信息误导。