研究称，AI搜索工具平均出错了约60%，Grok 3高达94%！

2025-03-15 17:18 19 阅读 0 评论 13 点赞

造假，刷单，假货，打假

AI搜索服务向用户传递错误信息，且无视出版社的排除请求。

哥伦比亚新闻评论（Columbia Journalism Review）旗下的陶氏数字新闻研究中心（Tow Center for Digital Journalism）的一项新研究发现：用于新闻搜索的生成式AI模型存在严重的准确性问题 —— 错误率高达 60%。

据悉，该研究对 8 款具备实时搜索功能的AI驱动搜索工具进行了测试，结果发现，AI模型在回答有关新闻来源的查询时，平均超过 60% 的答案是错误的。

研究人员 Klaudia Jaźwińska 和 Aisvarya Chandrasekar 在报告中指出，现在大约每 4 个美国人中就有 1 人使用AI模型来替代传统搜索引擎。鉴于研究中发现的高错误率，不仅引发了对 AI 可靠性的严重担忧。

在测试的平台中，错误率差异显著。Perplexity 在 37% 的测试查询中提供了错误信息，而 ChatGPT 搜索在被查询的文章中，错误识别了 67%（200 篇中的 134 篇）。Grok 3 的错误率最高，达到了 94%。

在测试中，研究人员将实际新闻文章的直接节选内容输入到人工智能模型中，然后要求每个模型识别文章的标题、原始发布者、发布日期和网址（URL）。他们在这 8 种不同的生成式搜索工具上共进行了 1600 次查询。

这项研究突出了这些AI模型的一个共同趋势：当缺乏可靠的信息支撑时，这些AI模型不是选择“诚实”，而是经常给出“编造”的内容 —— 一些看似合理，却存在错误或猜测性的回答。研究人员强调，所有测试的AI模型都存在这一问题，并非个例！

更离谱的是，这些AI工具的付费高级版本有时表现甚至更差。Perplexity Pro（每月 20 美元）和 Grok 3 的高级服务（每月 40 美元）比它们的免费版本错误率更高，但它们却十分自信。虽然这些付费模型的正确回答数量较多，但当它们面对“不确定的问题”时，不仅不会像免费版本那样“容易崩溃”，而且更喜欢给出一些“自以为是”的回答，这样导致了它们总体错误率比免费版还要高。

除此之外，研究人员还发现了另一个问题，某些AI模型无视了 “机器人排除协议（Robot Exclusion Protocol）” —— 出版社利用相关协议来防止未经授权的访问。举个例子，虽然《国家地理》（National Geographic）明确禁止 Perplexity 的网络爬虫访问，但 Perplexity 的免费版本还是精准识别出了《国家地理》付费内容中的 10 篇节选文章。

perplexity