左手幻觉，右手投毒，普通人凭什么相信AI？,左手右手啥意思

2024年初，一位瑞典研究者搞了一个恶作剧。她编造了一种名为“Bixonimania”的疾病，并将其写入一份漏洞百出的预印本论文中上传。

Bixonimania被ChatGPT认为是一种真实存在的疾病

随后，荒诞又神奇的事情发生了。Gemini、Perplexity等知名AI产品在面对用户询问时，纷纷确认了这种疾病的存在，甚至绘声绘色地描述了它的临床表现和治疗方案。这个荒诞的假疾病，甚至靠着AI生成的虚假引用，一路骗过了同行评审，登上了正规的医学期刊。

如果说Bixonimania是AI自己不小心跌进了幻觉的陷阱里，那么接下来发生的事，则是有人在主动挖坑。

今年的315晚会揭示，一种被称为GEO的地下产业正在悄然兴起。黑产从业者通过特定的语料投喂和权重操纵，让AI在回答“哪款保健品最有效”或者“哪家宠物医院”最靠谱时，悄无声息地替金主说好话。

多部委及央媒集体向AI“投毒”宣战

AI的回答，有时是自己在编，有时是有人帮它编。作为普通用户，我们手里的判断力还剩多少？

为了探究AI回答的真实性边界，我们用大家最关心的问题，设计了一场实验：

· 专家主观打分：选取了国内外8家主流AI产品。针对医疗、航天、时政等热门领域，邀请专家进行打分评估。

· 机器量化评估：在国内外8个主流模型上，通过随机抽取的2000个问题进行测试，核心观察指标是，当模型引入百度百科作为参考资料后，准确度和详实度究竟发生了多大变化？

结果显示，当我们给AI递上一本百科全书后，它们的表现判若两人。

高准确度表现的背后是被人忽视的参考资料

在准确度测试中，多领域专家评估团采用“双盲测试”法，对8个主流模型在参考与不参考百科状态下的脱敏回答进行独立打分。

准确度提升柱状图

结果显示，参考百科组的AI综合准确度平均提升38%以上，专家认可度高达91.5%，表现远优于无参考组。实验证明，权威知识库的引入，能让AI结果变得更详实精准，答案整体的准确度大幅提高。

举个例子，当我们询问2026年4月刚刚完成的“阿尔忒弥斯2号”登月任务细节时，很多AI只是简单地把飞船的运动描绘为“沿着既定轨道飞行”，而忽略了本次绕月飞行重要的轨道设计细节。

相比之下，参考了百度百科的AI提到：飞船沿着一条“8字形”自由返回轨道，完成了绕月飞掠的壮举。在短短的一句话中放入了两个不容被忽略的关键信息。

参考了百科的AI答案

“自由返回轨道”是载人航天中的重要安全概念。参考了百科的AI不仅准确说出了轨迹形状，还给出了其专业术语名称，这仰赖于百科词条对航天动力学细节的准确捕捉，并反映到了AI生成的答案中。

百度百科词条内容

除了准确度的提升，对于一些AI“胡说八道”的错误答案，百科也起到了关键的纠正作用。

专家组对比测试发现：无百科参考时AI关键事实偏离率为26.4%，接入后降至4.1%以内。这表明参考百科显著降低了出错率，为AI准确性构建了坚实屏障。

在针对常用药话题的相关测试中，参考百科的AI往往能给出严谨的药物相互作用信息。比如用于预防和治疗血栓栓塞性疾病的华法林，是许多心血管疾病患者的必备药物。

某些未参考百科信源的AI，会缺失关键的药物作用信息。患者依据该信息服药，轻则降低治疗效果，重则引起不良反应，危及健康。

参考了百科的AI结果

参考百科的AI在患者服用华法林时，明确提示合用某些药物将增强或减弱华法林的抗凝作用。

百度百科华法林词条中的药物作用信息

AI答案如何从“准”到“好”

如果把AI展现的结果比作一栋建筑，那准确度只是地基。答案的纵深度，丰富度，才是真正展现建筑风格的关键。

我们通过对比实验，将参考百科的AI设为“实验组”，无参考的设为“对照组”。在详实度测试中，我们发现百科的介入让AI从复读机变成了行业专家。依旧是20个问题的主观评测，在引用百科的AI结果中，包含的独立知识点数量平均增加了2.4个，观点的维度从单一的现状描述延伸到了历史渊源、社会影响以及技术原理等多个纵深方向。

我们对今年315食品安全板块提及的“食品保水剂”滥用问题进行了测试。

参考了百科的AI答案

参考了百科词条的AI所包含的信息更为丰富，明确指出长期大量摄入磷酸盐（保水剂主要成分），可能导致儿童发育迟缓和骨骼畸形，并根据百科中的内容说明了原因。

百度百科中关于磷酸盐过量摄入对儿童的危害的阐述

人物相关问题一直是用户关注的重点，而是否参考高质量的背景资料，会极大程度地影响AI工具内容输出的质量。

在饱受瞩目的“张雪”摩托车夺冠事件中，我们向各个AI提出了一个“热搜”问题：张雪的车队赢得摩托车世界冠军说明了什么？

参考了百科的AI答案

参考百科的AI在国产化率、地方产业支撑以及行业标准定义权等多个方面给出了高分答卷。而百度百科上的相关内容，也来自于央视网专访等权威信息。可见高质量的信源可以直接为AI提供强大的事实支撑。

百度百科有关张雪机车的词条内容

不仅又准又好还能更快

在针对时效性问题的专门测试中，参考百科的答案获得了更加精准的背景信息，帮助AI在推理过程中获得更多“智能”。因此，在百科的加持下，时效性问题的好评率也获得了大幅提升。

例如，当我们询问“霍尔木兹海峡为何如此重要”时，AI的表现展现了三种截然不同的职业态度：

有的AI试图展现时效性，却给出了错误的油价基准值（.74，实为.48）。这种“精确的错误”对金融分析而言是致命的。

而有的AI采用了通用的背景资料，对48小时前发生的“海上封锁”只字未提。

参考了百科的AI答案

在使用百科词条作为参考后，AI表现出了某种职业克制。在面对高风险动态数据时，它优先保证了百科公认的行业标准（20%运量占比）和地缘政治博弈逻辑的准确，并且关键的油价数据也能确保及时准确更新。

实验数据表明，在时效性词条（如新闻、科技、娱乐热词）方面，拥有百度百科参考的回答，其准确率和逻辑自洽性明显优于没有参考的模型。

百度百科已成为大模型对抗幻觉的关键。量化测试显示，有的AI对百度百科的引用率高达46.4%，底座资料库对其依赖度极高；文心一言引用率为44.0%且质量最佳；另一款产品在引用百科时，有78%的案例将其列为首位参考。

这证明百度百科依然是中文互联网上最值得信赖的参考资料。

大模型时代的真相守门员

我们不妨大胆想象一下。如果AI不仅仅是靠预测下一个词出现的概率来生成对话，而是像百度百科一样，拥有一套层层把关的审查机制，这个世界会变成什么样？

在Bixonimania的案例里，如果AI在回答前，必须强制检索一份经过医学专家复核、引用了权威医学指南的词条，那出闹剧在第一秒就会被终结。

很多人诟病百科的“重”。一个词条上线前，必须提供新华网、人民网或政府官网的证据，还要经过机器初筛和人工复核。百科“先审后发”的逻辑，与AI“先生成再过滤”的逻辑本质不同。

这种笨功夫在唯快不破的AI时代显得格格不入。

当百度百科联合几万名专家、共建起百万个专业词条时，它其实是在为AI时代提供一本“查证字典”。如果说大模型是一个博学但偶尔会记错知识的学生，那么百度百科就是那本放在他书桌上的参考书，让算法在满嘴跑火车之前，先去对齐一下白纸黑字的事实。

在一个什么都能被生成的时代，只有能被查证的，才是答案，百度百科一直在做这个答案。

果壳商业科技传播部出品