2024年初,一位瑞典研究者搞了一个恶作剧。她编造了一种名为“Bixonimania”的疾病,并将其写入一份漏洞百出的预印本论文中上传。


Bixonimania被ChatGPT认为是一种真实存在的疾病

随后,荒诞又神奇的事情发生了。Gemini、Perplexity等知名AI产品在面对用户询问时,纷纷确认了这种疾病的存在,甚至绘声绘色地描述了它的临床表现和治疗方案。这个荒诞的假疾病,甚至靠着AI生成的虚假引用,一路骗过了同行评审,登上了正规的医学期刊。

如果说Bixonimania是AI自己不小心跌进了幻觉的陷阱里,那么接下来发生的事,则是有人在主动挖坑。

今年的315晚会揭示,一种被称为GEO的地下产业正在悄然兴起。黑产从业者通过特定的语料投喂和权重操纵,让AI在回答“哪款保健品最有效”或者“哪家宠物医院”最靠谱时,悄无声息地替金主说好话。


多部委及央媒集体向AI“投毒”宣战

AI的回答,有时是自己在编,有时是有人帮它编。作为普通用户,我们手里的判断力还剩多少

为了探究AI回答的真实性边界,我们用大家最关心的问题,设计了一场实验:

· 专家主观打分:选取了国内外8家主流AI产品。针对医疗、航天、时政等热门领域,邀请专家进行打分评估。

· 机器量化评估:在国内外8个主流模型上,通过随机抽取的2000个问题进行测试,核心观察指标是,当模型引入百度百科作为参考资料后,准确度和详实度究竟发生了多大变化?

结果显示,当我们给AI递上一本百科全书后,它们的表现判若两人。

在准确度测试中,多领域专家评估团采用“双盲测试”法,对8个主流模型在参考与不参考百科状态下的脱敏回答进行独立打分。


准确度提升柱状图

结果显示,参考百科组的AI综合准确度平均提升38%以上,专家认可度高达91.5%,表现远优于无参考组。实验证明,权威知识库的引入,能让AI结果变得更详实精准,答案整体的准确度大幅提高

举个例子,当我们询问2026年4月刚刚完成的“阿尔忒弥斯2号”登月任务细节时,很多AI只是简单地把飞船的运动描绘为“沿着既定轨道飞行”,而忽略了本次绕月飞行重要的轨道设计细节。

相比之下,参考了百度百科的AI提到:飞船沿着一条“8字形”自由返回轨道,完成了绕月飞掠的壮举。在短短的一句话中放入了两个不容被忽略的关键信息。


参考了百科的AI答案

“自由返回轨道”是载人航天中的重要安全概念。参考了百科的AI不仅准确说出了轨迹形状,还给出了其专业术语名称,这仰赖于百科词条对航天动力学细节的准确捕捉,并反映到了AI生成的答案中。




百度百科词条内容

除了准确度的提升,对于一些AI“胡说八道”的错误答案,百科也起到了关键的纠正作用。

专家组对比测试发现:无百科参考时AI关键事实偏离率为26.4%,接入后降至4.1%以内。这表明参考百科显著降低了出错率,为AI准确性构建了坚实屏障

在针对常用药话题的相关测试中,参考百科的AI往往能给出严谨的药物相互作用信息。比如用于预防和治疗血栓栓塞性疾病的华法林,是许多心血管疾病患者的必备药物。

某些未参考百科信源的AI,会缺失关键的药物作用信息。患者依据该信息服药,轻则降低治疗效果,重则引起不良反应,危及健康。


参考了百科的AI结果

参考百科的AI在患者服用华法林时,明确提示合用某些药物将增强或减弱华法林的抗凝作用。


百度百科华法林词条中的药物作用信息

如果把AI展现的结果比作一栋建筑,那准确度只是地基。答案的纵深度,丰富度,才是真正展现建筑风格的关键。

我们通过对比实验,将参考百科的AI设为“实验组”,无参考的设为“对照组”。在详实度测试中,我们发现百科的介入让AI从复读机变成了行业专家。依旧是20个问题的主观评测,在引用百科的AI结果中,包含的独立知识点数量平均增加了2.4个,观点的维度从单一的现状描述延伸到了历史渊源、社会影响以及技术原理等多个纵深方向。



我们对今年315食品安全板块提及的“食品保水剂”滥用问题进行了测试。


参考了百科的AI答案

参考了百科词条的AI所包含的信息更为丰富,明确指出长期大量摄入磷酸盐(保水剂主要成分),可能导致儿童发育迟缓和骨骼畸形,并根据百科中的内容说明了原因。


百度百科中关于磷酸盐过量摄入对儿童的危害的阐述

人物相关问题一直是用户关注的重点,而是否参考高质量的背景资料,会极大程度地影响AI工具内容输出的质量。

在饱受瞩目的“张雪”摩托车夺冠事件中,我们向各个AI提出了一个“热搜”问题:张雪的车队赢得摩托车世界冠军说明了什么?


参考了百科的AI答案

参考百科的AI在国产化率、地方产业支撑以及行业标准定义权等多个方面给出了高分答卷。而百度百科上的相关内容,也来自于央视网专访等权威信息。可见高质量的信源可以直接为AI提供强大的事实支撑


百度百科有关张雪机车的词条内容

在针对时效性问题的专门测试中,参考百科的答案获得了更加精准的背景信息,帮助AI在推理过程中获得更多“智能”。因此,在百科的加持下,时效性问题的好评率也获得了大幅提升

例如,当我们询问“霍尔木兹海峡为何如此重要”时,AI的表现展现了三种截然不同的职业态度:

有的AI试图展现时效性,却给出了错误的油价基准值(.74,实为.48)。这种“精确的错误”对金融分析而言是致命的。

而有的AI采用了通用的背景资料,对48小时前发生的“海上封锁”只字未提。


参考了百科的AI答案

在使用百科词条作为参考后,AI表现出了某种职业克制。在面对高风险动态数据时,它优先保证了百科公认的行业标准(20%运量占比)和地缘政治博弈逻辑的准确,并且关键的油价数据也能确保及时准确更新。

实验数据表明,在时效性词条(如新闻、科技、娱乐热词)方面,拥有百度百科参考的回答,其准确率和逻辑自洽性明显优于没有参考的模型。

百度百科已成为大模型对抗幻觉的关键。量化测试显示,有的AI对百度百科的引用率高达46.4%,底座资料库对其依赖度极高;文心一言引用率为44.0%且质量最佳;另一款产品在引用百科时,有78%的案例将其列为首位参考。



这证明百度百科依然是中文互联网上最值得信赖的参考资料

我们不妨大胆想象一下。如果AI不仅仅是靠预测下一个词出现的概率来生成对话,而是像百度百科一样,拥有一套层层把关的审查机制,这个世界会变成什么样?

在Bixonimania的案例里,如果AI在回答前,必须强制检索一份经过医学专家复核、引用了权威医学指南的词条,那出闹剧在第一秒就会被终结。

很多人诟病百科的“重”。一个词条上线前,必须提供新华网、人民网或政府官网的证据,还要经过机器初筛和人工复核。百科“先审后发”的逻辑,与AI“先生成再过滤”的逻辑本质不同。

这种笨功夫在唯快不破的AI时代显得格格不入。

当百度百科联合几万名专家、共建起百万个专业词条时,它其实是在为AI时代提供一本“查证字典”。如果说大模型是一个博学但偶尔会记错知识的学生,那么百度百科就是那本放在他书桌上的参考书,让算法在满嘴跑火车之前,先去对齐一下白纸黑字的事实。

在一个什么都能被生成的时代,只有能被查证的,才是答案,百度百科一直在做这个答案

果壳商业科技传播部出品