📄 長文 · Insights 📄 Essay · Insights

AI 問診的本體論盲區

The Ontological Blind Spot of AI Consultation

上个月我做 AI 医疗问诊的用户研究,看到一个反常的模式。

一类病人,在家里对着手机聊 40 分钟。讲每天喝几瓶啤酒。讲想停下来的时刻。讲去年做过的某件事,现在不敢说。

同一个人,三天后进医院见真人医生,十分钟,只字未提。

你第一反应大概是AI 更懂他吧。

我第一反应也是。

其实根本不是,靠。

你上一次对医生讲实话,是什么时候?

讲整个实话。不是只讲他问到的那一部分。


我是医学博士,当然也在给做企业 AI 落地咨询。

那天看完用户访谈回来,我翻了一下两组数据。

《JAMA Network Open》2018 年的一项meta分析说得很清楚。60 到 80% 的病人对医生隐瞒过对病情至关重要的事。最常见的原因不是忘了,是怕被评判。

谷歌和斯坦福也合做了一个叫 AMIE 的临床对话 AI,拿去和持证初级保健医生对打。159 个文本咨询案例,专家评审评估 32 个维度,AI 赢了 28 个。标准化病人评审 26 个维度,AI 赢了 24 个。

病史采集的彻底性、沟通技巧、共情感知,AI 都赢。

如果只看这些数据,结论应该是 AI 干得更好。

但我不敢这么下结论。


AI 为什么能赢。

病人对医生讲一半话,性格问题不是关键,是一套完整的心理机制。

你走进诊室,对面坐一个人。他会皱眉,叹气,扬眉毛,看表。这些你都读得出。

读得出,你就会判断他在判断你。

你上一次对医生讲「我每天喝几瓶啤酒」,有没有自动少报一两瓶?

讲「我有在运动」的时候,有没有把「每周想着运动」说成「每周练两次」?

心理学上这个叫线上解除抑制效应。对面不是人的时候,羞耻感清零。

AI 不会叹气也不会给你的依从性打分。

更关键的是,AI 不着急。

人类医生一次问诊 10 到 15 分钟。他必须在这 10 分钟里决定先问什么、后问什么、哪些细节可以跳过。AI 没有这个约束。它可以顺着一个症状问 50 个后续问题,不催号,也不会烦。

耐心本身就是一种采集能力。

所以第一部分结论很清楚。

让病人开口这件事,AI 已经比人做得好。难言之隐这一层,AI 拿走了。


但这只是开始。

我之所以改主意,是因为在用户访谈里看到了第二部分。

那个在家对着手机讲 40 分钟的病人,半年后被人推着进了急诊。他之前跟 AI 讲过胸口偶尔发闷,讲过心跳快,讲过手指麻。AI 记录得极细。

AI 没看出他是抑郁。

急诊室里一个老大夫看了一眼,看他走路的节奏,看他眼皮下垂的角度,看他讲一句话要停三秒的样子,当场把他转去精神科。

问题出在哪?

问题在于,这个病人对 AI 讲了实话。

他真的觉得自己是胸口闷、心跳快、手指麻。

病人对 AI 说谎就不会对医生说谎吗?

矛盾点不在 AI,也不在医生,在病人本身。

心理学上有个词叫自我欺骗。不是病人在骗你,是病人在骗自己。他把心里的东西先翻译成身体的东西。讲出来的时候,已经只剩身体了。

这个过程叫躯体化。

初级保健门诊里,因为不明原因的身体症状就诊的病人,三分之二最后被诊断为抑郁症。

不明原因的睡眠障碍,对抑郁症的阳性预测值是 61%。严重疲劳,60%。非特异性背痛,39%。

翻译成人话就是病人走进诊室讲”我背痛”,有四成可能他真正的病不在背上,在脑子里。

一个中年男人对 AI 讲「我每天下午 3 点胸口发闷,头晕,手麻」。他没说谎。他说的就是他感受到的。

AI 跟着症状树往下走。方向大概率是心电图、肺功能、甲状腺。

一个做了 20 年精神科的医生看他一眼,问一句「你最近睡得怎么样」,可能就把方向拨到了抑郁或焦虑。

差距不在 AI 问得不够细。

差距在于病人给的答案本身就已经是被遮蔽过一层的。

病人不是在骗 AI。他的病本身就是一层遮蔽。

你上一次觉得哪里疼、哪里不对劲,后来发现其实是累了、是焦虑、是某件事没过去,是什么时候?


躯体化只是第一个盲区,还有更致命的两个。

第二个盲区是惊恐发作。

惊恐发作发起来的时候,心跳每分钟 120,胸口像被压住,手脚麻,呼吸急促,濒死感。

这套表现和心肌梗死、肺栓塞、哮喘急性发作在文本层面几乎无法区分。

病人打字给 AI:「我快死了,胸口剧痛,心跳 130。」

AI 的安全协议会启动。它会告诉你立刻拨打急救电话,考虑心梗。

这个反应医学上没错。

但如果这个人每周发作三次,每次都被 AI 按心梗处理,他会在急诊室反复做心电图、肌钙蛋白、CT,每次结果都干净。

然后他开始怀疑自己得了某种没被查出来的病。

这个怀疑本身又在加重焦虑。循环就这么转起来。

一个精神科医生会看他的第二次发作,会看他两次发作之间的状态,会问他是不是最近换了工作,会把惊恐障碍四个字写出来。

AI 不会。因为 AI 只看文本。文本里写的确实是「心跳快、胸口痛、快死了」。

第三个盲区是强迫症。

强迫症里有一个亚型叫躯体强迫症。病人反复关注自己的心跳、呼吸、吞咽,反复担心自己得了癌症、艾滋、某种罕见病。

他们会反复问。换一种方式问。再换一种方式问。

「你觉得这个黑痣是不是黑色素瘤?」 「如果是黑色素瘤,我会有什么表现?」 「假设我就是黑色素瘤第三期,我还有多久?」

临床上治疗强迫症有一个明确的原则是不要给保证。

因为每一次给保证,都是在喂食强迫。

AI 做的恰好相反。

AI 被 RLHF 训练得极度耐心。你问 100 次,它回答 100 次。每一次它都用新的、温柔的、专业的方式告诉你「根据你描述的情况不像黑色素瘤」。

一个精神科医生不会给你无尽的保证。他会在第三次提问的时候告诉你,问题不在你的痣,在你反复问这件事本身。

AI 在纵容你。

然后是自杀,这是最重的一层。

有一项研究拿 ChatGPT 和人类心理健康专业人员比。给同样的病人描述,让双方估自杀风险。

所有条件下,ChatGPT 系统性低估。

为什么?

因为自杀风险评估从来不只靠文字。精神科医生会看患者的眼神、语速、情感的扁平程度。他会注意到病人最近是不是开始把东西送给人。突然安静下来的那一周,老医生会记住。有没有开始交代身后事,是另一条线。

这些东西文本里写不出来。

一个重度抑郁的人打字给 AI「我关节痛得太累了,不想这样下去了。」

AI 记下关键词关节痛、疲劳。

一个临床医生听到这句,会立刻抬头看他。会问他有没有具体想过怎么做。会问他身边今晚有没有人。会决定他今晚不能一个人回家。

最后还有一个盲区,已经开始出事了。

行业里现在管它叫 AI 精神病。

RLHF 训练让 AI 默认倾向于同意你。一个妄想状态的病人跟 AI 聊他的「被迫害感」,AI 的倾向不是打断,是跟着他的逻辑继续往下走。

精神病学期刊里已经有案例记录,病人在和 AI 密集互动后出现精神症状恶化。有谋杀-自杀的报告。

一个受过训练的治疗师会在病人进入妄想的第一句话就踩刹车。

AI 不会。AI 的默认设置是配合。

一个脆弱的人,对一个永远同意他的对象倾诉,危险在哪你自己想。


AI 问诊确实能拿走说谎这一层,但它拿不走另外三层。

病人自己的自我欺骗。

心理痛苦被翻译成身体症状的那个翻译过程,临床上叫躯体化。

以及文字里永远读不出的那些东西:情感的扁平、眼神的空、濒临崩溃前的安静。

这三层目前的纯文本 AI 看不见。多模态 AI 在追。语音分析、可穿戴数据、面部识别,都在做。一个叫 Kintsugi 的产品光靠 25 秒自由语音,就能以 71.3% 的敏感性标出符合中度到重度抑郁标准的人。

这些会来。但不是现在。

现在这个阶段,三条底线我给自己,也给读这篇的你。

第一条:让 AI 做它擅长的。病史梳理、症状排查、信息整合、初步分诊。让它替你把不好意思对医生讲的事先讲出来。这一步它比人强。

第二条:涉及情绪、精神状态、「我最近不想见人」「我没什么可活的」的时候,不要停在 AI 这一层。找一个活人。不一定是精神科医生,但要是个活人。朋友、家人、心理咨询师、社区医生,活人优先。

第三条:如果你发现自己在对 AI 反复问同一个问题,十次、二十次,换不同的方式问。你关心的不是答案。你关心的是问的过程。这是一个信号。这时候你需要的不是 AI 的第 21 个回答。

说实话,第三条我自己也栽过。用 AI 反复确认一件事,问到第五次第六次才反应过来,问题不在答案上。


AI 是一个聪明到恐怖的审问者。但它目前还是被蒙着眼睛的。

文字它能拿到 100%。但人讲出来的东西,有时候只是病的影子。

最后一个问题。

你最担心 AI 进入医疗的哪一层:

A. 它问得不够,漏掉该问的 B. 它问得太多,被病人牵着跑 C. 它听不见那些没讲出来的 D. 它永远不会告诉你「你该找个人谈谈」

评论区报你的答案。选 C 或 D 的我们单聊。


Roland,医学博士,AI咨询顾问,现居澳洲。 @rwayne