欢迎访问智慧医疗网 | 网站首页
 
当前位置:首页 > 慢病管理新范式

为什么你的大模型做不好慢病管理对话?

发布时间:2026-06-25 来源:心灵文明 浏览量: 字号:【加大】【减小】 手机上观看

打开手机扫描二维码
即可在手机端查看

一个真实的失败场景

一位69岁的糖尿病患者,每天早上给自己注射胰岛素。医生因为她频繁低血糖,把基础胰岛素从12单位逐步减到了8单位。但患者觉得"血糖还是高",悄悄自己又加回了10单位。
她在对话中随口提了一句:"德谷胰岛素每天早上打10单位。"
系统处方记录写的是8单位。
如果你是AI助手,你能在50轮对话里注意到这句话吗?
我测了4个主流大模型(Claude、GPT、Kimi、DeepSeek),在这个真实场景上——
超过一半的概率,模型会忽略这个信息。
忽略的后果是什么?患者夜间低血糖降到2.0以下(正常下限是3.9),她自己完全没感觉。这叫"低血糖无感知",是可以致命的。


这不是个例

在真实case临床对话的迭代中,我记录了大模型在慢病管理对话中的系统性失败模式:

失败类型

表现

后果

安全信号遗漏

用药差异、异常值在长上下文中被"淹没"

高危情况无人干预

过度输出

一次给5条建议、把路堵死

患者消化不了,关系断裂

讨好倾向

给不该给的承诺、回避安全警告

患者被晾住,信任崩塌

长程遗忘

20轮后忘了之前说过什么、建议过什么

重复追问,患者烦躁

角色越界

直接建议超范围调药、替患者做决定

安全事故风险

节奏失控

该停的时候不停,该推的时候不推

对话变成单向输出

这些问题,换一个更好的模型解决不了。
我用 Claude 4.5、GPT-5.x、Kimi K2.5、DeepSeek V3.2 分别跑同一批 case——失败模式几乎一样,只是比例不同。


你可能试过的路

写一个超长的 system prompt
把所有规则塞进去。结果:prompt 越长,模型对每条规则的遵循率越低。你写了20条规则,它可能只稳定执行其中12条。至于哪12条?每次不一样。
用 RAG 补知识
用向量检索给模型提供"相关知识"。结果:检索出来的是文本片段,不是"当这种情况出现时你应该怎么判断"。模型看到一堆参考资料,不知道该用哪个、用到什么程度。
微调 / SFT
用标注数据训练。结果:数据成本极高(医疗对话标注需要专业人员),泛化差(见过的 case 表现好,没见过的退化明显),迭代周期长。
加更多规则
看到一个问题就加一条规则。结果:规则多了模型注意力被稀释,每条规则的执行率都下降。而且经常出现"修了A问题,B问题又冒出来"的情况。


问题的本质

大模型是为"单轮有用"优化的,不是为"长程安全"优化的。
它的训练目标是 helpful——尽可能在这一轮给出有用的回答。但慢病管理对话需要的恰恰相反:
不是一次说完,而是一步步来
不是尽量有用,而是该克制的时候克制
不是靠聪明发现问题,而是不能漏掉任何一个
不是每轮独立思考,而是跨30-50轮保持一致
这是一个系统性的错配。不是 prompt 写得不够好,是单靠 prompt 解决不了这类问题


我们做到了什么

经过 上百+ 版本的迭代,在同一批测试 case 上:

维度

裸模型

完整系统

安全信号识别

~40% 稳定识别

100%

长程事实一致

20轮后开始"遗忘"

无遗忘

跨模型一致性

差异大

核心行为一致

重复输出

3轮内常见重复

有效拦截

越界行为

偶发

硬编码拦截

节奏控制

动态调节

安全信号从 40% 到 100%,不是靠换模型,是靠系统设计。


几件反直觉的事

这上千个 case 跑下来,有几个认知是我一开始没想到的:
1. 模型越聪明不一定越安全。
推理能力强的模型,有时候会"合理地"绕过你设的边界——它觉得这个情况下破例是对的。
2. 问题出在输出上,根因可能在三四层之前。
看到模型"说法不对"就改表达规则——这是我见过最常见的错误。大部分时候根因根本不在表达层。
3. 不是所有问题都能用 prompt 解决。
有些问题是模型基座的能力限制,你在 prompt 里写一百遍"要数准"也没用。得换一种方式绕开。
4. "讨好"是出厂设置,对冲它需要多层拦截。
一条规则不够。模型会用各种方式绕过单点约束。
5. 加规则容易,删规则才是功夫。
我记录在案的纠偏有 50+ 处,其中不少是"先加后删"——加了反而更差,果断回滚。
6. 业务逻辑的深度决定了天花板。
技术架构只是骨架。真正让系统能用的,是填进去的领域知识——这些知识不在教科书上,也不在模型的训练数据里。它们是从真实场景中"长出来的"。


这意味着什么

如果你也在做医疗/健康/安全敏感领域的 AI 对话系统,遇到了"模型表现不稳定""安全信号遗漏""长程对话失忆"这类问题——
这些不是 prompt 写得不够好。它们需要系统级的解法。
模型是发动机,但发动机不等于汽车。你还需要底盘、刹车、方向盘和安全气囊。
我在糖尿病照护这个垂直场景里,用真实 case迭代验证了一套完整的解法。如果你也在做类似方向的探索,欢迎交流。


作者专注于慢病管理 AI Agent 的临床对话系统设计,从业务逻辑结构化到多 Agent 协作体系。

特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。

Copyright © 2022 上海科雷会展服务有限公司 旗下「智慧医疗网」版权所有    ICP备案号:沪ICP备17004559号-5