当前位置：首页 > 慢病管理新范式

为什么你的大模型做不好慢病管理对话？

发布时间：2026-06-25 来源：心灵文明浏览量：字号：【加大】【减小】手机上观看

打开手机扫描二维码
即可在手机端查看

一个真实的失败场景

一位69岁的糖尿病患者，每天早上给自己注射胰岛素。医生因为她频繁低血糖，把基础胰岛素从12单位逐步减到了8单位。但患者觉得"血糖还是高"，悄悄自己又加回了10单位。

她在对话中随口提了一句："德谷胰岛素每天早上打10单位。"

系统处方记录写的是8单位。

如果你是AI助手，你能在50轮对话里注意到这句话吗？

我测了4个主流大模型（Claude、GPT、Kimi、DeepSeek），在这个真实场景上——

超过一半的概率，模型会忽略这个信息。

忽略的后果是什么？患者夜间低血糖降到2.0以下（正常下限是3.9），她自己完全没感觉。这叫"低血糖无感知"，是可以致命的。

这不是个例

在真实case临床对话的迭代中，我记录了大模型在慢病管理对话中的系统性失败模式：

失败类型	表现	后果
安全信号遗漏	用药差异、异常值在长上下文中被"淹没"	高危情况无人干预
过度输出	一次给5条建议、把路堵死	患者消化不了，关系断裂
讨好倾向	给不该给的承诺、回避安全警告	患者被晾住，信任崩塌
长程遗忘	20轮后忘了之前说过什么、建议过什么	重复追问，患者烦躁
角色越界	直接建议超范围调药、替患者做决定	安全事故风险
节奏失控	该停的时候不停，该推的时候不推	对话变成单向输出

这些问题，换一个更好的模型解决不了。

我用 Claude 4.5、GPT-5.x、Kimi K2.5、DeepSeek V3.2 分别跑同一批 case——失败模式几乎一样，只是比例不同。

你可能试过的路

写一个超长的 system prompt

把所有规则塞进去。结果：prompt 越长，模型对每条规则的遵循率越低。你写了20条规则，它可能只稳定执行其中12条。至于哪12条？每次不一样。

用 RAG 补知识

用向量检索给模型提供"相关知识"。结果：检索出来的是文本片段，不是"当这种情况出现时你应该怎么判断"。模型看到一堆参考资料，不知道该用哪个、用到什么程度。

微调 / SFT

用标注数据训练。结果：数据成本极高（医疗对话标注需要专业人员），泛化差（见过的 case 表现好，没见过的退化明显），迭代周期长。

加更多规则

看到一个问题就加一条规则。结果：规则多了模型注意力被稀释，每条规则的执行率都下降。而且经常出现"修了A问题，B问题又冒出来"的情况。

问题的本质

大模型是为"单轮有用"优化的，不是为"长程安全"优化的。

它的训练目标是 helpful——尽可能在这一轮给出有用的回答。但慢病管理对话需要的恰恰相反：

不是一次说完，而是一步步来

不是尽量有用，而是该克制的时候克制

不是靠聪明发现问题，而是不能漏掉任何一个

不是每轮独立思考，而是跨30-50轮保持一致

这是一个系统性的错配。不是 prompt 写得不够好，是单靠 prompt 解决不了这类问题。

我们做到了什么

经过上百+ 版本的迭代，在同一批测试 case 上：

维度	裸模型	完整系统
安全信号识别	~40% 稳定识别	100%
长程事实一致	20轮后开始"遗忘"	无遗忘
跨模型一致性	差异大	核心行为一致
重复输出	3轮内常见重复	有效拦截
越界行为	偶发	硬编码拦截
节奏控制	无	动态调节

安全信号从 40% 到 100%，不是靠换模型，是靠系统设计。

几件反直觉的事

这上千个 case 跑下来，有几个认知是我一开始没想到的：

1. 模型越聪明不一定越安全。

推理能力强的模型，有时候会"合理地"绕过你设的边界——它觉得这个情况下破例是对的。

2. 问题出在输出上，根因可能在三四层之前。

看到模型"说法不对"就改表达规则——这是我见过最常见的错误。大部分时候根因根本不在表达层。

3. 不是所有问题都能用 prompt 解决。

有些问题是模型基座的能力限制，你在 prompt 里写一百遍"要数准"也没用。得换一种方式绕开。

4. "讨好"是出厂设置，对冲它需要多层拦截。

一条规则不够。模型会用各种方式绕过单点约束。

5. 加规则容易，删规则才是功夫。

我记录在案的纠偏有 50+ 处，其中不少是"先加后删"——加了反而更差，果断回滚。

6. 业务逻辑的深度决定了天花板。

技术架构只是骨架。真正让系统能用的，是填进去的领域知识——这些知识不在教科书上，也不在模型的训练数据里。它们是从真实场景中"长出来的"。

这意味着什么

如果你也在做医疗/健康/安全敏感领域的 AI 对话系统，遇到了"模型表现不稳定""安全信号遗漏""长程对话失忆"这类问题——

这些不是 prompt 写得不够好。它们需要系统级的解法。

模型是发动机，但发动机不等于汽车。你还需要底盘、刹车、方向盘和安全气囊。

我在糖尿病照护这个垂直场景里，用真实 case迭代验证了一套完整的解法。如果你也在做类似方向的探索，欢迎交流。

作者专注于慢病管理 AI Agent 的临床对话系统设计，从业务逻辑结构化到多 Agent 协作体系。

特别声明：智慧医疗网转载其他网站内容，出于传递更多信息而非盈利之目的，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。

凡来源注明智慧医疗网的内容为智慧医疗网原创，转载需获授权。

上一篇：无下一篇：AI赋能精准智管济宁打造可复制慢病管理新样板

编辑推荐