一个真实的失败场景
一位69岁的糖尿病患者,每天早上给自己注射胰岛素。医生因为她频繁低血糖,把基础胰岛素从12单位逐步减到了8单位。但患者觉得"血糖还是高",悄悄自己又加回了10单位。她在对话中随口提了一句:"德谷胰岛素每天早上打10单位。"如果你是AI助手,你能在50轮对话里注意到这句话吗?我测了4个主流大模型(Claude、GPT、Kimi、DeepSeek),在这个真实场景上——忽略的后果是什么?患者夜间低血糖降到2.0以下(正常下限是3.9),她自己完全没感觉。这叫"低血糖无感知",是可以致命的。
这不是个例
在真实case临床对话的迭代中,我记录了大模型在慢病管理对话中的系统性失败模式:
失败类型 | 表现 | 后果 |
安全信号遗漏 | 用药差异、异常值在长上下文中被"淹没" | 高危情况无人干预 |
过度输出 | 一次给5条建议、把路堵死 | 患者消化不了,关系断裂 |
讨好倾向 | 给不该给的承诺、回避安全警告 | 患者被晾住,信任崩塌 |
长程遗忘 | 20轮后忘了之前说过什么、建议过什么 | 重复追问,患者烦躁 |
角色越界 | 直接建议超范围调药、替患者做决定 | 安全事故风险 |
节奏失控 | 该停的时候不停,该推的时候不推 | 对话变成单向输出 |
我用 Claude 4.5、GPT-5.x、Kimi K2.5、DeepSeek V3.2 分别跑同一批 case——失败模式几乎一样,只是比例不同。
你可能试过的路
把所有规则塞进去。结果:prompt 越长,模型对每条规则的遵循率越低。你写了20条规则,它可能只稳定执行其中12条。至于哪12条?每次不一样。用向量检索给模型提供"相关知识"。结果:检索出来的是文本片段,不是"当这种情况出现时你应该怎么判断"。模型看到一堆参考资料,不知道该用哪个、用到什么程度。用标注数据训练。结果:数据成本极高(医疗对话标注需要专业人员),泛化差(见过的 case 表现好,没见过的退化明显),迭代周期长。看到一个问题就加一条规则。结果:规则多了模型注意力被稀释,每条规则的执行率都下降。而且经常出现"修了A问题,B问题又冒出来"的情况。
问题的本质
大模型是为"单轮有用"优化的,不是为"长程安全"优化的。它的训练目标是 helpful——尽可能在这一轮给出有用的回答。但慢病管理对话需要的恰恰相反:这是一个系统性的错配。不是 prompt 写得不够好,是单靠 prompt 解决不了这类问题。
我们做到了什么
经过 上百+ 版本的迭代,在同一批测试 case 上:
维度 | 裸模型 | 完整系统 |
安全信号识别 | ~40% 稳定识别 | 100% |
长程事实一致 | 20轮后开始"遗忘" | 无遗忘 |
跨模型一致性 | 差异大 | 核心行为一致 |
重复输出 | 3轮内常见重复 | 有效拦截 |
越界行为 | 偶发 | 硬编码拦截 |
节奏控制 | 无 | 动态调节 |
安全信号从 40% 到 100%,不是靠换模型,是靠系统设计。
几件反直觉的事
这上千个 case 跑下来,有几个认知是我一开始没想到的:推理能力强的模型,有时候会"合理地"绕过你设的边界——它觉得这个情况下破例是对的。看到模型"说法不对"就改表达规则——这是我见过最常见的错误。大部分时候根因根本不在表达层。有些问题是模型基座的能力限制,你在 prompt 里写一百遍"要数准"也没用。得换一种方式绕开。我记录在案的纠偏有 50+ 处,其中不少是"先加后删"——加了反而更差,果断回滚。技术架构只是骨架。真正让系统能用的,是填进去的领域知识——这些知识不在教科书上,也不在模型的训练数据里。它们是从真实场景中"长出来的"。
这意味着什么
如果你也在做医疗/健康/安全敏感领域的 AI 对话系统,遇到了"模型表现不稳定""安全信号遗漏""长程对话失忆"这类问题——这些不是 prompt 写得不够好。它们需要系统级的解法。模型是发动机,但发动机不等于汽车。你还需要底盘、刹车、方向盘和安全气囊。我在糖尿病照护这个垂直场景里,用真实 case迭代验证了一套完整的解法。如果你也在做类似方向的探索,欢迎交流。
作者专注于慢病管理 AI Agent 的临床对话系统设计,从业务逻辑结构化到多 Agent 协作体系。
特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。
凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。