在医学领域,LLM不仅能通过医学研究生的水平考试,还能帮助临床医生进行诊断。不过,这些均为受控基准测试中的表现。那么,在无法核对答案、患者众多且资源有限的真实环境中,LLM表现究竟如何呢?为找到答案,两个独立研究团队分别在卢旺达与巴基斯坦进行了研究。 在卢旺达,研究人员测试了LLM能否在4个卫生资源匮乏地区为患者提供准确的临床信息。“这些地区面临医护人员短缺问题,无法接诊全部患者,多数患者由培训不足的社区工作者来接诊和分诊。”该研究作者、非营利性国际健康组织PATH的首席AI官Bilal Mateen说。 Mateen团队让当地约100名社区卫生工作者编制了一份包含5600个临床问题的清单,均为患者最常提出的问题。研究人员将5个LLM对其中约500个问题的回答,与经过培训的当地临床医生的回答进行了对比。结果显示,在11个评价指标上,所有LLM的表现均优于当地医生。此外,LLM还可使用卢旺达语回答约100个问题。 Mateen表示,与人类相比,LLM还有另一个优势——可全天候接受社区健康工作者的咨询。此外,LLM成本低廉——医生的费用为5.43美元、护士为3.80美元,而LLM用英语回答的成本为0.0035美元、用卢旺达语回答的成本为0.0044美元。 但美国贝斯以色列女执事医疗中心的临床和AI研究员Adam Rodman对将LLM与人类表现进行比较持怀疑态度,认为基于书面答案的评估机制更适合衡量模型性能,对人类表现则不那么有效。 在巴基斯坦,由拉合尔管理科学大学的计算机科学家Ihsan Qazi领导的研究团队,对LLM在真实环境中的应用进行了研究。结果发现,在缺乏医学专家、患者数量庞大、诊断错误率高的巴基斯坦,LLM可以提高诊断准确性。
特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。
凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。