肖治:从六十年代开始,人工智能经历了三起三落 。目前,人工智能正经历新一轮的爆发,各行业都在积极探索和发展人工智能。请各位介绍一下各自领域里人工智能最新的进展、在技术端、产品端看到的趋势。
康世功:我想讲两个放射治疗人工智能的应用场景。
一是我们的AI技术使北上广深三甲医院的放疗资源能够下沉到基层。大多数基层患者的经济条件不足以支撑他去大城市寻找专家医治肿瘤,县级城市也没有那么多资金和时间培训基层医生,我们现在将一把磨得很锋利的“手术刀”交到了基层。
二是为了让这把锋利的“手术刀”准确地救治病人,我们十分重视AI的质量控制,通过大数据把所有导致质量控制不佳的条件,逐一地判断和积累起来,做成模型和算法,用来自动监控和指导基层放疗的运行,这是我们AI应用两个最典型的场景。
赖力鹏:就像高分辨率显微镜,AI也是一个工具,在药物研发领域能处理人类本身看不到的微观问题。比如小分子和蛋白怎么结合,其实一般人是很难去想象的,但AI可以根据大量的数据去学习和发现其中的规律 。
我觉得AI在药物研发的应用可以用一个词“继往开来”来粗略地看待。一个是“继往”,我们过去累积的大量数据中包含失败的数据,但所谓的失败其实是临床上的失败,不代表数据没有价值。通过统计或者说机器学习的方法,能从中提取以往没有注意到的信息。在“开来”的部分,基于深度学习的生成模型可以帮助我们探索更大的化学空间,做很多开创性的工作。
去年的Nature有一篇文章说可成药的化学空间可能是10的60次方那么大,但是我们现在的实体分子库可能在10的13次方,这里面大概有40多个数量级的差距。我们真正的在实验室研究过的药物分子,在整个的药物空间当中,其实就是一些很小的点,AI其实可以有定向性地帮我们在这个巨大的空间里面去寻找我们需要的药物分子。
第三个,我觉得AI它可以重塑工作流程,因为很多现有的计算方法,是不可能去覆盖到生物体这么一个复杂的体系的。比如临床一期的毒性问题,在动物和人体上可能会效果迥异。AI的方法强调端到端预测,现在非常有希望根据分子结构等直接预测候选药物在人体上的一些毒性表现,这样可以大大降低我们在临床上失败的可能性。
更重要的一个,我们的业务主要是在药物发现和晶型预测的方法开发上,其实在这两个方面,都涉及到刚才讲的可能10的N次方的分子或者结构的筛选和搜索。在我们自己的业务当中,其实我们是把物理模型和AI模型拼起来,在实际的业务中,我们通过有效地把物理模型和AI模型拼起来,不断提高我们的计算效率。
张少典: 我分享一下我们今年上半年和一家三甲医院合作落地的一个辅助诊疗的案例。
静脉血栓栓塞症(VTE)常见于住院较久,手术后长期住院或者产后长期卧床的病人。VTE有一定的概率会发展成为肺栓塞,而肺栓塞死亡率非常高。为了预防病人风险,医院会派护士每天进行人工监护,给这些病人做病情追踪、反馈,但依靠人工方法要消耗大量时间和精力,还可能出现误差,而AI技术能改善这种状况。
我们开发的医疗AI产品起到两个作用:一是评估,根据病人的病情、病史,包括住院、手术的情况,以及检验、检查的情况自动对病人进行风险打分。二是预警,根据病人的数据去预测是不是有可能是一个高危病人。如果是高危病人,会提前发送预警消息,推送到医生工作站。
Artur Kadurin:在实验室进行生物测定、临床试验等是获取数据的简单方法,但成本十分高,同时需要处理相关方与合作方的关系。我们通过早期的努力,取得一定的进展,在此基础上进一步获取更多的数据。
肖治:所以您才来到中国寻求更多的数据资源吗?
Artur Kadurin:在中国确实可以获取大量数据,这在海外是办不到的。但我们到中国不仅仅是为了数据,我们希望在中国,甚至是整个亚洲都有更长足的进展。中国是一个非常巨大的市场,我们希望能够与当地的合作伙伴合作。
随着我们跟客户建立深度合作之后,我们一部分数据也会来自于合作伙伴。好处就是这些数据最靠近一线的研发和特定的问题,当然困难可能也会有,因为部分数据在收集的时候并不是为AI建模准备的,所以有时候可能很关键的信息并没有很好的记录下来。
康世功:我们现在计划设计系统mdaccAutoPlan已经在应用端完全铺开了。mdaccAutoPlan中的数据,是由美国MD Anderson Cancer Center这些年来积累下来的肿瘤数据,然后进行训练,它是我们的核心基础。
肖治:张总,您这儿有国外的数据库给你做借鉴吗?
张少典:没有。不管是诊疗还是医院管理,都需要注重中国特点,需要基于国内的情况、国内的数据。对此我谈两点看法:
第一,关于数据所有权和使用权的问题,我们认为科技类企业不应该妄想自己拥有数据所有权。纠结于此不是太有意义的事情。科技类企业能做的事情就是立足于自己的核心技术和能力,要做的事情就是如何让你的技术能力形成产品,为医院提供更好的解决方案,然后在医院内通过产品来使用一定的数据。
另外一个最主要的挑战是数据治理的问题。为什么影像人工智能遍地开花,因为影像数据相对标准。而病历类、诊疗类的数据就需要大量的数据治理。比如说我刚刚给大家讲的我们在三甲医院做的VTE预警监控系统,仅这一套系统,我们在这家医院里面就对接了20多个系统,这背后的数据的结构化、标准化、数据治理,是一个浩大的工程。
肖治: 何总作为投资人怎么看数据对人工智能公司的意义,或者说你们看项目的时候,这一点是不是你们核心关注的一个话题。
何幸:我觉得毫无疑问,数据对于AI是最基础的东西,在今天,我们要说未来要实现医疗的AI,首先就是说中国有没有高质量的、AI所需要的,经过处理、结构化的,不仅能够提取字段、理解字段,进行更多的智能的拼图、识别这样一些底层的东西。
那事实上如果没有这些底层的东西,没有积累这些结构化的数据呢,很难得到一个有力的AI的诊断结果。所以从这个角度来讲呢,一方面我们非常关注企业的数据来源,是不是合法合规。当然我们也完全认同作为科技企业,你不太可能拥有整个数据的所有权。使用的时候,我们关注有没有足够脱敏的处理、医院的权利和病患的隐私是否得到很好的保护。
另外,可能在社会上或者其他行业里面会有一个误解,就是AI会替代人类。在中国的医疗体系里面,说AI会替代医生、护士,往往医疗接受度会很差。事实上我感觉各位做的事情,都是在帮医院节省不必要的资源和精力。比如说节省重复的劳动,缩短它的时间,提高它的产出,减少它的误诊率,避免一些医院资源的消耗。对于药物研发,事实上是提高筛选的准确性,减少材料的耗损。