一、这份文件的"身份"——为什么值得逐条拆解
2026年6月3日,国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号)。6月8日对外发布。
这份文件有三个"第一次":
第一,国家层面第一次以"数据集"为独立对象进行系统性部署——此前数据集建设是"数据要素"大概念下的附属内容,从未被单独拿出来。
第二,第一次在政策上将数据要素和人工智能两个战略领域完成对接——提出的"场景—数据—模型"飞轮闭环,是发改委"人工智能+"行动和数据局"数据要素×"行动在操作层面的首次交汇。
第三,第一次将"医疗卫生"放进所有重点行业的第一梯队——与科学研究、工业制造并列在18个重点领域之中。这意味着医疗数据集建设将从医院的"自选动作"变成"规定动作"。
事实上,在这份文件出台前的两个月,工信部和国家数据局已于2026年4月24日联合印发了《关于联合实施2026年"模数共振"行动的通知》(工信厅联科函〔2026〕193号),将医疗装备、医药、生物制造列为重点行业,明确要求每省每行业构建不少于5个高质量数据集,2026年8月30日前完成中期评估、11月30日前完成成效总结。
这意味着,不止是方向性引导——已经有明确的量化考核和时间节点。
本文对25号文的六大行动做逐条拆解。拆解原则是:不泛泛解读政策精神,而是标明每一条行动中,医院在哪些具体环节上能吃到红利、哪些环节跟医院关系不大、以及现在应该做什么准备。所有解读严格依据官方文本和已公开的实施案例,不做未经证实的推测。
◇ ◇ ◇
二、总览:六大行动与医院的相关性矩阵
在逐条拆解之前,先给出一个总览判断。六个行动对医院的相关性差异巨大——有的行动医院是核心参与主体,有的行动医院只是边缘受益方。明确这种差异,有助于医院把有限的资源投入到正确的位置。
强基扩容行动:相关性 ★★★★★
标注攻坚行动:相关性 ★★★★★
提质增效行动:相关性 ★★★★☆
应用赋能行动:相关性 ★★★☆☆
管理服务行动:相关性 ★★★☆☆
价值释放行动:相关性 ★★★★☆
👉Token交易模式和数据集资产化是医院最应该关注的两个方向。前者改变了数据的定价逻辑——从"按数据集一口价"到"按使用量持续收费"。后者给出了数据资产的融资路径——质押、入股、证券化。
◇ ◇ ◇
三、逐条拆解
行动一:强基扩容——"我需要把数据交出去吗?"
官方原文要旨:聚焦20+重点及创新领域,依托链主企业牵引,联合产业链上下游协同共建,扩大数据集供给规模。推进文本、代码、图像、音频、视频、点云、时序数据、科学数据等多模态高质量数据集建设。
医疗行业的现有基础
医疗卫生被明确列入18个重点领域。根据"模数共振"行动的配套要求,每省在医疗领域需构建不少于5个高质量数据集。湖北省数据局已于2026年6月17日在武汉协和医院召开工作推进会,选择肝胆胰、脑机接口、超声影像等优势专科打造AI-Ready标杆数据集。国家数据局局长刘烈宏在2026年6月带队调研北京友谊医院、同仁医院、胸科医院、安贞医院时,北京市已建成统一医学影像云平台,二级及以上医疗机构影像共享壁垒已全面打通。
但需要注意:政策中"强基扩容"的"扩",指的是扩大"可用的高质量数据集"的供给——而非扩大"原始数据"的供给。一字之差,含义完全不同。这意味着,医院如果只是把HIS系统的原始数据导出来交上去,不符合政策导向。政策导向是:医院需要产出经过治理的、标准化的、有质量评估报告的数据集。
医院能吃到的红利
第一条也是最直接的红利:数据集建设项目可以获得财政资金支持。25号文的保障措施明确"鼓励地方设立专项资金"。在"模数共振"行动框架下,每省被要求选择至少3个重点行业、每行业至少5个高质量数据集——这些目标需要落地到医院,意味着承接数据集建设任务的医院有明确的政策依据申请地方财政专项。
第二条红利:多模态数据集的政策优先级,与医院天然的数据结构匹配。医院产生的大多数数据天生就是多模态的——住院患者的CT、病理、基因、病历、随访天然是配对的。这份文件为"多模态配对数据集"的价值提供了国家级政策背书。
跟医院关系不大的部分
"链主企业牵引"这个表述决定了:在数据供给的组织模式上,文件设想的是以产业链龙头企业为枢纽、联合上下游协同共建。医疗领域谁扮演"链主"角色?从目前的实际推进来看,大模型厂商(如通义千问在同济医院的项目)、数据交易所、以及地方数据集团更可能承担这个角色。单个医院不太可能以自身为主体去"牵引"一个行业级的数据供给体系——除非是全国顶级的专科中心。
此外,"推进与数据基础设施联动,探索建设存力中心"——存力中心的建设主体是地方政府和数据基础设施运营商,不是医院。医院的角色是存力中心的"数据来源方"之一。
落地建议
确认本院所在省份的"模数共振"行动实施方案中是否包含医疗领域。如果包含,主动申请成为数据集建设任务的承接单位——这类任务通常附带专项资金或算力补贴。如果不包含,说明本省在医疗赛道的布局尚未启动,存在先发窗口。
◇
行动二:标注攻坚——"这是医院最能吃到红利的一条,但吃法不是你以为的那样"
官方原文要旨:推动数据标注从"以人为主"向"人机协同、专家深度参与"模式转变。发展"模型预标注+人工校准""人工标注+模型检验"等智能化标注服务。梯次布局数据标注创新试验区。产教融合壮大标注人才队伍,开展职业技能等级认定。
医疗行业的现有基础
这是六个行动中,医疗领域最特殊的一条。25号文中有两个专门针对专业标注的机制设计,几乎就是为医疗行业量身定制的:
一是"建立行业专家认证注册机制"。清华大学孟庆国教授在官方解读中明确指出:医疗标注不是"画框"劳务,而是专业知识生产。病灶边界、分型、严重程度、影像与临床是否匹配——这些内容的标注,必须由具有独立临床判断能力的医生来完成。文件中"专家认证注册"机制的提出,意味着今后参与数据集标注的医学专家将有正式的资质认证和注册路径——这为"医生参与AI训练数据标注"提供了制度合法性。在此之前,医生参与企业标注项目在身份上处于灰色地带。
二是"梯次布局数据标注创新试验区"。首批7个数据标注先行先试城市(成都、沈阳、合肥等)已承担任务。北京市政数局局长彭雪海在官方解读中披露了一个关键数据:北京已依托全国肺结核专业联盟建立医疗健康数据统一标注中心,标注效率从每周50例提升至1,800例。注意——这是"模型预标注+专家校准"模式带来的36倍效率提升,而非增加了36倍的标注人员。
此外,2025年全国人工智能训练和推理数据总量达199.48艾字节(EB),同比增长42.86%,其中推理数据首次超过训练数据量。国家数据发展研究院院长胡坚波在官方解读中指出:这一趋势意味着对标注数据的质量要求正在从"预训练阶段的广度需求"转向"微调和强化学习阶段的精度需求"——后者对医疗专家深度参与的依赖度显著更高。
医院能吃到的红利
标注攻坚是给医院带来直接收入机会最明确的一条。具体路径有三层:
第一层:医院可以承接标注任务。25号文提出"培育标注龙头企业、独角兽企业、瞪羚企业"——这些企业在医疗领域的标注产能扩张,必然需要大量具备临床背景的标注人员。医院可以通过"专家认证注册机制",以机构身份参与标注项目,将本院医生的专业能力转化为可计费的标注服务。
第二层:医院可以建设专科标注中心。北京的肺结核标注中心模式是可以复制的——前提是医院在某一专科领域拥有全国性的学术影响力和数据集中度。一个专科标注中心的价值,远高于零散参与标注项目。
第三层:产教融合。25号文提出"依托高校/职业院校开设数据标注课程,开展职业技能等级认定"。医学院校天然具备承接这类项目的条件。附属医院的医生可以作为"兼具临床能力和标注教学能力的师资"参与课程建设和认证体系设计。
跟医院关系不大的部分
"梯次布局数据标注创新试验区"的选址和实施是地方政府和国家数据局的职权,医院是落地载体而非决策主体。"培育龙头企业"的主要受益方是AI数据服务公司,而非医院本身。
落地建议
第一,确认本院是否具备在某一专科领域建立"专家标注中心"的条件——核心条件是该专科的全国学术影响力、数据集中度和科主任的意愿。第二,如果条件不具备,至少应开始梳理本院医生的标注资质——哪些科室的哪些医生具备参与高质量医疗数据标注的专业能力,为即将到来的"行业专家认证注册机制"做好准备。第三,关注本地医学院校是否参与了数据标注产教融合项目——附院医生可以以兼职师资身份参与。
◇
行动三:提质增效——"医院的治理能力将被标准检验,而不是被合同条款回避"
官方原文要旨:攻关数据清洗、增强、标注、对齐、质检等全过程自动化工具。运用数据合成解决稀缺场景数据采集难题。加快数据集国家标准研制,建立"一次测评、全国互认"的质量测评体系。构建满足AI-Ready标准的高质量数据集。
医疗行业的现有基础
医疗数据领域至今没有一个全国统一的数据集质量标准。现有的数据交易规则由各交易所自行制定——北数所的审核标准、上数所的挂牌要求、深数所的合规流程各不相同。一家医院的数据集,在A交易所审核通过、在B交易所可能需要重新整改。25号文提出的"一次测评、全国互认"将从根本上解决这个问题。
但需要注意的是,"AI-Ready"不是一句口号——它是一个有明确技术内涵的标准。根据胡坚波院长的官方解读,AI-Ready数据集需要在格式标准化、元数据完整性、标注一致性、模态对齐度和隐私保护合规性等至少五个维度上达到可量化的基线。这五个维度中,格式标准化和隐私保护合规性,大部分三甲医院在理论上可以达到;元数据完整性和模态对齐度,只有已经系统性地做过数据治理的医院才能达到;标注一致性——需要Kappa系数等级别的统计指标来验证——几乎没有医院目前具备这个能力。
医院能吃到的红利
"一次测评、全国互认"对医院是明确的利好——治理成本不会因跨交易所挂牌而成倍增加。此外,"数据合成"技术的攻关,对罕见病数据稀缺的医院有特殊价值:如果数据合成技术成熟到可以生成高质量的罕见病训练样本,医院就不需要"等十年凑够100例"才能产出有训练价值的数据集。
跟医院关系不大的部分
"全过程自动化工具"的攻关主要由技术公司完成,医院是工具的使用方而非研发方。国家标准研制由标准化技术委员会主导,单个医院可以参与意见征集,但不太可能主导标准制定。
落地建议
密切关注数据集国家标准的制定进展。如果可能,在标准征求意见阶段提交基于本院实际治理经验的反馈——参与标准制定的程度,直接决定了你的治理工作是在"往正确的方向做"还是在"做了之后发现标准不兼容"。
◇
行动四:应用赋能——"医院的核心角色是场景验证方,不是平台建设方"
官方原文要旨:打造"场景—数据—模型"联动的"数据飞轮"应用闭环。建设数据赋能工场。搭建"政产学研用金"多方合作平台。深化国际数据流通协作。
医院能吃到的红利
这条行动对医院的最大价值在于:"数据赋能工场"的建设为医院提供了现成的数据集开发和交易基础设施。医院不需要自建数据治理平台、交易系统和合规审查能力——接入赋能工场即可。
此外,"政产学研用金"合作平台中有一个容易被忽略的"金"字——这意味着金融机构的系统性参与。对于已经完成数据资产入表的医院,这提供了与银行、保险、证券等金融机构对接的官方渠道。
跟医院关系不大的部分
数据飞轮、赋能工场和国际数据流通协作的主体是政府、平台企业和大型AI厂商。医院的定位是"数据供给节点"和"应用场景验证方",不是平台的建设方或运营方。医院在这条行动上应保持"积极对接但不主导"的姿态。
◇
行动五:管理服务——"三权分置的收益分配规则,决定了医院能拿多少钱"
官方原文要旨:建设"物理分散、逻辑集中"的国家数据集管理服务系统。落实数据持有权、使用权、经营权三权分置制度。完善数据授权使用机制和收益分配规则。防范数据偏见与安全风险,坚持伦理先行。
医院能吃到的红利
这条行动的核心利益不在技术层面,在制度层面。"三权分置"的收益分配规则一旦细化,将直接回答一个长期悬而未决的问题:医院作为数据持有方,能从数据交易和使用中获得多大比例的收益?
目前各地交易所的实践中,收益分配比例没有统一标准——有的交易所平台抽成10%-20%,有的采用固定服务费模式。25号文提出的"完善收益分配规则",意味着国家层面将为这个比例提供一个指导框架——这比医院逐个与平台谈判要有利得多。
跟医院关系不大的部分
国家数据集管理服务系统的建设由数据局主导,医院不需要也不应该自建类似系统。需要做的是确保本院的元数据格式和接口标准与该系统兼容。
◇
行动六:价值释放——"Token交易和资产化,是医院最该花时间理解的两个概念"
官方原文要旨:发展订阅、商场、定制等多元商业模式,探索词元(Token)交易模式。探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等资产化路径。培育数据有偿使用市场共识,推动数据采买纳入预算编制。
医疗行业的现有基础
这是六个行动中信息量最大、对医院数据资产价值影响最深远的一条。
关于Token交易——胡坚波院长的官方解读明确指出:探索以词元(Token)为基础的价值体系,让数据价值"看得见、算得清、付得出"。Token不是"数据",Token是"数据的可计算单位"。一个CT图像经过分词器处理后生成的Token数量,是一份门诊病历的几十到上百倍。不同模态、不同病种、不同质量的数据,在Token定价体系下的价值差将是数量级的。
关于资产化——质押融资、作价入股、资产证券化、数据信托、数据保险,这五种资产化路径的提出,意味着数据资产正在从"会计科目上的数字"变成"可以用作融资抵押物、可以作价出资、可以证券化打包出售、可以信托管理的金融工具"。2024年财政部数据资源会计处理新规解决了"入表"问题。25号文解决的是"入表之后怎么用"的问题。
关于"数据采买纳入预算编制"——这是一个被大多数人忽略但影响极大的条款。目前医院的数据采购(如购买外部数据集用于科研)大多是项目制、一次性的,没有固定的预算科目。如果数据采买被正式纳入预算编制,意味着数据交易将从"偶然的、非经常性的"变成"制度化的、可预期的"——这对买方市场的形成是结构性的利好。
医院能吃到的红利
Token交易对医院最直接的影响是定价逻辑的改变:从"按数据集一口价"到"按Token使用量持续计费"。如果一家AI公司每年调用你的数据集进行多次微调,你就能获得持续的Token收入流,而非一次性的数据出售收入。这对医院的现金流结构是有利的。
资产化路径为已经完成数据资产入表的医院提供了新的融资工具。宣武医院的颈动脉支架数据集、临河区人民医院1,077万元入账的医共体数据、金域医学722万元入账的检验数据——这些资产在25号文的框架下,都可以探索质押融资或作价入股。
跟医院关系不大的部分
Token交易的技术标准和定价机制主要由数据交易所和技术平台主导设计。医院可以参与需求反馈,但不太可能影响技术标准的制定。"数据采买纳入预算编制"的推动主体是财政部门和数据局,医院是间接受益方。
落地建议
第一,尽快完成数据资产入表。未入表的数据资产无法参与质押融资和作价入股——这是所有资产化路径的前置条件。第二,开始评估本院数据集在不同模态下的Token数量和价值密度——为Token定价时代做准备。第三,如果本院已有合作关系良好的金融机构,可以主动探讨以数据资产为抵押物的融资方案试点——在政策窗口期,先行试点往往能获得额外的监管宽容。
◇ ◇ ◇
四、时间线预测:医院应该按什么节奏推进?
基于25号文的目标年限(2028年底)和"模数共振"行动的考核节点(2026年8月中期评估、11月成效总结),给出一个务实的推进节奏。
2026年Q3-Q4:抓住"模数共振"窗口
这是政策红利最密集的窗口。如果本院所在省份已将医疗纳入"模数共振"重点行业,8月中期评估和11月成效总结是两个关键节点——能否被纳入本省的标杆案例和数据集建设任务,将直接影响后续的专项资金和算力补贴分配。如果本省尚未将医疗纳入——主动推动。
2027年:数据治理和标注中心建设
核心任务是完成2-3个优势病种的数据治理(标准化、多模态配对、质量评估)和专家标注团队的组建与认证。这一年不会有立竿见影的收入——但它决定的是2028年当AI-Ready标准体系开始落地时,你的数据是"可以直接挂牌交易"还是"需要返工治理"。
2028年:资产化兑现
25号文的目标年是2028年底。届时,AI-Ready标准体系、Token交易机制、数据资产化路径应已基本成熟。提前完成治理和标注的数据集,将在这个时间点进入资产化的"快车道"——质押融资、作价入股、证券化等路径将开始规模化运转。
◇ ◇ ◇
写在最后
25号文是国家层面第一次将"数据集"作为独立政策对象、将"医疗卫生"放进第一梯队、将"数据"和"AI"在操作层面完成对接的文件。
对于医院,六条行动中真正需要全力以赴的是三条:强基扩容(多模态数据集供给)、标注攻坚(专家深度参与标注和专科标注中心建设)、价值释放(Token定价和资产化)。应用赋能和管理服务是"积极对接"而非"主导建设"。提质增效是"密切关注标准制定、参与意见征集"而非"被动等标准出台"。
如果你只能做一件事:优先选择本院最强的1-2个专科病种,做多模态配对数据的标准化治理。这是六条行动的交汇点——它同时服务于"强基扩容"的数据供给、"标注攻坚"的专家参与基础、"提质增效"的标准对标、"价值释放"的资产定价依据。换言之,把这件事做透,六条行动的红利你都能吃到。
◇ ◇ ◇
本文政策解读依据以下官方文件:国家数据局《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号,2026年6月3日印发);工信部、国家数据局《关于联合实施2026年"模数共振"行动的通知》(工信厅联科函〔2026〕193号,2026年4月24日印发);国家数据局官方专家解读系列(胡坚波、孟庆国、彭雪海等,2026年6月发布)。文中涉及的地方推进案例基于公开报道:湖北省数据局武汉协和医院工作推进会(2026年6月17日);北京市医疗健康数据统一标注中心(北京市政数局官方披露);国家数据局刘烈宏局长北京医疗机构调研(2026年6月)。本文不构成政策合规建议或投资决策依据。
特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。
凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。