开栏的话 当前,人工智能技术迭代加速,正深刻重塑卫生健康行业格局。本报特设“双月话题”专栏,每期围绕一项人工智能核心议题,邀约多领域专家共同探讨。亲爱的读者,如果您有关心的人工智能话题,欢迎告诉我们。本期关注医疗数据如何在人工智能场景中获得高效应用。
坚持政策引领 推动数据价值深度释放
中国信息通信研究院人工智能研究所大数据与智能化部主任 姜春宇
在数字经济蓬勃发展、人工智能加速赋能实体经济的时代背景下,数据已成为驱动经济高质量发展的核心生产要素。我国非常重视数据产业发展,“十四五”期间,我国数据要素政策体系呈现出清晰的演进脉络:从制度奠基到行业贯通,再到生态深化,逐步形成了政府引导、市场主导、多方协同的发展格局。
2022年,数据要素政策起步,目的是搭建顶层设计,构建认识体系。《数字中国建设整体布局规划》提出“2522”框架,将数据资源体系提升至国家数字化发展的基础性地位,提出夯实数字基础设施和数据资源体系两大基础。2022年12月印发的《关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)是我国首个针对数据要素的基础制度文件。
2024年,政策重心从基础制度建设转向行业应用落地,着力推动数据要素在实体经济中的规模化应用。《“数据要素×”三年行动计划(20242026年)》围绕医疗、制造、交通、金融等12个重点行业,提出拓展数据要素的应用广度和深度,打造300个以上典型应用场景,旨在通过数据复用与融合发挥乘数效应。
当前,政策重点进一步聚焦于数据要素市场生态的培育和完善。在基础设施层面,《国家数据基础设施建设指引》构建了覆盖数据流通全流程的基础设施体系,推动先行先试总体覆盖全国80%以上的省、自治区、直辖市,支撑教育、医疗、科学研究、信息通信等15个重点领域。《可信数据空间发展行动计划(2024—2028年)》则通过数据使用控制、连接器等技术构建可信流通环境,助力城市、行业、企业三类数据空间建设取得显著成效。国家数据局发布的《高质量数据集建设指引》,为各类主体构建面向人工智能的数据体系,提供了重要的方法论指导与标准依据,并先行先试部署了140个高质量数据集建设项目,覆盖医疗、工业、能源等10多个行业。
医疗行业数据具有极大的挖掘价值,然而其中包含的健康状况与个人身份信息,也使其具有高度敏感和私密的特性。因此,在医疗行业数据价值释放的过程中,必须始终将安全与隐私保护摆在首要位置,实现“用数”与“安全防护”的协同并进。具体而言,医疗机构应当从以下三方面系统推进。
一是以治理为基,构建可信数据底座。需从根本上夯实数据管理基础,通过搭建统一的医疗数据资源平台,实现院内院外数据的有效汇聚与整合。同时,应成立专业的数据治理团队,制定并执行统一的数据标准、质量规则与安全规范,从源头提升数据的准确性、一致性与可用性,为后续的价值挖掘奠定坚实、可信的基础。
二是以场景为牵引,驱动价值落地转化。应聚焦筛、诊、治、管临床核心动线与公共卫生应急需求,开展具有示范意义的数据应用试点。积极鼓励医疗机构、高校、科研院所、科技企业与保险机构等多方力量,组建创新联合体,利用大模型、可信数据空间等技术,共同开展技术攻关、临床验证与方案推广,推动数据价值在真实场景中持续释放与迭代优化。
三是以技术为盾,筑牢安全隐私屏障。必须建立体系化、常态化的数据安全与隐私保护机制,制定并严格执行行业内的网络与数据安全管理细则。在技术层面,应综合运用数据加密、脱敏、匿名化、隐私计算等技术方案,构建较为完善的安全防护体系,确保患者隐私与数据安全在数据处理与应用的全流程中得到充分保障。
探寻医疗健康可信数据空间建设破局之道
中国卫生信息与健康医疗大数据学会副会长 胡建平
在数字中国与健康中国战略的双重驱动下,医疗健康数据已成为国家基础性战略资源。然而,数据孤岛、隐私壁垒、信任缺失三大结构性矛盾制约着医疗健康数据的价值释放。在此背景下,医疗健康可信数据空间应运而生。它通过体系化的技术安排与规则保障,确保数据在多方主体间安全、可控、可计量地流通与协同利用,充分释放数据要素价值。本质上,可信数据空间是医疗健康领域生产关系适应数据这一新生产力发展的必然产物,其深远意义在于充分激活数据要素价值,构建“三医协同”行业治理新范式。
发展进入快速阶段
我国医疗健康可信数据空间建设已从概念探讨进入政策引领、试点落地、模式探索的快速发展阶段。
一是顶层设计与标准体系加速成型。国家层面将可信数据空间定位为培育全国统一数据要素市场的重要载体。国家卫生健康委对行业可信数据空间建设提出明确要求。近年来,出台了一系列国家标准规范,为推动发展提供了关键技术指引。
二是多层次试点全面铺开。2025年,国家数据局首批遴选63个可信数据空间创新发展试点项目并带动地方开展试点,形成国家、地方共同探索的多样化实施路径,其中医药健康相关项目占据重要比重。
三是价值闭环得到初步验证。实践证明,可信数据空间建设正从“打通数据”转向“创造价值”。例如,医保数据空间实现商保“快赔直赔”;跨院影像调阅让患者重复检查率下降;依托高质量真实世界数据支撑,新药研发效率大幅提升。
规模化困境逐渐暴露
在快速发展过程中,可信数据空间试点项目也暴露出规模化困境,尤其是三大挑战值得关注。
挑战一 统一数据目录与数据标准问题(“读不懂”困境)
医疗数据来自不同机构,各机构标准化程度不一致,导致机器无法统一理解数据。同时,用于流通的数据产品也没有统一的目录与编码体系,导致空间之间无法对齐。没有统一的“数据语言”,跨系统协作无从谈起。
挑战二 隐私计算支撑问题(“拿不走”困境)
在“原始数据不出域,数据可用不可见”的前提下,通过隐私计算完成有效的协同面临两大核心难题。一是工程化之困,联邦学习的同步效率、安全多方计算的通信开销、同态加密的巨额计算负担,使其在应对医疗高维特征、海量样本和复杂模型时力不从心。二是计算完备性局限,并非所有中心化算法都能高效转化为隐私计算版本,存在精度损失、功能妥协或场景适配的挑战。
挑战三 区块链跨链融合问题(“信不过”困境)
在分布式、多中心的协作网络中,如何确保数据使用合约被忠实执行、计算过程未被篡改、结果可被验证且责任可追溯?区块链提供了“存证”能力,但真实场景的信任需求更为复杂。一是跨域互认难题,单一联盟链只能服务于一个封闭生态。当多个医疗数据空间进行业务协同时,就产生了跨链或跨系统的状态验证与事件互认需求。二是链上链下协同难题,区块链本身不存储原始数据,这需要将链下计算的“完整性证明”与链上存证机制深度绑定。
系统性技术栈破解困局
破解上述三大技术挑战,不能依赖单点技术突破,而需构建一个三层协同、相互增强的系统性技术栈。
第一,建立“三位一体”架构破解语义墙。一是加强数据源头治理,确保“原料”达标。加强标准研发与应用,推进医疗机构标准落地,将发布的国家行业信息标准嵌入至系统和业务流程,全过程加强质量控制,提升数据质量。二是编制流通“清单”,从高价值业务场景出发,将数据封装为可明确计量和授权的数据产品(或数据标的物)。据此编制全域数据资产目录,清晰描述其业务含义、数据构成、安全等级与使用条件。三是实行标准动态转换,部署智能“翻译器”,内置医学知识图谱与映射规则库,实时、自动地将各机构的本地“数据方言”转换为全局通用的标准化语言,实现即时互通。
第二,利用融合平台与场景驱动策略破解计算能力之困。在单个数据空间内部,部署一个融合多种技术的隐私计算引擎。根据任务特性动态选择最优技术路线。充分运用硬件加速与云原生技术,在核心节点部署加速卡,用于加速同态加密等密集型运算,同时将隐私计算引擎容器化。面对“并非所有算法都能隐私化”的局限,转向以场景为中心的技术融合策略,根据场景选择或组合隐私计算算法。
第三,以渐进式路径破解信任传递之壑。针对基于区块链信任互联,采取由理想至现实的实践路径。理想路径是从顶层设计出发,建立一套全行业共同遵循的区块链底层标准、数据上链格式和治理规则;现实路径是在无法达成全局统一时,优先在条件成熟的区域或垂直领域内,推动建立相对统一的行业子链。此外,还有兼容路径,即部署以证带链的轻量级信任网络路径,链上存证、链下证明、跨链验证,在不同数据空间之间,采用基于中继或轻客户端的跨链消息协议,实现关键存证事件的低成本、可验证传递,支撑跨域业务流程自动化。
总的来看,医疗健康可信数据空间建设是一场旨在打破数据孤岛、释放数据要素潜能的深刻变革。变革成功的关键在于能否坚持系统思维,推动技术、规则与治理的协同创新,最终让医疗健康数据在可信的轨道上安全流动。此外,笔者认为,医疗健康可信数据空间未来将呈现三大趋势。一是构造自动化,“语义对齐—隐私计算通道选择—智能合约部署”的流程将趋于自动化、低代码化,大幅降低医疗机构的使用门槛。二是价值度量显性化,在可信账本之上,将涌现出更精细的数据贡献度、计算消耗和结果价值的度量模型与通证机制,使数据要素的市场化配置从理论走向实践。三是监管智能内嵌化,“合规即代码”将深度融入三层技术栈。数据空间的运行将内生地符合法律法规和伦理要求,使监管从外部审计变为实时、在线的风险防控。
医疗大模型性能突破离不开高质量数据集
北京交通大学计算机科学与技术学院博士生导师 任爽
现阶段,国家和地方层面正积极推动医疗高质量数据集建设工作,以应对各行业的智能化升级对数据需求增高的挑战。高质量数据集是经过系统采集、专业加工等一系列数据处理流程后形成的标准化资源。这些数据集能够直接用于人工智能模型的开发与训练,可有效提升模型性能。
高质量数据集作为人工智能模型精准迭代的核心基础,在医疗行业的特殊性尤为显著。与其他行业相比,医疗高质量数据集建设有其独特性。例如,电商行业数据集多围绕交易行为、用户偏好构建,核心需求是优化推荐与运营,通过大规模采集即可实现快速扩充。然而,医疗高质量数据集聚焦诊疗全流程,直接关系临床决策与患者安全。它不仅要满足严格的隐私保护要求,还要具备极高的专业性、真实性和完整性,无法依靠简单的海量采集提升质量。这也决定了医疗高质量数据集建设需要更精细化的规范和技术保障。
要构建医疗高质量数据集,可从规范界定、格式统一、质量严控、稀缺补充四个方面着手,破解建设难题,为临床人工智能大模型研发提供可靠支持。
首先,明确医疗数据的边界、权限、专业性以及隐私安全。医疗数据专业性直接影响人工智能模型的临床适配效果,而隐私泄露风险则是数据集建设过程中必须重点防范的问题。
在数据内容界定方面,要聚焦医疗机构研发、诊疗、管理等核心业务,明确数据应涵盖的医学知识范围,确保数据符合行业专业逻辑。数据标注工作必须由临床医师、医学研究员等专业人员完成,避免非专业标注带来的误差,保障数据解读的准确性。在隐私保护方面,需按数据敏感程度分级授权。例如,基因数据、肿瘤病历等高度敏感数据,仅向核心研发团队开放有限权限;公共卫生统计数据等低敏感数据,则在合规前提下适度共享,既守住隐私安全底线,又能兼顾数据利用效率。
其次,统一医疗数据格式与标识,提升数据关联性与复用性。不同医院、不同系统的医疗数据,常常存在格式不统一、标识缺失问题,给跨机构、跨系统的数据整合带来很大阻碍。解决这一问题,一方面,需要建立全域唯一标识体系,为每名患者、每份病历分配专属标识,将其在不同医院、不同诊疗阶段的数据关联起来,形成完整的诊疗数据链条。另一方面,按照国际统一标准完善元数据,明确标注资源描述、诊疗时间、技术细节、使用条件等关键信息,确保任何机构使用者,都能准确理解数据含义,从而提升数据的可管理性和复用性。
再次,严控医疗数据全维度质量,强化数据支撑能力。人工智能大模型的性能与数据质量密切相关,如果医疗数据存在错误、残缺、杂乱等问题,很可能导致模型给出误导性结论。因此,建立全流程质量管控体系至关重要。
一方面,要完善说明文档,详细记录数据集的建设过程、应用场景、质量评估标准和流程,让使用者清晰了解数据背景。另一方面,要明确核心质量要求。例如,数据格式、安全、标注必须符合规范,内容要真实一致、结构完整且规范、不含冗余信息。同时,还要保障数据的覆盖度与规模,涵盖不同年龄、性别、疾病类型、诊疗场景,数据量需满足模型训练需求,并确保采集时间、标注准确率等指标达标。这样才能切实提升临床人工智能大模型的诊断准确率和效率。
最后,规范医疗合成数据,补充稀缺场景数据缺口。罕见病病例、特殊诊疗场景等数据的稀缺性,直接影响了人工智能大模型的全面性。而合成数据通过算法生成虚拟数据,能够有效补充此类数据缺口,但需做好规范管理。在生成流程上,要以真实医疗数据为基础,采用成熟算法进行训练,详细记录算法类型、参数设置,确保数据可追溯,同时通过统计检验验证合成数据与真实数据的一致性。在应用边界上,合成数据仅可用于人工智能模型预训练、超参数调优和稀缺场景训练,不得直接用于临床诊断,且需在说明文档中明确标注为合成数据。在全生命周期管理上,从需求阶段明确质量标准,到预处理阶段验证数据分布一致性,再到模型验证阶段测试性能提升效果,要全程把控合成数据质量。
在人工智能爆发式发展时代,医疗高质量数据集建设的核心在于通过标准化建设和规范化管理,最大化释放数据价值。医疗行业需要持续推动相关标准落地,深化技术与标准的融合创新,不断优化数据集建设与应用模式,以此推动高质量数据集建设。