摘 要:目前,我国已进入中度老龄化社会,慢性非传染性疾病成为重大健康挑战。“异质性”是慢性非传染性疾病难防难治的一个重要原因,其破解之道在于构建可深度解析个体差异的健康医疗数据基础设施。医学人工智能的发展,同样高度依赖高质量数据。基于国际经验与国内实践,我国亟需发挥体制优势,以国家力量为主导,走出一条标准统一、互联互通、治理有效、安全可控、创新驱动、惠及全民的健康医疗数据基础设施建设路径,为破解慢性病难题、发展精准医学、抢占全球医疗人工智能制高点奠定坚实基础。
关键词:慢性病防控 健康医疗大数据 电子健康档案 医学人工智能
【中图分类号】R-05;TP311.13 【文献标识码】A
建设健康医疗数据基础设施的紧迫性
“我国长期是世界人口最多的国家,人口发展是关系中华民族伟大复兴的大事”,习近平总书记强调,“加强重大慢性病健康管理,提高健康预期寿命”。[1]目前,心脑血管疾病、癌症、糖尿病、慢性呼吸系统疾病等重大慢性病,已成为制约人均预期寿命提高的重要因素。数据显示,这四大慢性病导致的死亡人数占比超过80%。[2]可以说,慢性病已成为威胁人民群众健康、加重社会医疗负担、制约健康中国建设的重大公共卫生挑战。
慢性病防控面临的主要科学瓶颈,在于疾病本身固有的“异质性”。这种“异质性”体现在多个维度:在不同个体间,即使患者诊断相同,其对治疗的反应和预后可能出现显著差异;在同一患者体内,不同病灶或不同疾病阶段的分子特征亦会不断演化。这正是基于群体平均值的传统“一刀切”诊疗模式效率低下、疗效不佳的深层原因。要实现对慢性病的精准预防、诊断和治疗,就必须从“群体医学”迈向“个体化精准医学”。这一转型,要求全方位、多层次、动态化捕捉并解析个体的健康信息。因此,构建可汇聚、治理并分析超大规模、多维度健康医疗数据的基础设施,就成为破解慢性病防控难题的必然选择。
与此同时,以大数据驱动为特征的医学人工智能(AI)技术正迎来爆发式增长,成为解析疾病复杂性、辅助临床决策、加速新药研发的重要引擎。然而,人工智能模型的效能,高度依赖于其训练数据的质量、规模与代表性。可以说,健康医疗大数据已成为决定未来全球生物医药创新与医疗科技竞争力的战略性基础资源。
近年来,我国从战略高度充分认识健康医疗数据资源的关键价值,已在国家层面系统布局,并着手推进大型人群队列建设。一系列前瞻性国家级规划与项目启动,标志着我国在积累高质量、本土化生物医学战略资源方面,已进入关键实施阶段,为构建面向未来的健康医疗数据基石奠定重要基础。在此基础上,我们更需认识到,构建一个可持续、可演进、充分赋能科研创新与临床实践的数据生态系统,其关键不仅在于前瞻性队列的规划与启动,而且在于实现支撑整个医疗卫生体系日常运转的海量临床数据的高质量标准化与可用性。当前,由于医疗机构信息化建设阶段的客观差异,现有电子健康档案(EHR)系统在数据标准、接口规范、语义互认等方面仍存在一定不同,形成数据高效汇聚与流动的现实挑战。这使得跨机构、跨区域的健康医疗数据互联互通面临障碍,临床数据的整体质量与科研可用性仍有提升空间,影响其作为“研究级”数据资源有效支撑人工智能训练与深度挖掘,在一定程度上制约慢性病防控研究的系统深化,以及医学人工智能技术在真实世界中的规模化融合应用。基于国际经验与国内实践,面对人口老龄化与慢性病挑战,我国亟需将建设全国统一的、标准化、可互操作的电子健康档案系统置于国家医疗健康发展的战略位置。
国际精准医疗数据基础设施建设的实践经验与启示
在健康医疗数据基础设施建设上,全球已形成两类互补的卓越范式:一是以顶尖医疗机构为代表的“深度优先”模式,追求数据的深度、质量和与科研的紧密融合;二是以国家力量主导的“广度优先”模式,旨在构建覆盖全民的、多维度的健康医疗数据生态。二者均可为我国建设战略性健康医疗数据基础设施提供宝贵经验。
深度范式:美国MD安德森癌症中心的“元数据供应链”战略。美国MD安德森癌症中心(MDACC)是全球顶尖的肿瘤诊疗与研究机构,其成功在很大程度上得益于对高质量数据体系的战略性投入与精细化管理。
从挫折中学习:数据治理是先决条件。美国MD安德森癌症中心曾与IBM合作耗巨资开发基于Watson人工智能的肿瘤辅助决策系统,但项目最终未能成功应用于临床。主要教训在于,低估医疗数据整合的极端复杂性,以及临床工作流程融合的难度。这一经历使其深刻认识到,没有底层统一的数据标准、严谨的治理流程和与临床无缝对接的系统,再先进的人工智能算法也难以发挥作用。此后,其迅速调整战略,将资源和重点重新聚焦于数据生态的底层逻辑构建与合规性治理,一方面建立统一平台,让医护人员能在单一界面完成全流程操作,另一方面开发以患者为中心的智能授权与管理平台,破解知情同意流程繁琐、患者数据使用不透明的关键难题,为数据的合法合规科研应用扫清障碍。
新一代电子健康档案系统:临床与科研的融合引擎。美国MD安德森癌症中心部署了深度定制的Epic新一代电子病历系统。该系统并非单纯的临床文档工具,而是高度整合的运营与科研平台。它打通院内信息壁垒,统一工作界面,让医护人员可在同一界面完成患者日程管理、医学影像查阅、处方开具与药物管理等全流程临床操作。系统深度集成肿瘤专科模块,为患者搭建标准化的化疗方案开具、给药全流程管理与放射治疗追踪工具,从系统层面规范循证诊疗实践、筑牢患者安全防线。例如,其开创性地将头颈部肿瘤模块(MDASI-HN)等电子患者报告结局模块无缝嵌入日常临床工作流程,使患者反馈的症状与生活质量数据可以实时、结构化地进入病历。这一设计,不仅可让临床医生及时获取患者自我报告的高质量信息,从而开展精准干预、切实提升患者生存质量,也大大丰富可用于临床研究的真实世界数据维度。如今,该系统已成为美国MD安德森癌症中心“元数据供应链”最重要的临床数据源,其沉淀的全维度、结构化数据可直接、高效地流向下游研究平台,为转化医学与精准医学研究持续提供高质量的“原料”。
打造“元数据供应链”:从数据到资产。面对每年产生的海量、多源、异构的临床数据,美国MD安德森癌症中心成立了肿瘤数据科学研究所,其主要使命是构建一条完整的“元数据供应链”。通过对原始数据进行专业的清洗、去标识化、结构化编码和本体映射,将杂乱无章的“原始数据”转化为纯净、可计算、可关联的“研究级数据资产”。这一过程可解决数据“垃圾进,垃圾出”的问题,确保后续人工智能模型训练与科学发现的可靠性。
以广度驱动整合:英国“我们的未来健康(Our Future Health)”国家级全人群队列实践。相较于MD安德森癌症中心“深度优先”的机构级数据模式,英国“我们的未来健康”项目则展示了由国家主导、以“广度覆盖”为重点的全人群健康医疗数据整合战略。该项目依托英国国民医疗服务(NHS)体系的电子健康档案系统,计划招募500万名英国成年志愿者,构建超大规模前瞻性队列,目标已扩展至600万人口规模。其强大之处在于深度整合:通过每个英国公民唯一的国民医疗服务号码,将基线数据如基因组数据、物理测量和问卷信息等,与其一生中在该体系内产生的所有纵向电子健康档案自动关联起来。这种“静态基线”与“动态全生命周期轨迹”的耦合,充分释放队列研究的价值。
该项目已成功实施一项高度复杂的国家级跨系统数据聚合工程,实现多维度、细颗粒度健康医疗数据的领先性整合,系统归集包括健康问卷、全链路电子健康档案、生理指标、基因组数据等在内的多模态数据资源。这些高质量数据集,可为慢性病风险机制解析、药物靶点发现等前沿科研场景提供关键支撑。
取得这一成就的根基,在于历时数十年构建的全球规模最大、标准化程度最高的全民健康医疗数据生态。该系统以英国国民医疗服务唯一身份标识为数据库核心主键,实现覆盖全生命周期、贯通各级医疗机构的全域健康信息关联。其数据架构系统整合人口学基准、初级与二级诊疗、疾病专项登记、长期照护、健康结局事件等重点板块,构建起从基层医疗到专科服务、从疾病发生到终点结局的完整数据链条。通过全国统一的临床术语标准、强制报送机制与“安全港”数据管控架构,该体系可在制度与技术层面破解数据孤岛难题。
值得关注的是,英国在2025年宣布,将于2028年前投入最高100亿英镑专项资金用于国民医疗服务数字化转型,重点升级电子病历、数据安全与科研共享平台,体现其将全民健康医疗数据体系作为国家长期战略资产持续投入的坚定决心。
国际经验启示。无论是美国MD安德森癌症中心的“深度”模式还是英国的“广度”模式,二者的成功均依赖一个共同的基石:标准化、结构化、可互操作的电子健康档案系统,以及与之配套的严谨数据治理体系,并建立以安全与信任为原则的数据访问机制。这是将海量、分散的健康医疗数据转化为高质量国家战略资源的必由之路。
我国医疗健康信息化建设正处于“提质增效、价值探索”的关键时期
近年来,在国家卫生健康委等相关部门的持续推动下,我国医疗健康信息化建设取得积极进展。相关制度标准体系持续完善,医院信息互联互通与数据归集能力逐步提升,为健康医疗数据的汇聚与治理提供了基础条件。在数据标准制定、网络安全与隐私保护等方面,有关部门已开展系统性探索,为医疗数据的规范化管理与安全利用,积累了一定实践经验。目前,我国居民健康信息平台在覆盖面上逐步扩展,二级以上医疗机构信息化普及程度有所提高,数据互联互通与共享能力得到增强,电子健康档案覆盖率逐年上升,基层数据采集和公共卫生服务上报体系也逐步健全。国家层面持续推进健康医疗数据标准研制,并陆续出台数据安全与隐私保护相关法律法规,医保信息平台全国统筹的经验也为数据统一管理提供了参考。整体来看,我国医疗健康信息化正从“基础搭建”阶段,逐步转向“提质增效、价值探索”的关键时期,仍需在标准协同、数据治理、应用创新等方面持续深化努力。
与此同时,我国正迎来人口老龄化程度加深、慢性病防控进入攻坚阶段、医学人工智能加速迭代、数据要素市场化改革深入推进等多重机遇挑战叠加的关键时期。这为推动健康医疗数据体系实现从“有”到“优”、从“聚”到“通”、从“存”到“用”的跨越式发展,创造了前所未有的现实条件。“健康中国2030”战略、“数据要素×”行动计划与新质生产力培育形成强大政策合力,为健康医疗数据基础设施建设,提供顶层指引与资源支撑;中度老龄化社会背景下的慢性病防控挑战,催生对全周期、标准化、高质量健康医疗数据的刚性需求;医学人工智能与生物医药创新,已进入数据驱动的新阶段,我国海量临床病例与慢性病样本资源,亟待通过完善数据基础设施释放其潜在价值;我国体制优势,有助于破解跨部门、跨区域、跨机构之间的数据壁垒,为构建全国一体化健康医疗数据体系奠定实施基础。全球医疗科技竞争日趋激烈,也为我国依托数据规模优势,在慢性病研究、医学人工智能与新药研发等领域实现战略赶超,提供重要的时间窗口。同时要看到,在将海量、多样的临床与健康医疗数据转化为可驱动科研创新、临床决策与健康管理的“高价值数据资产”过程中,我们仍然面临若干关键性、结构性的挑战。
系统异构与标准缺失,“数据烟囱”依然存在。目前,院内信息化程度普遍提高,但由于早期缺乏国家级强制统一的电子健康档案数据标准、术语编码和接口规范,不同医院、甚至同一医院不同科室的系统之间,数据格式、结构定义千差万别。这使得跨机构的数据汇聚如同翻译多种方言,成本高昂且信息易失真,难以形成全国性的高质量数据池。
数据质量与深度不足,难以支撑深度研究。部分现有电子健康档案系统以财务和行政管理为主要设计导向,临床科研需求考虑不足。数据录入非结构化、非标准化现象普遍,关键科研变量(如疗效评估、患者报告结局、详细的治疗方案和随访信息)缺失或记录不规范。这使得海量的临床数据,难以直接用于需要深度表型的精准医学研究或复杂的人工智能模型训练。
“临床-科研”链路断裂,数据价值释放受阻。临床诊疗系统与科研数据平台,往往是两条平行线。临床数据向科研平台的转化,需要大量人工的提取、清洗和标注,流程繁琐、效率低下,导致许多宝贵的临床见解被埋没,无法及时反哺科学研究与技术创新。
数据融合应用机制不健全,安全与开放的平衡待解。如何在确保患者隐私和数据安全的前提下,建立高效、合规的数据共享与利用机制,是激发数据要素价值的关键。目前,跨机构、跨领域(如临床数据与基因组学、环境、医保数据)的数据融合应用仍面临政策、技术和机制上的多重壁垒。
这些挑战,共同制约我国利用自身海量临床数据资源破解慢性病“异质性”的能力,也限制本土医学人工智能模型的训练与迭代。补齐电子健康档案系统标准化建设这块短板,已成为打通“数据-知识-应用”闭环、赢得未来发展主动权的关键。
探索符合我国国情的健康医疗数据基础设施建设路径
2026年3月,习近平总书记在看望参加政协会议的农工党、九三学社、医药卫生界、社会福利和社会保障界委员时强调,推动科技创新成果转化运用,推进全民健康数智化建设。[3]《“健康中国2030”规划纲要》提出:“到2030年,实现全人群、全生命周期的慢性病健康管理,总体癌症5年生存率提高15%。”[4]“十五五”规划纲要提出“深入开展‘数据要素×’行动”,强调“有序推动数智技术在辅助诊疗、精准医疗、健康管理、医保服务、养老助残等场景的应用”。[5]当前,我国正处于“健康中国2030”战略纵深推进与“数据要素×”行动计划全面落地的关键阶段。将健康医疗大数据转化为驱动高质量发展的核心要素,已成为加快发展医疗健康领域新质生产力的必然要求。应充分发挥我国体制优势,探索一条既体现国家战略统筹、又兼顾地方实施灵活性的健康医疗数据基础设施建设路径。
发挥体制优势,启动国家健康医疗数据新型基础设施工程。建议将新一代标准化、智能化电子健康档案系统及相关数据治理体系,明确纳入国家新型基础设施重点建设范围,并与“数据要素×”行动计划协同推进。强化国家层面统筹,建立“全国一盘棋、部委协同、央地联动”工作机制。实施层面可遵循“统一顶层设计、分级分类建设、平战结合应用”原则:由国家卫生健康委牵头,联合相关部委,制定并推行全国统一的底层数据标准、安全规范与互联互通协议;明确医疗机构对数据的管理权与合规使用权,鼓励地方和医疗机构在统一框架下开展应用创新与试点示范;同步建立“平时服务临床科研、战时支持应急指挥”的国家级健康医疗数据调度与共享机制,确保在重大公共卫生事件、医疗质量监管、医学科技攻关等国家重大需求中,实现跨区域、跨机构数据的依法有序调度、安全可控共享与高效协同利用,形成“统而不僵、放而不乱、快速响应、高效协同”的治理格局。
建立并强制实施国家统一电子健康档案数据标准体系。统一电子健康档案数据标准体系,是打破健康领域“数据烟囱”的关键。建议由国家卫生健康委牵头,联合多部门及行业专家,立足国情并借鉴国际先进标准,建立并实施覆盖数据结构、内容、编码、接口的“中国健康信息交换标准”。可采取“强制标准+推荐实践”相结合的方式,新系统建设必须符合强制标准,存量系统制定计划逐步改造,同时鼓励在统一框架下的创新应用。此举旨在实现健康医疗数据的“书同文、车同轨”,为全国范围的数据流通与汇聚扫清技术障碍。
打造“临床-科研-管理”一体化的新一代电子健康档案平台。建议遴选一批国家医学中心与高水平研究型医院开展试点,打造以“数据驱动、流程融合、价值导向”为关键特征的新一代电子健康档案系统。该系统设计应从根本上转变“重管理、轻科研、缺智能”的传统模式,在系统架构层面深度融入科研思维与智能辅助能力,实现诊疗实践、研究数据生产和医疗管理决策的有机统一。具体而言,平台应重点实现以下突破。
构建智能化临床工作流。建立统一、流畅的临床操作界面,深度集成基于指南的标准化诊疗路径、合理用药与并发症预警模块,在提升诊疗安全与效率的同时,为临床行为建立可追溯、可分析的数字化轨迹。
实现科研数据源头采集。将患者报告结局、症状评估、生活质量等经过验证的电子化量表,无缝嵌入门诊、住院及随访全流程,确保关键科研指标在诊疗过程中实现实时、结构化、高质量采集,从源头提升数据的科研可用性。
推动跨系统数据融合。在符合安全与合规框架下,支持与区域生物样本库信息系统、医保结算系统、环境与公共卫生数据平台等开展安全可控的对接,为疾病机制、健康影响因素及卫生经济研究提供多维度数据支撑。
建立以患者为中心的授权与管理机制。通过嵌入式电子知情同意、动态数据权限控制、使用全程透明可追溯等技术手段,在充分保障患者知情权与个人数据控制权的前提下,构建合规、便捷、可信的科研数据汇交与共享通路,系统化破解真实世界数据在采集、治理与合规使用中的瓶颈。
该平台的建设,旨在形成一批可复制、可推广的“临床即科研、数据即资产、治理即服务”的系统范式,为全国范围的电子健康档案系统升级提供实践标杆与完整解决方案。
构建“国家-区域”两级数据治理与质控体系。在国家级和区域级设立专业的数据治理中心,形成分层负责、协同联动的治理网络。国家级中心负责制定全生命周期(从生成、传输、存储到应用)数据质控标准与治理规范;区域中心负责监督执行与落地,并利用人工智能工具进行自动化质量监测与清洗。建立数据质量责任制,建立从数据生成源头到最终应用的全链条质量追溯与评价反馈机制,确保汇入国家数据池的资源是高质量、可信任的。
建设自主可控的国家级健康医疗“可信研究环境”。健康医疗数据直接关乎国家生物安全与数据主权。应加快建设基于自主创新技术、安全可控的国家级“可信研究环境”。该环境采用隐私计算、联邦学习、区块链等关键技术,在“数据不动模型动、数据可用不可见”的原则下,为经过认证的科研人员提供安全的虚拟科研空间。这既是释放数据价值、推动创新的平台,更是守护国家安全、规范数据有序流通的战略基石。
创新“政府引导-多方投入”机制,加强复合型人才队伍建设。建议设立国家专项引导基金,并积极吸引社会资本、保险资金等多方参与,形成可持续的投入机制。同时,在高校和科研机构加强“医学+”交叉学科建设,大力培养既懂临床医学、又精通数据科学与治理规则的复合型“医学数据科学家”和“健康首席数据官”,为这项长远工程储备领军人才。
展望:迈向数据驱动的健康中国
健康医疗大数据是21世纪国家发展的战略性资源。破解慢性病“异质性”的钥匙,正蕴藏于我们每日产生的海量医疗数据之中。当前,我国在医疗数据资源积累上已有良好基础。同时要看到,在将这些数据转化为高质量、可计算、可流通的战略资产方面,仍面临底层基础设施的瓶颈。我们应充分发挥体制优势,借鉴国际经验而非简单照搬,走出一条标准统一、互联互通、治理有效、安全可控、创新驱动、惠及全民的健康医疗数据基础设施建设路径。这要求我们以更大的决心与智慧,凝聚共识,将构建新一代国家级电子健康档案系统与健康医疗大数据体系,置于国家发展全局的战略位置。
一个全国统一的、高质量的健康医疗数据基础设施一旦建成,将与人工智能技术结合,产生变革性的深远影响。
疾病防控关口前移。基于海量数据训练的人工智能风险预测模型,可在疾病发生多年前识别高危个体,实现高水平的精准预防和早期筛查,推动以治病为中心向以健康为中心转变。
诊疗模式智能化变革。临床决策将从依赖医生个人经验,转变为基于群体证据与个体数据结合的“数据驱动”模式。人工智能可为医生提供个性化的诊疗方案建议、预后预测和药物不良反应预警,全面提升诊疗质量和安全性。
研发范式加速重构。药企和研发机构可利用真实的临床大数据,更精准地发现靶点、设计临床试验、寻找潜在受试者,并将“老药新用”的研发时间从数年缩短至数月,大大降低研发成本与失败风险,推动我国生物医药产业向创新链高端迈进。
卫生体系提质增效。通过优化资源配置、减少不必要的诊疗和住院、遏制欺诈行为,大数据和人工智能每年可为医保体系节省巨额开支,缓解老龄化社会的医疗财政压力,提升医疗卫生体系的整体韧性、效率与公平性。
这项工程不仅是卫生健康领域的技术升级,更是关乎国家生物医药科技竞争力、关乎数字中国建设进展、关乎民族健康福祉的系统性国家工程。面对全球科技竞争与人口老龄化的双重挑战,唯有筑牢国家健康医疗数据基座,才能牢牢把握发展主动权,在破解慢性病防治难题的医学高峰上树立中国标杆,在全球医疗人工智能的创新浪潮中赢得领先优势,为十四亿多中国人民创造更精准、更普惠、更高质量的全生命周期健康保障。
注释
[1]习近平:《以人口高质量发展支撑中国式现代化》,《求是》,2024年第22期,第4—8页。
[2]吴静:《慢性病综合防控筑牢全民健康基石》,《人民论坛》,2026年第4期,第74—79页。
[3]《坚定不移走中国特色卫生与健康发展道路 推动“十五五”时期健康中国建设取得决定性进展》,《人民日报》,2026年3月7日,第1版。
[4]《中共中央 国务院印发〈“健康中国2030”规划纲要〉》,中国政府网,2016年10月25日。
[5]《中华人民共和国国民经济和社会发展第十五个五年规划纲要》,《人民日报》,2026年3月14日,第1版。
责编:刘 明/美编:石 玉