数巨有谱数据集团
面向未来Future Horizons

RWE 时代的数据要素:为什么"要素化"重要

一份关于结构性影响的判断

要素化不是把数据切成更小 —— 是让每一个最小单元被规范地表达、被规范地承担、被规范地组合。一份关于结构性影响的判断。

数巨有谱··11 分钟阅读

[01]

一、什么是"要素化"

把数据"要素化",是把它从"信息化打包" 转化为"可独立使用的要素" 的过程。

信息化打包 —— 数据被采集、存储、应用,但每一份"打包"对应特定场景与口径;离开这个场景与口径,数据本身的可用性快速衰减。它不可被独立使用、不可被独立流通、不可被独立组合。

要素化 —— 数据被规范地拆解为可独立使用的最小单元(字段、记录、模态),每个单元有:

  • 明确的权属链
  • 明确的合规边界
  • 明确的工艺确定性
  • 明确的质量等级
  • 明确的可调用方式

数据要素,是被要素化之后的数据资源。没有完成要素化的数据,无论规模多大,仍然停留在"打包"形态——它支撑不了 AI 时代的多场景调用、跨主体协同、长期资产化。


[02]

二、为什么"要素化"在 RWE 时代尤其重要

RWE 真实世界证据的本质,是"真实世界发生的事情,被规范地表达为可被研究采纳的证据"。这一表达本身就是一种"要素化"动作。

把医疗数据要素化,意味着:

对临床决策辅助 —— AI 可以从依赖"网络抓取的医疗内容"转向调用经合规通道获取的、按字段、按权属、按合规边界规范化的真实世界证据。

对药物 / 器械 / 临床路径研究 —— 真实世界证据可被独立检索、组合、对比;不需要每次研究都从头采集。

对医疗机构 —— 医院数据合作不是"打包给某家",而是按要素化后的数据资源做长期经营——医院作为数据持有方、加工方、运营方,可在多个合作中复用同一份要素化资源。

对监管 / 标准化组织 —— 合规审查、伦理审查、跨主体追溯都建立在要素化的最小单元之上;监管口径与要素化数据结构同步演进。

要素化不是一个技术议题——它是医疗数据从"被使用一次"走向"被持续使用"的结构性转折。


[03]

三、要素化的具体含义

把"要素化"从概念展开为具体动作:

第一 · 按字段被规范化。 医疗数据的字段含义、单位、口径在不同医院、不同信息系统、不同应用场景下不一致。要素化要求把这些字段映射到统一标准(如 CDISC 临床数据交换标准 / SNOMED 医学术语等国际标准 + 中国行业标准)。

第二 · 按权属被分配。 数据要素的资源持有权、加工使用权、经营权三权分置——按"数据二十条"框架分配给不同主体。这件事在公共数据资源登记 / 公共数据产品及服务登记 / 数据商品登记凭证三类登记中都已建立基础。

第三 · 按合规边界被表达。 涉及个人信息的数据按 PIPL(个人信息保护法)/ GB/T 35273 等规范脱敏;涉及人体研究的按伦理审查办法处理;涉及跨域流动的按国密算法(SM4 / SM2 / SM9)和隐私保护计算(k-匿名 + 差分隐私 + 联邦学习 + 可信执行环境)等技术边界保护。

第四 · 按工艺确定性被生产。 按 4 阶段 14 工序生产工艺 + 三级质控(生产自检 100% / 交叉质检 100% / 专家审核 ≥50%)等确定性承诺被加工,不是"看起来差不多就行"。

第五 · 按可调用方式被部署。 数据要素需要被规范流通——按交付方式(API / 拷盘 / 可信数据空间 / 数据交易所挂牌)规范部署,不需要每次合作重新设计交付路径。


[04]

四、要素化的产业实证

我们把"要素化"展开为可被检验的具体痕迹:

  • 数据字段标准化 —— 自有 7 大类成品数据集(药品 50.5 万条 / Cochrane 1.5 万组 / 中医药古籍 4374 组 / 价值语料 7.2 万份 等)按统一字段结构封装
  • 数据权属链 —— 公共数据授权运营 4 已签(青海 / 山西 / 江苏某地市(已通过省级公示)/ 深圳福田)
  • 合规边界保护 —— 隐私保护计算技术体系(k-匿名 + 差分隐私 + 国密算法)+ 全国数据标准化技术委员会 WG2-WG6 五组成员身份
  • 工艺确定性 —— 4 阶段 14 工序 + 三级质控按合约执行
  • 可调用部署 —— 5 家数据交易所累计挂牌 26 项数据产品 + 自建企业可信数据空间 75 个医院连接器

每一项都不是"宣告"——它是被独立验收的要素化痕迹。


[05]

五、要素化的结构性影响

要素化在医疗 AI / 公共服务 / 数据要素市场 / 监管标准化等多个层面产生结构性影响:

第一 · 对医疗 AI 的能力上限。 训练数据从"网络抓取" 走向"要素化资源",模型的医疗专业度、合规可追溯度、长期可持续度都将提升一个层级。

第二 · 对公共服务的可及性。 区域医疗导辅诊智能体、电子健康卡、医保电子凭证等智能应用的"长期运营"能力,建立在要素化的数据底座之上——而不是建立在某个单点的项目之上。

第三 · 对数据要素市场的成熟度。 数据资产入表、数据资产经营、数据交易所跨所协同等议题的实施前提,是要素化的最小单元已被广泛建立。

第四 · 对监管标准化的口径统一。 38 项国家标准 / 行业标准 / 地方标准在数据要素方向同步推进——要素化让监管口径在不同行业、不同区域之间逐步统一。


[06]

六、6-12 个月观察点

我们围绕"要素化" 方向持续观察:

  1. CDISC 临床数据交换标准 / SNOMED 医学术语等国际标准在国内医疗数据要素中的本地化进展
  2. 公共数据资源登记 / 公共数据产品及服务登记 / 数据商品登记凭证三类登记体系的协同节奏
  3. AI 生成数据要素相关国标(WG3)的发布节奏与具体口径
  4. 行业数据应用成熟度模型(WG2 / WG3)在医疗领域的具体分级
  5. 隐私保护计算技术(联邦学习 / 安全多方计算 / 可信执行环境 / 密态计算)在医疗数据跨主体调用中的实测互通
  6. 数据资产入表口径在医疗机构数据合作中的推进节奏

[07]

七、不写什么

为了让这一前瞻判断保持克制:

  • 不预测要素化的"完成时点"——这是长期工作,不是事件
  • 不预测哪种技术路线"赢"——技术路线在不同场景各有适用
  • 不评论同行的要素化实践
  • 不写"要素化将颠覆现有医疗体系"等夸张表达
  • 不把"要素化"简化为"高质量数据"的同义词——它有完整的结构性内涵
  • 不把"要素化"等同于"数据资产化"——后者是要素化基础上的延展

[08]

八、关联

  • 关联面向未来:AI+医疗 的下一步:从供给到共生
  • 关联数巨有谱说:我们专注 RWE:基于医疗场景特性的价值选择
  • 关联标准解读:《可信数据空间标准化研究报告(2025 版)》:我们读了什么 / 站在 WG2-WG6 里看数据要素
  • 关联方法论:24 环节医疗数据资源开发利用路径
  • 关联数据集:自有 7 大类成品数据集 / 自投肿瘤多模态训练数据集 49 子集

[09]

九、一句话收尾

要素化不是把数据切成更小——它是让每一个最小单元被规范地表达、被规范地承担、被规范地组合。

这就是 RWE 时代值得长期投入的工作。

此处,此刻,始终。

声明本文观点为数巨有谱基于公开资料、参编标准与一线项目经验形成的判断,不代表任何客户、合作伙伴或主管部门立场。文中涉及客户与项目均按业务匿名化原则处理;公开可署名的合作伙伴除外。欢迎转载与引用,请保留来源。