[01 · 背景]
医疗大模型的训练对"高质量、合规、跨年度可持续供给"的医疗语料有强烈需求。这件事不再是 AI 公司"内部数据团队"的工作——它演进为"数据资源持有方 + 数据加工方 + AI 实验室"三方协同的供应链工作。该上海某 AI 模型方作为国内头部 AI 客户之一,与数巨有谱在医疗语料方向建立了多年期合作关系。本案例梳理这条合作的演进形态——是医疗 AI 训练数据集合作"从单笔到供应链"的具体实证。
[02 · 客户类型]
AI 模型 / 大模型企业 / 医疗 AI 领域 H/B 类需求方
[03 · 我们的角色]
数据产品供应方(SHP DataProducts)
[04 · 具体动作]
- · 第一段 · 单笔语料数据提供:合作起点是药品类语料数据(药品 SKU 153,773 条 + 商品名 28,782 条 + 说明书 83,548 条 + 获批 239,658 条,共 505,761 条 4 类合并)的单笔供应
- · 第二段 · 多类型语料的延展:合作延展至中医药古籍精校(4,374 组 / 已挂牌上海数交所)、Cochrane 图书馆五类数据(15,702 组)、价值语料数据(72,070 份 · 医疗伦理规范方向)等多种语料形态
- · 第三段 · 训练集级别的合作:最近一次合作进入训练集级别——按医疗试题分类(5 大组别 38 类)、按工艺确定性(4 阶段 14 工序)、按三级质控、按合约保障的供应链模式
- · 数据加工与标注按 4 阶段 14 工序工艺完成;数据集合规交付(含数据产品说明书 / 数据产品样列 / 数据商品登记凭证)
- · 三级质控:生产自检 100% / 交叉质检 100% / 专家审核 ≥50%
- · 数据安全:k-匿名 + 差分隐私 + 国密 SM4 / SM2 / SM9 + TLS 1.3 传输加密 + 第三方检测机构脱敏有效性评估
- · 持续供应与质保:按合约 12 个月免费质保 / 24 小时响应 / 48 小时修复
- · 首营资质交换:法人资质 + 廉洁承诺 + 业务人员资质 + 业务角色 + 数据基础信息 + 数据产品资质 6 重审查链按 GSP/GMP 体系建立
[05 · 事实痕迹]
event
多年期合作关系建立(已多次合作 · 跨年度跨语料类型)
来源 · FACT-BASE §4.7
number
5 种以上语料形态覆盖:药品类 505,761 条 + 中医药古籍 4,374 组 + Cochrane 15,702 组 + 价值语料 72,070 份 + 训练集(按需)
来源 · 交付部门-数据集产品部分.xlsx · 自有成品数据集
qualification
中医药古籍精校 4,374 组数据集已挂牌上海数据交易所
来源 · 上海数据交易所挂牌登记
document
工艺确定性凭证(4 阶段 14 工序 + 三级质控按合约执行)
来源 · 合约凭证
qualification
首营资质交换 6 重审查链 + 数据产品说明书 + 数据产品样列
来源 · 合规交付物
document
持续运营保障:12 个月免费质保 / 24 小时响应 / 48 小时修复 · 按合约写入
来源 · 合约凭证
[06 · 能力证明]
D 数据治理与标准化(数据加工的标准化) · G 数据产品设计(按训练目标设计语料结构) · H 数据加工与标注(5000 万条/年标注产能) · I 全链路数据安全(k-匿名 + 差分隐私 + 国密 SM4/SM2/SM9) · J 数据产品质量控制(4 阶段 14 工序 + 三级质控) · L 数据产品交易(数据商品登记凭证 / 数据交易所挂牌)
[08 · 关联洞察]
[09 · 风险边界]
本案例不展示:具体合同金额 / 具体单价或议价区间 / 客户内部决策细节 / 训练集级别合作的具体规模数字 / 数据交易所凭证编号 / 客户与其他数据加工方的合作对比 / 数据集的具体技术细节(超出公开说明范围)/ 对客户业务的具体推荐。