[01 · 名称]
中医药古籍精校数据集 4,374 组
[02 · 类型]
文本 · 训练集(医疗)
[03 · 规模 · 范围 · 格式]
4,374 组(精校样本)· 8 类标准字段 · PDF 原文 + MD 译文双格式 · 已挂牌上海数交所
[04 · 维度]
古籍原文 + 现代汉语对照译文成对出现;每段独立校勘,按"原典—训诂—译文"三层映射;含 source_book / version_basis / original_text / modern_translation / annotation / theme_tags / quality_grade / qc_log 8 类标准字段;按 4 阶段 14 工序 + 三级质控(生产自检 100% / 交叉质检 100% / 专家审核 ≥50%)生产;上海数据交易所挂牌可按场内 / 场外 / 可信数据空间"可用不可见"/ API / 数据集打包多种通道交付。
[05 · 适用场景]
中医药垂类大模型的预训练 / 继续预训练 / SFT 数据补强;医疗多模态模型在知识层的注入;中医药行业应用知识库建设(医案问答 / 方剂检索 / 辨证推理);医学教育与科普应用;学术研究的版本对照与训诂分析。
[06 · 适用对象]
- · AI 实验室
- · 大模型企业
- · 学术研究机构
- · 药企
- · 教研机构
- · 中医药行业应用方
[07 · 挂牌或登记信息]
已挂牌上海数据交易所;按场内交易 / 场外签约 / 可信数据空间"可用不可见"/ API 或数据集打包等方式交付(凭证编号按合规披露范围使用)
[08 · 申请方式]
[09 · 风险等级]
low
[10 · 是否开源]
否 · 商业销售