

(图片引自《国家数据基础设施建设指引》)
即基于数据基础设施(包括但不限于:可信网络、算力底座、数据流通利用设施、人工智能底座等)训练大模型、编排智能体并发布用于实践。既充分利用数据基础设施,又完成数据资源的流通利用,达成领域赋能,带动产业发展。
二、六步打造智能体应用:从规划到运营的全流程
1.规划整体:因地制宜的顶层设计
按行业定位提取需求,并规划完整的智能体应用规划。以数字化城市运行中心为例,虽各地名称不一致,但核心职能一致:作为“城市大脑”推动城市智慧化。参考《智慧城市人工智能技术应用场景分类指南》、本地汇聚数据分级分类进度和容量,再加上本地领域资源优势,规划本地相关领域的智能体应用。规划前需充分了解:数据资源、数据资源权属、算力、安全和可用工具边界。
如政务领域,检视区域内网络、算力、数据流通利用设施、人工智能底座、政务数据集成、公共数据汇聚情况,参考《政务领域人工智能大模型部署应用指引》,结合本地优势完成政务智能体应用的全景规划和实施路径规划。

(图片来自《政务领域人工智能大模型部署应用指引》,数巨有谱绘制)
如医疗健康领域,检视医疗机构或区域网络、算力、数据流通利用设施、人工智能底座、域内数据集成情况,参考《卫生健康行业人工智能应用场景参考指引》,结合域内资源完成医疗健康智能体应用的全景规划和实施路径规划。

(图片引自《卫生健康行业人工智能应用场景参考指引》)
2.产品设计:体系化思维至关重要

(图片由数巨有谱绘制)
此处产品设计包含:高质量数据集产品设计和智能体产品设计。设计优先级可先数据集后智能体,亦可先智能体后数据集,具体选择以建设目的为导向。建议先智能体后数据集,即先有可服务的场景的能力边界,再依据能力边界设计对应的数据集产品。且目前算力调度和数据流通市场在逐步成熟,算力的不足和数据的不足都可通过市场的方式进行补足。
智能体设计的重点在于体系化。虽然目前主流的智能体平台对智能体的结构定义都是“积木化”,让智能体从一开始就有了即插即用的优势。但如果不考虑体系,一定会面对阶段性瓶颈,到某一阶段需要多智能体协作完成任务时,一定会出现多个智能体重构的情况,同样会浪费很多训练时间和数据集建设成本。建设优先原则是由简至繁,从相对简单的应用场景开始到复杂的场景(往往复杂场景可以由多个简单的场景组合解决)。
如政务领域,可以从政务服务类开始,但是具体的服务必须通过相应的数据分析来选择,例如已建成的政务服务应用,被频繁咨询的,可以作为第一批建设场景。
如医疗健康领域,可以从区域性健康科普开始并伴以就医推荐,从一开始就与分级诊疗挂钩,既便民惠民又使用新技术完成医疗资源的匹配。同时因为市面上各家企业已经投入多年的专病场景的垂直研发,可以将适当的研发结果与资源配置目标匹配,以集约化的方式让一个区域同时拥有医疗资源智能匹配和辅助诊疗能力。
3.数据集建设:质量与合规并重
数据集通常分为6类,分别是元数据集、提示词数据集、基石数据集、训练数据集、微调数据集和测试数据集。
元数据集
提供数据集的背景信息、增强数据可解释性、支持数据管理和质量控制,以及在特定场景下辅助模型训练和评估。
提示词数据集
通常贯穿模型训练的各个阶段。在基石阶段注入基本提示模式,在训练和微调阶段深化提示响应,在测试阶段验证提示效果。
基石数据集
为大模型建立基本的认知、知识和语言理解基础,通常涉及大规模、通用性的数据,帮助模型构建世界观、语言模式和基本事实知识。
训练数据集
深化模型的能力训练,通常在基石数据集基础上进行大规模预训练或继续训练,聚焦于提升特定技能、泛化能力和复杂任务处理。
微调数据集
用于对已训练完成的模型进行针对性微调,通常规模较小但高质量,聚焦于特定任务、领域或用户需求调整,帮助模型适应下游应用。
测试数据集
用于对训练完成的模型进行测试验证,评估是否达到设定的指标,如准确率、泛化能力等,通常包括基准测试集和边缘案例。
数据集根据智能体的场景确认需要哪些领域和种类的数据,并对采集后的数据进行加工。
强调:对数据来源和生产完成的数据集均必须有清晰的权属与合规证明,以避免之后的应用过程产生争议甚至法律风险。同时此处对数据加工的理解不应被片面认为是技术工作,必须认清,基于数据要素的角度,数据加工应该被理解为:提升数据的质量、安全、合规性,推动数据有效利用的过程。且整个数据加工(技术实施)环境必须是安全的,需要相应的制度和工具进行保障。
生产完成的数据集不应该仅仅是被用于大模型的训练和智能体的能力赋能,更应该可用于流通利用,这样才能充分挖掘数据的价值。
4.智能体建设与发布:分期推进,安全优先
数据集建设和智能体建设可以同步进行。当第一批数据集生成完成后,就应该投入到模型训练和智能体的编排中。同时生产第二批数据集。以同步的模式加快建设进度,缩短建设周期。
同时智能体的建设应该分期分版本。每个版本发布后,可在适当环境发布进行测试。
智能体建设并不是只依赖算力、数据集和人工智能平台就能完成。同时还需要其他工具的支持,例如:视频采集工具、音频采集工具、其他感知工具、视频识别转译工具、音频识别转译工具,甚至是成熟的数字化系统都可以成为智能体的工具,让智能体完成复杂任务。
强调:智能体建设环境的安全、部署环境安全和使用中的伦理安全极其重要,在设计时充分考虑,在建设时充分完善,在使用时严格监测。
5.监测与验证:全生命周期管理
在智能体设计完成时,就必须梳理跨域事件(即智能体为完成任务所需要涉及的跨部门、跨领域、跨数据的情况)和体征指标(即智能体、大模型、数据在建设过程和建成后需要被关注能力特征,包含了运营指标和性能指标)以方便在其整个生命周期内完成监测。
同时建成后,按生命周期设计不同阶段的KPI指标,以验证建设效果和运营效果。例如刚建成时关注模型准确率、内容安全率、数据资源权属合规率、数据集权属合规率、提示词得分等。运营过程则是基于刚建成时的指标,再加上用户数量、用户活跃度、用户采纳率等指标。
6. 保障体系:四类体系支撑全局
当前将保障体系分类四类:标准规范体系、制度规则体系、标准服务体系和工作推进体系,分别约束整个工程的工作标准、安全标准、组织结构、协同方法、激励机制等。

(图片由数巨有谱绘制)
三、智能体建设:一项系统性工程
总体来说,智能体建设是一个集数据资源合规开发利用和产业能力提升的双优系统性工程。其既能实践数据要素“供得出、流得动、用得好、保安全”,又可长期性、系统性的推动产业升级。
建议在实践中,充分调研、实事求是,按地区、行业实情,充分利用已建成的基础设施,集约化的建设新基础设施,同时配套完整的保障体系。
