8月28日下午,在2025中国国际大数据产业博览会“高质量数据集主题交流活动”上,《高质量数据集建设指引》正式发布。中国信通院院长余晓晖围绕高质量数据集建设背景、应用需求、建设成效、建设方法与实践、建设运营体系、建设推进思路等话题进行了解读。


高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。数据集的高质量体现在规模“大”、安全“牢”、观点“正”、效果“好”、应用“广”等方面,可以用规范性、完整性、合规性、多样性等十多个通用指标来量化评价。

高质量数据集的应用需求呈现出层次化与专业化特征。从建立世界基本认知,到解析复杂场景关系,再到规划执行具体行动,每一层都承载着不同的学习目标和能力要求。

数据质量的定义需与人工智能发展的不同阶段相契合,这背后需要大量细致的匹配工作。例如,国家数据局最新发布的一百多个高质量数据集典型案例,正是基于不同行业和领域的实际需求,既要涵盖规范性、准确性、完整性等通用质量要求,也需融入行业特有的质量指标,体现出显著差异化和定制化的特点。



提出“1+1”参考路径,即1套建设方法论和1套建设运营体系。该路径系统梳理了典型模式、核心环节、关键技术与质量评价等内容,为企业提供清晰可行的实践指南。


