随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。人工智能发展正在进入“数据驱动”新阶段,高质量数据集的建设不仅是提升AI模型性能的关键,也是推动“人工智能+”行动落地的重要保障。然而现阶段,大量机构在高质量数据集建设中面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战,不知道需要什么数据集、如何建设数据集、怎样评估数据集质量,制约了人工智能应用高效落地。
日前,中国信息通信研究院(简称“中国信通院”)人工智能研究所联合清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟数据委员会发布《人工智能高质量数据集建设指南》,旨在为业界建设高质量数据集提供有实操价值的指导和参考。
指南从政策、技术、产业层面介绍了当前高质量数据集建设的背景,梳理了高质量数据集的定义、特征、分类、建设主体以及“三大建设难点”,提出了人工智能数据工程的“五大核心要素”和企业建设高质量数据集“三步走”战略,分析了高质量数据集建设的核心技术,展示了科学、通信、交通、铁塔、医疗、文化等领域高质量数据集建设实践,最后从工程能力、技术创新、质量评估、版权合规、基础制度创新等层面对未来高质量数据集建设的趋势进行了展望,并提出了对政府部门和企业机构的建议,为业界推进高质量数据集建设提供有力支撑。
报告主要内容
1. 高质量数据集的定义与顶层设计。高质量数据集是指用于训练、验证和优化人工智能大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动信息的数据资源集合。国家部委、地方政府加力出台人工智能和数据要素相关政策,通过试点示范、工程项目、资金补贴等多种形式推动高质量数据集的建设、流通和开发应用。
2. 高质量数据集的特征与挑战。高质量数据集具有高价值应用、高知识密度、高技术含量的“三高”特征。当前,高质量数据集建设正处于探索阶段,主要面临目标定位模糊、实施路径碎片化与技术底座薄弱三重挑战。
3. 人工智能数据工程的核心要素。面向人工智能的数据工程核心旨在提升模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大核心要素(参考行业标准《大模型数据集开发管理能力分级及评估方法》),涵盖5个一级能力、21个二级能力和253项能力子项。
#FormatImgID_1#
来源:中国信通院
4. 高质量数据集建设“三步走”战略。首先,开展数据集体系规划,构建高质量数据集认知框架。其次,推动数据集工程建设,打造高质量数据集认知框架。最后,强化数据集质量检测,建立高质量数据集全流程管控机制。
#FormatImgID_2#
来源:中国信通院
5. 高质量数据集的建设流程。高质量数据集建设需经历数据设计和采集、治理、标注、质检、运营等流程类似石油“炼化”过程中的勘采、粗炼、精炼、质检、运营等流程,推动原始数据资源迈向智能应用。
6. 对高质量数据集建设的展望。随着人工智能大模型应用从初步探索迈向更为复杂、智能的高阶阶段,对高质量数据集的规模、多样性、时效性以及处理速度的要求将会快速增长。展望未来,数据集工程、技术创新、质量评估、版权合规以及基础制度建设是推进人工智能高质量数据集建设的关键。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
海报生成中...
海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。