第十五届中国国际数字出版博览会:斑马AI大模型为每个孩子提供专属学习方案2025年Q2移动互联网行业数据研究报告绿盟科技重磅发布AI安全运营新成果,全面驱动智能攻防体系升级史上最大Mate!华为智慧屏MateTV将于9月4日发布TCL小蓝翼P6 Plus AI健康空调,“全域风”无死角守护健康好空气阿里商旅发布两大AI智能体,你的出差和报销都要变聪明了腾讯元宝入驻视频号评论区:AI 聊天搭子升级,赋能高效互动行业最快!百度搜索生成速度超DeepSeek V3.1版5倍网易有道文档翻译功能免费开放,搭载“子曰”教育大模型提升多语种交流效率OPPO最强天玑旗舰!OPPO Find X9/X9 Pro全系配色曝光践行国务院“人工智能+”行动意见!亚信科技助推AI普惠百行千业智能门锁线上均价跌破900元;千元以下占七成销量,新品牌占比高达21%国产FPGA,打入高端局微软发布首批自主研发的人工智能模型信通院人工智能所联合发布《人工智能高质量数据集建设指南》中控技术发布全球首个流程工业可信大模型TPT 2,“工业AI数据联盟”同步成立行业首创30kW超级外放电,长安猎手K50全系上市,售价12.79万元起从“三好模型”到“四力引擎”:箱箱共用向生产性服务业跃迁的密码2025年中国国际信息通信展览会将于9月24日至26日在京启幕利润猛增432.2% 上汽集团半年业绩亮眼
  • 首页 > 产经新闻频道 > 业界新闻

    信通院人工智能所联合发布《人工智能高质量数据集建设指南》

    2025年08月29日 16:03:49 来源:通信世界网

      随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。人工智能发展正在进入“数据驱动”新阶段,高质量数据集的建设不仅是提升AI模型性能的关键,也是推动“人工智能+”行动落地的重要保障。然而现阶段,大量机构在高质量数据集建设中面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战,不知道需要什么数据集、如何建设数据集、怎样评估数据集质量,制约了人工智能应用高效落地。

      日前,中国信息通信研究院(简称“中国信通院”)人工智能研究所联合清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟数据委员会发布《人工智能高质量数据集建设指南》,旨在为业界建设高质量数据集提供有实操价值的指导和参考。

    图片

      指南从政策、技术、产业层面介绍了当前高质量数据集建设的背景,梳理了高质量数据集的定义、特征、分类、建设主体以及“三大建设难点”,提出了人工智能数据工程的“五大核心要素”和企业建设高质量数据集“三步走”战略,分析了高质量数据集建设的核心技术,展示了科学、通信、交通、铁塔、医疗、文化等领域高质量数据集建设实践,最后从工程能力、技术创新、质量评估、版权合规、基础制度创新等层面对未来高质量数据集建设的趋势进行了展望,并提出了对政府部门和企业机构的建议,为业界推进高质量数据集建设提供有力支撑。

      报告主要内容

      1. 高质量数据集的定义与顶层设计。高质量数据集是指用于训练、验证和优化人工智能大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动信息的数据资源集合。国家部委、地方政府加力出台人工智能和数据要素相关政策,通过试点示范、工程项目、资金补贴等多种形式推动高质量数据集的建设、流通和开发应用。

      2. 高质量数据集的特征与挑战。高质量数据集具有高价值应用、高知识密度、高技术含量的“三高”特征。当前,高质量数据集建设正处于探索阶段,主要面临目标定位模糊、实施路径碎片化与技术底座薄弱三重挑战。

      3. 人工智能数据工程的核心要素。面向人工智能的数据工程核心旨在提升模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大核心要素(参考行业标准《大模型数据集开发管理能力分级及评估方法》),涵盖5个一级能力、21个二级能力和253项能力子项。

      #FormatImgID_1#

      来源:中国信通院

      4. 高质量数据集建设“三步走”战略。首先,开展数据集体系规划,构建高质量数据集认知框架。其次,推动数据集工程建设,打造高质量数据集认知框架。最后,强化数据集质量检测,建立高质量数据集全流程管控机制。

      #FormatImgID_2#

      来源:中国信通院

      5. 高质量数据集的建设流程。高质量数据集建设需经历数据设计和采集、治理、标注、质检、运营等流程类似石油“炼化”过程中的勘采、粗炼、精炼、质检、运营等流程,推动原始数据资源迈向智能应用。

      6. 对高质量数据集建设的展望。随着人工智能大模型应用从初步探索迈向更为复杂、智能的高阶阶段,对高质量数据集的规模、多样性、时效性以及处理速度的要求将会快速增长。展望未来,数据集工程、技术创新、质量评估、版权合规以及基础制度建设是推进人工智能高质量数据集建设的关键。

    中文科技资讯微信二维码logo

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    最新新闻

    热门新闻

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。