京东心动购物季即将开启 学而思xPad Pro PLUS会员到手不高于7899元520来京东搜“京东老友季” 听红衣教主聊AI的那些事520买礼物就选博朗亲肤6系剃须刀礼盒 京东比李佳琦便宜70元以旧换新至高减20% 京东家电家居618 “购新”更超值飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元CHIMA现场|“智慧医院云文档中心”成功发布,上海CA医疗行业数字信任方案备受关注擎朗医疗携全新一代Gen 2物流机器人亮相CHCC2024,助力医院数智化建设OpenAI“宫斗”第二季?消息称“超级对齐”团队已解散,成立不到 1 年2023 年我国卫星导航与位置服务产值超 5300 亿元,同比增长 7.09%下单到收货不到一刻钟,河南开启首批低空无人机物流配送航线杭温高铁开启联调联试,建成后杭州到温州 1 小时到达上海临港发布首批数据跨境一般数据清单,涉及智能网联汽车、公募基金、生物医药 3 大领域上海:将加快开源人形机器人原型机研发,2025 年重点行业机器人密度达 500 台 / 万人618前夕淘宝升级多款商家AI工具,面向商家免费开放崛起!一文速看云计算“国家队”五大突破!消息称中国一汽将加入蔚来换电联盟IDC:今年Q1中国平板电脑出货 713 万台同比增 6.6%,华为259万台位居第一构建离产业最近的AI,腾讯云公布多项大模型产品进展谷歌Pixel 8 手机运行 ChromeOS 项目现阶段仅为概念验证
  • 首页 > 云计算频道 > 大模型

    “弱智贴吧”的数据,居然是最强中文语料库

    2024年04月07日 10:59:10   来源:AIGC开放社区

      中国科学院、北大、中国科技大学、滑铁卢大学、01.ai等10家机构联合推出了,专用于中文的高质量指令调优数据集——COIG-CQIA。

      在大模型领域英语一直是训练数据最重要的语言,但由于中英文的结构和文化差异,直接将英文数据集翻译成中文并不理想。所以,为了填补高质量中文数据集的空白,研究人员开发出了COIG-CQIA数据集。

      COIG-CQIA几乎抓取了中文互联网的论坛、网站、百度贴吧、问答社区等高质量数据集。用COIG-CQIA对Yi-6B、Yi-34B进行指令调优,再用GPT4在BELLE-EVAL上评估在各种数据集上训练的大模型性能。

      有趣的一幕出现了,“弱智贴吧”的数据质量,居然大幅度超过知乎、豆瓣、是否等知名知识社区,还真是大智若愚啊~

      为了验证“弱智贴吧”的数据质量,「AIGC开放社区」特意去实地考察了一下,果然名不虚传有将近300万的“病友”,找几个典型问答给大家鉴赏一下。

      变形金刚买保险,是买车险还是人险?

      雷公电母放的是,直流电还是交流电?

      秃头的人洗头,用洗头膏还是洗面奶?

      如果猪肾虚,那它的腰子还补吗?

      吃止痛药去打架,算开挂吗?

      鞋子买好了,怎么才能在冰箱里溜冰?

      用这样的数据去微调中文大模型,那还不得稳超GPT-4立刻觉醒成为“病友”啊~

      COIG-CQIA数据集介绍

      研究人员从中文互联网精心挑选了涵盖通识百科、STEM、人文领域的22个高质量数据源,包括问答社区、百科网站、内容创作平台、考试题库等种类。

      社交媒体、论坛数据方面,研究人员从知乎、小红书、豆瓣、是否等热门中文社区精心甄选了高质量问答和长文本内容。

      针对不同社区的特点,分别采取了筛选高赞回答、评分过滤、人工审核等方式,确保所保留的数据贴合真实场景。

      通识百科方面,从百科、维基解答等知名中文百科网站收集了广泛的概念解释和指导性文章,内容涉及自然科学、人文社科等多个领域。再通过解析HTML并设计多种提示模板,将原始数据得以转化为高质量的指令-输出对。

      专业知识部分则从金融、电子、医学、农业等专业垂直网站采集了结构化数据,然后按照人工设计的提示模板构造出专业性指令-输出对。

      此外,国内中学生、研究生的历年入学考试真题也被COIG-CQIA纳入在数据集中,可显著提升模型的逻辑推理和知识综合能力。

      在完成数据收集和分类整理后,研究人员对每一类数据进行深度清洗、重构和人工审查,以确保数据质量、多样性和对真实人机交互的贴合度。

      包括格式规范、答案审查、无关内容删除等。最终,精心构建了一个包含48,375条指令-输出对的高质量中文指令微调数据集。

      为了测试数据集性能,用COIG-CQIA对Yi系列、Qwen-72B等国内知名模型进行了微调,结果显示,COIG-CQIA比现有开源中文数据集对大模型的帮助更好。

      什么是指令微调

      指令微调是一种在大模型上进行微调的方法,通过提供指令和输出来指导模型更准确地完成内容输出。

      指令微调通过构建专业的指令格式的实例,通常包含任务描述、输入和输出等,然后以有监督的方式对大型语言模型进行精细化微调。

      简单来说,指令微调像是一种“妈妈教孩子”的方法,按照特定格式帮助大模型更好地学习、输出拟人化内容。

      需要注意的是,指令微调和数据预训练是两回事。预训练是大模型在大规模无监督数据上进行的基础数据训练,其目的只是让大模型学习通用知识,不会针对任何特定领域进行数据微调。

      所以,高质量的指令微调数据集对于大模型的拟人化输出、内容的精准性非常重要。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。