AI赋能医院数智化建设!擎朗医疗全新一代新品惊艳亮相CHCC2024飞利浦推出超宽带鱼屏显示器:双2K 144Hz售价近8000元618前淘宝抖音宣布互联互通:可跟踪抖音种草、淘宝成交数据移动电商时代,我们找到了网页端的“钉子户”ChatGPT现在允许用户直接从 Google Drive、Microsoft OneDrive 导入文件iPhone 7系列用户可获苹果赔偿:音频问题终得解决OpenAI与Reddit 合作,将用户生成独特内容整合至ChatGPT腾讯混元大模型支持生成16s视频 并推出AI智能体平台腾讯元器2024年一季度智能家居市场总结思科2024第三财季收入下降 13%,创2009年以来最大降幅长城灵魂 8 缸摩托车首发亮相:完全沿用高端乘用车研发标准苹果造车反复横跳,又要恢复造车?库克究竟为哪般?不再佛系的小红书,All in买手电商重磅首发!亚信科技发布“渊思”行业大模型,“全栈AI”赋能行业转型Q1全球云服务支出增长21% 微软营收增速接近AWS两倍强化创新与产业应用 打造智能机器人创新发展新高地 ——2024广东国际机器人及智能装备发展大会在东莞召开中国电信发布自研FTTR-B终端 助力中小企业数字化转型联发科参与设计ARM旗舰架构 让天玑9400全大核从芯片底子上稳赢!中国电信“AI便携式学习机”发布:全面助力孩子学习成长问界新M7 Max焕新版即日开订!余承东:29.8万起 5月31日发布
  • 首页 > 云计算频道 > 大模型

    新AI框架 AboutMe:用网页中自我描述来记录英语预训练数据过滤器的效果

    2024年01月19日 17:09:10   来源:站长之家

      1月19日 消息:随着自然语言处理和自然语言生成的进步,大型语言模型(LLMs)在实际应用中得到了广泛使用。由于它们能够模仿人类行为,并具有通用性,这些模型已经涉足各个领域。

      虽然这些模型引起了相当大的关注,但它们代表了一组受限和偏向的人类观点和知识。预训练数据的组成是造成这种偏见的原因,因为它对模型的行为产生了重大影响。

      研究人员一直在努力着重理解和记录在预训练之前对数据所做的转换。预训练数据的筛选是一个多步骤的过程,其中有多个决策点,这些决策点通常基于主观的文本质量判断或与基准测试的性能。

      最近,来自艾伦人工智能研究所、加利福尼亚大学伯克利分校、埃默里大学、卡内基梅隆大学和华盛顿大学的研究人员介绍了一个名为 AboutMe 的新数据集和框架。该研究强调了数据筛选工作流中存在的许多未经质疑的假设。通过 AboutMe,研究团队试图记录对社会和地理背景相关的文本进行数据过滤的影响。

      在自然语言处理中,缺乏与语言数据相关联的广泛的自我报告社会人口学数据是一个问题。文本可以追溯到维基百科等一般来源,但在更细粒度的层面上,通常不知道谁创建了这些信息。在这项研究中,研究团队利用 Web 数据中的预设模式,找到了网站,特别是 “关于我” 页面。这使得我们可以对被网络爬虫获取的文本中所代表的语言的创作者有前所未有的了解。

      研究人员将网络文本(一种流行的预训练数据源)与其社会和地理背景联系起来。研究团队使用来自网站的 “关于我” 部分的数据,进行社会语言学分析,测量了网站作者的兴趣、社会角色、关联地理位置等。他们创建了一个包含1030万个网站创建者自我描述的新数据集,并提取有关他们是谁、来自哪里的信息:他们的主题兴趣、社会角色和地理归属。

      然后,他们对这些网页应用了之前在 LLM 开发研究中使用的十个质量和英语 ID 过滤器,以检查过滤对保留或删除页面的影响。

      研究团队表示,他们的主要目标是发现在过滤器内部和之间,与网站来源相关的行为趋势。结果显示,基于模型的质量过滤器显示出对特定主题领域的隐含偏好,导致与各种专业和职业相关的文本以不同的比率被删除。此外,那些假设页面是单语言的过滤技术可能无意中删除了来自非英语地区的内容。

      这项研究突显了 LLM 开发过程中数据筛选的复杂性以及对语言模型中各种观点呈现的影响。该研究的主要目标是提高人们对预训练数据筛选程序的细节的认识,尤其是在考虑社会因素时。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。