深耕AI领域10年,商汤靠日日新5.0股价大涨31.15%永辉超市:Q1营收216.65亿元 净利润同比增长4.57%消息称特斯拉将在中国与百度就地图和导航功能展开合作2024年1-2月精装卫浴市场总结:传统卫浴降幅收窄,智能卫浴双双提升这家企业在长三角、珠三角、成渝等地区相继落地创新应用,“区块链+司法”大有可为水陆两用运动耳机鲸语Alpha新品来袭,音乐潮玩OWS耳机鲸语Loki叛逆亮相水陆两栖,音乐无界|鲸语Alpha「潜水级」防水,开启运动耳机“专业队”时代走进2024中国移动算力网络大会展区:一场别开生面的前沿数字盛宴OPPO K12手机开售:搭载第三代骁龙7,首销到手价1799元起雷军回应小米SU7何时赚钱:销量达三、四十万即可实现数字经济背景下直播电商对农业经济的影响苹果iPhone 16系列全新摄像头模组曝光快手成立存储与流量技术部,原音视频技术部黄琦担任负责人报道称小红书正进行新一轮估值200亿美元融资北京车展观察:跨越“同质危机” 车企有了新思路现代起亚与百度签署协议,将在智能网联汽车、无人驾驶等领域合作一加13外观设计曝光:搭载全新2K屏幕+高通骁龙8 Gen 4北汽蓝谷发布2023年年报及2024年一季报 极狐销量翻1.3倍开源Open-Sora大更新:可生成16秒,720P高清视频《蛋仔派对》启动家长关爱平台,帮助未成年身心健康全面发展
  • 首页 > 云计算频道 > 大模型

    DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

    2024年03月29日 15:19:13   来源:机器之心公众号

      DeepMind 这篇论文一出,人类标注者的饭碗也要被砸了吗?

      大模型的幻觉终于要终结了?

      今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大语言模型的长篇事实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大语言模型幻觉不再是问题了。

      我们知道,大语言模型在响应开放式主题的 fact-seeking(事实寻求)提示时,通常会生成包含事实错误的内容。DeepMind 针对这一现象进行了一些探索性研究。

      首先,为了对一个模型在开放域的长篇事实性进行基准测试,研究者使用 GPT-4生成 LongFact,它是一个包含38个主题、数千个问题的提示集。然后他们提出使用搜索增强事实评估器(Search-Augmented Factuality Evaluator, SAFE)来将 LLM 智能体用作长篇事实性的自动评估器。

      对于 SAFE,它利用 LLM 将长篇响应分解为一组单独的事实,并使用多步推理过程来评估每个事实的准确性。这里多步推理过程包括将搜索查询发送到 Google 搜索并确定搜索结果是否支持某个事实 。

      此外,研究者提出将 F1分数(F1@K)扩展为长篇事实性的聚合指标。他们平衡了响应中支持的事实的百分比(精度)和所提供事实相对于代表用户首选响应长度的超参数的百分比(召回率)。

      实证结果表明,LLM 智能体可以实现超越人类的评级性能。在一组约16k 个单独的事实上,SAFE 在72% 的情况下与人类注释者一致,并且在100个分歧案例的随机子集上,SAFE 的赢率为76%。同时,SAFE 的成本比人类注释者便宜20倍以上。

      研究者还使用 LongFact,对四个大模型系列(Gemini、GPT、Claude 和 PaLM-2)的13种流行的语言模型进行了基准测试,结果发现较大的语言模型通常可以实现更好的长篇事实性。

      论文作者之一、谷歌研究科学家 Quoc V. Le 表示,这篇对长篇事实性进行评估和基准测试的新工作提出了一个新数据集、 一种新评估方法以及一种兼顾精度和召回率的聚合指标。同时所有数据和代码将开源以供未来工作使用。

      方法概览

      LONGFACT:使用 LLM 生成长篇事实性的多主题基准

      首先来看使用 GPT-4生成的 LongFact 提示集,包含了2280个事实寻求提示,这些提示要求跨38个手动选择主题的长篇响应。研究者表示,LongFact 是第一个用于评估各个领域长篇事实性的提示集。

      LongFact 包含两个任务:LongFact-Concepts 和 LongFact-Objects,根据问题是否询问概念或对象来区分。研究者为每个主题生成30个独特的提示,每个任务各有1140个提示。

      SAFE:LLM 智能体作为事实性自动评分者

      研究者提出了搜索增强事实评估器(SAFE),它的运行原理如下所示:

      a)将长篇的响应拆分为单独的独立事实;

      b)确定每个单独的事实是否与回答上下文中的提示相关;

      c) 对于每个相关事实,在多步过程中迭代地发出 Google 搜索查询,并推理搜索结果是否支持该事实。

      他们认为 SAFE 的关键创新在于使用语言模型作为智能体,来生成多步 Google 搜索查询,并仔细推理搜索结果是否支持事实。下图3为推理链示例。

      为了将长篇响应拆分为单独的独立事实,研究者首先提示语言模型将长篇响应中的每个句子拆分为单独的事实,然后通过指示模型将模糊引用(如代词)替换为它们在响应上下文中引用的正确实体,将每个单独的事实修改为独立的。

      为了对每个独立的事实进行评分,他们使用语言模型来推理该事实是否与在响应上下文中回答的提示相关,接着使用多步方法将每个剩余的相关事实评级为「支持」或「不支持」。具体如下图1所示。

      在每个步骤中,模型都会根据要评分的事实和之前获得的搜索结果来生成搜索查询。经过一定数量的步骤后,模型执行推理以确定搜索结果是否支持该事实,如上图3所示。在对所有事实进行评级后,SAFE 针对给定提示 - 响应对的输出指标为 「支持」事实的数量、「不相关」事实的数量以及「不支持」事实的数量。

      实验结果

      LLM 智能体成为比人类更好的事实注释者

      为了定量评估使用 SAFE 获得注释的质量,研究者使用了众包人类注释。这些数据包含496个提示 - 响应对,其中响应被手动拆分为单独的事实(总共16011个单独的事实),并且每个单独的事实都被手动标记为支持、不相关或不支持。

      他们直接比较每个事实的 SAFE 注释和人类注释,结果发现 SAFE 在72.0% 的单独事实上与人类一致,如下图4所示。这表明 SAFE 在大多数单独事实上都达到了人类水平的表现。然后检查随机采访的100个单独事实的子集,其中 SAFE 的注释与人类评分者的注释不一致。

      研究者手动重新注释每个事实(允许访问 Google 搜索,而不仅仅是维基百科,以获得更全面的注释),并使用这些标签作为基本事实。他们发现,在这些分歧案例中,SAFE 注释的正确率为76%,而人工注释的正确率仅为19%,这代表 SAFE 的胜率是4比1。具体如下图5所示。

      这里,两种注释方案的价格非常值得关注。使用人工注释对单个模型响应进行评级的成本为4美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 仅为0.19美元。

      Gemini、GPT、Claude 和 PaLM-2系列基准测试

      最后,研究者在 LongFact 上对下表1中四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的13个大语言模型进行了广泛的基准测试。

      具体来讲,他们利用了 LongFact-Objects 中250个提示组成的相同随机子集来评估每个模型,然后使用 SAFE 获取每个模型响应的原始评估指标,并利用 F1@K 指标进行聚合。

      结果发现,一般而言,较大的语言模型可以实现更好的长篇事实性。如下图6和下表2所示,GPT-4-Turbo 优于 GPT-4,GPT-4优于 GPT-3.5-Turbo,Gemini-Ultra 优于 Gemini-Pro,PaLM-2-L-IT-RLHF 优于 PaLM-2-L-IT。

      更多技术细节和实验结果请参阅原论文。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。