美的冰箱系列产品,为品质生活“鲜”行一步同驭汽车创始人舒强受邀出席WAIC人工智能精英夜话A.O.史密斯智慧瀞厨房:听得懂、做得对马可波罗控股IPO:以绿色与责任驱动企业迈向新发展买手机、平板、手表、电脑等骁龙产品来京东 每天10点限量抢大额券2025ChinaJoy开幕在即,贪玩“拾光街区”以品牌力量赋能游戏IP价值<第三届无线通信技术产业发展研讨会> 9月深圳启幕重磅发言嘉宾 | 第五届航空计量测试与检验检测发展论坛第八届电动工具与清洁电器双论坛即将亮相苏州美的空调科技开放日:在“气候游乐场”见证夏日清凉革命商汤大装置联合发布“算电协同平台” 建设绿色智算中心“样板间”蔡司全生命周期工业质量解决方案首秀比亚迪总部,共筑智造质量新生态尤金·休履新优创数据CFO:创新与合规协同,共塑保险数字化未来2025 WAIC“智算技术创新与行业实践” 论坛圆满落幕 共绘智算生态新蓝图协同前行,筑梦未来:美光芯片的全维度责任实践仙乐健康在WAIC开启AI配方引擎战略合作一汽奥迪携手抖音生活服务,官号直播“膨胀金”订单量破五万感天下,智未来 首届全球无线感知竞赛SSC 2025正式启动2025世界人工智能大会中国电信发布系列前沿能力及AI产品百亿项目,难撑起蘑菇车联的商业化蓝图? 美的冰箱系列产品,为品质生活“鲜”行一步同驭汽车创始人舒强受邀出席WAIC人工智能精英夜话A.O.史密斯智慧瀞厨房:听得懂、做得对马可波罗控股IPO:以绿色与责任驱动企业迈向新发展买手机、平板、手表、电脑等骁龙产品来京东 每天10点限量抢大额券2025ChinaJoy开幕在即,贪玩“拾光街区”以品牌力量赋能游戏IP价值<第三届无线通信技术产业发展研讨会> 9月深圳启幕重磅发言嘉宾 | 第五届航空计量测试与检验检测发展论坛第八届电动工具与清洁电器双论坛即将亮相苏州美的空调科技开放日:在“气候游乐场”见证夏日清凉革命商汤大装置联合发布“算电协同平台” 建设绿色智算中心“样板间”蔡司全生命周期工业质量解决方案首秀比亚迪总部,共筑智造质量新生态尤金·休履新优创数据CFO:创新与合规协同,共塑保险数字化未来2025 WAIC“智算技术创新与行业实践” 论坛圆满落幕 共绘智算生态新蓝图协同前行,筑梦未来:美光芯片的全维度责任实践仙乐健康在WAIC开启AI配方引擎战略合作一汽奥迪携手抖音生活服务,官号直播“膨胀金”订单量破五万感天下,智未来 首届全球无线感知竞赛SSC 2025正式启动2025世界人工智能大会中国电信发布系列前沿能力及AI产品百亿项目,难撑起蘑菇车联的商业化蓝图?
  • 首页 > 云计算频道 > 大模型

    最新研究:AI模型在回答事实问题时表现拉胯, GPT-4o准确率才38.2%

    2024年10月31日 14:38:04 来源:AIbase基地

      最近,一项由 OpenAI 进行的研究显示,尽管人工智能技术飞速发展,当前最先进的语言模型在回答事实问题时的成功率却远低于预期。

      研究采用了 OpenAI 自家的 SimpleQA 基准测试,这个测试包含了4,326个,涵盖了科学、政治和艺术等多个领域,每个问题都有一个明确的正确答案。

      经过两名独立评审员的验证,结果显示,OpenAI 最好的模型 o1-preview 的准确率仅为42.7%,而 GPT-4o 则略低,只有38.2%。至于更小的 GPT-4o-mini,准确率甚至只有8.6%。相比之下,Anthropic 的 Claude 模型表现得更差,Claude-3.5-sonnet 的正确率仅为28.9%。

      这项研究的关键在于测试的设计,不仅仅是为了测试 AI 的表现,还为了让大家认识到 AI 模型在知识获取方面的局限性。研究者强调,用户在使用这些模型时,应该将其视为信息处理工具,而不是完全依赖的知识来源。为了获得更准确的回答,最好能为 AI 提供可靠的数据,而不是单纯依赖其内置的知识。

      值得注意的是,AI 模型对自身能力的估计往往过于乐观。研究人员发现,当这些模型被要求对自己的回答进行信心评分时,它们通常会给出夸大的准确性评分。在重复回答相同问题的测试中,即使模型多次给出相同答案,它们的实际成功率也仍低于其自我评估的准确性。这与外界对语言模型常常产生荒谬回答却显得信心满满的批评一致。

      研究者认为,当前的 AI 系统在事实准确性上存在明显的缺口,亟需改进。同时,他们也提出了一个开放性问题:AI 在回答简短事实问题的表现是否能预测其在处理更长、更复杂回答时的表现。为了支持更可靠的语言模型的开发,OpenAI 已经将 SimpleQA 基准测试的资料公开发布到 Github 上。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。