中国空调头部阵营排名发生震荡WAIC 2025 | 具身智能加速发展,有望突破发展初期困难,实现质变X-Power IBM赋能创新中心今日在苏州启动运营 搭载IBM AI及自动化技术助力制造业数字化转型光亚鸿道获2.8亿元战略投资,国产操作系统生态加速成型美的冰箱系列产品,为品质生活“鲜”行一步同驭汽车创始人舒强受邀出席WAIC人工智能精英夜话A.O.史密斯智慧瀞厨房:听得懂、做得对马可波罗控股IPO:以绿色与责任驱动企业迈向新发展买手机、平板、手表、电脑等骁龙产品来京东 每天10点限量抢大额券2025ChinaJoy开幕在即,贪玩“拾光街区”以品牌力量赋能游戏IP价值<第三届无线通信技术产业发展研讨会> 9月深圳启幕重磅发言嘉宾 | 第五届航空计量测试与检验检测发展论坛第八届电动工具与清洁电器双论坛即将亮相苏州美的空调科技开放日:在“气候游乐场”见证夏日清凉革命商汤大装置联合发布“算电协同平台” 建设绿色智算中心“样板间”蔡司全生命周期工业质量解决方案首秀比亚迪总部,共筑智造质量新生态尤金·休履新优创数据CFO:创新与合规协同,共塑保险数字化未来2025 WAIC“智算技术创新与行业实践” 论坛圆满落幕 共绘智算生态新蓝图协同前行,筑梦未来:美光芯片的全维度责任实践仙乐健康在WAIC开启AI配方引擎战略合作
  • 首页 > 云计算频道 > 大模型

    讯飞星火高考数学成绩稳居国内大模型第一梯队,深度推理大模型引领教育创新

    2025年06月12日 14:08:41 来源:CITNews中文科技资讯

      2025年高考数学结束后,关于数学考试难度的话题迅速引爆了热搜。

      于此同时,一场人类考生与AI的数学较量也引发广泛关注。DeepSeek R1 0528、讯飞星火 X1-0420、GPT o3 等国内外主流深度推理大模型化身 "AI 考生",在高考数学卷上展开激烈角逐。其中,讯飞星火X1以141分的优异成绩脱颖而出,稳居国内大模型第一梯队。

      本次评测由IT之家发起,采用了多版本交叉验证结合老师解题验证的方式,总分设定为150分,并特别邀请了具有十年高中数学一线教研经验的专家辅助评分。参与评测的深度推理大模型共有七家,包括讯飞星火X1-0420、DeepSeek R1 0528、通义千问Qwen3-235B-A22B、豆包 Seed-Thingking-v1.5、文心X1 Turbo、腾讯混元Hunyuan T1 latest以及GPT o3。

      在考试开始时,面对较为基础的选择题,各家大模型均有不错的表现。

      然而,随着题目难度的不断上升,模型间的差异开始显现。比如在面对一道对数函数题时,DeepSeek都出现了错误。而到了解答题环节,各家比分开始进一步拉开差距。

      根据测评的最终结果,本次参与测评的大模型大多达到了人类优秀考生的水准,相较去年有较大提升。其中,DeepSeek和讯飞星火X1表现突出,是唯二突破140分的大模型;豆包、通义千问、元宝等国产大模型分数则紧跟第三名GPT o3,接近国际顶尖的模型水平。

      据悉,讯飞星火X1作为第一梯队的深度推理大模型,其版本相较于其他模型较早,同时模型量级也相对较小(70B)。但是在测评中,讯飞星火X1却展现出强大的推理能力。特别在解答题环节,讯飞星火都能够给出正确的答案和清晰明了的解题过程,并多次获得满分,其表现令人印象深刻。

      值得一提的是,基于在教育领域深耕20多年的经验,讯飞星火X1在其他学科的测试中表现同样亮眼。比如在微博#AI高考作文盲评挑战#中,讯飞星火X1成功拔得头筹;在英语作文方面,讯飞星火X1同样在新京报的测评中夺得第一,展现出强大的语言能力。

      随着AI技术的不断发展,深度推理大模型在教育领域的应用前景越来越广阔。讯飞星火作为其中的佼佼者,不仅为学生提供了有力的学习支持,更为教育行业的创新升级注入了新的活力。未来,我们有理由相信,讯飞星火将继续引领教育创新,为培养更多优秀人才贡献力量。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    [No.X058-2]

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。