讯飞星火高考数学成绩稳居国内大模型第一梯队，深度推理大模型引领教育创新

2025年06月12日 14:08:41 来源：CITNews中文科技资讯

　　2025年高考数学结束后，关于数学考试难度的话题迅速引爆了热搜。

　　于此同时，一场人类考生与AI的数学较量也引发广泛关注。DeepSeek R1 0528、讯飞星火 X1-0420、GPT o3 等国内外主流深度推理大模型化身 "AI 考生"，在高考数学卷上展开激烈角逐。其中，讯飞星火X1以141分的优异成绩脱颖而出，稳居国内大模型第一梯队。

　　本次评测由IT之家发起，采用了多版本交叉验证结合老师解题验证的方式，总分设定为150分，并特别邀请了具有十年高中数学一线教研经验的专家辅助评分。参与评测的深度推理大模型共有七家，包括讯飞星火X1-0420、DeepSeek R1 0528、通义千问Qwen3-235B-A22B、豆包 Seed-Thingking-v1.5、文心X1 Turbo、腾讯混元Hunyuan T1 latest以及GPT o3。

　　在考试开始时，面对较为基础的选择题，各家大模型均有不错的表现。

　　然而，随着题目难度的不断上升，模型间的差异开始显现。比如在面对一道对数函数题时，DeepSeek都出现了错误。而到了解答题环节，各家比分开始进一步拉开差距。

　　根据测评的最终结果，本次参与测评的大模型大多达到了人类优秀考生的水准，相较去年有较大提升。其中，DeepSeek和讯飞星火X1表现突出，是唯二突破140分的大模型;豆包、通义千问、元宝等国产大模型分数则紧跟第三名GPT o3，接近国际顶尖的模型水平。

　　据悉，讯飞星火X1作为第一梯队的深度推理大模型，其版本相较于其他模型较早，同时模型量级也相对较小(70B)。但是在测评中，讯飞星火X1却展现出强大的推理能力。特别在解答题环节，讯飞星火都能够给出正确的答案和清晰明了的解题过程，并多次获得满分，其表现令人印象深刻。

　　值得一提的是，基于在教育领域深耕20多年的经验，讯飞星火X1在其他学科的测试中表现同样亮眼。比如在微博#AI高考作文盲评挑战#中，讯飞星火X1成功拔得头筹;在英语作文方面，讯飞星火X1同样在新京报的测评中夺得第一，展现出强大的语言能力。

　　随着AI技术的不断发展，深度推理大模型在教育领域的应用前景越来越广阔。讯飞星火作为其中的佼佼者，不仅为学生提供了有力的学习支持，更为教育行业的创新升级注入了新的活力。未来，我们有理由相信，讯飞星火将继续引领教育创新，为培养更多优秀人才贡献力量。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

海报生成中...

[No.X058-2]

即时

全球顶级AI创作社区回归！海艺AI国内首发“全民娱乐化创作

海艺AI的模型系统在国际市场上广受好评，目前站内累计模型数超过80万个，涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景，基本覆盖所有主流创作风格。

火山引擎具身智能闭门研讨会：大模型驱动具身智能产业新未

滴滴公益救援队驰援密云暴雨一线

讯飞星火高考数学成绩稳居国内大模型第一梯队，深度推理大模型引领教育创新

最新新闻

热门新闻

即时

全球顶级AI创作社区回归！海艺AI国内首发“全民娱乐化创作

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

讯飞星火高考数学成绩稳居国内大模型第一梯队，深度推理大模型引领教育创新

扩展阅读

最新新闻

热门新闻