2025年高考数学结束后,关于数学考试难度的话题迅速引爆了热搜。
于此同时,一场人类考生与AI的数学较量也引发广泛关注。DeepSeek R1 0528、讯飞星火 X1-0420、GPT o3 等国内外主流深度推理大模型化身 "AI 考生",在高考数学卷上展开激烈角逐。其中,讯飞星火X1以141分的优异成绩脱颖而出,稳居国内大模型第一梯队。
本次评测由IT之家发起,采用了多版本交叉验证结合老师解题验证的方式,总分设定为150分,并特别邀请了具有十年高中数学一线教研经验的专家辅助评分。参与评测的深度推理大模型共有七家,包括讯飞星火X1-0420、DeepSeek R1 0528、通义千问Qwen3-235B-A22B、豆包 Seed-Thingking-v1.5、文心X1 Turbo、腾讯混元Hunyuan T1 latest以及GPT o3。
在考试开始时,面对较为基础的选择题,各家大模型均有不错的表现。
然而,随着题目难度的不断上升,模型间的差异开始显现。比如在面对一道对数函数题时,DeepSeek都出现了错误。而到了解答题环节,各家比分开始进一步拉开差距。
根据测评的最终结果,本次参与测评的大模型大多达到了人类优秀考生的水准,相较去年有较大提升。其中,DeepSeek和讯飞星火X1表现突出,是唯二突破140分的大模型;豆包、通义千问、元宝等国产大模型分数则紧跟第三名GPT o3,接近国际顶尖的模型水平。
据悉,讯飞星火X1作为第一梯队的深度推理大模型,其版本相较于其他模型较早,同时模型量级也相对较小(70B)。但是在测评中,讯飞星火X1却展现出强大的推理能力。特别在解答题环节,讯飞星火都能够给出正确的答案和清晰明了的解题过程,并多次获得满分,其表现令人印象深刻。
值得一提的是,基于在教育领域深耕20多年的经验,讯飞星火X1在其他学科的测试中表现同样亮眼。比如在微博#AI高考作文盲评挑战#中,讯飞星火X1成功拔得头筹;在英语作文方面,讯飞星火X1同样在新京报的测评中夺得第一,展现出强大的语言能力。
随着AI技术的不断发展,深度推理大模型在教育领域的应用前景越来越广阔。讯飞星火作为其中的佼佼者,不仅为学生提供了有力的学习支持,更为教育行业的创新升级注入了新的活力。未来,我们有理由相信,讯飞星火将继续引领教育创新,为培养更多优秀人才贡献力量。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。