亚娱热线
网站地图加入收藏
亚娱热线
  • 首页
  • 热点
  • 娱乐
  • 电影
  • 电视
  • 综艺
  • 音乐
  • 明星
  • 时尚
  • 演出
  • 快讯
亚娱热线 > 快讯 >

中文数学能力国内第一,讯飞星火X1“出道”即巅峰

时间:2025-01-19 22:49:37 来源:证券之星 阅读量:4347    阅读量:9122   

推理模型竞赛又添新玩家。1月15日,科大讯飞对外发布首个基于全国产平台训练的深度推理模型讯飞星火X1,该模型凭借更少的算力,实现了业界一流的效果,多项指标国内第一,并率先应用于真实场景。

目前,市面上的推理模型众多,但各家的侧重点并不相同。比如DeepSeek着重强调其通过强化学习训练,可以对外展现更长的思维链。通义团队多次强调QwQ的深度自省能力,模型在思考过程中会质疑其自身假设,审视推理过程。月之暗面则更强调k0-math的数学能力,称其数学能力可以与OpenAI的o1系列模型媲美。

科大讯飞最新发布的推理模型X1多项指标实现国内第一。发布会上,科大讯飞展示了讯飞星火X1解答高考题、AIME竞赛题以及高中奥赛题的表现。

X1不仅准确给出答案,还可以对解题思路和步骤进行详细拆解,充分展现深度推理模型的三大典型特征:一、化繁为简,将复杂问题分步拆解简化;二、进行自我探索和反思验证;三、基于答案正确与否的优质反馈信息进行强化训练。

以一道2024年全国高中联合数学竞赛的无穷等比数列求和问题为例,分别在网页端提问讯飞星火X1与DeepSeekV3、Kimi中的最新推理模型。

三者均展现出当下推理模型的典型特征,比如能够针对对复杂问题进行分步拆解,也会在求解过程中不断进行自我反思验证。

不过,相较于讯飞星火X1在解答过程中动态展示思维步骤不同,DeepSeek对外强调的思维链条有些过长,一定程度上影响了用户与模型的交互。Kimi则是将思考过程与模型回答融为一体,却没有给出一个总结性的解题步骤,不够直观。

在回答准确率上,我们引用包括小初高、大学、AIME、MATH500等多项数学考试测试数据进行对比。其中,讯飞星火X1多项指标均获国内第一。在多个中文考试测试的比拼中,讯飞星火X1得分都超过DS-R1-Lite-Preview、QwQ-32B-Preview、K1-math等众多推理模型,中文数学能力国内第一。

更难能可贵的是,这份成绩还是基于全国产算力平台得来的。和市面上常见的其他模型不同,讯飞星火X1是目前全国产算力平台上唯一的深度推理模型,用更少的算力,实现了业界一流效果。

这样的成绩十分难得。一直以来,讯飞星火都坚持全国产化路线,讯飞星火至今仍然是国内唯一基于全国产算力平台的大模型。但推理模型的训练与大语言模型有诸多不同,仍然面临不少挑战。科大讯飞迎难而上,携手华为成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题,最终成功基于全国产算力平台训练出深度推理模型X1。

之所以讯飞星火X1一出世就能在多项数学测试中取得亮眼成绩,和此前讯飞星火着重提升的数学能力不无关系。事实上,一直以来讯飞星火都是数学能力最强的大模型之一。此前,讯飞星火4.0Turbo就在数学和代码能力上实现对GPT-4o的超越,完成了超长思维链、树搜索和自我反思评价等算法的验证。

去年高考期间,多家媒体和专业人士用高考数学题对市面上的大模型进行测评比试,讯飞星火表现出色,领先一众同行。

在搜狐科技针对国内十余家大模型的高考数学能力评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。

这次着重提升了深度推理能力的X1,则是将讯飞星火一直见长的数学能力再度提升一个维度。相较于此前的大语言模型,讯飞星火X1从训练方法、训练数据乃至架构上都有所不同,数学和推理能力显著提升。

技术迭代之外,科大讯飞率先将推理模型应用到教育、医疗等真实刚需场景之中。搭载了星火X1的高中数学智能教师助手,已被一线教研员和教师用来解答高中数学创新题和考试题。在医疗场景下,X1的相关技术和策略也取得了初步验证成效,可使得专科辅助诊断和复杂病历内涵质控的准确率均达90%。

大模型时代的迭代速度远超以往,一家公司的领先往往只能持续数月乃至数周,稍有不慎就会被后来者超越,此次讯飞星火X1出道即“巅峰”也正说明了这一点。唯有不断从底层攻难克坚,真正从源头实现自主可控,才能在日益飞速技术迭代立于不败之地。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

猜你喜欢
  • 高级制表品牌为何偏爱赛车运动?

    高级制表品牌为何偏爱赛车运动?

  • 《王牌育儿师》家庭育儿有“奇招” 陈铭惠若琪分享育儿观

    《王牌育儿师》家庭育儿有“奇招” 陈铭惠若琪分享育儿

  • 俏花旦、大青衣、刀马旦齐聚首 《戏宇宙》第四期绽放巾帼不让须眉“她”力量

    俏花旦、大青衣、刀马旦齐聚首 《戏宇宙》第四期绽放巾

  • TOM FORD香氛展现度假胜地风韵,华南首家Vans Boutique Store启幕

    TOM FORD香氛展现度假胜地风韵,华南首家Van

  • 郭采洁解锁前卫摩登大片 受邀看展用音乐致敬艺术先驱

    郭采洁解锁前卫摩登大片 受邀看展用音乐致敬艺术先驱

  • 蔡翊写真演绎黑白双面时尚 主演《如果从没爱过你》正在热播

    蔡翊写真演绎黑白双面时尚 主演《如果从没爱过你》正在

  • 陈赫Charmcover中文版杂志大片释出 风格慵懒尽显绅士气质

    陈赫Charmcover中文版杂志大片释出 风格慵懒

  • 李光洁白色西装徜徉花海 参观“初绽”艺术展

    李光洁白色西装徜徉花海 参观“初绽”艺术展

热点内容
  • 男性四价HPV疫苗上海首针落地10岁男孩
  • 2024年前11月西藏外贸额112.2亿
  • 突破5000万,打破中国影史纪录!
  • 方案创新、流水转型、走向全球
  • 今年前11个月洋山特殊综合保税区进出境货
  • 2024年澳康达献呈上海的答卷:年交易额
  • 上图展“有颜如玉”,看馆藏历史文献中的女
  • 美团企业版总经理康凯:供应链整合、场景管
  • “SDGsNEXT”“SDGsNEXT”
  • 北京人艺新戏《罗慕路斯》首演荒诞中见哲思
精彩推荐
“搜狐25周年庆典暨搜狐时尚盛典”开启 黄晓明获“匠心人物”倪妮摘“表现力人物”

“搜狐25周年庆典暨

舒淇亮相MICHAEL KORS JetSet穿行视界品牌活动 摇曳生姿松弛明媚

舒淇亮相MICHAE

李光洁《艺乐》9月刊公益大片释出 携手罕见病乐队8772为爱呐“罕”

李光洁《艺乐》9月刊

郭采洁着酷飒西装出席活动 鬼马上演分身之术

郭采洁着酷飒西装出席

“剧抛脸”任嘉伦再出圈,周生辰、长意反差巨大前后却只差18天!

“剧抛脸”任嘉伦再出

苏有朋出席中国电影大数据盛典 胡子造型展全新风格

苏有朋出席中国电影大

文章排行
1瑞新康达RESCOND与沃尔沃AED道
2“微格分色”助力探索社区治理新路径丨基
3操盘力帆旷视科技可否“借车还魂”
4深圳去年国谈药医保使用23.9亿元惠及
5美利肯地材亚太区高级设计与市场总监Li
6罗氏诊断中国荣获2025《商业周刊》彭
7全方位建设模范自治区暨“科技兴蒙产才融
8“修炼”7年,这个医联体年门诊量达30
9两会之声|代表建言青年就业:倡导多元就
10外资券商+1!城堡证券中国正申请设立,
热门关注
17岁荣梓杉荣获东方卫视“品质新人”
17岁荣梓杉荣获东方卫视“品质新人” 少年锋芒未来可期

日前,”剧耀东方·2023电视剧品质盛典“在东方卫视播出。作为中国电视剧业界重要盛会...

JJ林俊杰与千万乐迷相聚《咖啡调调》
JJ林俊杰与千万乐迷相聚《咖啡调调》 共度平安夜 限定版音乐会

《JJ20》世界巡回演唱会行程满档之下,JJ林俊杰不负期待和约定,于12月24日平安...

要爱要爱日特别呈现丨歌手REEBX全新
要爱要爱日特别呈现丨歌手REEBX全新单曲《南半球圣诞夜》

创作歌手REEBX发布新单曲《南半球圣诞夜》在12月12日“要爱要爱日”正式上线,这...

郭沁新歌《很想告诉你》温柔上线 呢喃吟
郭沁新歌《很想告诉你》温柔上线 呢喃吟唱治愈悲伤心灵

近日,「纯净女声」郭沁全新单曲《很想告诉你》正式发布,纯美空灵的声线将歌曲中温柔的悲...

许靖韵《我们的歌》与杨丞琳同台演唱《暧
许靖韵《我们的歌》与杨丞琳同台演唱《暧昧》 唤起观众青春回忆

10月14日,东方卫视《我们的歌》第四季播出第四期节目,B组配对成功后开启首轮公演,...

关于我们 |  免责声明 | 联系我们 | 网站地图 | RSS订阅

Copyright @2010- www.yulecctv.com. All Rights Reserved 亚娱热线 版权所有  备案号:皖ICP备2023007381号

本站所有资源来源于互联网网友交流,只供网交流所用、所有权归原权利人,如有关侵犯了你的权益,请联系告之,我们将于第一时间删除!邮箱:bgm1231@sina.com