亚洲文娱网
网站地图加入收藏
亚洲文娱网
  • 首页
  • 热点
  • 娱乐
  • 电影
  • 电视
  • 综艺
  • 音乐
  • 明星
  • 时尚
  • 演出
  • 快讯
亚洲文娱网 > 快讯 >

KimiK2Thinking模型发布并开源,全面提升Agent和推理能力

时间:2026-02-03 05:24:35 来源:投资界 阅读量:5292    阅读量:14015   

近日,月之暗面发布Kimi K2 Thinking—— Kimi 迄今能力最强的开源思考模型。

Kimi K2 Thinking 是基于「模型即 Agent」理念训练的新一代Thinking Agent,它原生掌握「边思考,边使用工具」的能力。在人类最后的考试、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到 SOTA 水平,并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。

Kimi K2 Thinking 模型无需人类干预,即可自主实现高达 300 轮的工具调用和持续稳定的多轮思考能力,从而帮助用户解决更复杂的问题。这是在 Test-Time Scaling领域的最新进展,通过同时扩展思考 Token 和工具调用的轮次,实现更强的 Agent 和推理性能。

Kimi K2 Thinking 模型的 API 可通过 Kimi 开放平台访问。如需自行部署,请在Hugging Face、ModelScope等平台下载模型。

推理性能全面提升

Kimi K2 Thinking 模型在人类最后的考试中展现出强大的推理与问题解决能力。人类最后的考试是一项涵盖 100 多个专业领域的*封闭式学术测试。在允许使用工具——搜索、Python、网络浏览工具的同等情况下,Kimi K2 Thinking 在这项基准评测中取得了 44.9% 的 SOTA 成绩。

来看一个人类最后的考试中人文类题目推理过程示例。在这个示例中,Kimi K2 Thinking 经过 5 轮搜索和推理,结合每轮搜索到的新信息,层层深入,最终推理出了答案:

完整推理过程

自主搜索与浏览能力全面提升

在复杂搜索和浏览场景中,Kimi K2 Thinking 模型也表现出色。BrowseComp 是由 OpenAI 发布的一个专门评估 AI Agent 网络浏览能力的基准测试,这项测试的初衷是衡量 AI Agent 在信息过载环境中展现出的坚持性与创造力,即能否像人类研究员一样「刨根问底」。在这项*挑战的任务上,人类平均只能达到 29.2% 的成绩。Kimi K2 Thinking 在这项基准测试中展现出极强的钻研能力,以 60.2% 的成绩成为新的 SOTA 模型。

在长程规划和自主搜索能力的驱动下,Kimi K2 Thinking 可借助多达上百轮的“思考 搜索 浏览网页 思考 编程”动态循环,持续地提出并完善假设、验证证据、进行推理,并构建出逻辑一致的答案。这种边主动搜索边持续思考的能力,使 Kimi K2 Thinking 能够将模糊且开放式的问题分解为清晰、可执行的子任务。

完整推理过程

Agentic 编程能力持续精进

Kimi K2 Thinking 模型的编码能力也得到了增强,在多语言软件工程基准 SWE-Multilingual、SWE-bench 验证集和 Terminal 终端使用等基准测试中的表现有了进一步提升。

观察到 Kimi K2 Thinking 在处理 HTML、React 以及组件丰富的前端任务时性能有明显提升,能将创意转变为功能齐全、响应式的产品。在 Agentic Coding 场景中,Kimi K2 Thinking 能在调用各种工具的同时进行思考,灵活地融入 software agents 中,处理更复杂、多步骤的开发工作流。

来看两个例子:

现在,Kimi K2 Thinking 可以帮你复刻一个真实可用的 Word 文字编辑器。

Kimi K2 Thinking 也可以帮你创造一个华丽风格的体素艺术作品:

通用基础能力升级

创意写作:Kimi K2 Thinking 显著提升了写作能力,它能将粗略的灵感转化为清晰、动人且意图明确的叙述,使其兼具韵律感和深度。它能轻松驾驭微妙的文风差异和模糊的结构,并在长篇大论中保持风格的连贯性。在创意写作方面,它笔下的意象更生动,情感共鸣更强烈,将精准的表达与丰富的表现力融为一体。

学术与研究:在学术研究和专业领域,Kimi K2 Thinking 在分析深度、信息准确性和逻辑结构方面均有显著提升。它能有条不紊地剖析复杂的指令,并以清晰严谨的方式拓展思路。这使其尤其擅长处理学术论文、技术摘要,以及那些对信息完整性和推理质量要求极高的长篇报告。

个人与情感:在回应个人或情感类问题时,Kimi K2 Thinking 的回答更富同理心,立场也更中正平和。它的思考深入周到且具体明确,能提供细致入微的观点和切实可行的后续建议。它能清晰并关切地帮助用户梳理复杂的决策,其语气既脚踏实地又切实中肯,更有人情味。

来看一个辅助阅读英文技术论文的例子:

完整分析过程

原生 INT4 量化提升推理效率

低比特量化是降低大规模推理服务器的延迟和 GPU 显存占用的有效方法。测试发现,因为思考模型会产生极长的解码长度,常规的量化手段往往会导致模型性能大幅下降。为了克服这一挑战,在后训练阶段采用了量化感知训练(QAT),并对 MoE 组件应用了 INT4 纯权重(weight-only)量化。

这使得 Kimi K2 Thinking 模型能够在复杂推理和 Agentic 任务中支持原生的 INT4 推理,并将生成速度提升了约 2 倍。INT4 对推理硬件的兼容性更强,对国产加速计算芯片也更加友好。值得注意的是,所有的基准测试成绩都是在 INT4 精度下取得的。

现在开始使用

Kimi K2 Thinking 模型 API 已上架 Kimi 开放平台,支持 256K 上下文,价格与 Kimi K2-0905 相同,每百万 Token 输入 4 元,输出 16 元,命中缓存的输入为 1 元。速度高达 100 Token/s 的 Turbo API 也同步上架,每百万Token输入 8 元,输出 58 元,命中缓存的输入为 1 元。欢迎开发者测试反馈新模型 API,入门指南请参考此文档。

更多模型性能评估数据和使用案例,可参考这篇技术博客。

关于 Kimi K2 模型Kimi K2 模型最初发布于 7 月 11 日,它是一款混合专家架构的开源基础模型,总参数 10,000 亿,激活参数 320 亿。9 月 5 日,Kimi K2-0905 版更新,进一步提升了代码能力,并且将上下文窗口从 128K 升级到 256K。截止目前,包括 Cline、Cursor、flowith、Genspark、Kilo Code、Kortix Suna、OpenRouter、Perplexity、RooCode、TRAE、Trickle、Vercel、Windsurf 、YouWare 等在内的产品都接入或在使用 Kimi K2 模型。11 月 6 日,Kimi K2 Thinking 模型发布,全面提升 Agent 和推理能力。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

猜你喜欢
  • 高级制表品牌为何偏爱赛车运动?

    高级制表品牌为何偏爱赛车运动?

  • 《王牌育儿师》家庭育儿有“奇招” 陈铭惠若琪分享育儿观

    《王牌育儿师》家庭育儿有“奇招” 陈铭惠若琪分享育儿

  • 俏花旦、大青衣、刀马旦齐聚首 《戏宇宙》第四期绽放巾帼不让须眉“她”力量

    俏花旦、大青衣、刀马旦齐聚首 《戏宇宙》第四期绽放巾

  • TOM FORD香氛展现度假胜地风韵,华南首家Vans Boutique Store启幕

    TOM FORD香氛展现度假胜地风韵,华南首家Van

  • 郭采洁解锁前卫摩登大片 受邀看展用音乐致敬艺术先驱

    郭采洁解锁前卫摩登大片 受邀看展用音乐致敬艺术先驱

  • 蔡翊写真演绎黑白双面时尚 主演《如果从没爱过你》正在热播

    蔡翊写真演绎黑白双面时尚 主演《如果从没爱过你》正在

  • 陈赫Charmcover中文版杂志大片释出 风格慵懒尽显绅士气质

    陈赫Charmcover中文版杂志大片释出 风格慵懒

  • 李光洁白色西装徜徉花海 参观“初绽”艺术展

    李光洁白色西装徜徉花海 参观“初绽”艺术展

热点内容
  • 盐城东台市安丰镇:绘就秋收丰景,助推乡村
  • 从千年“土货”到现代产业浙南糯米山药蹚出
  • 天津企业签下1.1亿美元订单“智能工厂2
  • 雅培助力女性健康支持建设生育友好型社会
  • 中国工程机械工业协会:10月销售各类挖掘
  • 澳门:第三季度新成立公司1257间净增长
  • 第八届进博会进博会“磁吸效应”满满新老朋
  • 首发|睿思芯科获深圳国资等多方加码,加速
  • 赫力昂八度参展进博会以科学创新践行主动健
  • WhatYouCannotMissatt
精彩推荐
“搜狐25周年庆典暨搜狐时尚盛典”开启 黄晓明获“匠心人物”倪妮摘“表现力人物”

“搜狐25周年庆典暨

舒淇亮相MICHAEL KORS JetSet穿行视界品牌活动 摇曳生姿松弛明媚

舒淇亮相MICHAE

李光洁《艺乐》9月刊公益大片释出 携手罕见病乐队8772为爱呐“罕”

李光洁《艺乐》9月刊

郭采洁着酷飒西装出席活动 鬼马上演分身之术

郭采洁着酷飒西装出席

“剧抛脸”任嘉伦再出圈,周生辰、长意反差巨大前后却只差18天!

“剧抛脸”任嘉伦再出

苏有朋出席中国电影大数据盛典 胡子造型展全新风格

苏有朋出席中国电影大

文章排行
1Cybercab亚太首秀,明年二季度计
2江苏:职业本科高质量发展助力教育强省建
3南通崇川区钟秀街道开展“走进园区服务企
4中国经典车拉力赛在琼海开幕
5北京市东城区在港举办专题推介活动,12
6新华网思客年会专家观察临汾:新一轮产业
7江苏睢宁:中草药产业成富民增收“黄金名
8深圳新型储能产业基金等成立智慧能源私募
9晋味飘香新华园
10小朋友研学记:这一站,「黑神话:悟空」
热门关注
17岁荣梓杉荣获东方卫视“品质新人”
17岁荣梓杉荣获东方卫视“品质新人” 少年锋芒未来可期

日前,”剧耀东方·2023电视剧品质盛典“在东方卫视播出。作为中国电视剧业界重要盛会...

JJ林俊杰与千万乐迷相聚《咖啡调调》
JJ林俊杰与千万乐迷相聚《咖啡调调》 共度平安夜 限定版音乐会

《JJ20》世界巡回演唱会行程满档之下,JJ林俊杰不负期待和约定,于12月24日平安...

要爱要爱日特别呈现丨歌手REEBX全新
要爱要爱日特别呈现丨歌手REEBX全新单曲《南半球圣诞夜》

创作歌手REEBX发布新单曲《南半球圣诞夜》在12月12日“要爱要爱日”正式上线,这...

郭沁新歌《很想告诉你》温柔上线 呢喃吟
郭沁新歌《很想告诉你》温柔上线 呢喃吟唱治愈悲伤心灵

近日,「纯净女声」郭沁全新单曲《很想告诉你》正式发布,纯美空灵的声线将歌曲中温柔的悲...

许靖韵《我们的歌》与杨丞琳同台演唱《暧
许靖韵《我们的歌》与杨丞琳同台演唱《暧昧》 唤起观众青春回忆

10月14日,东方卫视《我们的歌》第四季播出第四期节目,B组配对成功后开启首轮公演,...

关于我们 |  免责声明 | 联系我们 | 网站地图 | RSS订阅

Copyright @2010- www.yulecctv.com. All Rights Reserved 亚洲文娱网 版权所有  备案号:皖ICP备2023007381号

本站所有资源来源于互联网网友交流,只供网交流所用、所有权归原权利人,如有关侵犯了你的权益,请联系告之,我们将于第一时间删除!邮箱:bgm1231@sina.com