您的位置:首页 > 金融 >

国产大模型同日转向:DeepSeek向左,Kimi向右,拼落地的时代开始了? 要闻

2026-01-29 12:10:08 来源: 雷科技

1月27日,两家最受关注的国内大模型初创公司,几乎同时放出了各自最新

1 月 27 日,两家最受关注的国内大模型初创公司,几乎同时放出了各自最新、也是分量最重的一次开源更新:

DeepSeek 发布并开源了 DeepSeek-OCR 2,这是其在去年震动行业的 DeepSeek-OCR 基础上的一次关键升级;Kimi 同样发布并开源了 K2.5,继续推进其超长上下文、多模态与「智能体化」路线。


【资料图】

表面看,这是两次方向不同的模型迭代。

DeepSeek-OCR 2 重新回答「模型究竟该如何『读』信息」,通过新的视觉编码机制,让大模型学习人类的视觉逻辑,把原本昂贵、冗长的文本输入压缩为更高密度的「视觉语义」。

简单来说,它试图改变 AI「读文档」的方式,让模型不用再把一整本文件拆成成千上万个字「硬读」,而是像人一样先看版面、抓重点,再理解含义。这意味着,将来让 AI 帮你读长文档、查资料、扒表格,可能会更快、更便宜,也更靠谱。

图片来源:DeepSeek

Kimi K2.5 则走向另一个方向:不只回答问题,而是把 AI 往「能干活」的方向再推一步。更长的记忆、更强的多模态理解,再加上对复杂任务的拆解和执行能力,指向的是一种更接近「数字助理」的体验,而不是一个只会对话的聊天窗口。

Kimi 就宣称其为迄今最智能、最全能的模型,同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。

图片来源:Kimi

一个聚焦语言模型输入效率的变革,一个聚焦通用智能与复杂任务协作能力。但放在同一时间点,它们共同指向了一个更重要的问题:大模型的能力升级,正在从「参数和对话能力」,转向更底层、更工程化的能力重构。

AI 正在升级的,已经不只是更聪明的大脑。

从输入到干活的进化,国产 AI 的两条升级路线

去年发布的 DeepSeek-OCR,第一次让行业意识到,大模型基于单词和 Token 逐个输入的方式本身可以被重做。到了最新发布的 DeepSeek-OCR 2,更是解决了一个更具体、也更困难的问题:模型到底该怎么「读」一份复杂文档。

过去,AI 处理文档的方式非常机械。无论是 PDF、合同还是财报,本质上都是先被拆成一段段文字,再按顺序塞进模型里。这种方式的问题很明显:

一方面,长文档会迅速消耗上下文窗口,成本高、效率低;另一方面,表格、多栏排版、注释和正文之间的关系,经常在「拆字」的过程中被破坏。

DeepSeek 在 OCR-2 中给出的答案,是进一步强化其「视觉编码」思路,不再把文档当作一串文字,而是当作一个需要被「阅读」的视觉对象。

相比一代,OCR 2 的关键变化不只是压缩率,而是引入了更接近人类阅读习惯的逻辑,从上一代的 CLIP(切片)架构转向以 Qwen2 为基础的 LM(语言模型)视觉编码器。模型不再是同时、平均地处理整页内容,而是学会区分结构:

哪里是标题,哪里是表格,哪些信息彼此相关,哪些需要先读、哪些可以后看。

运作示意图,图片来源:DeepSeek

换句话说,它开始理解「版面本身就是信息的一部分」。

这种变化带来的直接价值,并不体现在「模型更聪明」这样的抽象评价上,而是体现在一系列非常具体的体验提升上。比如,当你让 AI 帮你快速看完一份几十页的报告时,它不再需要把每一个字都读完,才能给出结论;在处理复杂表格时,也不再频繁出现列错位、字段错配的问题。

更重要的是,由于输入被高度压缩,同样的任务可以用更低的成本、更短的时间完成。这也是为什么 DeepSeek-OCR 2 对真正的 AI 应用来说意义更大,它有潜力让 AI 更适合被放进真实的文档流程里,无论是检索、比对、摘要,还是结构化信息抽取。

在这个意义上,OCR 2 解决的不是一个模型能力问题,而是一个长期存在的「用起来不顺」的问题。

而相比 DeepSeek-OCR 2 把 AI 的「输入端」重做了一遍,Kimi K2.5 关注的,则是 AI 代理完成复杂任务的能力。

事实上,今天问题问得再复杂,AI 也能回答;可一旦涉及多步骤、多材料、需要反复引用上下文的任务,模型就很容易「忘前忘后」,或者停留在建议层面。AI 的能力已经相当成熟,不过很多用户还都是类似的体验。

Kimi 在 K2.5 中,继续把重心放在「长记忆 + 多模态 + 智能体」这条路线上,本质上是在尝试让 AI 从「答题模式」,走向「执行模式」。

一方面,超长上下文让模型可以在更长时间内记住对话、资料和中间结论,减少反复解释的成本;另一方面,多模态能力让 AI 不只处理文字,还能理解图片、界面截图甚至更复杂的输入形式。

更关键的,是对「智能体」能力的持续强化。Kimi 不再只是回答你「应该怎么做」,而是尝试把任务拆解成多个步骤,并且实现了「Agent 集群」,能在不同阶段调用不同能力,最终给出一个相对完整的结果。这种能力,决定了 AI 能否真正进入工作流,而不是只停留在咨询助手的位置。

图片来源:Kimi

这也是 Kimi K2.5 强调自己「更全能」的原因所在。它追求的,并不是某一个能力点的极限,而是能否承接更长、更复杂、更接近真实工作的任务链条。

大模型这一轮,开始卷「能不能真的用起来」

从 DeepSeek-OCR 2 和 Kimi K2.5 往外看,会发现最近半年的一批主流大模型,升级方向其实异常一致。无论是 OpenAI 的 GPT-5.2、Anthropic 的 Claude 4.5,还是 Google 的 Gemini 3,再到字节跳动的豆包 1.8、阿里巴巴的千问 Qwen3-Max-Thinking,它们不约而同地把重心从「模型有多强」,挪到了一个更现实的问题上:

让 AI 更深一步进入真实的工作环境。

这也是为什么,这一轮升级很少再强调参数规模和单点能力,而是反复围绕几件事打磨:记得住、看得懂、接得住流程、干得完事情。

首先被集体拉高的,是「记忆」这件事。

过去,大模型更像是短期对话高手,擅长当下回答,却很难长期协作。一旦任务变长、材料变多,就需要用户不断重复背景。最近这一批模型的升级,几乎都在解决这个痛点:更长的上下文、更稳定的状态保持,让模型能够跟着任务一路往前走,而不是走两步就「失忆」。

GPT-5.2 把长上下文和不同推理模式直接产品化,Kimi K2.5 则把超长上下文嵌进智能体流程,让模型在多步骤执行中记住中间结果。这些变化都在让 AI 不再只是回答一个问题,而是有能力帮用户做好一件事。

其次,是对「看」这件事的重新理解。

如果说过去的多模态更多是「能识图」,那么现在的升级重点,是「能不能看懂」。DeepSeek-OCR 2 代表的,是一种更激进也更务实的方向:不再把视觉当成文字的前置步骤,而是直接把视觉当作信息本身,让模型像人一样先理解结构、版面和关系,再进入语义层。

这种变化并不只发生在文档场景。无论是 GPT、Claude 还是 Gemini,都在强化对截图、界面、复杂图像的理解能力。

图片来源:Gemini

现实世界的信息,本来就不是一行一行排好的文本。当模型开始真正理解「图像里信息是怎么组织的」,AI 才可能更自然地嵌入真实环境,而不是只活在纯文本的对话框里。

再往下,是这一轮升级里最容易被忽视、却最关键的变化:AI 的角色转移。

过去,大模型更像是「顾问」,给建议、给答案,但不负责结果。而现在,越来越多模型开始被设计成「执行者」。Kimi K2.5 强调智能体,本质上是在让模型学会拆任务、接工具、跑流程;GPT-5.2 把不同推理模式与工具调用结合,也是在降低「从建议到执行」的断层。

当 AI 开始接手的是一整段流程,而不是某一个问题,对它的价值判断标准也随之改变,关键在于「说得对不对」,而在于能不能跑完、稳不稳。这也是为什么,这一轮升级中,「工程化」的重要性被反复提到。

国内 AI 在这一点上动作尤为明显。DeepSeek、Kimi、千问、豆包,都在强调模型是否好部署、是否好接入现有系统、是否能跑在真实业务里。另一方面,国内外 AI 过去一年都在强调通过更强的产品封装,把复杂能力隐藏在界面和服务之下。实际上目标一致,都是让 AI 不再停留在「演示」,而是「可用」「好用」。

写在最后

没有哪个模型做到了「通用智能(AGI)」,但把时间线再拉长一点看,更多变化发生在不那么「夺目」的地方:输入方式被重新设计,任务开始被拆解和接管,模型被要求在更长时间、更复杂流程中保持稳定。

当模型开始被认真地放进真实的日常生活和工作环境中,被反复验证、反复调用,它的价值衡量标准也随之改变。不再是谁的参数更大、回答更惊艳,而是谁更省成本、更少出错、更值得长期依赖。

从这个角度看,DeepSeek-OCR 2 和 Kimi K2.5 的意义,并不只在于它们各自解决了什么问题,而在于它们代表了一种更现实的共识:AI 迈入真实世界的下一步,必须迈出问答。

关键词: 国产 文档 能力 DeepSeek 转向 模型

精选 导读

百合花语 百合的花语是什么

百合花的花语是纯洁、热烈的爱和永远幸福。因其外貌的洁白纯净,故有着

发布时间: 2023-06-19 10:35
互联网   2023-06-19

古代的剔骨之刑是指什么 古代的剔骨之刑是指什么刑法_微动态

刽子手把重要的骨头直接拔出来,血肉还在身上,比如蝴蝶骨、锁骨、颈椎

发布时间: 2023-06-19 10:57
互联网   2023-06-19

当前资讯!王漫妮结局是跟谁在一起了 王漫妮结局介绍

1、王漫妮结局离开了梁正贤,她去留学了,她并不因为年龄而焦虑,三十

发布时间: 2023-06-19 10:45
互联网   2023-06-19

焦点热门:veromoda是什么牌子 veromoda中文叫什么

知名女装品牌。veromoda中文名字是维莎曼。来自丹麦的北欧风情,曾经奢

发布时间: 2023-06-19 10:45
互联网   2023-06-19

豹房是干什么用的 何谓豹房|天天速看

1、豹房就是供皇帝骄奢淫欲的场所,劳民伤财。2、明朝的朱厚照(正德皇

发布时间: 2023-06-19 10:47
互联网   2023-06-19

fat32和ntfs的区别 fat32和ntfs有什么不同

​fat32和ntfs的区别主要有:1 安全属性,ntfs安全属性更高;2 推出时

发布时间: 2023-06-19 10:55
互联网   2023-06-19

焦点速看:环肥燕瘦的意思 词语环肥燕瘦的意思

1、这则成语意思是形容美人有不同的体态而各擅其美,也借喻艺术作品风

发布时间: 2023-06-19 10:45
互联网   2023-06-19

形容高兴的成语有哪些 形容高兴的成语有哪些? 环球聚焦

形容高兴的成语有:1、冁然而笑:高兴地笑起来。2、得意忘形:形容高兴

发布时间: 2023-06-19 10:54
互联网   2023-06-19

飞字组词 飞字组词有哪些 世界播报

1、飞鹰走马[fēiyīngzǒumǎ]:放鹰追捕和骑马追逐鸟兽。指打猎。2、

发布时间: 2023-06-19 10:33
互联网   2023-06-19

獴是什么动物 獴的生活习性

1、獴是一种小型的哺乳动物,而且獴也是一些长身、长尾而四肢短的动物

发布时间: 2023-06-19 10:48
互联网   2023-06-19

热门TAG

more
中国外贸网简介 重磅突发!王思聪在上海打人?警方刚刚通报 女子随手捐10元4个月后收到还款道谢 看到回复破防 国内猪肉价格开启新一轮周期?专家:国家调控政策正在起作用 彩电市场价格持续走低:50英寸千元轻松购还会降价吗? 鹤岗中介谈1.5万全款买房:别冲动 详情曝光系40年房龄的老房子价格自然便 稳外贸 福建拓“新”途 福建也积极开辟国际物流新通道 这条名为BarMar的能源运输路线以帮助缓解欧洲所面临的能源危机 宁波银行:聚焦主责主业,更好服务实体经济 重磅利好!涉房企业A股融资审核放宽,“白名单”浮出水面 能源是经济发展的动力源泉 美国经济萧条对汽车和电力市场的冲击力有多 多头酝酿更大爆发!美元有望再大涨近百点 广西北部湾畔崛起国际大港 商企耕耘十年等来春暖花开时 中国A股半导体板块周四大涨 十年时间增长超1200亿元 2021年创造天津市进出口历史最高纪录 天津口岸完成进出口贸易值2381亿美元 较2012年增长16.6% 深圳机场口岸通过发挥东南亚航线优势 不断丰富进口水果品类 国际航线(含港澳台)日均执行客运航班量达143班次 创今年新高 待中吉乌铁路建成后 将高效联通中欧班列的中通道与南通道线路 中国与RCEP成员国经过陆海新通道进出口总量52068标箱 国航已率先在空客、波音机型上开展可持续航空燃料应用 中国制造业屡创奇迹 牢牢站稳世界“C位” 今年新疆不断加大能源增产增供力度 新疆煤炭产量增长31.1%、排全国第2位 陶悦群计划围绕大健康等产业进行增资扩产 光伏电站位于Kharsaa地区 是卡塔尔首个太阳能发电厂 过去十年,重庆工业增加值总额由2012年的4291.4亿元提高至2021年的7888.7亿元 2021年盐湖化工产业实现产值331.8亿元 增长46.2% 切入储能赛道的消费电池头部玩家德赛电池近两日连续打板涨停 6个二线城市首套房贷款利率跌破4% 低至3.8% 倡议项目将由德国联邦经济和气候保护部的能源研究预算提供资金