DeepSeek过于朴素了
出品|虎嗅科技组
作者|宋思杭
编纂|苗正卿
头图|视觉中国
“不诱于誉,不恐于诽,率路而行,端然正己。”
这是4月24日,DeepSeek在颁布V4预览版时写在公家号文章末尾的话。
放在当下的语境,来解读这句话的意思是,无论表界若多么候、若何猜测,DeepSeek仍按自己的节拍走,不被赞美裹挟,也不被感情推着走。
甚至相迸宗其他几家基座模型公司,DeepSeek显得过于朴素了——不刻意刷榜、不思考贸易化、不优化用户履历,只是充任好一个“建路人”的角色。
功夫拨回至R1颁布当天,行业迅速沸腾,而在往后的这459天里,各人一壁等待着DeepSeek的新模型,一壁见证了智谱和MiniMax两大国产模型纷纷登陆本钱市场,两家市值均一度冲破3000亿元。
就在DeepSeek正式颁布V4后的几分钟,本钱市场再次给出反馈。约上午11时05分,港股大模型板块急剧震荡,智谱与MiniMax双双跳水,盘中一度别离跌超10%和12%。
这是从前一年行业最鲜明的变动之一:国产模型初次被本钱市场定价,也让DeepSeek被不休投射为下一次行业变量。
与此同时,Kimi、Minimax、Qwen和智谱等模型再三登顶,但在此期间,DeepSeek却一向悄无声息。
而今天DeepSeek的新模型终于来了,但从这个新模型V4来看,它并不属于公共所理解的”行业顶尖“,至少这个“当先”不是榜单所界说的。
据 Artificial Analysis 数据,V4 Pro 在世界知识类 benchmark 中已跻身全球前列,仅次于 Gemini-Pro-3.1。综合阐发来看,DeepSeek V4 已当先无数开源模型,整体机能起头逼近顶级关源模型。
也就是说,若是依照各人等待,V4应该会是再一次震惊行业的“顶尖”模型,但这不是DeepSeek给自己的界说。它给自己的界说一向都是钻营性价比。
和其他基模公司比,DeepSeek过于朴素
在几家头部大模型公司里,DeepSeek一向有一种很出格的气质:朴素。
这衷煊素,不是指产品单一或者技术激进与否,而是它很少像一家尺度AI创业公司那样,被融资节拍、贸易化压力和市场感情推着走。某种水平上,它不急着证明自己能赚几多钱,因而反而更有空间去做自己真正想做的事。
虎嗅对比了几大基座模型的技术路线后发现,和DeepSeek最类似的就是Kimi了。
两家公司都带有鲜明的技术梦想主义色彩,也都曾凭借模型能力在行衣凤打出辨识度。就在V4颁布前两天,Kimi刚刚推出K2.6,并称其为颁布以来最好的代码模型。与此同时,DeepSeek在V4颁布文章中也提到,他们内部同样在将V4作为公司内部员工使用的 Agentic Coding 模型。
这意味着,两家公司都把代码能力视作模型价值的沉要方向。
类似点还不止于此。这次V4的另一大特点,是原生支持1M高低文,并强化长链路推理能力。而长高低文、复杂工作处置,同样是Kimi从前一年持续强化的标签。
若是只看代码、长高低文、复杂工作这些表表能力天堑,Kimi与DeepSeek似乎在越来越靠近,甚至能够说,两家齐全撞车。
但若是仔细拆开,会发现两家公司走的其实是两条齐全分歧的技术路线。
Kimi从前持久强调的,是线性把稳力路线。它的主题思路,是让模型在超长高低文、多步骤工作中,把推算成本节造在可接受领域内,再叠加Agent系统、工作编排、多轮挪用等能力,让模型像一个能够持续工作的执行系统。
而DeepSeek V4这次在技术汇报中强调,使用的是混合把稳力架构(Hybrid Attention):通过 CSA(Compressed Sparse Attention,压缩稀少把稳力)与 HCA(Heavily Compressed Attention,沉度压缩把稳力)交替共同,对汗青高低文进行分层压缩和选择性读取,在维持百万级高低文能力的同时,大幅降低推理成本。
汇报数据显示,在100万token场景下,DeepSeek V4-Pro 的单token推理 FLOPs 降至上一代模型的27%,KV Cache占用降至10%。
单一来说就是,Kimi的思路,更像是把一个复杂工作拆成好多步骤,再组织多个智能体合作实现;DeepSeek的思路,则是先把底层存在的问题先一点点解决掉,把地基搭好,让模型在底层推算结构上先变得更高效。
这两者看起来是,一个是在职务层做加法,一个是在系统层做减法。
但若是依照这个逻辑来看,能够得到一个结论是,在面对统一项复杂工作时,Kimi往往会亏损更多token。
原因并不复杂。由于当模型起头承担真实工作流程时,token亏损不再只是用户输入与最终输出,还蕴含工作拆解、中央推理、多轮挪用、工具返回了局、谬误建改以及多个Agent之间的高低文同步。用户只输入一句话,后盾可能已经实现了十几轮运算。
当然,这并不料味着Kimi的技术路线有问题。尤其是在当下,AGI的技术路线并未收敛确当下,任何一种技术路线都有各自的曲直势。
那么,作为一家更强调贸易化落地的公司,Kimi做的事件是优化用户履历,首先让好多企业和幼我用户愿意为Kimi付费。某种水平上,它已经靠近“可交付的出产力工具”。若是一个模型多亏损一些token,却替用户节俭了3幼时工作功夫,这笔账不定不划算。
也就是说,Kimi钻营的,是token被亏损后的产出效能;而DeepSeek钻营的,则是token自身的推算效能。
这两种选择背后,极度鲜明地体现出两家公司分歧的底色。
DeepSeek背后的母公司幻方量化,性质是一家量化机构。量化买卖天然强调两件事:效能与收益率。任何战术都要推算投入产出比,任何系统都要钻营速度、不变性与资源利用率。在这种文化下成长出来的团队,会很天然地关注大模型的效能问题。
这也诠氏缢为什么DeepSeek总在做一些看起来没那么热烈、却极其关键的事件,好比MoE、推理优化、把稳力沉构、算力利用率提升。
由于对幻方来说,大模型不定是一门独立生意,但它首先必要是一套提升钻研效能、分析效能与决策效能的基础工具。
换句话说,梁文锋也许并不关注DeepSeek能为他带来几多收入。他有更长的功夫尺度,也更能接受先做难而慢的事。
Kimi则分歧。月之暗面从缔造第一天起头,就是一家尺度意思上的AI创业公司。它必要融资,必要增长,必要向市场证明模型能力最终能够转化为真实业务。杨植麟当然有很强的AGI梦想主义色彩,但Kimi必须同时面对贸易化的现实问题。
这也决定了,Kimi会更积极地靠近用户需要、代码需要、Agent需要和付费需要。它的模型迭代节拍、产品节拍、组织节拍,更像一家必要持续驰骋的创业公司。
所以,看起来都在做长高低文、代码模型和复杂工作,两家公司却在解决齐全分歧的问题。
这也是为什么DeepSeek总显得“不焦急”。
国产代替,仍在路上
在V4颁布前,表媒曾屡次“预报”DeepSeek将齐全切换至国产模型训练,并逐步脱节对英伟达的依赖。
然而,从V4颁布的技术汇报来看,这一新闻不定是真的。
DeepSeek仅在汇报中强调了,其已经验证了在 NVIDIA GPU 和 HUAWEI Ascend NPU 平台上验证了 EP(专家并行)规划。但并没有明确提到DeepSeek已经切换至华为昇腾芯片上做训练,
更正确地说,它注明的是,DeepSeek已经在系统层面实现了跨平台适配,至少让V4这类MoE模型可能同时运行在英伟达与昇腾两套硬件架构之上。但这并不直接意味着,其主题训练工作已经脱离英伟达。
换句话说,DeepSeek极有可能依然依赖于英伟达芯片做训练,而用国产芯片实现推理工作。
这其实也是当前行业更现实的蹊径。
原因并不复杂。预训练阶段对芯片生态要求极高,涉及大规模并行训练、通讯带宽、编译器成熟度、故障复原能力以及持久不变性。相比之下,推理环节对算力的要求更分散,也更适合率先实现国产代替。因而,很多公司采取的并不是“一步到位切换训练底座”,而是先从推理侧起头迁徙。
有多位行业人士在虎嗅交谈时暗示,“若是真的彻底切换至国产芯片,V4可能不会这么快到来。”
然而,比切换至国产芯片上训练更值得关注的是,DeepSeek这次在工具链层面的变动。
从前,DeepSeek曾因深度使用 PTX 编程说话而受到关注。PTX能够理解为英伟达GPU生态中的底层中央说话,靠近汇编层,可能极致榨取单卡机能,但天然绑定英伟达系统,开发门槛高,可迁徙性也有限。
而在V4汇报中,DeepSeek不再强调PTX,而是提到了 DSL(Domain-Specific Language,领域专用说话),例如其选取 TileLang 这类面向AI算子优化的DSL,以平衡开发效能与运行效能。
两者的区别在于:PTX是一种直接操作英伟达机械的底层说话,钻营极限机能,但强绑定英伟达;DSL则更像是一层中央抽象,让团队在维持机能的同时,更快开发算子、更容易适配分歧芯片平台。
这意味着,DeepSeek固然不定已经实现国产芯片训练代替,但它至少已经起头让自己的模型不再强绑定英伟达,未来有可能逐步切换到国产芯片上训练。
不做被等待的DeepSeek
DeepSeek并不筹算成为表界等待中的那个DeepSeek。
从前一年,DeepSeek被行业赋予了太多角色。有人等待它再次复造R1时刻,颁布一款沉新震荡行业的顶尖模型;有人等待它成为中国大模型脱节英伟达依赖的象征。
但V4的颁布证明,DeepSeek并没有被打乱节拍。
它依然是一家萦绕着“效能”做模型的公司,例如,混合把稳力架构、KV Cache压缩、百万高低文推理成本降落、专家并行优化、跨平台Kernel设计,这些内容并不算“性赣妆,但都极度沉要。
但这些不算性感的工程化改进,在逐步解决大模型目前依然存在的bottleneck。
从这个角度看,DeepSeek和其他基座模型公司已经不站在统一维度上了。当不少公司还在抢夺入口、抢夺用户时,DeepSeek更关切的是,怎么把单元智能的成本持续压低,怎么让同样的能力亏损更少算力。
所以,“不诱于誉,不恐于诽,率路而行,端然正己”,放在V4结尾,与其说是一种姿势,不如说是向公共表态——DeepSeek选择持续做那个更默默的DeepSeek。
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4853463.html?f=wyxwapp
文章点评
未查问到任何数据!
颁发评论
◎欢迎参加会商,请在这里颁发您的见解、互换您的概想。