PokerStars扑克官网

平头哥颁布首款智能网卡「磐脉 920」，补齐 AI 算力最后一块短板

GPU 买了那么多，跑起来却像

作者：刘逸群

颁布功夫：2026-05-29 02:11:27

阅读量：384

平头哥颁布首款智能网卡「磐脉 920」，补齐 AI 算力最后一块短板

GPU 买了那么多，跑起来却像「堵车」？

作者｜苏子华

编纂｜郑玄

最近两年，AI 行业最热的词一向绕不开「算力」。

从大模型训练，到今年 Agent 的火热，再到各家云厂商不休扩建智算中心，行业会商最多的，险些都是 GPU、芯片和算力规模。如同只有卡够多，AI 就能持续往前跑。

但现实并不是。

不少做大模型训练和推理的人，已经越来越显著地感触到另一层问题：机械越来越贵，GPU 越来越强，但模型训练和推理的效能，却没有同步提升。

问题不愿定出在算力自身，而可能出在另一件持久被忽视的事件上——网力。

平头哥产品总监李旭慧打了个譬喻：「若是把算力比作 AI 时期的石油，网力就是输油管路。算力提供动力，网力保险效能。」

4 月 28 日，在数字中国建设峰会上，平头哥颁布首款智能网卡磐脉 920。这是国内首个内置 PCIe Switch 的 400G 智能网卡，最大支持 400Gbps 吞吐带宽，可利用于万卡智算集群、通算集群和高机能存储等场景，目前已经量产，并将率先部署在阿里云数据中心。

磐脉 920 想要解决的就是「网力」问题。

今天的大模型训练，一个训练工作，往往必要几千甚至上万张 GPU 同时合作。单张 GPU 机能再强，也必须跟整个集群维持同步。

问题在于，只有其中一部门节点慢下来，其他节点就只能期待。他观察到，目前行衣凤好多万卡级智算集群，GPU 现实利用率较低，「能做到 60%，已经算行业顶尖水平。」

从前行业更容易关注「有几多卡」，但现着实 AI 训练场景中，系统运行效能并不是由最强的硬件决定，而是受限于集群里最慢的那个节点。「当先节点的算力会持续闲置期待，造成大规模算力浪费。」

磐脉 920 的颁布现实上也指了然一个方向：当 GPU 已经足够强之后，下一步到底该补哪里。

一张网卡，盘活整个智算集群

当 AI 智能体起头进入真实业务场景，推理业务的占比越来越高。

「在 Agent 利用发作的布景下，推理业务的增长速度显著快于训练。」李旭慧暗示。

大模型训练强调强同步，而推理面对的是大量突发、幼包、高频要求，对低时延和不变性的要求更高，这也意味着对「网力」的要求更高。

而概括一下磐脉 920 在做的事，就是尽量削减整系统里的「堵」和「等」，通过网力的提升来开释 AI 算力。

其背后的实现道理，有三个关键。

首先是支持多蹊径 RDMA，突破单一蹊径的局限。

通俗理解，就是正本只能走一条高速，此刻造成多条路同时辰流。更关键的是，这些数据固然分隔走，但最终还能按挨次正确拼回来。

李旭慧诠释，磐脉 920 通过支持逐包喷洒、乱序接管和选择性沉传，实现 RDMA 多蹊径。

从了局来看，这套规划带来的改善比力直接。

依照官方实测，磐脉 920 支持单 QP 打满 400G 带宽，而同类主流产品带宽约莫只有其一半。同时，多蹊径能力能够把互换机端口缓冲区水线降低 90%，削减丢包和沉传。

第二个关键设计，是把「绕路」造成「直连」。

磐脉 920 最大的亮点之一，是内置 PCIe Switch。这也是国内首个做到这一点的 400G 智能网卡。

传统服务器架构里，PCIe Switch 通常部署在主板上，数据必要绕多个节点转发。了局就是，有的蹊径长，有的蹊径短，时延不一致。

对于必要高度同步的 AI 训练工作来说，这种「不整齐」会直接影响效能。

李旭慧打了个譬喻：传统架构里，经；岢鱿帧杆母鱿滦型芳芬桓錾闲型贰沟那榭。

这很像四条支路同时汇入一条主干路，梗塞险些不成预防。

磐脉 920 把 PCIe Switch 直接集成进芯片内部，让网卡与 CPU、GPU 形成更直接的衔接关系。

少绕路，意味着更低时延；蹊径更统一，则意味着更不变的同步效能。

凭据平头哥实测，在一样集群规模和工作前提下，部署磐脉 920 后，大模型训练和推理工作实现功夫可缩短 14%。

第三个关键，是让网络具备自己判断的能力。

传统网卡更多像搬运工。收到数据，搬从前，仅此而已。

据相识，磐脉 920 参与了细粒度网络感知和可编程拥塞节造能力。直白讲，就是它能自动避堵。让网络起头从被动传输，造成自动调度。

对于越来越复杂的 AI 集群来说，这种能力的沉要性会越来越显著。

从这些设计能看出来，磐脉 920 并不是在钻营参数上的单一提升，它做的事件很求实，让已经很贵的算力，少浪费一点，从而引发最大的潜能。

为何是阿里在界说 AI 基础设施？

除了机能自身，磐脉 920 背后更值得关注的，是平头哥和阿里的整体布局。

从前几年，好多公司做芯片，往往集中在单一环节，好比 GPU、AI 加快卡或者 CPU。

但平头哥的思路是做全栈。

目前，平头哥已经形成四条产品线：真武系列 AI 芯片、倚天服务器 CPU、镇岳存储主控芯片，以及这次颁布的磐脉系列智能网卡。

对应的，正好是数据中内心的几个关键环节：算力、存力和网力。

李旭慧在采访中暗示：「单一芯片产品无法解决全链路问题，只有买通算力、存力、网力，能力最大化开释 AI 硬件机能。」

这也是平头哥融洽多单点芯片公司的区别。它不是只做一块机能更强的芯片，而是试图从整个系统角度去看问题。

好多芯片公司做产品，先做出来，再去找客户和落地场景。

但平头哥不是。

李旭慧通知极客公园，磐脉 920 立项之时 AI 智能体尚未成为行业焦点。但他们从阿里云自身业务中判断，未来 AI 肯定会推动数据中心网络能力升级。

「一线业务场景的现实需要，是芯片技术迭代与产品优化的主题驱动力。」吓仔阿里云的大规模业务场景，再从现实场景需要里倒推产品界说。

这就是磐脉 920 的贸易蹊径。据泄漏，和平头哥倚天、真武、镇岳系列芯片一样，它会先部署在阿里云数据中心。

从这个角度看，磐脉 920 的颁布，自身就是阿里「通云哥」协同能力的一次体现。

通义掌管模型，阿里云掌管场景，平头哥掌管底层硬件。模型需要推动云基础设施升级，云场景又反向推动芯片演进。

这种全栈自研的关环，在国内科技公司里并不多见。「通云哥」的模式固然前期投入大、周期长，但一旦走通，护城河也极深。

AI 竞争走到今天，比拼的已经不是单点能力，而是这一整套系统能否顺畅运行。

随着 AI 越来越多从训练走向推理，模型、云与芯片之间形成的持续反馈循环，整体优势的显露可能才刚刚起头。

*头图起源：平头哥

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你若何对待「磐脉 920」？

　

【编纂者：李淑东】

有关标签

美国五角大楼颁布一批关于不明飞行物(UFO)的新文件北京稻香村涉事门店回应“反向抹零” 美国总统特朗普实现访华脱离北京两部门预拨1.6亿元资金支持五省份做晴天然灾害应急抢险救灾工作

文章点评

未查问到任何数据！

颁发评论

◎欢迎参加会商，请在这里颁发您的见解、互换您的概想。

【网站地图】