PokerStars扑克官网

起源:520欢乐作者: 骆雯丰:

起源:520欢乐作者: 骆雯丰:

OpenAI牵头:AMD、NVIDIA、Intel、微软、博通巨头罕见联手!终于把AI网络层搞定

快科技5月7日新闻,OpenAI今日通过盛开推算项目(OCP)正式颁布MRC(多蹊径靠得住衔接)和谈,解决大规模AI训练中的GPU网络通讯瓶颈。

该和谈由OpenAI与AMD、NVIDIA、Intel、微软和博通历时两年结合开发,目前已在搭载NVIDIA GB200的超算集群中投入现实使用。

MRC要解决的主题问题是:在训练大规模AI模型时,单次数据传输延长就足以导致整个训练过程中断,GPU集体空转期待,而集群规模越大,由网络拥塞、链路和设备故障引发的延长问题越频仍。

MRC的规划是将单条800Gb/s网络接口拆分为多条更幼的链路,例如将一个接口衔接至8台分歧互换机,构建8条独立的100Gb/s并行网络,而非依赖单一800Gb/s网络。

这一扭转对集群拓扑结构的影响极为显著,一台支持64个800 Gb/s端口的互换机,在拆分后可衔接512个100 Gb/s端口,使得仅用两层互换机即可实现约13.1万块GPU的全互联网络。

传统800 Gb/s规划则必要三到四层互换机能力达到一致规模,层数削减直接意味着延长降低和故障点削减。

MRC基于现有的RDMA over RoCE(融合以太网)和谈扩大,支持GPU和CPU的硬件加快远程直接内存接见。

OpenAI已在Oracle Cloud Infrastructure和微软Fairwater超算上的GB200集群中部署MRC,用于训练前沿模型。

该和谈也将成为OpenAI在建设的Stargate超算的基础网络架构,该超算指标在2029年部署10GW AI算力,从前三个月已部署超过3GW。

MRC和谈还向整个AI行业盛开,OpenAI暗示但愿借此推动跨行业合作,共同解决AI基础设施中最辣手的网络难题。

@王文正:霸气福利导航,东灵山景区5月将盛开?假的
@郭泰合:巨力索具闹剧背后谁是罪魁祸首
@蔡宜佩:我国万米深海试验再破世界纪录

【网站地图】