在昨天开源FlashMLA后,DeepSeek开源周又打响了第二枪:从数十亿到数万亿参数,用DeepEP突破高效通信的瓶颈。这是首个用于MoE模型训练和推理的EP通信库。

“春运”般的AI算力,用DeepEP书写交通规则在传统分布式训练中,GPU集群常陷入“算力空转”的困境:当A卡完成计算时,B卡还在等待数据传输。就像高峰期的地铁换乘站,再强的算力也会被人流堵塞消解。
而DeepEP有以下亮点:高效和优化的多对多通信节点/跨节点都支持NVLink和RDMA用于训练和推理预填充的高吞吐量内核用于推理解码的低延迟内核原生支持FP8调度灵活GPU资源控制,实现计算与通信的高效重叠DeepEP的突破在于重构了数据流的“交通规则”:通过FP8智能压缩技术,将原本需要10车道的数据货车瘦身为8车道,配合预填充机制提前规划传输路线。实测显示,在千卡集群中,这种“错峰出行+绿色通道”的组合拳,能让通信等待时间再度下降。
全网好评:每天都像100年截止14时,Github上的Star已经有2.7k,还在不断增长。

网友也非常激动,有网友表示,感觉每一天都像100年一样,当然也有网友调侃,“我想看看英伟达的股价跌了多少”。

有人说,开源EP通信库DeepEP的引入可能会彻底改变AI和区块链应用程序的互操作性。通过改善分散系统之间的通信,它促进了更有效的数据交换和处理。这可以降低成本并提高人工智能任务的性能,吸引更多的开发人员进入加密空间。

也有人高度赞扬DeepSeek团队:他们正在做令人难以置信的工作。

重构AI基础设施的“底层语法”当业界还在争论MoE架构的实用性时,DeepEP已经悄然改写了游戏规则。

其创新的group-limitedgating机制,让专家网络间的协作效率提升了3个数量级。
更令人敬佩的是,DeepSeek这次将如此核心的技术完全开源。这相当于把自动驾驶的激光雷达技术图纸公之于众,在AI基础设施领域掀起“军备竞赛”。
DeepSeek开源的不是代码,而是通往AGI的高速公路蓝图。
来源:头条娱乐