发布日期:2026-02-28 12:30 点击次数:195

henry 发自 凹非寺量子位 | 公众号 QbitAI
{jz:field.toptypename/}DeepSeek这小子最精了,当全全国齐在盯着他的GitHub仓库,恭候V4时——
他和北大、清华在ArXiv悄咪咪地上了一篇论文,发布了一个全新的针对智能体的推理框架:DualPath

况且就跟前几天曝出的算力话题干系。
DualPath的中枢在于责罚Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速率,确保估计资源不被存储读取累赘。
它改变了传统的存储至预填充引擎(Storage-to-Prefill)单旅途加载格式,引入了存储至解码引擎(Storage-to-Decode)的第二条旅途。
通过运用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并相助高速估计收集(RDMA)将其传输至预填充引擎,DualPath罢了了集群存储带宽的全局池化与动态负载平衡。
在660B规模的坐褥级模子的实测中,DualPath施展惊东谈主:
离线推理朦拢量提高了1.87倍,在线管事朦拢量平均提高1.96倍

在高负载下,首字延长(TTFT)大幅优化,而 Token间的生成速率(TPOT)实在不受任何关扰。
接下来,咱们沿路来看。
双旅途加载 (Dual-Path Loading)
总的来说,DualPath是一个挑升为智能体系统缱绻的推理框架,它的中枢洞见是——
KV-Cache的加载无用以预填充为中心
在以往的意会中,谁选藏估计谁就去搬数据。但DualPath以为,缓存不错先加载到解码引擎中,再通过高性能RDMA收集传输至预填充引擎。
通过在两条旅途间动态采纳,DualPath重新分拨了收集负载,缓解了预填充侧的带宽压力。
那么,为什么要费这样大劲去“绕路”?
之是以这样作念,是因为在现时的智能体应用中,对话轮数多且险峻文长,KV-Cache掷中率持续高达95%以上。
这意味着,每一轮对话齐要搬运海量的“旧牵记”,推感性能的瓶颈照旧从“估计”变调到了“搬运”上

在现存的预填充-解码分离(PD-disaggregated)架构中,通盘的加载任务齐拥堵在预填充引擎(PE)的存储网卡上,导致带宽蓦然裕如;
与此同期,解码引擎(DE)的存储网卡却在闲置,变成了严重的资源错配。

更进一步的,现时GPU算力的增永久快于收集带宽和HBM容量的增长,也加重了I/O狂放。
正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等大佬反复强调的:估计是免费的,但数据转移是崇高的。
针对这些问题,DualPath构建了变调的双旅途模子:

旅途 A(传统):存储→PE,缓存径直读入预填充引擎。旅途 B(新增):存储→DE→PE,缓存先读入解码引擎的缓冲池,再通过RDMA传输给预填充引擎。
在架构构成上:
推理引擎: 每个引擎治理一块GPU,严格分裂为预填充(PE)妥协码(DE)。流量治理器: 选藏H2D/D2H拷贝、引擎间传输以及SNIC存储读写。中央调遣器: 担任“大脑”变装,及时决策每一条央求该走哪条路,从而罢了全局带宽的最大化运用。
中枢期间决策:存储至解码旅途
如上所述,DualPath推理系统的中枢在于碎裂了传统的“存储至预填充”单旅途格式,澳门新浦京游戏变调性地引入了“存储至解码”旅途
该缱绻允许KV-Cache先加载至解码引擎(DE),再通过高带宽估计收集(RDMA)无损传输给预填充引擎(PE)。
通过在两条旅途间动态分拨负载,系统将集群华夏本闲置的解码侧存储网卡(SNIC)带宽澈底开释,构建起一个全局可调遣的存储I/O资源池。
具体来说,为了撑捏层级流式处理,DualPath在PE和DE上平分拨了少许DRAM缓冲区(PE/DE Buffer),并针对不同阶段缱绻了讲究的数据流:
PE读取旅途: 掷中Token的KV-Cache从存储读入PE缓冲区。在每层估计前,该层缓存传输至PE HBM,与估计经由重迭实际。估计完成后,全量KV-Cache传回DE缓冲区以形成完好意思险峻文。DE读取旅途: KV-Cache径直插足DE缓冲区。在PE预填充期间,对应层的缓存跨节点传输至PE HBM(估计重迭)。估计扫尾后,PE仅需传回腾达成的KV-Cache片断与DE原有缓存统一。解码与捏久化: DE缓冲区给与完好意思KV-Cache后运转解码,实际H2D拷贝并随后开释CPU内存。天然引入缓冲增多了DRAM压力,但能权臣裁汰GPU显存占用并优化首字延长(TTFT)。生成经由中,每积蓄满一个Block(如 64 Token)即触发异步捏久化。
但就像前边提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模子估计的通讯,奈何办?
对此,DualPath给出了两套优化决策:
最初是以估计网卡(CNIC)为中心的流量治理,强制通盘流量通过配对的CNIC走GPUDirect RDMA旅途。
在InfiniBand或RoCE收鸠合,运用诬捏层(VL/TC)期间,将推理通讯设为“最高优先级”并预留99%带宽,让缓存搬运只可在谬误中“蹭”带宽,确保互不干豫。
其次是自安妥央求调遣器: 调遣器会盯着每个节点的磁盘队伍长度和Token数。系统会优先将任务分拨给I/O压力较小且估计负载较轻的节点,从根蒂上幸免单侧网卡或单点估计资源的拥塞。
在实验阶段,DualPath在DeepSeek-V3、Qwen等模子上进行了测试,场景袒护了离线Rollout和在线管事。
如滥觞所说,在离线推理中,DualPath 将端到端朦拢量提高了高达1.87倍,在线管事朦拢量平均提高1.96倍,权臣裁汰了首字延长(TTFT),且保捏了极其舒适的Token间延长(TBT)。
总的来说,DualPath 诠释了通过重新念念考数据加载旅途不错灵验突破现时大模子推理的I/O墙。
它凯旋利用了解码引擎蓝本被糟蹋的I/O带宽,相助自安妥调遣和严谨的流量壅塞机制,在不增多硬件本钱的前提下,大幅提高了智能体LLM推理系统的驱散。
One more thing
这篇论文的第一作家吴永彤,是北京大学的博士生,师从金鑫讲授。
他的磋磨标的聚焦于系统软件与大模子基础步履(LLM Infrastructure),尤其是推理系统的工程优化与规模化部署。

他现在在DeepSeek系统组,参与下一代模子的推理基础步履设立,看纷乱规模软件系统在多硬件平台上的性能优化。

此前,他还曾在腾讯、华盛顿大学,微软亚研院等机构实习。
[1]https://arxiv.org/pdf/2602.21548
[2]https://jokerwyt.github.io/