Table of ContentsToggle Table of Content

Perplexity.ai 研究指出,用 DeepSeek-V3/R1 利用 MoE 與多節點部署,實現低延遲高吞吐,應能成為未來 LLM 部署關鍵方案。

瀏覽數:
「supports」的個人頭像

以下是這篇關於 DeepSeek-V3/R1 多節點部署與效能優化 的完整繁體中文整理,


DeepSeek-V3/R1 多節點部署完整解析:如何同時降低延遲與提升吞吐量?

▍📌 前言:MoE 模型讓效能不再取捨

在傳統系統中,延遲(latency)與吞吐量(throughput)常常是衝突目標,但 DeepSeek-V3/R1 採用 Mixture of Experts(MoE)模型設計,透過多節點部署,能在多數情境中同時獲得更高吞吐與更低延遲


▍🏗️ 架構設計:單節點 vs 多節點部署

  • 單節點部署(8x H200):延遲較低但在高負載下表現會迅速下降。
  • 多節點部署(8x H100 x N):可用更多 GPU 分散專家(experts),維持高速並增加容納量。
  • 採用 Data Parallel + Expert Parallel 混合架構,並透過 自研 Request Scheduler 控管請求與 KV cache 重用。

▍🔁 並行技術解析:TP、EP、DP 怎麼搭配?

  • Tensor Parallelism(TP):對 Attention 和 MLP 的線性映射做 shard。
  • Expert Parallelism(EP):MoE Layer 分派給各 GPU 不同的 experts 處理。
  • Data Parallelism(DP):每組 DP group 單獨執行 MLA(Multi-Latent Attention)計算。
  • 三者可以自由組合,如 EP128 = DP32 × TP4。

▍📊 效能比較:單節點與多節點的輸出差異

  • 在高輸出速率下,單節點部署吞吐量極低,因為 batch size 無法放大。
  • 使用 EP128 的多節點部署,在相同輸出速度下可達 5 倍吞吐量提升
  • 單節點會隨 batch size 增加造成大量 experts 同時啟用,導致記憶體頻寬瓶頸。
圖片來源:X.com/PPLXDevs

▍🧩 溝通與計算重疊:用微批處理省下延遲

  • 實作 Dispatch Overlap:在等待通信完成時提前處理 shared expert。
  • 微批處理(Microbatch) 可讓不同的 mini-batch 在不互相依賴下交錯處理,達到最大化重疊與平均資源使用。

▍⏱️ 延遲細節解析與對比

  • 微批處理相比於純粹 Dispatch Overlap,可降低最多 29% 延遲
  • 然而在 batch size < 32 時可能反而造成效能下降,顯示微批處理需視情境使用。

▍📈 Roofline 模型分析:GEMM / GroupGEMM 效能瓶頸

  • GroupGEMM:隨著 token 數上升,算術密度提高,提升效能。
  • GEMM(線性投影):多數情況下受限於記憶體頻寬,仍有最佳化空間。
  • 微批處理將 m 改為 m/2,導致矩陣乘法效率下降。

▍🧠 MTP 與推理效率的關係

  • 使用 Multi-Token Prediction(一次預測多個 token)可提升矩陣運算效率,是推理加速的重要手段。

▍🧪 其他優化與實作細節

  • FP8 量化:使用 block-based quantization,降低效能損失。
  • FlashInfer / CUDA Graph:使用高效 CUDA 核心與圖形加速器減少 kernel 啟動延遲。
  • 自研 AllToAll Kernel:擺脫傳統 allreduce 與 padding 需求,實作更靈活。

▍🔭 未來方向

  • Prefill Disaggregation:分離 prefill 與 decode 階段,避免相互干擾。
  • AllToAll 優化:目前仍僅達 InfiniBand 頻寬 1/3,未來預計改善。
  • EAGLE-style 推理:可用樹狀預測多 token。
  • 新硬體 GB200 NVL72:將是 MoE 模型部署新挑戰與契機。

▍來源出處

https://www.perplexity.ai/hub/blog/lower-latency-and-higher-throughput-with-multi-node-deepseek-deployment

▍常見問答(FAQ)

結論

DeepSeek-V3/R1 透過 MoE 架構與多節點部署實現傳統模型難以達成的效能平衡。透過混合並行策略與 kernel 最佳化,其在吞吐量、延遲與資源使用方面提供極具參考價值的解法,是未來 LLM 推理部署的重要參考範例。


您也有類似的需求嗎?

請點擊下方按鈕與我們聊聊!

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端