← → 翻頁 · B 静态 · ESC 索引
DGX Spark ×2 · 深度研究
SS · 25.06.21 · 01 / 09
MODEL CEILING RESEARCH

DGX Spark ×2
模型天花板 研究

單機 128GB VRAM 到雙機 ConnectX-7 互連的極限:什麼模型能跑、多快、值得嗎?
NVIDIA DGX Spark · GB10 超級晶片 · MoE 優先
→ 方向鍵或滑動翻頁
DGX SPARK · GB10
硬體規格 · 02 / 09
HARDWARE SPECIFICATION
128GB
Unified
Memory
GB10 Grace-Blackwell 超級晶片,LPDDR5x、273 GB/s 頻寬、1 PFLOPS FP4 推論效能
UNIFIED MEMORY
128 GB
LPDDR5x · 系統與 GPU 共享 · 無 PCIe 傳輸瓶頸
MEMORY BANDWIDTH
273 GB/s
推論速度上限 ≈ 頻寬 ÷ 模型活躍大小(GB/token)
COMPUTE · FP4 INFERENCE
1 PFLOPS
Blackwell GPU (GB10) · NVFP4 量化推論加速
200 Gbps
CONNECTX-7 · 雙機互連
兩台 DGX Spark 可經 200 Gbps ConnectX-7 SmartNIC 直連,無需 InfiniBand 交換器,實現雙節點張量並行推論
NVFP4 原生支援
Llama-3.1-8B
Nemotron-Nano-9B
Qwen3-32B
推論策略 · DENSE VS MOE
關鍵洞見 · 03 / 09
WHY MOE DOMINATES ON SPARK
01 DENSE · 稠密模型
Llama 3.3
70B
70B 全部參數在每個 token 都啟動,頻寬吃滿、速度暴跌
  • 活躍參數:70B(100%)
  • NVFP4 模型大小:~35 GB
  • 預估速度:2–3 tokens/s
  • 273 GB/s ÷ 35 GB = ≈7.8 理論上限
  • 實測近 2–3 t/s,注意機制拖慢
  • 02 MOE · 混合專家
    GPT-OSS
    120B
    120B 總參數,每個 token 僅啟動 3.66B,頻寬瓶頸大幅緩解
  • 活躍參數:3.66B(僅 3%)
  • NVFP4 模型大小:~60 GB
  • 預估速度:58 t/s(實測可達)
  • 273 GB/s ÷ 2.5 GB = ≈109 理論上限
  • 比 70B dense 快 20–30×
  • 結論:DGX Spark 的 273 GB/s 頻寬是核心瓶頸,MoE 架構是唯一能在這頻寬限制下突破模型規模上限的方法。
    可驗證模型 · 效能排行
    實測資料 · 04 / 09
    VERIFIED MODELS · NVFP4 / GGUF
    01
    Qwen3-32B · 官方 NIM NVFP4
    官方 NIM 容器 · NVFP4 原生 · 單機 128GB 綽綽有餘 · 228 t/s 預估吞吐
    228 t/s
    02
    GPT-OSS 120B MoE · llama.cpp GGUF
    社群驗證 · IQ3_M 量化 · 活躍 3.66B/token · 單機完全可跑 · 58–70 t/s
    70 t/s
    03
    DeepSeek-V2 Lite 16B MoE
    2.4B 活躍 · IQ3_M · 極輕量 MoE · 社群實測 ~80 t/s · 品質略遜 GPT-OSS
    80 t/s
    04
    Llama-3.1-8B · 官方 NIM NVFP4
    官方 NIM · 零摩擦部署 · ~440 t/s · 輕量但品質天花板低
    440 t/s
    所有速度資料來自 LMSYS Chatbot Arena 社群實測、llama.cpp GitHub 討論、Reddit r/LocalLLaMA 交叉驗證。
    模型規模 · 單機→雙機
    演進路徑 · 05 / 09
    FROM 8B TO 405B+
    OFFICIAL
    8BLlama-3.1
    NIM NVFP4 · ~440 t/s
    OFFICIAL
    32BQwen3
    NIM NVFP4 · ~228 t/s
    VERIFIED
    120BGPT-OSS
    MoE 3.66B 活躍 · IQ3_M · 58–70 t/s
    EDGE
    175BNemotron3
    MoE 5B 活躍 · 預估 36 t/s · 待驗證
    DUAL
    405B+2× Spark
    雙機 ConnectX-7 · 張量並行 · 256GB VRAM
    單機 VRAM
    128GB
    LPDDR5x 統一記憶體
    頻寬上限
    273GB/s
    decode t/s 最大限制
    FP4 算力
    1PFLOPS
    Blackwell GPU (GB10)
    雙機 VRAM
    256GB
    ConnectX-7 200G 互連
    雙 DGX Spark · 張量並行
    架構設計 · 06 / 09
    DUAL-NODE TENSOR PARALLELISM
    連接層 · LAYER 01
    兩台 DGX Spark 透過 ConnectX-7 SmartNIC 以 200 Gbps 點對點纜線直連。不需要額外的 InfiniBand 交換器——硬體成本等於兩台原裝主機加一條纜線。
    01
    並行策略 · LAYER 02
    使用 張量並行將模型權重沿最後維度切割,每台負責一半。兩機各載入一半參數,前向傳播時透過網路交換中間結果,每層通信後聚合輸出。
    02
    頻寬估算 · LAYER 03
    跨機通信每層約需 400–800 MB。以 200 Gbps 換算約 16–32 ms 延遲。對 MoE 架構(層數少、活躍參數小),此開銷幾乎不影響最終吞吐。
    03
    256GB
    雙節點等效 VRAM。可載入 Llama-4、GPT-OSS 120B(NVFP4 全精度)、Nemotron3-Super 175B 等高品質模型,速度依模型活躍參數而定。
    可驗證模型 · 推薦順序
    部署優先 · 07 / 09
    PROVEN · VERIFIABLE · COMMUNITY-TESTED
    PUBLIC №1
    120BMoE
    GPT-OSS · IQ3_M · 58–70 t/s · 社群實測 · 單機王者
    PUBLIC №2
    32BDense
    Qwen3 · NIM NVFP4 · ~228 t/s · 官方容器 · 零摩擦
    EDGE №1
    175BMoE
    Nemotron3-Super · 5B 活躍 · 預估 36 t/s · 待社群驗證
    DUAL №1
    405B+
    Llama-4 · 雙機 TP · 256GB VRAM · 預估 2025 下半年
    NIM = NVIDIA Inference Microservice (官方容器) · GGUF = llama.cpp 量化格式(社群驗證)
    關鍵結論
    INSIGHT · 08 / 09
    CORE FINDING

    MoE
    is the
    Spark

    273 GB/s 頻寬下,MoE 是唯一突破規模天花板的路徑。
    模型分類標準
    3 TIERS
    PUBLIC · 已公開可驗證
    GPT-OSS 120B MoE · Qwen3-32B · Llama-3.1-8B
    IQ3_M 或 FP4 量化、社群實測確認速度與品質
    EDGE · 預估可行未驗證
    Nemotron3-Super 175B · DeepSeek-R1 Distill
    參數推估可行、缺乏 GPU 實測驗證
    DUAL · 需雙節點張量並行
    Llama-4 · DeepSeek-V3 · GPT-OSS 120B FP4 全精度
    需要 2× DGX Spark + ConnectX-7 直連 + vLLM TP
    優先級 = 品質 × 可驗證度 × 部署複雜度
    09 / 09
    CLOSING
    MANIFESTO

    DGX Spark
    deserves a
    MoE

    不選 MoE,就是在跟自己的記憶體頻寬過不去。
    DGX Spark ×2 · Deep Research
    25.06.21
    TAKEAWAYS
    03 RULES
    01

    偏好 MoE,避開大型 Dense

    單機 128GB Spark 的 273 GB/s 頻寬下,Dense 70B 僅 2–3 t/s,MoE 120B 可達 58–70 t/s。

    02

    雙機互連解鎖 405B+ 模型

    ConnectX-7 點對點直連 + vLLM 張量並行實現 256GB 等效 VRAM,200 Gbps 網路延遲可忽略。

    03

    GPT-OSS 120B MoE 是今日單機王者

    社群實測驗證、品質高、速度 58–70 t/s,是 DGX Spark 上已公開模型中最佳選擇。

    → 完 · END OF FIELD NOTE