DGX Spark ×2 · 深度研究

SS · 25.06.21 · 01 / 09

MODEL CEILING RESEARCH

DGX Spark ×2
模型天花板研究

單機 128GB VRAM 到雙機 ConnectX-7 互連的極限：什麼模型能跑、多快、值得嗎？

NVIDIA DGX Spark · GB10 超級晶片 · MoE 優先

→ 方向鍵或滑動翻頁

DGX SPARK · GB10

硬體規格 · 02 / 09

HARDWARE SPECIFICATION

128GB
Unified
Memory

GB10 Grace-Blackwell 超級晶片，LPDDR5x、273 GB/s 頻寬、1 PFLOPS FP4 推論效能

UNIFIED MEMORY

128 GB

LPDDR5x · 系統與 GPU 共享 · 無 PCIe 傳輸瓶頸

MEMORY BANDWIDTH

273 GB/s

推論速度上限 ≈ 頻寬 ÷ 模型活躍大小（GB/token）

COMPUTE · FP4 INFERENCE

1 PFLOPS

Blackwell GPU (GB10) · NVFP4 量化推論加速

200 Gbps

CONNECTX-7 · 雙機互連

兩台 DGX Spark 可經 200 Gbps ConnectX-7 SmartNIC 直連，無需 InfiniBand 交換器，實現雙節點張量並行推論

NVFP4 原生支援

Llama-3.1-8B
Nemotron-Nano-9B
Qwen3-32B

推論策略 · DENSE VS MOE

關鍵洞見 · 03 / 09

WHY MOE DOMINATES ON SPARK

01 DENSE · 稠密模型

Llama 3.3
70B

70B 全部參數在每個 token 都啟動，頻寬吃滿、速度暴跌

活躍參數：70B（100%）

NVFP4 模型大小：~35 GB

預估速度：2–3 tokens/s

273 GB/s ÷ 35 GB = ≈7.8 理論上限

實測近 2–3 t/s，注意機制拖慢

02 MOE · 混合專家

GPT-OSS
120B

120B 總參數，每個 token 僅啟動 3.66B，頻寬瓶頸大幅緩解

活躍參數：3.66B（僅 3%）

NVFP4 模型大小：~60 GB

預估速度：58 t/s（實測可達）

273 GB/s ÷ 2.5 GB = ≈109 理論上限

比 70B dense 快 20–30×

結論：DGX Spark 的 273 GB/s 頻寬是核心瓶頸，MoE 架構是唯一能在這頻寬限制下突破模型規模上限的方法。

可驗證模型 · 效能排行

實測資料 · 04 / 09

VERIFIED MODELS · NVFP4 / GGUF

01

Qwen3-32B · 官方 NIM NVFP4

官方 NIM 容器 · NVFP4 原生 · 單機 128GB 綽綽有餘 · 228 t/s 預估吞吐

228 t/s

02

GPT-OSS 120B MoE · llama.cpp GGUF

社群驗證 · IQ3_M 量化 · 活躍 3.66B/token · 單機完全可跑 · 58–70 t/s

70 t/s

03

DeepSeek-V2 Lite 16B MoE

2.4B 活躍 · IQ3_M · 極輕量 MoE · 社群實測 ~80 t/s · 品質略遜 GPT-OSS

80 t/s

04

Llama-3.1-8B · 官方 NIM NVFP4

官方 NIM · 零摩擦部署 · ~440 t/s · 輕量但品質天花板低

440 t/s

所有速度資料來自 LMSYS Chatbot Arena 社群實測、llama.cpp GitHub 討論、Reddit r/LocalLLaMA 交叉驗證。

模型規模 · 單機→雙機

演進路徑 · 05 / 09

FROM 8B TO 405B+

OFFICIAL

8BLlama-3.1

NIM NVFP4 · ~440 t/s

OFFICIAL

32BQwen3

NIM NVFP4 · ~228 t/s

VERIFIED

120BGPT-OSS

MoE 3.66B 活躍 · IQ3_M · 58–70 t/s

EDGE

175BNemotron3

MoE 5B 活躍 · 預估 36 t/s · 待驗證

DUAL

405B+2× Spark

雙機 ConnectX-7 · 張量並行 · 256GB VRAM

單機 VRAM

128GB

LPDDR5x 統一記憶體

頻寬上限

273GB/s

decode t/s 最大限制

FP4 算力

1PFLOPS

Blackwell GPU (GB10)

雙機 VRAM

256GB

ConnectX-7 200G 互連

雙 DGX Spark · 張量並行

架構設計 · 06 / 09

DUAL-NODE TENSOR PARALLELISM

連接層 · LAYER 01

兩台 DGX Spark 透過 ConnectX-7 SmartNIC 以 200 Gbps 點對點纜線直連。不需要額外的 InfiniBand 交換器——硬體成本等於兩台原裝主機加一條纜線。

01

並行策略 · LAYER 02

使用 張量並行將模型權重沿最後維度切割，每台負責一半。兩機各載入一半參數，前向傳播時透過網路交換中間結果，每層通信後聚合輸出。

02

頻寬估算 · LAYER 03

跨機通信每層約需 400–800 MB。以 200 Gbps 換算約 16–32 ms 延遲。對 MoE 架構（層數少、活躍參數小），此開銷幾乎不影響最終吞吐。

03

256GB

雙節點等效 VRAM。可載入 Llama-4、GPT-OSS 120B（NVFP4 全精度）、Nemotron3-Super 175B 等高品質模型，速度依模型活躍參數而定。

可驗證模型 · 推薦順序

部署優先 · 07 / 09

PROVEN · VERIFIABLE · COMMUNITY-TESTED

PUBLIC №1

120BMoE

GPT-OSS · IQ3_M · 58–70 t/s · 社群實測 · 單機王者

PUBLIC №2

32BDense

Qwen3 · NIM NVFP4 · ~228 t/s · 官方容器 · 零摩擦

EDGE №1

175BMoE

Nemotron3-Super · 5B 活躍 · 預估 36 t/s · 待社群驗證

DUAL №1

405B+

Llama-4 · 雙機 TP · 256GB VRAM · 預估 2025 下半年

NIM = NVIDIA Inference Microservice (官方容器) · GGUF = llama.cpp 量化格式（社群驗證）

關鍵結論

INSIGHT · 08 / 09

CORE FINDING

MoE
is the
Spark

273 GB/s 頻寬下，MoE 是唯一突破規模天花板的路徑。

模型分類標準

3 TIERS

PUBLIC · 已公開可驗證

GPT-OSS 120B MoE · Qwen3-32B · Llama-3.1-8B

IQ3_M 或 FP4 量化、社群實測確認速度與品質

EDGE · 預估可行未驗證

Nemotron3-Super 175B · DeepSeek-R1 Distill

參數推估可行、缺乏 GPU 實測驗證

DUAL · 需雙節點張量並行

Llama-4 · DeepSeek-V3 · GPT-OSS 120B FP4 全精度

需要 2× DGX Spark + ConnectX-7 直連 + vLLM TP

優先級 = 品質 × 可驗證度 × 部署複雜度

09 / 09

CLOSING

MANIFESTO

DGX Spark
deserves a
MoE

不選 MoE，就是在跟自己的記憶體頻寬過不去。

DGX Spark ×2 · Deep Research

25.06.21

TAKEAWAYS

03 RULES

01

偏好 MoE，避開大型 Dense

單機 128GB Spark 的 273 GB/s 頻寬下，Dense 70B 僅 2–3 t/s，MoE 120B 可達 58–70 t/s。

02

雙機互連解鎖 405B+ 模型

ConnectX-7 點對點直連 + vLLM 張量並行實現 256GB 等效 VRAM，200 Gbps 網路延遲可忽略。

03

GPT-OSS 120B MoE 是今日單機王者

社群實測驗證、品質高、速度 58–70 t/s，是 DGX Spark 上已公開模型中最佳選擇。

→ 完 · END OF FIELD NOTE

DGX Spark ×2模型天花板 研究