上記のビデオをNotebookLMに読ませて、次の問い合わせで得た情報
「モデルのサイズに応じたトークン/秒の値を表形式で表示して下さい。」
はい、最新Mac Studio M3 UltraでDeepSeek R1(671B)をローカル実行した際の性能について、モデルのサイズに応じたトークン/秒の値を表形式で以下に示します。
モデルサイズ | トークン/秒 (mlx) | トークン/秒 (gguf) | 備考 |
---|---|---|---|
1.5 billion | 約 230-262 | – | |
7 billion | 約 113-116 | – | |
14 billion | 約 50-62 | – | |
32 billion | 約 29-32 | – | |
70 billion | 約 15-16 | – | Llamaのクアンタイズモデル |
671 billion (4bit) | 約 13-20 | 約 7-17 | ggufはGPUオフロード設定により変動、mlxの方が高速な傾向 |
重要なポイント:
- mlx形式のモデルは、Appleシリコンに最適化されているため、一般的にgguf形式よりも高いトークン/秒を記録しています。
- 671 billionパラメータのモデル(4bitクアンタイズ)の場合、mlx形式でおおよそ13-20トークン/秒、gguf形式ではGPUオフロードの設定により約7-17トークン/秒となっています。
- gguf形式の671 billionパラメータモデルでは、GPUオフロードを最大に設定することで、トークン/秒が向上する傾向が見られました。ただし、ビデオRAMの使用量が上限に近づく可能性もあるため注意が必要です。
- 一般的に、モデルのパラメータサイズが大きくなるほど、トークン/秒の値は低下する傾向にあります。
上記は、提供されたソースに基づいた情報です。特に断りのない限り、数値は動画内で示された計測値や言及に基づいています。
DGX sparkでLLMモデルのサイズ 8B,32B,40Bを実行したさい、予想される性能は?
Grokの答え
NVIDIA DGX Sparkは、NVIDIA GB10 Grace Blackwell Superchipを搭載し、最大2000億パラメータのAIモデルをローカルで処理できるデスクトップ型AIスーパーコンピューターです。128GBの統合メモリと1000 AI TOPS(FP4精度)の性能を持ち、大規模言語モデル(LLM)の推論やファインチューニングに適しています。以下に、8B、32B、40BのLLMモデルを実行した場合の予想性能を、利用可能な情報に基づいて推定します。
1. 8B(80億パラメータ)モデルの性能
- 推論性能: 8Bモデルは比較的小規模で、DGX Sparkの128GBメモリに十分収まります。FP4精度での1000 TOPSの計算能力を考慮すると、推論速度は数十トークン/秒(tokens/second)が期待されます。類似システム(例:NVIDIA 4090 GPU)では、8Bモデルで50-100 tokens/secondが一般的であり、DGX Sparkはこれを上回るか同等の性能(おおよそ60-120 tokens/second)が見込まれます。
- ファインチューニング: 8Bモデルはメモリ帯域幅(273 GB/s)や計算リソースの制約を受けにくく、効率的にファインチューニング可能。バッチサイズを大きく設定でき、数時間から1日程度で高品質なチューニングが完了すると予想されます。
- 消費電力: 約200Wの低消費電力で動作し、8Bモデルでは電力効率が非常に高い。
2. 32B(320億パラメータ)モデルの性能
- 推論性能: 32Bモデルはメモリ使用量が増加し、128GBのメモリ内で動作可能ですが、量子化(例:FP4や4-bit)が必要な場合があります。GTC 2025でのデモでは、32Bモデル(R1-32B)のLoRAファインチューニング後の推論が「十数トークン/秒」(約10-20 tokens/second)と報告されています。これは、メモリ帯域幅やモデルサイズのスケーリングによる制約が影響している可能性があります。
- ファインチューニング: 32Bモデルのファインチューニングは可能ですが、メモリ帯域幅(273 GB/s)がボトルネックになる場合があります。デモではリアルタイムでのLoRAチューニングが示されており、数分から数時間で軽量なチューニングが完了する性能が期待されます。
- 課題: トークン生成速度が生成量増加に伴い低下する傾向が報告されており、長時間の推論では性能がやや落ちる可能性があります。
3. 40B(400億パラメータ)モデルの性能
- 推論性能: 40Bモデルは32Bモデルよりさらにメモリを要求しますが、DGX Sparkの128GBメモリで量子化を活用すれば動作可能。推論速度は32Bモデルより若干低下し、10-15 tokens/second程度が現実的な範囲と考えられます。これは、メモリ容量と帯域幅の制約によるものです。
- ファインチューニング: 40Bモデルのファインチューニングは可能ですが、効率的な量子化やバッチサイズの調整が必要。32Bモデル同様、LoRAなどの軽量手法なら数時間で完了する可能性が高いが、フルファインチューニングはメモリ制約から時間がかかる(1日以上)。
- スケーラビリティ: 2台のDGX SparkをNVIDIA Connect-Xで接続すれば、最大4050億パラメータのモデルに対応可能ですが、40Bモデル単体では1台で十分動作します。
全体的な考察と注意点
- メモリ制約: DGX Sparkの128GBメモリのうち、ユーザーデータ用は約100GBとされており、システムが28GBを占有します。これにより、32Bや40Bモデルでは量子化(FP4や4-bit)が必須となる場合があります。
- 比較: 32BモデルをNVIDIA 4090(24GB VRAM)で動作させる場合、量子化を強く適用してもDGX Sparkより高速(20-30 tokens/second)な場合がありますが、メモリ容量の制約でファインチューニングは困難。DGX Sparkは大容量メモリと統合ソフトウェアスタック(NVIDIA AIソフトウェア)の利点で、推論とチューニングの両方でバランスが良い。
- 電力効率: 200Wの低消費電力は、データセンター級の性能をデスクトップで実現する上で魅力的。8Bモデルでは余裕があり、32Bや40Bでも実用的な性能を発揮。
- 実測値の不足: 現時点で具体的なベンチマーク(例:トークン生成速度の公式数値)が公開されておらず、推定はデモや類似システムに基づいています。実際の性能はモデル構造や最適化に依存します。
モデルサイズ | 推論性能 (tokens/second) | ファインチューニング時間 | メモリ制約と注意点 |
---|---|---|---|
8B | 60-120 | 数時間 | 128GBメモリで余裕あり。高速かつ効率的。 |
32B | 10-20 | 数分~数時間 (LoRA) | 量子化推奨。メモリ帯域幅がボトルネックになる可能性。 |
40B | 10-15 | 数時間~1日 | 量子化必須。32Bよりやや低速、メモリ制約厳しい。 |
注: 性能は量子化(FP4/4-bit)使用時の推定値。実測値はモデルやタスクにより変動する可能性あり。
手持ちのPCで実行した結果(数値はトークン/秒)
NucBox_M7 Pro Ryzen 9 PRO 6950H | RTX3080+GTX1080 | |
gemma3:4b | 15.3 | 122.9 |
deepseek-r1:8b | 9.5 | 28.6 |
gemma3:12b | ー | 20 – 25.9 |
deepseek-r1:32b | ー | 3 – 4 |