M3 UltraとDeepSeek R1 671Bのローカル性能検証

上記のビデオをNotebookLMに読ませて、次の問い合わせで得た情報

「モデルのサイズに応じたトークン/秒の値を表形式で表示して下さい。」

はい、最新Mac Studio M3 UltraでDeepSeek R1（671B）をローカル実行した際の性能について、モデルのサイズに応じたトークン/秒の値を表形式で以下に示します。

モデルサイズ	トークン/秒 (mlx)	mac MINI m4 pro	備考
1.5 billion	約 230-262	–
7 billion	約 113-116	42
14 billion	約 50-62	22
32 billion	約 29-32	10.55
70 billion	約 15-16	5 tokens/s	Llamaのクアンタイズモデル
671 billion (4bit)	約 13-20	—	ggufはGPUオフロード設定により変動、mlxの方が高速な傾向

重要なポイント:

mlx形式のモデルは、Appleシリコンに最適化されているため、一般的にgguf形式よりも高いトークン/秒を記録しています。
671 billionパラメータのモデル（4bitクアンタイズ）の場合、mlx形式でおおよそ13-20トークン/秒、gguf形式ではGPUオフロードの設定により約7-17トークン/秒となっています。
gguf形式の671 billionパラメータモデルでは、GPUオフロードを最大に設定することで、トークン/秒が向上する傾向が見られました。ただし、ビデオRAMの使用量が上限に近づく可能性もあるため注意が必要です。
一般的に、モデルのパラメータサイズが大きくなるほど、トークン/秒の値は低下する傾向にあります。

上記は、提供されたソースに基づいた情報です。特に断りのない限り、数値は動画内で示された計測値や言及に基づいています。

DGX sparkでLLMモデルのサイズ 8B,32B,40Bを実行したさい、予想される性能は？

Grokの答え

NVIDIA DGX Sparkは、NVIDIA GB10 Grace Blackwell Superchipを搭載し、最大2000億パラメータのAIモデルをローカルで処理できるデスクトップ型AIスーパーコンピューターです。128GBの統合メモリと1000 AI TOPS（FP4精度）の性能を持ち、大規模言語モデル（LLM）の推論やファインチューニングに適しています。以下に、8B、32B、40BのLLMモデルを実行した場合の予想性能を、利用可能な情報に基づいて推定します。

1. 8B（80億パラメータ）モデルの性能

推論性能: 8Bモデルは比較的小規模で、DGX Sparkの128GBメモリに十分収まります。FP4精度での1000 TOPSの計算能力を考慮すると、推論速度は数十トークン/秒（tokens/second）が期待されます。類似システム（例：NVIDIA 4090 GPU）では、8Bモデルで50-100 tokens/secondが一般的であり、DGX Sparkはこれを上回るか同等の性能（おおよそ60-120 tokens/second）が見込まれます。
ファインチューニング: 8Bモデルはメモリ帯域幅（273 GB/s）や計算リソースの制約を受けにくく、効率的にファインチューニング可能。バッチサイズを大きく設定でき、数時間から1日程度で高品質なチューニングが完了すると予想されます。
消費電力: 約200Wの低消費電力で動作し、8Bモデルでは電力効率が非常に高い。

2. 32B（320億パラメータ）モデルの性能

推論性能: 32Bモデルはメモリ使用量が増加し、128GBのメモリ内で動作可能ですが、量子化（例：FP4や4-bit）が必要な場合があります。GTC 2025でのデモでは、32Bモデル（R1-32B）のLoRAファインチューニング後の推論が「十数トークン/秒」（約10-20 tokens/second）と報告されています。これは、メモリ帯域幅やモデルサイズのスケーリングによる制約が影響している可能性があります。
ファインチューニング: 32Bモデルのファインチューニングは可能ですが、メモリ帯域幅（273 GB/s）がボトルネックになる場合があります。デモではリアルタイムでのLoRAチューニングが示されており、数分から数時間で軽量なチューニングが完了する性能が期待されます。
課題: トークン生成速度が生成量増加に伴い低下する傾向が報告されており、長時間の推論では性能がやや落ちる可能性があります。

3. 40B（400億パラメータ）モデルの性能

推論性能: 40Bモデルは32Bモデルよりさらにメモリを要求しますが、DGX Sparkの128GBメモリで量子化を活用すれば動作可能。推論速度は32Bモデルより若干低下し、10-15 tokens/second程度が現実的な範囲と考えられます。これは、メモリ容量と帯域幅の制約によるものです。
ファインチューニング: 40Bモデルのファインチューニングは可能ですが、効率的な量子化やバッチサイズの調整が必要。32Bモデル同様、LoRAなどの軽量手法なら数時間で完了する可能性が高いが、フルファインチューニングはメモリ制約から時間がかかる（1日以上）。
スケーラビリティ: 2台のDGX SparkをNVIDIA Connect-Xで接続すれば、最大4050億パラメータのモデルに対応可能ですが、40Bモデル単体では1台で十分動作します。

全体的な考察と注意点

メモリ制約: DGX Sparkの128GBメモリのうち、ユーザーデータ用は約100GBとされており、システムが28GBを占有します。これにより、32Bや40Bモデルでは量子化（FP4や4-bit）が必須となる場合があります。
比較: 32BモデルをNVIDIA 4090（24GB VRAM）で動作させる場合、量子化を強く適用してもDGX Sparkより高速（20-30 tokens/second）な場合がありますが、メモリ容量の制約でファインチューニングは困難。DGX Sparkは大容量メモリと統合ソフトウェアスタック（NVIDIA AIソフトウェア）の利点で、推論とチューニングの両方でバランスが良い。
電力効率: 200Wの低消費電力は、データセンター級の性能をデスクトップで実現する上で魅力的。8Bモデルでは余裕があり、32Bや40Bでも実用的な性能を発揮。
実測値の不足: 現時点で具体的なベンチマーク（例：トークン生成速度の公式数値）が公開されておらず、推定はデモや類似システムに基づいています。実際の性能はモデル構造や最適化に依存します。

モデルサイズ	推論性能 (tokens/second)	ファインチューニング時間	メモリ制約と注意点
8B	60-120	数時間	128GBメモリで余裕あり。高速かつ効率的。
32B	10-20	数分～数時間 (LoRA)	量子化推奨。メモリ帯域幅がボトルネックになる可能性。
40B	10-15	数時間～1日	量子化必須。32Bよりやや低速、メモリ制約厳しい。

注: 性能は量子化（FP4/4-bit）使用時の推定値。実測値はモデルやタスクにより変動する可能性あり。

手持ちのPCで実行した結果（数値はトークン／秒）

	NucBox_M7 Pro Ryzen 9 PRO 6950H	mac mini M4Pro	RTX3080+GTX1080
gemma3:4b	15.3	55	122.9
deepseek-r1:8b	9.5	35.2	28.6
gemma3:12b	ー	24.5	20 – 25.9
deepseek-r1:32b	ー	10	3 – 4

雑多な話題の部屋

電子工作、ソフトウェア無線、天文、セキュリティ

M3 UltraとDeepSeek R1 671Bのローカル性能検証

DGX sparkでLLMモデルのサイズ 8B,32B,40Bを実行したさい、予想される性能は？

1. 8B（80億パラメータ）モデルの性能

2. 32B（320億パラメータ）モデルの性能

3. 40B（400億パラメータ）モデルの性能

全体的な考察と注意点

手持ちのPCで実行した結果（数値はトークン／秒）

コメントを残すコメントをキャンセル

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

DGX sparkでLLMモデルのサイズ 8B,32B,40Bを実行したさい、予想される性能は？

1. 8B（80億パラメータ）モデルの性能

2. 32B（320億パラメータ）モデルの性能

3. 40B（400億パラメータ）モデルの性能

全体的な考察と注意点

手持ちのPCで実行した結果（数値はトークン／秒）

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル