

さくらインターネットが提供している高火力シリーズ「PHY」「VRT」「DOK」を横断的に紹介する資料です。お客様の課題に合わせて最適なサービスを選んでいただけるよう、それぞれのサービスの特色の紹介や、比較表を掲載しています。
大規模言語モデル(LLM)を自社で活用する際、どのようなGPUを選べばよいか悩んでいませんか? ChatGPTのような高性能AIを自社環境で動かしたい、限られた予算で効率的に運用したい、トレーニングと推論で何が違うのか知りたいといったニーズをお持ちの方も多いでしょう。本記事では、AIエンジニアやデータサイエンティストに向けて、LLMを動かすのに必要なGPUの選び方から、モデルサイズに合わせた要件、コスト削減のテクニックまで、実践的な知識をわかりやすく解説します。
➡︎【キャンペーン実施中】生成AI全力応援キャンペーン~NVIDIA H100 が100時間無料に~
LLMを動かすためのGPU基礎知識
LLMを効率的に動かすためのGPU選びの基本を解説します。
LLMにはなぜGPUが必要なのか?
LLMは膨大な数の行列演算を同時に処理する必要があります。CPUは複雑な処理を得意としますが、同時に多数の演算をおこなうのは苦手です。一方GPUは並列処理に特化しており、同時に数千もの演算を実行できます。
またLLMはモデルのパラメータをつねにメモリに保持する必要があります。大規模なLLMは数十ギガバイトのメモリを必要とするため、大容量のビデオメモリ(VRAM)を搭載したGPUが求められます。
GPUスペックの見方:押さえるべき3つのポイント
GPUを選ぶ際に注目すべき主要なスペックは以下の3つです。
- GPUメモリ容量(VRAM):LLMのパラメータと中間データを保存するために使われます。13Bパラメータのモデルを16ビット精度で動かす場合、理論上は26GBのVRAMが必要ですが、中間データやバッファ分も考慮し、もう少し余裕を持ったVRAM容量を選ぶのが安全です。
- メモリ帯域幅:GPUがデータを読み書きする速度を示す指標(GB/s)です。LLMの推論では、パラメータを素早く読み込む必要があるため、帯域幅が広いほど処理が速くなります。
- 計算性能(OPS/Operations Per Second):1秒間に実行できる演算の数を表し、モデルの処理速度に影響します。とくにGPUでは浮動小数点演算速度の指標としてFLOPS(FLoating-point Operations Per Second)で比較されます。
これらのスペックのバランスがLLMの実行速度と対応可能なモデルサイズを決定するため、用途に応じた適切な選択が重要です。
LLMの動作スピードに影響するおもな要素
LLMの動作スピードに影響するおもな要素は以下のとおりです。
- メモリ帯域幅:LLMは巨大なパラメータを頻繁に読み込むため、データ転送速度が全体のパフォーマンスを左右します。
- モデルの精度:FP32(32ビット)よりFP16(16ビット)やINT8(8ビット)といった低精度で計算することで、メモリ使用量を削減し速度を向上できます。ただし精度を下げすぎると品質が低下する可能性があります。
モデルの大きさで変わるGPU要件
LLMのサイズによって必要なGPU要件が変わります。
パラメータ数からVRAM必要量を計算する方法
LLMが必要とするVRAM容量は、パラメータ数と精度から概算できます。
FP16(16ビット)精度の場合: 必要VRAM = パラメータ数 × 2バイト + 追加メモリ
たとえば、7BパラメータのモデルをFP16で動かす場合、最低でも約14GB(7B×2バイト)のVRAMが必要です。精度を下げることでメモリ要件を削減できます。INT8(8ビット)量子化では約7GB、INT4(4ビット)では約3.5GBになります。
主要LLMモデル別のGPU必要スペック
代表的なLLMモデルごとに必要なGPUスペックを見てみましょう。
ミドルクラスLLM(7B〜13B)
- 推奨GPU:V100(VRAM 32GB)、 RTX 3090/4090(VRAM 24GB)、RTX 4080(VRAM 16GB)
- 代表モデル:Llama 3 8B、Mistral 7B、Gemma 7B
- 量子化対応:INT8/INT4量子化でRTX 4060Ti(VRAM 16GB/8GB)でも動作可能な場合があるが、モデルや環境によっては動作しないこともあるため、事前の検証が必要(実際の成約では分割ロードやCPU RAM依存する場合もある)
ハイエンドLLM(30B〜70B)
- 推奨GPU:A100(VRAM 80GB)、H100(VRAM 80GB)、複数GPU構成
- 代表モデル:Llama 3 70B、Mistral Large 32B
- 量子化対応:INT8量子化でもA10(VRAM 24GB)×複数台構成が必要
日本語特化モデル
- 推奨GPU:RTX 3090/4090(VRAM 24GB)、A10(VRAM 24GB)
- 代表モデル:Nekomata 14B、Elyza 14B、Swallow 13B
- 特徴:日本語処理に特化し、少ないパラメータでも高品質な日本語生成が可能
モデルの種類やサイズに応じた適切なGPUを選ぶことで、コストと性能のバランスの取れたLLM環境を構築できます。
GPUモデルの特性とLLMへの適合性
GPUにはそれぞれ特性があり、用途によって最適なモデルが異なります。コンシューマー向けのGeForceシリーズは価格対性能比に優れていますが、長時間の高負荷処理には冷却性能や信頼性の高いプロフェッショナル向けGPUが適しています。
プロフェッショナル向けのA100やH100は、高いメモリ帯域幅と大容量VRAMを備えており、大規模モデルの実行や複数ユーザーへのサービス提供に最適です。
目的別!最適なGPUの選び方とコスト削減方法
用途に合わせたGPU選びと効率的な活用法を紹介します。
用途別の最適なGPU選び
利用目的に応じた最適なGPU構成を紹介します。
テキスト生成(推論)用
- 重視すべき点:メモリ帯域幅、安定性
- おすすめGPU:RTX 4090(24GB)、A10(24GB)、L4(24GB)
- 特徴:単一ユーザーなら一般向けGPU、複数ユーザー対応ならプロ向けGPUが適切
モデルの追加学習(ファインチューニング)用
- 重視すべき点:VRAM容量、計算性能
- おすすめGPU:H100、V100、H200
- 特徴:推論より多くのVRAMが必要(モデルやバッチサイズによって大きく変動)、複数GPUによる分散学習も検討すべき
研究開発用
- 重視すべき点:柔軟性、拡張性
- おすすめGPU:複数GPU構成(A100×複数、H100×複数など)
- 特徴:さまざまなモデルサイズに対応できる構成が理想的
用途に合わせた適切なGPU選定により、必要十分な性能を確保しながらコストを最適化できます。
GPU資源を効率的に活用するアプローチ
- モデル量子化:GGUF、GPTQ、AWQなどの量子化手法で、モデル精度を下げてメモリ使用量を削減できます。16ビットから4ビットに量子化すると、理論上は必要なVRAMを約4分の1に抑えられます。
- リソース管理:複数プロジェクトでGPUを共有する場合は、Kubernetesなどのツールを使って動的に割り当てることで、遊休時間を最小化できます。
- バッチ処理最適化:複数リクエストをまとめて処理するバッチ推論を導入することで利用効率を向上させられます。vLLMやtext-generation-inferenceなどのフレームワークが有効です。
以上のように、限られたGPUリソースを最大限に活用する方法はいくつか存在します。
オンプレミスとクラウドの使い分け
LLM実行環境として、オンプレミスとクラウドにはそれぞれ異なるメリットがあります。
オンプレミス(自社サーバー)環境でGPUを運用するおもな利点は、セキュリティの確保と、一定の条件下でのコスト効率の高さです。たとえば、社内に対応可能な人員とスキルセットがあり、内製運用が可能な場合や、計算資源を効率よく使い切る運用体制が整っている場合には、長期的なコスト削減につながる可能性があります。また、機密データを扱うような高度なセキュリティ要件があるケースでは、クラウドよりもオンプレミスのほうが自社の統制下で柔軟にセキュリティ対策を講じやすいという利点があります(ただし、コスト削減が主目的ではありません)。
一方、クラウドGPUサービスは初期投資が少なく、スケーラビリティに優れている点が大きな魅力です。需要の変動が激しいケースや、需要の伸びが読めない新規サービスの立ち上げ期など、将来の利用量を正確に見通せない状況ではとくに有効です。ただし、長期間にわたる大規模な利用では、オンプレミスと比較してコストが高くなる傾向があります。
また、オンプレミス環境におけるベアメタルGPUサーバーは、仮想化によるオーバーヘッドがないため、GPUの性能を最大限に引き出すことができます。これは大規模なLLMの実行や、リアルタイム性が求められるサービスにおいてとくに有効です。
セキュリティとパフォーマンスの両立を目指す場合には、オンプレミスの専用GPUサーバーに加え、適切なネットワークや物理的セキュリティ対策を講じることが効果的です。
まとめ
本記事では、LLMに必要なGPUの基礎知識から、モデルサイズに合わせた要件、目的別の選び方まで解説しました。LLMの性能を最大限引き出すには、モデルのパラメータ数と使用目的に合わせたGPU選びが重要です。とくにVRAM容量はモデルサイズに直結し、推論とトレーニングでは必要スペックが大きく異なります。限られた予算でも、モデル量子化や効率的なリソース管理で最適化が可能です。
高性能GPUを搭載した物理サーバーが必要な場合は、さくらの高火力 VRTなどのGPU特化型サーバーも選択肢の1つです。自社のニーズに最適なGPU戦略で、LLMの可能性を最大限に活用しましょう。
さくらインターネットの高火力シリーズはこちら
さくらのGPUクラウドサービス|最新GPUで開発・AI学習・研究開発を加速!

さくらインターネットが提供している高火力シリーズ「PHY」「VRT」「DOK」を横断的に紹介する資料です。お客様の課題に合わせて最適なサービスを選んでいただけるよう、それぞれのサービスの特色の紹介や、比較表を掲載しています。