全サービスNVIDIAのGPUを搭載。AI・ディープラーニングに最適なGPUサーバー「高火力」
>>サービスラインアップをみる

2025年12月、さくらインターネットは「GENIAC採択企業に学ぶGPU活用実践セミナー」を開催しました。「GENIAC(Generative AI Accelerator Challenge)」は、経済産業省が主導する、国内の生成AI開発力を強化するためのプロジェクトです。採択企業にはGPUリソースや技術支援が提供され、急速に進化する生成AI技術への対応を後押しします。こうした取り組みにより、日本企業の競争力を高めることが狙いです。
本セミナーには、GENIAC第3期に採択された株式会社ABEJAをはじめ、GPUクラウドを提供するさくらインターネット、そして技術パートナーとしてLLM開発の性能向上を支える株式会社フィックスターズの3社が登壇。GENIAC採択に至るまでの経緯から、LLM開発におけるGPUクラウド活用、さらに開発を前に進めるために欠かせないサポートや目標設定の考え方まで、現場ならではの「リアル」が語られました。本記事では、そのトークセッションの内容を抜粋してお届けします。
服部 響さん
株式会社ABEJA プリンシパルデータサイエンティスト
趣味で麻雀AIを作ったことをきっかけに機械学習の道へ。2020年5月にABEJA入社。データサイエンティストとして幅広いプロジェクト及びデータサイエンス組織のマネージャーを経験後、専門職に戻る。GENIACプロジェクトではプロジェクトリーダーとしてLLM開発を牽引。趣味でデータ分析コンペティションに参加。Kaggle Grandmaster。KaggleDays world championshipやatmaCupなど国内外コンペで複数回優勝経験あり。
八木 武尊さん
株式会社フィックスターズ AI事業推進室 アドバンストシニアエンジニア
2021年にフィックスターズへ新卒入社。「Fixstars AIBooster」開発チームに所属し、カスタマーサクセスとしてお客様とともにパフォーマンスエンジニアリングの実践・推進に取り組む。
山口 立
さくらインターネット株式会社 AI事業推進室 営業 マネージャー
マネージドサービスプロバイダでメガクラウドの販売代理営業を経て、2016年にさくらインターネットに入社。GPU専門の営業組織で、生成AIビジネスに取り組むお客さまに最適な提案をおこなう。
LLM開発では“環境構築”と“切り分け”が最初の壁になる

まずは ABEJAの服部さんに質問です。今回のGENIAC第3期にあたって、さまざまなGPUクラウドのなかからさくらインターネットをご選定いただいたポイントをお聞かせください。

第2期までは別の事業者にお願いしていたのですが、突然GPUが調達できない事態になり、さくらインターネットを含む複数社をご紹介いただいたのが始まりでした。
さくらインターネットに決定したポイントは2つあります。1つ目は予算やスケジュール、GPUの量などの基準を満たしていること、そして2つ目がサポート体制です。
さくらインターネットでは、インフラ面、事前の環境構築から支援していただけるとのことでした。何かあったときのための技術サポート体制も構築いただき、安心材料としてかなり大きかったです。

ありがとうございます。では、GPUクラウドを選定するうえで重要視されていることや、技術サポートに求めることを教えてください。

2点あります。1つ目は準備段階のサポートです。GPUで学習をするにはサーバーを用意すればよいわけではなく、事前の環境構築に独特のクセがあります。しかも、LLMは1台のサーバーだけで学習できるわけではなく、複数台のサーバーを接続し、クラスタを構成したうえで学習させなければいけません。このクラスタの構築は、経験のない方にはおそらくかなり難易度が高いと思います。そこをサポートいただけるかどうかがポイントですね。
2点目は、サポート期間中に生じた不良に対して一緒に原因を探していただけるかどうかです。われわれは過去に苦労したことが結構あるんですよ。たとえば、実際はGPUの不良が起きていたのに、「自分たちのソースコードや学習のさせ方が悪かったんじゃないか」ということばかり疑ってしまって、GPUに原因があることになかなか気づけなかったという経験があるんです。さくらインターネットの場合、困ったときに「ではGPUの調子はどうですか」と聞いてくださったり、それ以外でも一緒に原因を探してくれたり、リアルタイムな相談のやり取りができました。こういったサポートがあると、学習を止めることなく、もともとの計画を進めることができて助かります。

一般的なシステムだと、トラブルの原因がソフトウェアやインフラなのか、それともハードウェアなのか線引きしやすいと思います。LLM、GPUだからこその切り分けの難しさがあるものなのでしょうか。

はい。同じようなエラーでも原因はいろいろとありますし、検索エンジンやAIで調べても「見たことがないエラー」という結果になることもあります。切り分けは難易度が高いと思いますね。

一般的なCPUで動くシステムとはやはり違うものなんですね。
では、GPUの学習のMLOpsの一部をご協力いただいているフィックスターズの八木さんからも、切り分けの難しさやLLM特有のサポートの難しさについてお話しいただけますか。

1つのGPUで学習するわけではなく、いくつものノードを大量に使って学習させていくので、GPU間の通信や、ノード間の通信をおこなってストレージからデータを読むところなどでは、普通のCPUで学習するときと違ってエラーの要因が増えてしまいます。それがとくに難しさの要因となっているかと思います。

ソフトウェアが動かない、インフラを工夫しなければいけないというのは、かなり深刻で解決の難易度が高い問題ですが、初動のアプローチはどうすればよいのでしょうか。

原因が何かを調べることです。とくにLLMにおいては、原因と考えられることが大量にあって一概に言えませんし、どこから手をつけたらいいかわからないこともあると思います。当社の経験のなかでアドバイスできることはありますし、伴走できる形で助言ができればと思います。

原因を切り分けるのは非常に難しいので、私としては基本的に当事者双方の歩み寄りが重要と考えています。そして、それはお互いの事業領域に入っていくというより、1つのチームとして原因の目星をつけていく活動が大切なのではないかと思います。
>>AI・ディープラーニングに最適なGPUサーバー「高火力シリーズ(PHY・VRT・DOK)」を比較できる資料をダウンロードする
LLM開発の目標設計

GPUクラウドは、CPUのサーバーと比較して圧倒的にコストが高いですよね。コスト分の成果は出さなければならないのに、LLMはどこまで何をやれば正解なのか、どこにゴールがあるのか、その指標を見つけるのがなかなか難しいと思っています。経済性を担保しつつ最大限の成果を出すために、目標値はどこに置かれることが多いですか?

まずは定量的な目標を持つことと、最終的なゴールからの逆算です。「ここで使うためにはこうしなければ」「これぐらい進んでいなければ」ということ、さらに「市場の一般的なモデルよりもここが秀でているから、こういう場面で使ってもらえる」「新しい技術に取り組んだことで、自社に知見がたまっている状態を作れた」ということなどを決めて、そこから逆算するんです。
ただ結局は、連続した線の上でどこまで行けるかという勝負になるので、少しでも点数を上げるためにとにかくできることをひたすらやる、という気持ちでいます。

なるほど。八木さんは、お客さまを支援する立場として考えることが多いと思いますが、目標値はどのように設定されていますか?

とくに、AI学習を加速させる支援をすることが多いので、まずはお客さまがどのくらいのタイムスパンで進めたいのかをざっくり把握します。そのうえで、AIの学習や推論などで性能を上げ、開発サイクルのどこを短くできるかをご提案しています。

学習のスピードとサイクルをいかにして高めていくかが重要だということですね。では、GPUを最大限活用してLLMの開発を加速させるとなったとき、第一歩として何をすべきなのでしょうか。

やはり、どこが遅いのかを観測することです。GPUの計算処理の部分が遅いのか、データを読むところが遅いのか、ある種、問題の切り分けに近いところもあります。そこからボトルネックを特定し、それに対処できるようなハイパーパラメーターを設定するなど、学習の性能チューニングを実施する形で性能改善をおこないます。
モデル選定の試行錯誤が次のLLM開発につながる

ここでLLMのお話に戻りましょう。今回、GENIAC第3期でABEJAが選定されたベースモデルについて、重視した点をお聞かせください。

当然ですが、サイズに対して性能がいいことは非常に重要でした。また、今回はオープンなモデルも使ってみようと、2つのモデルにチャレンジしています。いろいろな方がいろいろな理由で選べるようにしたいということを念頭に複数のベースモデルを選びました。これで用途に応じて使い分けることもできるかと思っています。

そのときどきで自分たちにとってベストな選択をする、あるいは評価をするということが大切ですか。

タイミングはかなり重要だと思っています。事前に「このモデルでいく」と決めていても、「次のモデルがもうすぐ出る」といった状況を読みながら選んでいく必要はありますね。
そしてもう1つ大事になるのは、プロセス自体を会社としてノウハウ化しておくことですね。最新のベースモデルを使っても、次から次に新しいものが出てくるので、「十分な賞味期限があるわけではない」という状況はいつまでも続きます。たとえば、「こういうモデルに対してこういう学習をしたら、こういう結果になる」ということも学習しておくことで、次の新しいモデルが登場したときに適用できることがあるかもしれません。そういったノウハウやデータセットを整えておくことも重要です。今回も、GENIAC第2期で作成したデータセットを存分に活用しているんです。
このような積み重ねは、弊社が10年以上やってきたなかで、強みの1つと言えるでしょう。世の中のテクノロジーの流行り廃りのなかで、さまざまな失敗事例も見てきましたが、われわれは「こうすると成功できる」という過去の学びをビジネスの成功につなげられていると思います。
GENIACを通じて見えた「国プロ」ならではの難しさと価値

GENIACをはじめとする国が推進するプロジェクトを進めていかれるなかで、ご苦労や工夫されている点は、どのようなことですか。

国のプロジェクトとLLMの技術進化の速さは、相性があまりよくないと感じることがあります。申請を出すまでの数か月の間に、ベースモデルは次々と新しいものが出てくるし、計画を立てた段階とプロジェクトが実際に始まる段階では、世の中の状況が全然違うことがあるんです。
工夫していることとしては、変化が起きても「ゴールはここ」と言えるところをできるだけしっかり申請書に記載し、下手にプロセスを決めてしまわないことですね。国のプロジェクトの場合、あとで変更するのが難しいので、臨機応変に対応できるようにしています。とはいえ、ふわっとした申請をすると公募に通らないので、目指すところは定量化します。

いざ進めてみると、新しいものが出てきて折り合いがつかなくなることもありますよね。それも織り込み済みで目標値を設定することが非常に重要だと改めて痛感しました。 GENIACのプロジェクトを通じて、自社のAI開発にどのような変化、あるいはメリットがありましたか。

まず、長期の研究開発をしっかりやっていくという意志を込めて杭を打った状態になるので、社内にそれを推進する土台ができたのが大きなメリットだと思っています。 社外から見ても「GENIACに採択されている」という安心感があるようで、ご相談やいろいろな会社さんとのコラボレーションも増えましたね。

では、GENIACの第4期があると仮定して、申請を考えていらっしゃる方に八木さんからメッセージをいただけますか?

エンジニアの立場としてコメントしますが、MLOpsについて少し意識して、スケジュールや学習時間を短くする、推論の精度を上げることで、お客さまを支援していきたいと考えています。技術面はなんでもお気軽にお尋ねいただければと思います。

GENIAC 申請にあたって、服部さんから成功のポイントをおうかがいできますか?

まずは目的と計画ですね。今後LLMがどんどん新しくなっていくなかで、そもそもこのプロジェクトを実施することでいったい何が得られるのか、そのゴールの部分と、そこに向けた計画をしっかり立てるということ、それらがベースとしてあります。
でも、個人的には「絶対やるぞ」という人がその組織にいるかどうかがもっとも重要だと思います。さきほどお話にあったような、エラーの原因を探ったり精度を上げたりという行為は、繰り返しの努力次第です。人の技術力も当然大事ですが、「作りたい」というモチベーションですね。GENIACは、「やりたい」と思える人がいて、組織があって、初めてフルに活用できると思います。
GENIAC応募・採択企業を支える特別支援パッケージ
本記事で紹介したように、LLM開発や生成AIの研究には、単なるGPUリソースだけでなく、環境構築やトラブル対応を含む技術的なサポートが不可欠です。
さくらインターネットは、GENIAC採択企業をはじめとするAI開発プロジェクトに対し、GPUクラウドの提供から補助金申請支援、運用最適化まで一気通貫でサポートする「特別支援パッケージ」を用意しています。
国内クラウドならではの安心感と、Fixstars AIBoosterによる性能チューニングで、複雑なクラスタ構築や学習の高速化もスムーズに。さらに、補助金申請や事業計画の相談まで、AI開発を前進させるための伴走支援を提供します。GENIACを目指す企業や、GPU活用で事業を加速したい方は、ぜひご検討ください。
自社構築と外部サービスを比較!GPU基盤導入ガイド
>>資料をダウンロードする
New