IT・デジタル関連の最新情報や企業事例をいち早くキャッチ
>>さくマガのメールマガジンに登録する
2024年10月16日、「CEATEC 2024」内のセッション「生成AI市場を加速する国産クラウドのGPU戦略」にて、さくらインターネット 技術推進統括担当 執行役員/最高情報セキュリティ責任者/最高情報責任者の江草 陽太と、クラウド事業本部 事業開発部 部長の角 俊和が登壇しました。経済産業省のクラウドプログラム認定1 を受ける国産クラウド事業者のさくらインターネットが、どのような観点で生成AIサービス立ち上げを支えるGPUクラウドを推進しているのか――。本記事では当セッションの一部を抜粋してお届けします。
GPUの利用方法
江草 陽太(えぐさ ようた) プロフィール
さくらインターネット株式会社 技術推進統括担当 執行役員/最高情報セキュリティ責任者/最高情報責任者
1991年、大阪府生まれ。2014年10月、さくらインターネットに入社。2016年7月より執行役員に就任しさくらインターネット全体の技術推進を統括。
前半では、「AIの開発とAIサービスの開発の違い」や「AIの開発ができた場合、サービスにつなげていくにはどうすればよいのか」といった話をしたいと思います。
AIの話題でよく耳にするのがGPUです。GPUやCPUのような計算装置は「計算資源」と呼ばれますが、その「計算資源」のAIにおける利用方法は大きく2つに分かれます。
1つ目が「学習」、いわゆるトレーニングです。たくさんの写真や顔写真、文章、音声など、収集したデータセットを使って学習させることで、コンピューターに新しい絵を生成させる、文字を入力すると画像が出てくる、あるいは写真を入力するとその内容を文字で返してくれる、などのモデルを作ります。
この学習には、計算資源も時間もたくさん必要です。そのため、処理は1台のサーバーに限らず、複数台のサーバーを並行して使うこともあります。
ただし、これはゼロからモデルを作る場合です。すでに出来上がったモデルに自分の顔写真を学習させるとか、英語のモデルに日本語を追加するなど、既存のモデルに追加学習をさせる場合は、計算資源や時間が少なくて済むこともあります。
一方、学習したデータをもとに新しいものを生み出す、あるいは判断・解釈をおこなうというのが「推論」です。AIの開発が済んだあと、サービス開発につながる部分がこれにあたります。学習で得たモデルを使って新しい文章を作成したり、顔認識をおこなったりします。
この部分は学習に比べて計算資源が少なく、時間も一瞬から数秒、長くても数分で処理が完了することが多いです。つまり、「学習」と「推論」では、おこなうことと必要な計算量が大きく異なるという前提があります。
コンテナー型GPUクラウドサービス 高火力 DOK(ドック)
>>サービスの詳細を見る
AI開発に求められるスキルセット
エンジニアとして、あるいは企画・プロジェクト推進者として、学習と推論それぞれに求められるスキルセットとはなんでしょうか。
学習においてもっとも重要なのは、「データセットの収集」です。たとえば、人の顔を学習させるためには、きれいな顔写真を大量に集めなければなりません。また、学習に適したデータを整理する作業も必要です。大量のデータを保存し、アクセスできるようにするための知識や、画像を数値化して学習しやすい形に整えるノウハウも求められます。
ここまでの準備が整ったら、つぎは「機械学習のアルゴリズムの理解」です。機械学習の規模が大きくなると、同時に多数のサーバーを活用する分散システムの理解や、モデルの精度や性能を評価する統計的知識が求められます。また、実験過程で性能向上を分析する能力も必要です。
またプログラミングスキルに加えて、機械学習に特化したフレームワークを使った実務でのプログラミング能力も重要です。エンジニアに限らず、かかわるすべての人がこの流れを理解し、実行するべきです。
つぎに推論のフェーズでは、社会実装やサービス化、つまり世の中に提供することが求められます。この段階では、いかに大多数のユーザーにサービスを提供するかという点が重要となり、システム開発の能力が問われます。これは単に開発能力だけでなく、どのようなモデルがあれば、どういう形で世の中に出して、ユーザーに使ってもらえるかというサービスとしての設計も含まれます。そのため、サービスの設計や戦略も重要です。
さらに、実験段階ではあまり意識しなかった部分ですが、システム開発にはAPIやデータベースの設計もいりますし、セキュリティ対策など、実装における幅広い能力が求められます。
また、プログラミング言語やフレームワークも変わり、機械学習のプログラミングだけではなく、外部にサービスを提供するための開発スキルが必要です。たとえば、ウェブアプリとして提供する場合、ウェブフレームワークを使ったサービス開発のプログラミングスキルがいります。
さらに、サービスをユーザーに提供するために、インフラを構築し、そのうえにソフトウェアをデプロイする能力も求められます。
近年、ウェブアプリケーション業界では、プログラムやモデルの更新が自動でおこなわれる仕組みが主流です。たとえば、デプロイされた環境が自動的に最新バージョンにアップデートされ、ユーザー数が増えればサーバーが自動でスケールする仕組みなどが必須になります。
このように、AIの実験をおこなう際とは異なる視点でのスキルが必要です。AIに限らず、ウェブアプリケーション開発において求められる能力ですが、AIの場合にはさらに特別な技術がいります。AIの推論は、非常に速い処理が可能な場合もあれば、30秒や1分かかることもあります。また、一般的なサーバーでは処理ができず、GPUを搭載したサーバーでなければ対応できないことがあります。サーバー台数の制限があるなかで、ユーザーの操作に即座に対応するのではなく、順次ジョブを実行していく「非同期実行」の仕組みも構築しなければなりません。
さくらインターネットでは、AIサービスの開発に必要なさまざまなインフラサービスを提供しています。
たとえば、GPUベアメタルサーバー「高火力 PHY」は、物理的にGPUを搭載したサーバーをデータセンターに設置し、丸ごと借りるサービスです。月額料金でサービスを展開しており、これは継続的に大規模利用を求める需要に対応するものです。
コンテナー型のGPUサービス「高火力 DOK」は、サービス化や大量の定型実験に対応するためのインフラサービスです。事前に決めた処理をいつでも実行できる環境を提供し、実験から実装までをサポートしています。たとえば、3時間や半日程度で終わる学習や、30秒から5分程度の推論をおこなう際に高火力 DOKを活用いただけます。
また、ユーザーが画像をアップロードした際に、あらかじめ設定した処理を自動で実行することもできます。ユーザー数の増減にかかわらずサービスが提供できるのが、高火力 DOKの大きな特徴です。
また今後ラインアップ予定の、仮想化技術を活用したクラウドサービス(VM版)は1時間単位で借りられるクラウド型仮想サービスで、短期間の利用や自由なサーバー運用に適しています。たとえば、追加学習を試したい場合などに便利です。
さくらインターネットが提供するGPUのソリューション
角 俊和(すみ としかず) プロフィール
さくらインターネット株式会社 クラウド事業本部 事業開発部 部長
大手通信キャリア、メディア企業での開発・企画・技術統括・事業統括を経て、2019年3月にさくらインターネットに入社。現在はおもに「高火力シリーズ」をはじめとする機械学習・生成AI向けクラウドサービスなどの新規事業を統括。
後半は「さくらインターネットが提供するGPUのソリューション」について、もう少しくわしくお話ししたいと思います。
さくらインターネットのサービスは、大きく分けてクラウドインフラ、物理インフラ、そして周辺サービスという3つのカテゴリーで展開しています。
クラウドインフラは、「さくらのクラウド」や「さくらのVPS」、「さくらのレンタルサーバ」などです。物理インフラは「専用サーバ」サービスに加え、「高火力コンピューティング」というブランド名でGPUサーバーのインフラサービスを提供しています。
この生成AI向けクラウドサービス「高火力シリーズ」というブランドは、生成AIや機械学習向けのサービスとして展開し、約1,000億円を投資してこの分野の強化を進めています。GPUは日本では経済安全保障上の重要物資と位置づけられていて、さくらインターネットも政府の助成を受けてAIビジネス市場の拡大に向けたインフラを整備し、サービスの提供に注力しています。
>>さくらインターネット、生成AI向けクラウドサービス開始へ〜NVIDIA H100 GPUを搭載した2EFの大規模クラウドインフラを石狩データセンターに整備〜(ニュースリリース)
「高火力 PHY」の概要
「高火力シリーズ」のうち、「高火力 PHY」という物理基盤のサービスは、機材そのものをお貸しします。「NVIDIA H100」という非常に高性能なGPUを8基搭載した56コアのサーバーを、月額300万円ほどで提供しています。
物理基盤のサーバー、ストレージ、ネットワークをお客さまの要件に応じて柔軟に構築できる点が特徴です。たとえばAIや機械学習の大規模な計算処理が必要なプロジェクトに最適で、広帯域かつロスレスのネットワークを活用して複数台のクラスタ構成を組むことが可能です。そのため、非常に時間のかかる機械学習処理などに特化したプロジェクトなどで活用されています。
高価格帯のサービスですが、在庫が補充されるたびにすぐに売り切れるほどの大きな反響があるため、現在もGPUインフラ基盤の増強を進めています。
「高火力 DOK」の概要
もう1つは、「高火力 DOK」という、今年の6月に開始したDockerコンテナーのマネージドサービスです。
こちらは物理基盤でなく、クラウド型のサービスです。お客さまにあらかじめDockerコンテナーのイメージを作成していただき、それをこのサービスに登録していただくと、コンテナーイメージが実行され、順次処理が進むという仕組みになっています。物理基盤の高火力 PHYは月額料金ですが、高火力 DOKは実行時間に応じた課金方式を採用しており、非常にハイスペックなGPUを低コストでご利用いただけます。
機材を占有し24時間365日GPUをフル稼働させるご利用方法には、高火力 PHYのほうが1時間当たりの単価が低くなります。一方、数分、数時間、または数日間だけハイエンドGPUサーバーを使いたいという場合には、高火力 DOKが最適です。
高火力 DOKは非常にシンプルな使い勝手を実現しています。お客さまにあらかじめコンテナーイメージを作成していただき、それをコンテナーレジストリに登録していただければ、タスク実行によって結果が得られるという、簡潔な仕組みです。
現時点では、登録したものをシンプルに実行するサービスとして提供していますが、今後は登録したタスクを連続実行する機能や、条件分岐によって異なるコンテナーを使用するワークフロー機能なども提供する予定です。
クラウドサービスなので、すべての操作をAPI経由で実行できます。物理型・ベアメタル型サービスとは異なり、クラウド的なモダンな開発スタイルや利用方法が可能です。
月額料金のGPUベアメタルサーバー「高火力 PHY」と、従量課金制のコンテナー型GPUクラウドサービス「高火力 DOK」という2つのラインナップが、さくらインターネットの生成AI向けクラウドサービスです。
今後のロードマップ~クラウドサービス(VM版)の追加~
まず今年中に、コンテナーサービスにローカルストレージを追加し、たとえばJupyter Notebookを動かすことができるような外部接続機能を提供する予定です。また、2024年度第4クォーターには仮想化技術を活用したクラウドサービス(VM版)を時間単位で提供する予定があるほか、ワークフロー機能も追加します。
現在、GPUインフラは在庫不足のためつねに売り切れ状態ですが、来年度に向けて機材の量とスペックを大幅に増強し、サービス展開を進めていきます。
AI・ディープラーニングに最適な高火力GPUサーバー
>>サービスの詳細を見る