さくらインターネット
さくマガ公式SNS
お問い合わせ

さくらのクラウドの「ディスク移行」の裏側 〜お客さまの負担ゼロを実現したディスクライブマイグレーション開発秘話〜

さくらインターネットの最新の取り組みや社風を知る
>>さくマガのメールマガジンに登録する

IaaS型クラウドサービスとして成長を続けてきた「さくらのクラウド」。
高い自由度と柔軟な拡張性を提供する一方、常時稼働しているサービスの停止はお客さまのビジネスに直結します。そのため、障害やメンテナンスの影響は最小限に抑えなければなりません。
サービス開始から10年。膨大なデータを支える実機ハードウェアの劣化が進むなか、停止できないサービスをどう守り、どう更新するのか。
お客さまのデータを預かる「ディスク」機能は、クラウドの心臓部ともいえる存在です。
前編では、そのストレージ更改にともなう「第1世代ディスク移行」の仕組みと、その実現に至るまでの取り組みをご紹介しました。

>> さくらのクラウドの「ディスク移行」の裏側 〜10年以上の無停止稼働を支えるストレージ機器の老朽化対策とは〜

今回の後編では、第1世代ディスク移行を実現したのちに見えてきた課題、それを解決し「お客さまへの負担ゼロ」を目指した第2世代ディスク移行の開発と運用の舞台裏に迫ります。

第1世代ディスク移行に残った課題

前編で触れた第1世代ディスク移行がお客さまの環境で開始されてから、新たな課題や改善案も出てきたそうですね。

根本

はい。対象のお客さまは期限内にご自身での作業が必要で、さらにその際、接続先サーバーの停止をしなければなりませんでした。この点に不安を感じるお客さまからのお問い合わせが多くあったんです。ディスクに記録されたデータはさくらのクラウドを直接ご利用するお客さまだけではなく、お客さまが運用するサービスの多数のエンドユーザーにとっても貴重なものであり、このご心配は当然のものと感じました。

お問い合わせにはていねいな回答で不安を払拭できるように努め、より多くのお問い合わせがあった事項はマニュアルに随時追記するなどの対応を実施しました。しかし、今後も老朽化するストレージは大量に発生します。やはりお客さまはサービスを利用することに専念いただき、ディスク移行のような運用的な手間はかけさせたくないという想いを強く持ちました。

そのような背景のもと、第1世代ディスク移行の作業期間に並行して、お客さまの手を煩わせない「第2世代ディスク移行」の開発がスタートしたんですね。

根本

そうです。前編でお話ししたように、さくらのクラウドでは、ストレージ装置ごとにお客さまディスクの仮想ブロックデバイスが配置されている「個別ストレージ管理方式」をとっています。

根本

一方、仮想サーバーからは、仮想化基盤が提供する仮想ディスクドライバーを介して読み書きされるため、その裏側の構造をお客さまが直接意識することはありません。

そこでお客さまからは見えない低レイヤーのディスクI/O部分で制御できないかと調査した結果、 QEMUが持つディスクミラー機能にたどりつきました。さっそくテスト環境で試したところ、お客さまのサーバー環境が影響を受けることなく、老朽化ストレージ内ディスクと移行先ストレージ内ディスクのミラーリングをおこない、完全同期後に接続先ディスクを移行先ストレージに変更できることを確認しました。これを使って、お客さまのサーバーを停止せずにディスク移行をおこなう「ディスクライブマイグレーション機能」を開発していくことにしたんです。

まさにクラウドが持つ仮想化機能によって、ディスク移行における課題も解決できる道筋が見えてきたのですね。その後、実装はどのように進めていったのでしょうか。

根本

運用チームと開発チームの定例の場で検証内容を共有し、機能開発の要望をあげました。 そして、具体的なさくらのクラウドへの実装方法について検討を進めていったんです。ディスク移行時に発生する大量のネットワークトラフィックの制御や、移行が完全に成功するまでは元のディスクのデータを保全する安全設計など、第1世代ディスク移行のノウハウを取り入れました。同時に、さくらのクラウドでは QEMUのディスクミラー機能の利用が初めてであったため、慎重に開発を進めていきました。

さくらインターネットの提供するクラウドサービスの特徴やメリットをご紹介
>>資料のダウンロードはこちらから

難航したディスクライブマイグレーション機能開発

ここからは、実際の開発をメインで担当したサービス開発部の穎川さんを中心にお聞きします。根本さんからディスクライブマイグレーション機能について相談されてから、どのように開発を進めていったのでしょうか。

穎川

当時、ストレージ周辺の領域を扱うソフトウェア群の状況を考えた際、対応がすんなりいかないことは想像に難くありませんでした。

ディスクミラーと聞くと、QEMUの機能を利用すればよいだけのようにも思えます。しかし移行時に問題を起こしたり、その都度メンテナンス告知を出さないと進行できなかったりするようでは本末転倒です。そのような状況に陥らないよう、設計する必要がありました。

また、お客さまの大事なデータを預かる場所です。かなり大規模な変更を余儀なくされますし、動いたとしてもほかのお客さまとのリソース配分の公平性を損なうような状況になれば、お客さまがご利用中のサーバーやディスクのサービス品質を悪くしかねないことも認識していました。非常に大きなプレッシャーを感じたのをよく覚えています。

かなり開発工数や時間がかかる大掛かりなプロジェクトになっていったのですね。機器の老朽化というタイムリミットがあるなか、どのように対応していったのでしょうか。

穎川

幸いなことに、ストレージ周辺機能の課題感は以前から持っていました。なので、事前にデザインを練る、PoCを実装するということはいくらか進めており、それが自分を助けてくれましたね。これは予期していたわけではなくて、本当にたまたまでした。

お客さまからは直接見える機能ではないですが、こんなに大変な開発だったのですね。

穎川

そうですね。実際、リリースは数えきれないほどおこないました。影響範囲を最小限に抑えるため、変更を細かく分割し、段階的に進めていく必要があったためです。

今回、お客さまが直接扱うコントロールパネルやAPIなどのフロントエンドの開発はありませんでしたが、ストレージ周辺の調査や対応、リリースについては、根本さんをはじめ基盤グループのメンバーに多大な協力をいただきました。無茶をお願いする場面もとても多かったです。

プレッシャーが大きいなか、このようなさくらのクラウドのいちサービス開発に匹敵するレベルの作業量をなんとかこなせたのも、チームを越えた社内の協力があったからこそだと強く実感しています。

根本

実際のディスクライブマイグレーション機能を利用するのは、老朽化ストレージからのディスク移行計画を作成するわれわれ運用チームとなります。穎川さんを中心とした開発チームでの機能開発中も、動作の流れや操作用インターフェースの確認、そして開発が進捗するに従って開発環境内で実施する動作テストなど、さまざまな場面で緊密に協力しながら仕上げていきました。

いざ、機能リリース

開発が終わってディスクライブマイグレーション機能リリース後、お客さまの環境で実際に動作が開始されてからはどうでしたか?

穎川

発生するエラーのパターン化や、開発環境での検証、修正のサイクルをひたすら繰り返していましたね。

致命的なエラーが起きることは免れました。ただ防御的に通知を余分に出していたので、不要なものは削減したり、パターン化されたエラーへの対応を整備したりしていきました。それにより、動作に自信が持てるようになり、基盤グループや周囲のメンバーへの説明もしやすくなりました。

ソフトウェアの改善後は予期せぬエラーを減らすことができ、エラーのパターンを推測しやすくなったのは大きな成果です。これのおかげで本機能のエラーも最小限に抑えられたと思います。継続的に改善を重ねることの重要性をあらためて実感しました。

根本

現在は当初の計画通り、お客さまの環境への影響がない状態で、日々合計数TBを超えるディスクのライブマイグレーション作業が進んでいます。

さくらのクラウドは、ガバメントクラウド認定を目指して多くの機能が追加されました。その一方で「お客さまは直接触れることはなくても、サーバーやディスク運用の負担が減る」ように改善できる機能追加もあるのですね。

根本

おっしゃるとおりです。

>> ストレージ機器のライフサイクルについてのページを公開しました

おわりに

全2回にわたってお届けしてきた「さくらのクラウドのディスク移行の裏側」、いかがでしたか。

仮想化技術はお客さまの利便性だけでなく、それを支える運営側にとっても大きなメリットをもたらすものだと感じました。さくらのクラウドは新機能の追加によって進化を続ける一方で、お客さまからは見えない部分でも着実に改善が重ねられています。今回のディスクライブマイグレーションのように、普段は表に出ない技術も少なくありません。

今後も、さくらのクラウドの信頼性を支えるこのような取り組みをお伝えしていけたらと思います。

さくらインターネットの「さくらのクラウド」とは?
>>サービス資料をダウンロードする

編集

さくマガ編集部

さくらインターネット株式会社が運営するオウンドメディア「さくマガ」の編集部。

※『さくマガ』に掲載の記事内容・情報は執筆時点のものです。

すべての記事を見る

関連記事

この記事を読んだ人におすすめ

おすすめのタグ

さくマガ特集

働くすべてのビジネスパーソンへ田中邦裕連載

みなさんは何のために働いていますか? この特集では、さくらインターネットの代表・田中が2021年から2022年にかけて「働くすべての人」へ向けてのメッセージをつづりました。人間関係を良好に保つためのコミュニケーションや、必要とされる人になるための考え方など、働くことが楽しくなるヒントをお伝えします。

さくらの女性エンジニア Real Voiceインタビュー特集

さくらインターネットでは、多様なバックグラウンドを持つ女性エンジニアが活躍しています。この特集では、これまでの経歴や現在の業務内容、めざすキャリア、ワークライフバランスのリアルなど、さまざまな角度から「さくらインターネットの女性エンジニア」を紐解いていきます。

転職組に聞く入社理由「なぜ、さくら?」

さくらインターネットには、有名企業を何社も渡り歩いてきた経験豊富な社員がいます。本シリーズでは『転職組に聞く入社理由「なぜ、さくら?」』と題し、これまでのキャリアや入社理由を紐解きながら、他社を経験しているからこそわかる、さくらインターネットの魅力を探ります。

Welcome Talk「ようこそ、さくらへ!」

さくらインターネットには、さまざまなバックグラウンドを持つ仲間が次々と加わっています。本シリーズ『Welcome Talk「ようこそ、さくらへ!」』では、入社直後の社員と同じ部署の先輩による対談を通じて、これまでの経歴や転職理由、関心のある分野や取り組みたいことについてざっくばらんに語ってもらっています。新メンバーの素顔とチームの雰囲気を感じてください。

若手社員が語る「さくらで始めるキャリア」

さくらインターネットで社会人としての第一歩を踏み出した先輩たちのリアルな声を集めました。若手社員のインタビュー、インターンの体験談、入社式レポートなどを通じて、キャリアの始まりに役立つヒントや等身大のストーリーをお届けします。未来を考える学生のみなさんに、さくらのカルチャーを感じていただける特集です。