スクウェア・エニックスは、モバイルゲームのバックエンドシステムにElastic Cloudを導入し、分散していたログを一元管理することで、運用を大幅に効率化した。障害調査時間は10分の1に短縮され、開発者もログを管理しながらスピーディな開発が可能に。AI Assistantによるサポートもあり、ログ管理が容易になり、ログ活用の文化が広まりつつある。

モバイルゲーム運営を支えるシステムとログ管理の課題

 株式会社スクウェア・エニックスは、コンシューマーゲームからモバイルゲームまで幅広く、多数の人気タイトルを世に送り出しているデジタルエンタテインメント企業である。注力事業の1つであるモバイル領域では、多数のタイトルを展開し、世界中のユーザーがゲームを楽しんでいる。

株式会社スクウェア・エニックス カスタマーエクスペリエンスデザインセンター オンラインビジネス推進ディビジョン プラットフォーム開発グループ 佐藤 雅宏 氏
株式会社スクウェア・エニックス
カスタマーエクスペリエンスデザインセンター
オンラインビジネス推進ディビジョン
プラットフォーム開発グループ
佐藤 雅宏 氏

 同社は、これらのモバイルゲームタイトルの安定運営をサポートするため、共通のバックエンドシステムを開発・運用している。

 「このバックエンドシステムは、ユーザー情報の管理やゲーム内課金機能の提供など、モバイルゲーム運営の中核を担っています。世界中のユーザーを対象に、最大で数万rpsのアクセスを処理しなければならず、常に安定的かつスピーディな応答が求められます」と、スクウェア・エニックス カスタマーエクスペリエンスデザインセンター オンラインビジネス推進ディビジョン プラットフォーム開発グループの佐藤雅宏氏は語る。

 さまざまなモバイルゲームタイトルを発表し、ユーザー数も順調に増え続けていく中、大規模なバックエンドシステムの安定稼働を維持するため、膨大なログの管理と分析が重要な課題の1つとなっていた。

データの分散がもたらす管理負担の肥大化、進まないログ活用

 当時のバックエンドシステムのログ管理において、最大の問題はデータが分散していたことだった。ログが仮想マシンごとに出力されたり、アプリケーションごとに異なるディレクトリに保存されたり、システム全体に散在していたのだ。何か解決すべきインシデントなどが発生しても、調査が非常に煩雑で、原因となるログがどこにあるのかを把握するだけでも困難だった。

 同プラットフォーム開発グループの山本ちひろ氏によれば、「お客様からのお問い合わせを受け、チケットが手元に届いてから、ログの調査を終えるまでに丸1日かかることもありました。当該の仮想マシンにログインし、ログをコピーしてファイルにまとめて、チケットに転記するという作業だけで疲弊していました」と当時の状況を語る。

株式会社スクウェア・エニックス カスタマーエクスペリエンスデザインセンター オンラインビジネス推進ディビジョン プラットフォーム開発グループ 山本 ちひろ 氏
株式会社スクウェア・エニックス
カスタマーエクスペリエンスデザインセンター
オンラインビジネス推進ディビジョン
プラットフォーム開発グループ
山本 ちひろ 氏

 また、ログの保存期間が限られていた点も課題だった。当時はOSS版(VM版)のElasticsearchを利用しており、容量などに制限があったためだ。オブジェクトストレージにアーカイブしていたものの、手元で検索可能な期間は2週間ほど。季節的な負荷傾向を分析して翌年の対策を講じるなど、過去のデータを元にした運用改善などは不可能だった。

 そこで佐藤氏らは、安定性の向上とスケーラビリティの確保に向けたバックエンドシステムのクラウド化への着手に合わせ、ログ管理の強化のため「Elastic Cloud」の導入を検討した。

 「運用チームはElasticsearchやKibanaに慣れていましたし、学習コストを低く抑えられることは利点でした。また高度な専門知識が必要となるインフラ管理から解放され、運用コストが削減できる点もポイントでした。ログ管理が本格化したとき、増え続けるディスクなどのシステム運用に悩まされないことは重要なメリットです」と、プラットフォーム開発グループの矢内氏は選定ポイントを述べている。

 スクウェア・エニックスでは、先んじてElastic CloudのPoCを実施し、矢内氏の述べる利点が確認できたため、本格的な活用に踏み切った。

ログ一元化で障害調査は10倍速、AI支援で進む活用

 Elastic Cloudの導入により、スクウェア・エニックスのログ管理が強化され、ログの活用を推進できるようになった。

 まず、ログの一元管理によって運用効率が向上した。矢内氏は「Elastic CloudのURLを共有するだけで、運用チームと開発チームが同じ情報を参照できます。手間暇かけてログを検索し、ドキュメントにまとめる作業が不要になりました」と語る。Elastic Cloudへのログの集約と検索性の向上により、障害調査のスピードも大幅に加速された。山本氏によれば「体感では10分の1ほどに短縮されました」という。1日かかっていたログ調査は、わずか1~2時間で完了するようになった。

株式会社スクウェア・エニックス カスタマーエクスペリエンスデザインセンター オンラインビジネス推進ディビジョン プラットフォーム開発グループ 矢内 奎太朗 氏
株式会社スクウェア・エニックス
カスタマーエクスペリエンスデザインセンター
オンラインビジネス推進ディビジョン
プラットフォーム開発グループ
矢内 奎太朗 氏

 ログの保存期間は、2週間から1年に拡大された。Elastic Cloudでは、コールド/フローズンティア構成をUIで簡単に設計でき、ティア間のデータ移行を自動化する機能も備わっている。そのため、オブジェクトストレージに膨大なログデータを保存しながら、検索性を維持できるようになった。

 「例えば、年末・年始にはモバイルゲームへのアクセスが急増することがあります。その時期のバックエンドシステムの負荷傾向を分析し、次のピークに備えてどのような対策を講じておくべきか、戦略的に検討できるようになったことは重要な導入効果です」と、山本氏は述べている。

 Elastic Cloudの注力ポイントであるAI技術も、スクウェア・エニックスのログ運用に役立っている。Elasticsearchでプリンシパル ソリューション アーキテクトを務める関屋信彦氏は、「標準搭載されているAI Assistantは、ログ情報を解説したり、クエリを自動生成したりと、多彩な機能を持っています。もしElasticsearchの検索方法に慣れていなくとも、検索したい内容を伝えれば、自動的にクエリを作ってくれます。解釈が難しいログも、AIによる解説で理解しやすく、次にとる行動を判断しやすくなります」と解説する。

Elasticsearch株式会社 プリンシパル ソリューション アーキテクト 関屋 信彦 氏
Elasticsearch株式会社
プリンシパル ソリューション アーキテクト
関屋 信彦 氏

 スクウェア・エニックスの運用現場では、障害時の初動分析でAIが威力を発揮するとのことだ。障害発生時には特定の類似したログが一斉に流れてくることが多い。そこでAIによるグルーピング機能を用いることで、エラーログのパターンを絞ることができる。そうして各パターンの発生元を調査すれば、障害対応をすばやく完了できるというわけだ。

 また矢内氏は、機械学習による異常検知機能の効果を高く評価している。「スロークエリは改善すべき課題の1つですが、以前は発生数の多寡を担当者の主観で判断しなければなりませんでした。今は機械学習で平常時の状態を学習させていくことで、データで増減を把握できます。ゲームシステムの負荷は時間帯や曜日で大きく変化するため、1週間単位で学習させておけば変化に気づきやすいのです」(矢内氏)

 開発チームのログ活用も進んでいる。Elastic Cloudの活用により、開発者はデプロイしながらログを監視し、トラブルが発生した際には、すぐにロールバックする、といった判断が可能になったのだ。「以前は、運用チームがログの調査をし、異常に気づいたら開発チームに修正を依頼するという運用が通常でした。今では、開発チームも積極的にElastic Cloudを参照してくれるため、障害発見から原因特定までのサイクルが早くなったと実感しています」と、佐藤氏は運用・開発の連携強化を評価する。

 煩雑だったインフラ運用からの解放も重要な導入効果だ。以前は、エラーを検知したらチャットへ報告するという独自のスクリプトを仮想マシン上に設置していたが、このメンテナンスが重荷になっていた。中には誰もタッチできないツールも稼働していたという。

 「Elastic Cloudであれば、ボタン1つで監視を有効化でき、検知条件も細かに設定できます。その結果、積極的にエラーを検知しよう、情報共有しようという文化も生まれ始めています」と山本氏が述べると、矢内氏も「もはや以前のログ管理には戻れません」と語調を強めた。

ログ活用が新たな文化を醸成し、運用・開発の連携強化へ

 Elastic Cloudは、スクウェア・エニックスにおけるログ管理の効率化だけでなく、ログの活用から運用・開発チームの連携強化にまで貢献している。

 関屋氏は、スクウェア・エニックスのElastic Cloud活用について、「運用チームと開発チームがElastic Cloudを通じて強固に連携しながら、ログ活用における文化を醸成しているのは、すばらしい成果だと感じます。ここまで巧みに活用されているユーザーは、まだ多くないかもしれません」と述べている。

 この成功について佐藤氏は、「Elastic Cloudは極めて有用で、他のシステムでも活用したいと導入を検討しているところです。社内の他の組織からも、ログ管理の課題を耳にします。Elastic Cloudは、社内のさまざまなチームの事業活動に貢献できるサービスだと考えています」と評価し、Elastic Cloudのさらなる発展に期待を寄せた。

WACOCA: People, Life, Style.