2021/06/02
デジタルトランスフォーメーション(DX)の浸透を背景に、システムは複雑化しています。また、IT技術の進化は早く、そのシステムの運用に求められる技術領域も広がりつつあります。限られたIT人材で安定したシステム運用を行い、新しい技術領域へのチャレンジをどのように継続していくのか。今回は、複雑化したシステムにおけるシステム運用の高度化への取り組みについて、野村総合研究所(NRI)の岸間匠と山崎彰太に話を聞きました。
成長を続けるシステム運用
――システム運用における現在の課題を教えてください。
岸間:クラウドサービスの普及とIT技術の進化により、システムは拡大し、その内容も複雑化しています。これに伴いシステム運用は、増加する業務量への対応、また同時に新しいテクノロジーへの対応も求められています。しかし、システム運用の業務に関わる組織や人材は、知識や経験が必要であるため急速な拡大や増員は簡単ではありません。現状の体制をベースに組織としてのケイパビリティをどのように広げていくのか、この点がこれからの強いシステム運用を支える、取り組むべき課題だと考えています。
山崎:5年前と比較すると、クラウドファーストが定着して、当たり前のようにパブリッククラウドをはじめとしたクラウドサービスを利用するようになりました。一方で、複数のクラウドサービスを取捨選択して、システムにインプリメントしていく中で、多種多様なアーキテクチャーが生み出されており、システムが複雑化する要因となっています。それに加えて、クラウドサービス自体も日々進化しており、より便利になる一方で、時にはアンコントローラブルな障害が引き起こされるケースもあります。このように複雑化したシステムにおけるシステム運用には、新しい技術の知識・経験を獲得することや、利用するクラウドサービスのサービス仕様を押さえて、事前に発生しうるリスクを把握しておくことが必要不可欠となります。しかしながら、こういったノウハウは、一般的に属人化する傾向があるというのが現状です。
岸間:業務の属人化は、特定のエンジニアが特定の業務にロックインされるため、そのエンジニア自身、また組織全体のケイパビリティの拡大を阻害します。また、24時間365日稼働するシステムでは、トラブル時には昼夜問わず対応に追われ、これが継続するとパフォーマンスや品質に影響がでる可能性があります。これらを解決するためには、業務の属人化を組織的に無くしていく必要があります。
山崎:属人化は、特定の人の業務負荷が非常に高い状態を引き起こし、働き方改革にむけての阻害要因にもなります。また、昨今のIT人材不足や2025年の崖なども考慮すると、属人化排除は継続的かつ早急に取り組むべき課題です。
運用高度化とフォロー・ザ・サン
――具体的な取り組みを教えてください。
山崎:属人化のZero化を目的に、新たな運用機能やプロセスの整備を実施し、「ZeroOps(ゼロオプス)」というサービスを構築しました。ZeroOpsでは、過去に発生した障害とその対応手順を「ナレッジ」として蓄積/再活用するナレッジ利用型インシデント対応プロセスを規定し、そのプロセスで利用する運用機能の提供や、運用プロセスの導入支援などを実施しています。属人化の排除には自動化することが有効な手段の一つだと思いますが、自動化は一足飛びには実現できません。ZeroOpsでは、一つ一つの積み重ねの中で、そこに至るまでの継続的な改善サイクル・PDCAを回せるようなプロセスを規定して適用しています。また、複雑化したシステムの稼働状態を統合的に把握するために、アラートやログ、メトリクス情報を取り込み可視化するといったことも、ZeroOpsでは提供しています。
岸間:このほかに、フォロー・ザ・サンという施策を行っています。システム運用は24時間、365日止まることがない仕事です。そのため、インシデント対応は昼夜を問わず、真夜中に対応をしなければいけないケースもあります。そこで、日本と時差のある海外に運用拠点を整備し、日本の夜間帯には海外拠点で運用業務を担うようにしました。この施策とZeroOpsを組み合わせることで、システム運用における品質の維持と効率化の実現を図っています。
――どのような効果が見られたでしょうか。
岸間:私が担当しているシステムに関しては、これまで日本側で実施していた夜間帯の障害対応の半数以上を、海外拠点側で行えるようになりました。また、別のシステムの事例では、日本における夜間帯の障害対応を従来の約一割にまで抑えられたという報告もあります。システムからのアラートの種類を分析すると、開発部門しか対応できないようなテクニカルなインシデントは全体の約一割ということがわかっています。フォロー・ザ・サンで整備した運用組織に対応を移管していくことで、開発部門における障害対応の負荷を、可能な限り減らすことができるのではないでしょうか。
山崎:ある部門の事例では、熟練のエンジニアが実施していた障害対応手順をナレッジ化することで、該当システムの維持管理経験が浅い若手社員が障害復旧まで対応できたという報告があります。ZeroOpsのナレッジによって、ビギナーを即戦力化できれば、貴重な人的リソースを柔軟に配分できることにもつながります。
これからのシステム運用とは
――最後に、仕事を通じて提供したい価値についてお聞かせください。
山崎:ITシステムの重要性がより高まっている中、サービス停止を伴うシステム障害は企業の死活問題につながりかねません。また、IT人材不足への対応に加えて、働き方改革への対応も必要不可欠な状況です。そのようなニーズを満たすためにZeroOpsを通して貢献していきたいですし、さまざまな課題をお持ちのお客さまとの接点を通じて、必要な機能やサービスの拡充を継続的に続け、お客さまの今後のビジネスを支えるソリューションの一つとして価値を提供していきたいと思います。
岸間:今後、ITの活用が進み、システムはより複雑になり、その運用にはより高度な技術・経験が求められるようになります。私たちは、今後もシステム運用の高度化を通じて、お客さまにITを安心して活用いただき、お客さまのビジネス拡大に寄与していきたいと考えています。
- NRIジャーナルの更新情報はFacebookページでもお知らせしています