顧客向けに公開しているWebサイトをはじめ、社内の基幹系システムなどあらゆるデジタルインフラは、安定性・信頼性が非常に重要なファクターである。サイバー攻撃にせよ、ちょっとしたメンテ作業ミスにせよ、何らかのトラブルでシステムにダウンタイムが発生すればそれだけ収益は下がり、業務効率も落ちる。システム運用チームにかかる責任・負担は大きい。
こうした課題の解決のため、Googleが近年提唱しているのが「SRE」、サイトリライアビリティエンジニアリング(Site Reliability Engineering)」だ。従来のシステム運用担当者にとっては「安定運用」こそが絶対で、問題なく運用できている以上は、システム改修にはどうしても消極的になりがちだった。しかしSREでは、運用効率の更なる改善のために、ソフトウェアエンジニアリングの知見や技術を持ち込む。安定と革新、そのバランスをとるのがSREの役割と言えるだろう。
では、SREを実践するにあたって、担当エンジニアに求められる資質とは何なのだろうか? 何らかのソリューションを導入すべきなのだろうか? そうした疑問に答えるべく、アプリケーションやインフラ関連のモニタリングツールで知られるNew Relicがホワイトペーパーを公開した。SREの基礎解説はもちろん、New Relic自身がSREによって得たノウハウなども紹介されている。SRE入門の第一歩として、ぜひ活用してほしい。