本記事は、Trustworthy Computing のブログ“Improve the reliability of your service with resilience modeling & analysis” (2013 年 5 月 31 日公開) を翻訳した記事です。
以前 (英語)、クラウドの複雑さについて書きました。そこでは、不具合が発生する場合の概念、および実際に不具合が発生した場合にお客様への影響を最小限にする事前計画の重要性などが記載されています。マイクロソフトは本日、ホワイトペーパー「クラウド サービスのための設計による回復性」を新たにリリースしました。これには、回復性のモデル化の方法と詳細なガイダンス、クラウド サービス チームが使用するテンプレートの例が記載されています。実装を容易にし、整合性をとることを目的にしています。
このホワイトペーパーは、回復性のモデル化と分析 (RMA) について記載しています。故障モード影響解析 (FMEA) という業界標準技術を基にしていますが、障害の検出、軽減、復旧時の作業により重点を置くように変更しました。これらはすべてクラウド サービスの復旧時間 (TTR) 短縮の重要な要素だからです。
RMA のプロセスには次の 4 つの主要フェーズがあります。
- 前作業 このプロセスで最も重要なフェーズで、このフェーズ中に作成した成果物の質によって、最終的なアウトプットの質が大きく変わるということを認識しておくことが重要です。このフェーズでは 2 つの作業を行います。まず、チームはサービスの全体的な論理図 (概略図) を作成し、すべてのコンポーネント、データソース、データフローを視覚的に表現します。次に、作成した論理図を使い、障害の発生する可能性の高いコンポーネントをすべて特定します (障害ポイント)。これらのコンポーネント間の相互作用 (関連) と、エコシステムでの各コンポーネントの動作を把握します。
- 検出 このステップでは、コンポーネントごとの潜在的な障害モードすべてを確認します。たとえば、サービスの基になるインフラストラクチャ要素と、その要素間のさまざまな依存関係などです。システムで障害が発生する可能性のある箇所 (ポイント) と、障害の状況 (モード) の把握が目的です。障害カテゴリチェックリストを用意してあるので、作業の際に利用してください。
- 評価 このフェーズでは、検出フェーズで識別した障害で生じる可能性のある影響を分析、記録します。RMA ワークブックはドロップダウンで選択できるようになっており、特定の障害の影響と可能性を指定しやすくなっています。列には、障害の影響、障害で影響を受けるユーザー、障害の検出に要する時間、障害からの復旧時間、障害が発生する可能性などがあります。このフェーズでは、すべての障害タイプごとに算出したリスク値のリストを作成し、そのリスク値に基づいて、技術的な投資の優先順位付けができます。
- 実施 最後のフェーズでは、RMA ワークシートで把握した項目に対してアクションを実行し、サービスの信頼性向上のために必要な投資を行います。評価フェーズで確認した障害ランクにより、影響が非常に大きい箇所の改善に重点を置くことができます。
大規模なクラウドサービスを設計および展開する予定がある場合、このホワイトペーパーをダウンロードし、回復性のモデル化と分析 (RMA) の詳細に目を通し、このプロセスの実装がオンラインサービスの信頼性の向上に役立つかをご検討ください。
デビッド・ビルズ 、信頼できるコンピューティング、信頼性主任ストラテジスト