キャパシティ管理とパフォーマンス監視 — システムの余裕を把握する
導入
ショッピングサイトのセール当日に「アクセスが集中してサイトが重い」という経験はないでしょうか。こうした事態を事前に防ぐのがキャパシティ管理であり、システムの「余裕」を日頃から把握しておくことが安定稼働の鍵になります。
なぜ重要か
サービスが突然停止したり、極端に遅くなったりする障害は、企業の信頼を大きく損なうリスクをはらんでいます。キャパシティ管理とパフォーマンス監視は、こうしたリスクを未然に防ぐためのITサービス管理(ITSM)の中心的な活動です。
ITIL(ITサービスマネジメントのベストプラクティス集)においても、キャパシティ管理は「現在および将来のビジネス需要を満たすITリソースを確保する」プロセスとして位置づけられており、ITパスポートでも関連する問題が出題されています。クラウドサービスの普及により、必要なときにリソースを柔軟に増減できる環境が整ったことで、スケールアップ・スケールアウトの判断はより身近な意思決定となっています。適切なしきい値を設定し、問題が顕在化する前に対処できる体制を整えることが、安定したITサービスの提供には不可欠です。
くわしく知ろう
キャパシティ管理とは、サーバやネットワークなどのITリソースが、現在および将来の需要に応えられるだけの処理能力(キャパシティ)を持つように計画・監視・調整していく活動のことです。容量を超えた負荷がかかると、応答が遅くなったりシステムが停止したりするリスクがあるため、継続的な監視が求められます。
具体的な指標として、CPU使用率やメモリ使用率があります。これらが常に高い状態(たとえば80〜90%以上)を続けている場合は、リソース不足のサインとして対処が必要です。この「どこまで上がったら対処するか」の基準を「しきい値(スレッショルド)」と呼び、あらかじめ設定しておくことでアラートを自動的に発報できるようになっています。
キャパシティが不足したときの対策として、スケールアップ(サーバのスペックを上げる)とスケールアウト(サーバの台数を増やす)の2種類が知られています。前者は1台の処理能力を高める方法で、後者は複数台で負荷を分散する方法です。
パフォーマンス監視では、レスポンスタイム(処理にかかる時間)やスループット(単位時間あたりの処理件数)なども重要な指標として用いられます。これらの指標を継続的に記録することで、将来的なリソース需要を予測する「キャパシティプランニング」にも活用できます。
具体例で理解する
たとえば、普段は20%程度のCPU使用率が、キャンペーン期間中に90%を超えるとしきい値のアラートが発報され、管理者がスケールアウトを検討します。一方、メモリ使用率が慢性的に高い場合はスケールアップを選ぶことが多くなっています。クラウドサービスでは、こうした増強を数分以内に完了できるため、需要変動への対応がより柔軟になっています。
試験での出題パターン
【パターン1:スケールアップとスケールアウトの違いを問う問題】
「サーバの台数を増やして負荷を分散させる方法はどれか」という形式で、スケールアップ・スケールダウン・スケールアウト・スケールインの4択から選ばせる問題が頻出です。「アップ=スペック向上」「アウト=台数増加」という対応関係を覚えておくことが基本です。また「スケールイン(台数削減)」「スケールダウン(スペック縮小)」という逆方向の概念も選択肢に登場するため、混同しないよう注意が必要です。
【パターン2:しきい値の定義を問う問題】
「キャパシティ管理における"しきい値"の説明として適切なものはどれか」という形式で、SLAや可用性・RPOといった関連用語と混在して出題されることがあります。しきい値は「監視指標があらかじめ定めた水準を超えたときにアラートを発報する基準値」と定義を正確に押さえておくことが重要です。
【パターン3:パフォーマンス指標の読み取り問題】
「レスポンスタイム」「スループット」「CPU使用率」などの指標が示された状況から、どの対策が適切かを選ぶ応用問題も見られます。指標と対策の対応関係を整理しておくと対応しやすくなります。
よくある間違い・紛らわしいポイント
【スケールアップ・スケールアウト・スケールイン・スケールダウンの4択混乱】
これら4つの用語は対になる概念として整理することが大切です。スケールアップ(スペック向上)↔スケールダウン(スペック縮小)、スケールアウト(台数増加)↔スケールイン(台数削減)という2組のペアで覚えると混乱しにくくなります。試験ではスケールインやスケールダウンも選択肢に登場し、紛らわしくなるよう設計されています。
【しきい値と目標値の混同】
しきい値はアラートを発報するための「警戒ライン」であり、目標値とは異なります。たとえばCPU使用率の目標は「60%以下」であっても、しきい値は「80%超でアラート」と設定することがあります。しきい値は「超えたら対処が必要なサイン」と理解しておくと区別しやすくなります。
【キャパシティ管理と可用性管理の混同】
キャパシティ管理は「必要なリソース量を確保する」活動であり、可用性管理は「システムを止まらない状態に保つ」活動です。どちらもシステムの安定稼働に関わりますが、アプローチが異なります。試験では両者の目的の違いを問う問題が出ることがあります。
まとめ・試験ポイント
- キャパシティ管理=ITリソースが需要に応えられるよう継続的に管理する活動
- CPU使用率・メモリ使用率・レスポンスタイム・スループットが主要な監視指標
- しきい値=監視指標があらかじめ定めた水準を超えたときにアラートを発報する基準値
- スケールアップ=1台のスペック向上、スケールアウト=台数増加(逆はダウン・イン)
- キャパシティ管理は「量の確保」、可用性管理は「稼働継続」と目的を区別する
- 試験では「スケールアップとスケールアウトの違い」「しきい値の定義」がよく問われる
学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。
入門試験100問に挑戦する