マネジメント系

キャパシティ管理とパフォーマンス監視 — システムの余裕を把握する

導入

ショッピングサイトのセール当日に「アクセスが集中してサイトが重い」という経験はないでしょうか。こうした事態を事前に防ぐのがキャパシティ管理であり、システムの「余裕」を日頃から把握しておくことが安定稼働の鍵になります。

なぜ重要か

サービスが突然停止したり、極端に遅くなったりする障害は、企業の信頼を大きく損なうリスクをはらんでいます。キャパシティ管理とパフォーマンス監視は、こうしたリスクを未然に防ぐためのITサービス管理(ITSM)の中心的な活動です。

ITIL(ITサービスマネジメントのベストプラクティス集)においても、キャパシティ管理は「現在および将来のビジネス需要を満たすITリソースを確保する」プロセスとして位置づけられており、ITパスポートでも関連する問題が出題されています。クラウドサービスの普及により、必要なときにリソースを柔軟に増減できる環境が整ったことで、スケールアップ・スケールアウトの判断はより身近な意思決定となっています。適切なしきい値を設定し、問題が顕在化する前に対処できる体制を整えることが、安定したITサービスの提供には不可欠です。

くわしく知ろう

キャパシティ管理とは、サーバやネットワークなどのITリソースが、現在および将来の需要に応えられるだけの処理能力(キャパシティ)を持つように計画・監視・調整していく活動のことです。容量を超えた負荷がかかると、応答が遅くなったりシステムが停止したりするリスクがあるため、継続的な監視が求められます。

具体的な指標として、CPU使用率やメモリ使用率があります。これらが常に高い状態(たとえば80〜90%以上)を続けている場合は、リソース不足のサインとして対処が必要です。この「どこまで上がったら対処するか」の基準を「しきい値(スレッショルド)」と呼び、あらかじめ設定しておくことでアラートを自動的に発報できるようになっています。

キャパシティが不足したときの対策として、スケールアップ(サーバのスペックを上げる)とスケールアウト(サーバの台数を増やす)の2種類が知られています。前者は1台の処理能力を高める方法で、後者は複数台で負荷を分散する方法です。

パフォーマンス監視では、レスポンスタイム(処理にかかる時間)やスループット(単位時間あたりの処理件数)なども重要な指標として用いられます。これらの指標を継続的に記録することで、将来的なリソース需要を予測する「キャパシティプランニング」にも活用できます。

具体例で理解する

たとえば、普段は20%程度のCPU使用率が、キャンペーン期間中に90%を超えるとしきい値のアラートが発報され、管理者がスケールアウトを検討します。一方、メモリ使用率が慢性的に高い場合はスケールアップを選ぶことが多くなっています。クラウドサービスでは、こうした増強を数分以内に完了できるため、需要変動への対応がより柔軟になっています。

試験での出題パターン

【パターン1:スケールアップとスケールアウトの違いを問う問題】

「サーバの台数を増やして負荷を分散させる方法はどれか」という形式で、スケールアップ・スケールダウン・スケールアウト・スケールインの4択から選ばせる問題が頻出です。「アップ=スペック向上」「アウト=台数増加」という対応関係を覚えておくことが基本です。また「スケールイン(台数削減)」「スケールダウン(スペック縮小)」という逆方向の概念も選択肢に登場するため、混同しないよう注意が必要です。

【パターン2:しきい値の定義を問う問題】

「キャパシティ管理における"しきい値"の説明として適切なものはどれか」という形式で、SLAや可用性・RPOといった関連用語と混在して出題されることがあります。しきい値は「監視指標があらかじめ定めた水準を超えたときにアラートを発報する基準値」と定義を正確に押さえておくことが重要です。

【パターン3:パフォーマンス指標の読み取り問題】

「レスポンスタイム」「スループット」「CPU使用率」などの指標が示された状況から、どの対策が適切かを選ぶ応用問題も見られます。指標と対策の対応関係を整理しておくと対応しやすくなります。

よくある間違い・紛らわしいポイント

【スケールアップ・スケールアウト・スケールイン・スケールダウンの4択混乱】

これら4つの用語は対になる概念として整理することが大切です。スケールアップ(スペック向上)↔スケールダウン(スペック縮小)、スケールアウト(台数増加)↔スケールイン(台数削減)という2組のペアで覚えると混乱しにくくなります。試験ではスケールインやスケールダウンも選択肢に登場し、紛らわしくなるよう設計されています。

【しきい値と目標値の混同】

しきい値はアラートを発報するための「警戒ライン」であり、目標値とは異なります。たとえばCPU使用率の目標は「60%以下」であっても、しきい値は「80%超でアラート」と設定することがあります。しきい値は「超えたら対処が必要なサイン」と理解しておくと区別しやすくなります。

【キャパシティ管理と可用性管理の混同】

キャパシティ管理は「必要なリソース量を確保する」活動であり、可用性管理は「システムを止まらない状態に保つ」活動です。どちらもシステムの安定稼働に関わりますが、アプローチが異なります。試験では両者の目的の違いを問う問題が出ることがあります。

まとめ・試験ポイント

  • キャパシティ管理=ITリソースが需要に応えられるよう継続的に管理する活動
  • CPU使用率・メモリ使用率・レスポンスタイム・スループットが主要な監視指標
  • しきい値=監視指標があらかじめ定めた水準を超えたときにアラートを発報する基準値
  • スケールアップ=1台のスペック向上、スケールアウト=台数増加(逆はダウン・イン)
  • キャパシティ管理は「量の確保」、可用性管理は「稼働継続」と目的を区別する
  • 試験では「スケールアップとスケールアウトの違い」「しきい値の定義」がよく問われる

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。

入門試験100問に挑戦する