ストラテジ系

データ分析の基本 — 平均・中央値・外れ値

導入

クラスのテストの平均点が70点だったとき、自分の75点は「平均より上」と感じますよね。でも、もしクラスのほとんどが90点台で、数人だけが極端に低い点数だったとしたら、「平均70点」という数字はあまり実態を表していないかもしれません。データを正しく読み解くには、平均だけでなく中央値や外れ値といった視点も欠かせません。ここでは、ITパスポート試験で問われるデータ分析の基本的な概念を確認していきます。

なぜ重要か

ITパスポート試験のテクノロジ系・ストラテジ系では、代表値(平均値・中央値・最頻値)の定義と使い分け、外れ値の影響、標準偏差の意味を問う問題が毎回出題されています。特に「外れ値が含まれるデータにはどの代表値が適切か」という判断問題は、計算よりも概念理解を問う形式として繰り返し登場します。

ビジネスの現場でも、商品の売上データや顧客の購入金額など、外れ値を含むデータを正しく読む力は必須です。「平均単価が高い」と言っても、一部の高額購入者に引き上げられているだけで大半の顧客が低価格帯という実態があるかもしれません。代表値を使い分けることで数字の裏にある実態を正確に把握でき、データドリブンな判断につながります。

くわしく知ろう

データ分析でまず押さえておきたいのが「代表値」と呼ばれる数値の集合を一つの値で表す指標です。代表値には平均値・中央値・最頻値の3種類があり、それぞれ異なる特徴を持っています。

平均値とは、すべてのデータを合計してデータ個数で割った値のことです。計算が単純でわかりやすい一方、極端に大きい値や小さい値(外れ値)の影響を強く受けるという性質があります。たとえば、ほとんどの社員の年収が300万円台でも、一部の役員が数億円の報酬を受け取っていると、平均値が大きく引き上げられてしまいます。

中央値(メジアン)とは、データを小さい順に並べたとき、ちょうど真ん中に位置する値のことです。データ個数が偶数の場合は中央の2値の平均をとります。平均値と違い、外れ値の影響を受けにくい特徴があり、収入分布や不動産価格など偏りの大きいデータを表すのに向いています。

最頻値(モード)は、データの中で最も多く登場する値のことを指します。「売れ筋のサイズはMサイズ」といった場面のように、頻度に注目したいときに使われます。

また、データのばらつきを表す指標として分散と標準偏差があります。分散とは各データの値と平均値との差(偏差)を2乗して平均したもので、標準偏差は分散の正の平方根として求められます。標準偏差が大きいほどデータが平均から広く散らばっており、小さいほどデータが平均に集中していることを示します。

外れ値とは、他のデータと比べて極端に大きい、あるいは極端に小さい値のことです。外れ値は測定ミスや特殊な事情によって生じることがあり、分析の目的に応じて除外するかどうかを判断する必要があります。外れ値が含まれる場合、平均値より中央値のほうが実態をより正確に反映することが多いとされています。

具体例で理解する

あるクラス5人のテスト結果が「20点・80点・85点・90点・90点」だった場合、平均値は73点です。しかし真ん中に位置する中央値は85点で、20点という外れ値の影響を受けていないため、クラス全体の実力をより正確に反映しているといえます。最頻値はこのケースでは90点となり、「いちばんよくある成績」を知りたい場面で有効な指標です。このように、同じデータでも使う代表値によって印象が大きく変わるため、目的に合わせた指標の選択が重要になります。

試験での出題パターン

【パターン1:中央値・平均値・最頻値を計算させる問題】

「次のデータの中央値を求めよ」という形式で、5〜7個のデータが与えられます。小さい順に並べ替えて真ん中の値を選ぶ手順を確実に実行できることが大切です。偶数個のデータの場合は「中央2つの平均」であることも問われます。また平均値の計算もあわせて問われることがあるため、外れ値がある場合は平均値と中央値が大きく乖離することを確認する習慣をつけておきましょう。

【パターン2:外れ値が含まれるデータに適した代表値を選ぶ問題】

「外れ値が含まれるデータの特徴を表す代表値として最も適切なものはどれか」という形式では、選択肢に「平均値・中央値・最頻値・標準偏差」などが並びます。外れ値がある場合は平均値が引っ張られて実態からかけ離れるため、中央値が適切です。分散・標準偏差は「ばらつきを表す指標」であり代表値(データ全体を一つの値で表す)ではないという点も区別しておきましょう。

よくある間違い・紛らわしいポイント

【代表値と散布度の混同】

平均値・中央値・最頻値は「データ全体を一つの値で代表する」代表値です。分散・標準偏差は「データのばらつきの大きさを表す」散布度の指標です。「データを一つの値で表す=代表値」「ばらつきを測る=分散・標準偏差」という役割の違いを整理しておくと、問題文の問いに正確に答えられます。

【偶数個のデータの中央値の求め方】

データが奇数個(例:5個)のときは真ん中の1つの値が中央値です。データが偶数個(例:6個)のときは中央の2つの値の平均が中央値になります。「並べ替えて真ん中を取る」というイメージだけでは偶数個のケースで間違えることがあるため、「偶数個のときは2値の平均」という手順を意識しておくことが大切です。

【標準偏差の大小の意味の勘違い】

「標準偏差が大きい=データが散らばっている(ばらつきが大きい)」「標準偏差が小さい=データが平均付近に集まっている(ばらつきが小さい)」という関係を直感に合わせて覚えておきましょう。標準偏差の「大きい・小さい」とデータの「良し悪し」は無関係です。テストの得点のばらつきを例に取ると、学力がそろったクラスは標準偏差が小さく、実力差が大きいクラスは標準偏差が大きくなります。

まとめ・試験ポイント

  • 平均値=全データの合計÷個数。外れ値の影響を受けやすい
  • 中央値=データを並べたときの中央の値(偶数個は中央2値の平均)。外れ値の影響を受けにくい
  • 最頻値=最も多く出現する値。頻度を重視するときに使う
  • 標準偏差=データのばらつきの大きさを表す散布度の指標(大きいほど散らばりが大きい)
  • 外れ値が存在する場合、代表値として中央値が平均値より適切なことが多い
  • 試験では「どの代表値を使うべきか」の判断や、データが与えられて計算させる問題がよく出題される

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。

入門試験100問に挑戦する