データ分析の基本 — 平均・中央値・外れ値
導入
クラスのテストの平均点が70点だったとき、自分の75点は「平均より上」と感じますよね。でも、もしクラスのほとんどが90点台で、数人だけが極端に低い点数だったとしたら、「平均70点」という数字はあまり実態を表していないかもしれません。データを正しく読み解くには、平均だけでなく中央値や外れ値といった視点も欠かせません。ここでは、ITパスポート試験で問われるデータ分析の基本的な概念を確認していきます。
くわしく知ろう
データ分析でまず押さえておきたいのが「代表値」と呼ばれる数値の集合を一つの値で表す指標です。代表値には平均値・中央値・最頻値の3種類があり、それぞれ異なる特徴を持っています。
平均値とは、すべてのデータを合計してデータ個数で割った値のことです。計算が単純でわかりやすい一方、極端に大きい値や小さい値(外れ値)の影響を強く受けるという性質があります。たとえば、ほとんどの社員の年収が300万円台でも、一部の役員が数億円の報酬を受け取っていると、平均値が大きく引き上げられてしまいます。
中央値(メジアン)とは、データを小さい順に並べたとき、ちょうど真ん中に位置する値のことです。データ個数が偶数の場合は中央の2値の平均をとります。平均値と違い、外れ値の影響を受けにくい特徴があり、収入分布や不動産価格など偏りの大きいデータを表すのに向いています。
最頻値(モード)は、データの中で最も多く登場する値のことを指します。「売れ筋のサイズはMサイズ」といった場面のように、頻度に注目したいときに使われます。
また、データのばらつきを表す指標として分散と標準偏差があります。分散とは各データの値と平均値との差(偏差)を2乗して平均したもので、標準偏差は分散の正の平方根として求められます。標準偏差が大きいほどデータが平均から広く散らばっており、小さいほどデータが平均に集中していることを示します。
外れ値とは、他のデータと比べて極端に大きい、あるいは極端に小さい値のことです。外れ値は測定ミスや特殊な事情によって生じることがあり、分析の目的に応じて除外するかどうかを判断する必要があります。外れ値が含まれる場合、平均値より中央値のほうが実態をより正確に反映することが多いとされています。
具体例
たとえば、あるクラス5人のテスト結果が「20点・80点・85点・90点・90点」だった場合、平均値は(20+80+85+90+90)÷5=73点になります。しかし真ん中に位置する中央値は85点で、20点という外れ値の影響を受けていないため、クラス全体の実力をより正確に反映しているといえます。
一方、最頻値はこのケースでは90点となります。「いちばんよくある成績」を知りたい場面では最頻値が有効な指標です。このように、同じデータでも使う代表値によって印象が大きく変わることがあるため、目的に合わせた指標の選択が重要になります。
まとめ・試験ポイント
- 平均値=全データの合計÷個数。外れ値の影響を受けやすい
- 中央値=データを並べたときの中央の値。外れ値の影響を受けにくい
- 最頻値=最も多く出現する値。頻度を重視するときに使う
- 標準偏差=データのばらつきの大きさを表す指標(大きいほど散らばりが大きい)
- 外れ値が存在する場合、代表値として中央値が平均値より適切なことが多い
- 試験では「どの代表値を使うべきか」の判断や、簡単な計算を求める問題がよく出題される
学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。
入門試験100問に挑戦する