プロフェッショナルデジタルスキル(データ・AI)試験

統計学・機械学習の基礎 — データから「未来」を読むための道具箱

導入

天気予報はなぜ「明日の降水確率70%」と言えるのでしょうか。実は過去の気象データを統計的に分析し、機械学習モデルが未来を予測しているのです。需要予測や信用スコアリングも同じ仕組みで動いています。データから未来を読む道具を一緒に確認していきます。

くわしく知ろう

まず記述統計は、手元のデータの特徴を要約する手法を指します。平均はデータの中心的な傾向を示し、中央値は外れ値(極端に大きい・小さい値)の影響を受けにくい代表値として知られています。標準偏差はデータのばらつきの大きさを表し、値が大きいほどデータが平均から遠く散らばっています。

次に推測統計は、サンプル(標本)から母集団全体の傾向を推定する手法です。仮説検定では「差がない」という帰無仮説を立て、p値(有意確率)が0.05未満であれば「偶然ではなく有意な差がある」と判断します。

時系列解析は時間の流れに沿ったデータを扱います。移動平均で短期的な変動を平滑化しトレンドを把握し、季節性分解によって年間の繰り返しパターンを取り出します。相関分析は2変数の関係の強さを相関係数(−1〜1)で表し、回帰分析は目的変数を説明変数から予測する式を求めます。単回帰は説明変数が1つ、重回帰は複数の変数を使います。

機械学習は教師あり・教師なし・強化学習の3種類に分類されます。教師あり学習はラベル付きデータで正解を学習し(例:スパム検出)、教師なし学習はラベルなしでデータを自動分類します(例:顧客セグメント)。強化学習は試行錯誤で報酬を最大化するよう学習します(例:ゲームAI)。代表的なアルゴリズムとして決定木・ランダムフォレスト・SVM・k-meansなどがあります。

モデル評価では過学習に注意が必要です。過学習とは訓練データに過剰に適合し、未知データへの予測精度が低下する状態を指します。対策として交差検証や正則化が使われます。評価指標には正解率・適合率・再現率・F値(適合率と再現率の調和平均)があります。

具体例

小売業の週次売上予測では、過去3年分のデータに移動平均でトレンドを把握し、季節性分解でイベント効果を分離します。その後、プロモーション有無を変数として重回帰モデルを構築し、交差検証で過学習を回避しながらMAE(平均絶対誤差)で精度を評価しています。

まとめ・試験ポイント

  • 標準偏差=データのばらつきの大きさ。値が大きいほど平均から散らばっている
  • p値=0.05未満で「有意差あり」と判断(仮説検定の判断基準)
  • 回帰分析=説明変数から目的変数を予測する式を求める分析手法
  • クラスタリング(k-meansなど)=教師なし学習の代表例。ラベルなしでデータをグループ化
  • 過学習=訓練データに過剰適合し未知データの精度が下がる状態。対策は交差検証・正則化
  • F値=適合率と再現率の調和平均。どちらも重視したい場合の総合評価指標

※本コンテンツは2026年3月公表の改定案 Ver.1.0 に基づく暫定版です

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。

入門試験100問に挑戦する