プロフェッショナルデジタルスキル（データ・AI）試験

統計学・機械学習の基礎 — データから「未来」を読むための道具箱

導入

天気予報はなぜ「明日の降水確率70%」と言えるのでしょうか。実は過去の気象データを統計的に分析し、機械学習モデルが未来を予測しているのです。需要予測や信用スコアリングも同じ仕組みで動いています。データから未来を読む道具を一緒に確認していきます。

くわしく知ろう

まず記述統計は、手元のデータの特徴を要約する手法を指します。平均はデータの中心的な傾向を示し、中央値は外れ値（極端に大きい・小さい値）の影響を受けにくい代表値として知られています。標準偏差はデータのばらつきの大きさを表し、値が大きいほどデータが平均から遠く散らばっています。

次に推測統計は、サンプル（標本）から母集団全体の傾向を推定する手法です。仮説検定では「差がない」という帰無仮説を立て、p値（有意確率）が0.05未満であれば「偶然ではなく有意な差がある」と判断します。

時系列解析は時間の流れに沿ったデータを扱います。移動平均で短期的な変動を平滑化しトレンドを把握し、季節性分解によって年間の繰り返しパターンを取り出します。相関分析は2変数の関係の強さを相関係数（−1〜1）で表し、回帰分析は目的変数を説明変数から予測する式を求めます。単回帰は説明変数が1つ、重回帰は複数の変数を使います。

機械学習は教師あり・教師なし・強化学習の3種類に分類されます。教師あり学習はラベル付きデータで正解を学習し（例：スパム検出）、教師なし学習はラベルなしでデータを自動分類します（例：顧客セグメント）。強化学習は試行錯誤で報酬を最大化するよう学習します（例：ゲームAI）。代表的なアルゴリズムとして決定木・ランダムフォレスト・SVM・k-meansなどがあります。

モデル評価では過学習に注意が必要です。過学習とは訓練データに過剰に適合し、未知データへの予測精度が低下する状態を指します。対策として交差検証や正則化が使われます。評価指標には正解率・適合率・再現率・F値（適合率と再現率の調和平均）があります。

具体例

小売業の週次売上予測では、過去3年分のデータに移動平均でトレンドを把握し、季節性分解でイベント効果を分離します。その後、プロモーション有無を変数として重回帰モデルを構築し、交差検証で過学習を回避しながらMAE（平均絶対誤差）で精度を評価しています。

まとめ・試験ポイント

標準偏差＝データのばらつきの大きさ。値が大きいほど平均から散らばっている
p値＝0.05未満で「有意差あり」と判断（仮説検定の判断基準）
回帰分析＝説明変数から目的変数を予測する式を求める分析手法
クラスタリング（k-meansなど）＝教師なし学習の代表例。ラベルなしでデータをグループ化
過学習＝訓練データに過剰適合し未知データの精度が下がる状態。対策は交差検証・正則化
F値＝適合率と再現率の調和平均。どちらも重視したい場合の総合評価指標

※本コンテンツは2026年3月公表の改定案 Ver.1.0 に基づく暫定版です

学習した内容を想定問題で確認しよう。プロフェッショナルデジタルスキル（データ・AI）試験の想定問題に挑戦できます。

プロフェッショナルデジタルスキル（データ・AI）試験想定模試に挑戦する