テクノロジ系

機械学習モデルの評価 — 正解率だけでは騙される

導入

「正解率99%のモデル」と聞くと優秀に聞こえますが、実は全員を「陽性ではない」と予測するだけで99%を達成できる場合もあります。正解率だけで機械学習モデルを評価すると、本当に重要な性能を見逃してしまうのです。

機械学習モデルの評価には、混同行列（confusion matrix）と呼ばれる表を使います。予測結果を「正解・不正解」と「陽性・陰性」の組み合わせで整理したもので、TP（真陽性）・FP（偽陽性）・FN（偽陰性）・TN（真陰性）の4要素から構成されます。

正解率（Accuracy）はすべての予測のうち正しかった割合を指します。しかし陽性と陰性のデータ数に大きな偏りがある場合、正解率だけでは不十分な評価になりがちです。

適合率（Precision）は「陽性と予測したもののうち実際に陽性だった割合」で、偽陽性を減らしたいとき（スパムフィルターなど）に重視されます。再現率（Recall）は「実際の陽性のうち正しく陽性と予測できた割合」で、見落としを減らしたいとき（病気の検出など）に重視されます。

F値（F1スコア）は適合率と再現率の調和平均で、2つのバランスを総合的に評価するための指標として知られています。

過学習（overfitting）とは、訓練データに過度に適応しすぎて、新しいデータには正確に予測できなくなる状態を指します。テストデータでの評価が重要なのはこのためです。

たとえば、がん検診AIでは「見逃し（偽陰性）」を減らすことが重要なため再現率が重視されます。一方、スパムフィルターでは「大切なメールをスパム扱いする（偽陽性）」を防ぐため適合率が重視されます。目的によって重視すべき指標が異なります。

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。