テクノロジ系

機械学習モデルの評価 — 正解率だけでは騙される

導入

「正解率99%のモデル」と聞くと優秀に聞こえますが、実は全員を「陽性ではない」と予測するだけで99%を達成できる場合もあります。正解率だけで機械学習モデルを評価すると、本当に重要な性能を見逃してしまうのです。

なぜ重要か

AIや機械学習が社会に広がるにつれて、「そのモデルがどれほど信頼できるか」を評価する力が必要とされています。ITパスポートでもAI・データ活用の分野は年々比重が増しており、適合率・再現率・F値・過学習といった評価指標の概念は頻出テーマとなっています。

たとえば医療診断AIが「見逃し」を多く出すのか、「誤報」を多く出すのかによって、患者への影響は大きく異なります。「正解率だけでモデルを評価してはいけない」という考え方は、単なる試験知識ではなく、AIを正しく活用するための基本的な思考として実務でも不可欠です。採用するAIサービスを評価したり、開発チームと会話したりする場面でも役立てることができます。

くわしく知ろう

機械学習モデルの評価には、混同行列（confusion matrix）と呼ばれる表を使います。予測結果を「正解・不正解」と「陽性・陰性」の組み合わせで整理したもので、TP（真陽性）・FP（偽陽性）・FN（偽陰性）・TN（真陰性）の4要素から構成されます。

正解率（Accuracy）はすべての予測のうち正しかった割合を指します。しかし陽性と陰性のデータ数に大きな偏りがある場合、正解率だけでは不十分な評価になりがちです。

適合率（Precision）は「陽性と予測したもののうち実際に陽性だった割合」で、偽陽性を減らしたいとき（スパムフィルターなど）に重視されます。再現率（Recall）は「実際の陽性のうち正しく陽性と予測できた割合」で、見落としを減らしたいとき（病気の検出など）に重視されます。

F値（F1スコア）は適合率と再現率の調和平均で、2つのバランスを総合的に評価するための指標として知られています。

過学習（overfitting）とは、訓練データに過度に適応しすぎて、新しいデータには正確に予測できなくなる状態を指します。テストデータでの評価が重要なのはこのためです。

具体例で理解する

たとえば、がん検診AIでは「見逃し（偽陰性）」を減らすことが重要なため再現率が重視されます。一方、スパムフィルターでは「大切なメールをスパム扱いする（偽陽性）」を防ぐため適合率が重視されます。目的によって重視すべき指標が異なります。

試験での出題パターン

【パターン1：指標の定義を問う問題】

「再現率（Recall）の説明として最も適切なものはどれか」という形式が最頻出です。4択には正解率・適合率・再現率・F値の定義が並ぶことが多く、「実際の陽性のうち正しく検出できた割合」という文言が再現率を指すことを押さえておく必要があります。適合率と再現率の定義が逆になりやすいため、丁寧に区別しておきましょう。

【パターン2：場面に応じた指標の選択問題】

「がん診断AIで重視すべき指標はどれか」「スパムフィルターで重視すべき指標はどれか」のように、目的や場面から適切な評価指標を選ぶ問題も出題されます。見落としを防ぎたい場面では再現率、誤報を防ぎたい場面では適合率と対応づけて理解してください。

【パターン3：過学習の意味を問う問題】

「過学習（overfitting）の説明として最も適切なものはどれか」という問題では、「訓練データには高精度だが未知のデータに汎化できない状態」が正解となります。学習不足（underfitting）と混同しないよう、「訓練データでの精度は高い」という点が過学習の特徴だと確認しておいてください。

よくある間違い・紛らわしいポイント

【適合率と再現率の混同】

適合率（Precision）は「陽性と予測した中から正解を探す」視点、再現率（Recall）は「本当の陽性の中からどれだけ拾えたか」という視点です。分子はどちらもTP（真陽性）ですが、分母が異なります。適合率の分母は「陽性と予測した件数全体」、再現率の分母は「実際に陽性だった件数全体」になっています。

【正解率が高ければ良いという誤解】

データに偏りがある場合（たとえば陽性が1%しかいないデータセット）、すべての予測を「陰性」とするだけで正解率は99%になります。このため不均衡データでは正解率よりも適合率・再現率・F値で評価することが重要です。「正解率が高い＝優れたモデル」とは限らないことを試験でも実務でも意識してください。

【F値は単純平均ではなく調和平均】

F値は適合率と再現率を足して2で割った算術平均ではなく、調和平均（2×適合率×再現率÷（適合率＋再現率））で計算します。一方が極端に低いと全体の値が引き下げられる性質があり、バランスのとれたモデルを評価するのに適しています。

まとめ・試験ポイント

正解率（Accuracy）＝全予測のうち正解した割合。データ偏りに注意
適合率（Precision）＝陽性予測のうち実際に陽性の割合（偽陽性を減らす）
再現率（Recall）＝実際の陽性のうち正しく検出できた割合（見落としを減らす）
F値＝適合率と再現率の調和平均。両者のバランスを評価
過学習＝訓練データに適合しすぎて新データへの汎化性能が下がる現象
試験では「適合率・再現率の定義」「場面に応じた指標の選択」「過学習の意味」が頻出

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。

入門試験100問に挑戦する