データマネジメント基礎

データ品質管理入門 — 正確性・完全性・一貫性の確保

導入

「AIが分析した結果が実態と全然違う――原因はデータの入力ミスだった」。どれほど優れた分析ツールを使っても、もとになるデータが粗悪では正しい結果は得られません。データ品質とは何か、どう管理するかを見ていきます。

くわしく知ろう

データ品質とは、データが目的に対して正確で、使いやすい状態にある度合いを指します。品質の低いデータは経営判断の誤りやシステム障害の原因となり、修正コストも膨大になります。

データ品質を評価する代表的な軸として6つの次元があります。まず正確性(Accuracy)は値が現実と合致しているかを指し、年齢欄に「250歳」と入力されているデータは正確性を欠きます。完全性(Completeness)は必須項目が空欄でないかを問うもので、住所が空白の顧客データがこれにあたります。

一貫性(Consistency)は複数のシステムで同じデータが矛盾していないかを意味します。CRMの顧客名と請求システムの顧客名が異なる場合がその例です。適時性(Timeliness)は必要なタイミングでデータが最新の状態にあるかを指します。一意性(Uniqueness)は同じレコードが重複して登録されていないかで、重複顧客データは一意性が損なわれた状態です。妥当性(Validity)は値が決められたルールや形式に合っているかで、電話番号欄に文字列が入っているケースが該当します。

データプロファイリングは、実際のデータを統計的に調査してどの次元でどの程度の問題があるかを把握する作業です。プロファイリングで問題を発見したあと、誤りを修正・標準化する作業をデータクレンジングと呼びます。

具体例

たとえば、顧客データベースをプロファイリングしたところ、電話番号欄の10%が空欄(完全性の問題)、氏名の表記がカタカナ・漢字混在で統一されていない(一貫性の問題)とわかりました。その後、データクレンジングで表記を統一し、空欄は担当者に確認して補完するといった対応が行われます。

まとめ・試験ポイント

  • データ品質の6次元=正確性・完全性・一貫性・適時性・一意性・妥当性
  • 正確性=現実と合致、完全性=空欄なし、一貫性=矛盾なし
  • 一意性=重複なし、適時性=最新の状態、妥当性=ルール準拠
  • データプロファイリング=品質問題を調査して把握する作業
  • データクレンジング=誤りを修正・標準化して品質を改善する作業
  • 試験では6次元の名称と定義の対応が頻出

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。

入門試験100問に挑戦する