データ品質とは何か(DMBOK2の定義)
DMBOK2(Data Management Body of Knowledge 第2版)では、データ品質(Data Quality)を 「データが、組織の目的・プロセス・目標に対して適合している度合い」と定義しています。 単に「正しいデータ」というだけでなく、「使う目的に対して十分に適合しているか」という フィットネス(fitness for purpose)の概念が核心にあります。
この考え方は「データは正確であれば十分」という直感的な理解と少し異なります。 たとえば、在庫データが先月末時点で正確であっても、リアルタイム在庫管理システムにとっては 「品質が低い」と判断されます。目的・文脈によって品質の基準は変わるのです。
データ品質管理はDMBOK2の11の知識領域のうちの一つとして体系化されており、 データガバナンスと密接に関係します。 DMBOK2全体の構造についてはDMBOK2とは?で解説しています。
データ品質が低いと組織にどのような影響があるでしょうか。IBMの調査(参考値)では、 米国企業は不良データにより年間約3兆ドルの損失を被るとされています。 顧客マスタの重複によるキャンペーンの二重送付、在庫データの誤りによる欠品・過剰在庫、 財務レポートの集計ミスによる経営判断の歪みなど、データ品質の問題はビジネス全体に波及します。
データ品質の6次元
DMBOK2はデータ品質を6つの次元(ディメンション)で定義しています。 各次元はそれぞれ独立した品質特性を表しており、 すべての次元を総合的に評価することでデータ品質の全体像を把握できます。
| 次元 | 英語 | 定義 | チェック例 |
|---|---|---|---|
| 正確性 | Accuracy | データが現実の実体や事実を正しく表しているか | 住所が実際の郵便番号・都道府県と一致しているか |
| 完全性 | Completeness | 必要なデータが欠損なく揃っているか | 顧客レコードの必須項目(氏名・メール・電話)が空欄でないか |
| 一貫性 | Consistency | 複数のデータソース間・同一テーブル内で矛盾がないか | CRMと基幹システムで同一顧客の名称表記が一致しているか |
| 適時性 | Timeliness | データが必要なタイミングで最新の状態にあるか | 在庫数が当日の出荷・入荷を反映しているか |
| 有効性 | Validity | データが定義されたドメイン・フォーマット・ルールに従っているか | メールアドレスが「@」を含む正規形式であるか |
| 一意性 | Uniqueness | 重複したレコードが存在しないか | 顧客マスタに同一人物の重複エントリがないか |
正確性(Accuracy)
正確性は最も直感的な品質次元です。データが「現実を正しく反映しているか」を問います。 住所データが引越し後も更新されていない場合、そのデータは正確性を欠いています。 正確性の確認には、外部の参照データ(郵便番号データベース、公的機関のマスタ等)との 照合が有効です。
注意点として、正確性の検証は「何が正しいか」という基準が必要です。 この基準となるデータを権威あるデータソース(System of Record)と呼びます。 システム横断でどのデータが「正」であるかを定めることが、正確性管理の第一歩です。
完全性(Completeness)
完全性は「必要なデータが揃っているか」を問います。 NULLや空文字の割合(欠損率)で定量化できるため、測定が比較的容易な次元です。
ただし、すべての項目で100%の完全性を求めることが正解ではありません。 任意入力項目は一定の欠損が許容される場合もあります。 「どの項目が必須か」をビジネスルールとして定義し、 必須項目に絞って完全性を管理することが実務上の基本です。
一貫性(Consistency)
一貫性は「複数の場所に存在するデータが矛盾していないか」を問います。 CRMシステムと基幹システムで同じ顧客の住所が異なる、 注文テーブルと在庫テーブルで数量の合計が合わないといった問題が典型例です。
一貫性の欠如はデータサイロ(孤立した情報システム)が多い組織で特に深刻です。 マスターデータ管理(MDM)や参照データ管理は一貫性を保つための主要な手段です。
適時性(Timeliness)
適時性は「データが必要なタイミングで利用可能か」を問います。 夜間バッチ処理でしか更新されない在庫データをリアルタイム販売管理に使うのは、 適時性の問題の典型例です。
適時性はデータの鮮度(freshness)とも表現されます。 どのデータについて、どの程度の鮮度が必要かを業務要件に基づいて定義することが重要です。
有効性(Validity)
有効性は「データが定義された形式・範囲・ルールに従っているか」を問います。 正確性が「現実との一致」を問うのに対し、有効性は「定義との一致」を問う点が異なります。 メールアドレスのフォーマットチェック、日付の範囲チェック(生年月日が未来日でないか)、 コードテーブルとの照合(都道府県コードが正規の2桁コードか)などが有効性チェックの例です。
一意性(Uniqueness)
一意性は「同一エンティティのレコードが重複して存在しないか」を問います。 顧客マスタへの重複登録(表記ゆれや入力ミスによる同一人物の複数エントリ)が代表例です。 重複レコードは正確性・完全性・一貫性すべてに悪影響を及ぼすため、 特に顧客データ・商品マスタ・取引先データにおいて厳密に管理する必要があります。
重複検出にはファジーマッチング(あいまい一致)が使われます。 「山田太郎」と「山田 太郎(スペースあり)」を同一人物として検出するような処理です。
データクレンジングの実務手順
データクレンジング(Data Cleansing / Data Cleaning)は、 データ品質の問題を発見・修正・予防するプロセスです。 DMBOK2では「データ品質改善サイクル」として、 プロファイリング → 検出 → 修正 → 検証 の4フェーズが基本となります。
フェーズ1:データプロファイリング
データプロファイリングは、対象データの「現状把握」フェーズです。 統計的な分析によって、データの分布・欠損率・異常値・重複数などを可視化します。
- 列プロファイリング:各列のデータ型・NULL率・最小値・最大値・頻度分布を確認
- パターン分析:メールアドレスや電話番号のフォーマットパターンを集計
- 関係プロファイリング:テーブル間の参照整合性(外部キー整合性)を確認
- 重複分析:完全一致・あいまい一致による重複候補の抽出
プロファイリングの結果を「データ品質の現状レポート」としてまとめ、 6次元ごとの問題件数・割合を定量化することで、次のフェーズの優先順位づけに活用します。
フェーズ2:品質問題の検出・分類
プロファイリング結果をもとに、品質問題を6次元で分類します。 各問題の影響度(ビジネスへの影響)と件数を掛け合わせて優先度を決定します。
| 品質問題の種類 | 対応する次元 | 例 |
|---|---|---|
| 欠損値・NULL | 完全性 | 必須の電話番号が空欄 |
| 形式エラー | 有効性 | 「2026/13/01」のような不正日付 |
| 範囲逸脱 | 有効性・正確性 | 年齢が「-5」や「200」 |
| 重複レコード | 一意性 | 同一顧客が2件登録されている |
| システム間の不整合 | 一貫性 | CRMと請求システムで住所が異なる |
| 更新遅延 | 適時性 | 退職者情報がシステムに残存 |
| 現実との乖離 | 正確性 | 引越し後も旧住所のまま |
フェーズ3:データ修正
検出した問題を修正します。修正方法は問題の種類によって異なります。
- 欠損値の補完:平均値・最頻値・前後のレコードからの推定、または「不明」フラグを立てる
- 形式の標準化:電話番号のハイフン統一、氏名の全角・半角統一、日付フォーマットの統一
- 重複の名寄せ(マージ):マスターとなるレコードを決定し、重複を統合。どちらのデータを「正」とするかのルール(ゴールデンレコード選定)が重要
- 参照データとの照合修正:郵便番号マスタ・都道府県コードマスタなどとの突合により修正
- 削除:明らかなテスト用データ・期限切れレコードの削除
修正作業の前に必ずバックアップを取得し、 修正スクリプトはソースコード管理(Git等)で管理することが原則です。 一度の大規模修正よりも、小さなバッチで段階的に修正し確認しながら進める方が安全です。
フェーズ4:検証・モニタリング
修正後のデータが6次元の品質基準を満たしているかを再チェックします。 また、修正で意図しない副作用(関連データへの影響)が生じていないかも確認します。
クレンジングはワンタイムの作業ではなく、継続的なプロセスです。 修正後にデータ品質ルールを自動チェックするパイプラインを構築し、 新規データが流入するたびに品質を自動検証する体制を整えることが理想です。
データ品質測定の指標とダッシュボード
データ品質を継続的に管理するには、6次元ごとに測定指標(KPI/KQI)を定め、 ダッシュボードで可視化することが効果的です。
6次元ごとの代表的な指標
| 次元 | 指標例 | 計算方法 |
|---|---|---|
| 正確性 | 正確性率 | 参照データと一致するレコード数 ÷ 全レコード数 × 100% |
| 完全性 | 必須項目充足率 | 必須項目がNULLでないレコード数 ÷ 全レコード数 × 100% |
| 一貫性 | システム間一致率 | 複数システムで一致するレコード数 ÷ 全レコード数 × 100% |
| 適時性 | データ鮮度(経過時間) | 現在時刻 - 最終更新タイムスタンプ(分・時間・日) |
| 有効性 | ルール適合率 | ビジネスルールに適合するレコード数 ÷ 全レコード数 × 100% |
| 一意性 | 重複率 | (全レコード数 - ユニークレコード数) ÷ 全レコード数 × 100% |
データ品質ダッシュボードの構成要素
品質ダッシュボードは、以下の要素で構成するのが一般的です。
- 品質スコアカード:6次元ごとの現在のスコアを一覧表示。目標値(例: 正確性98%以上)との差を視覚化
- トレンドグラフ:各指標の時系列推移。クレンジング施策の効果測定に使用
- 問題件数ランキング:データソース別・エンティティ別の品質問題件数トップN
- アラート設定:特定指標がしきい値を下回った場合に担当者へ通知
- データリネージ表示:品質問題の発生源(上流システム)を特定するための系譜表示
ダッシュボードの対象者は「データスチュワード(日々の品質管理担当)」と 「経営層・データオーナー(品質の戦略的意思決定者)」に分けて設計することが多く、 それぞれの視点に応じた粒度で情報を提供します。
主要ツール
データ品質管理を支援するツールは、オープンソースから商用エンタープライズ製品まで多岐にわたります。 代表的な4つのツールを紹介します。
Talend Data Quality
Talend(現Qlik傘下)が提供するエンタープライズ向けのデータ品質管理プラットフォームです。 プロファイリング・クレンジング・マッチング(名寄せ)・エンリッチメント(外部データ付与)を GUIで設定でき、ETLパイプラインと一体化した品質管理が可能です。 大規模データを扱う企業での利用実績が豊富で、データカタログとの統合機能も備えています。
OpenRefine
Metaweb Technologiesが開発し、Google経由でコミュニティへ移管されたオープンソースのデータクレンジングツールです。 BSDライセンスで無償利用でき、Webブラウザから操作するUIが特徴です。 クラスタリング機能による重複検出、正規表現を使った変換、 JSON/XML/CSVなど多様な形式への対応が強みです。 探索的なデータクレンジングや小〜中規模のプロジェクトに向いています。
Informatica Data Quality
データ統合市場をリードするInformatica社のデータ品質製品です。 AIを活用した自動プロファイリング・ルール生成・異常検出を特徴とし、 CRM・ERP・MDMとの深い統合を提供します。 エンタープライズ規模のマスターデータ管理(MDM)と組み合わせて使われることが多いハイエンド製品です。
dbt tests(data build tool)
dbtは主にデータ変換を担うELTツールですが、組み込みのテスト機能でデータ品質チェックも実装できます。 YAMLファイルで定義する4種類の組み込みテストが基本です。
- not_null:NULL値がないことを検証(完全性チェック)
- unique:値の重複がないことを検証(一意性チェック)
- accepted_values:値が許可リストに含まれることを検証(有効性チェック)
- relationships:外部キーが参照先に存在することを検証(一貫性チェック)
CI/CDパイプラインに組み込むことで、データウェアハウスへの変換処理のたびに 自動品質検証を行う体制を構築できます。 クラウドデータウェアハウス(BigQuery・Snowflake・Redshift等)との相性が良く、 データエンジニアリングチームに広く採用されています。
| ツール | ライセンス | 主な用途 | 向いている規模 |
|---|---|---|---|
| Talend Data Quality | 商用 | プロファイリング・クレンジング・名寄せ | 中〜大規模 |
| OpenRefine | オープンソース(BSD) | 探索的クレンジング・変換 | 小〜中規模 |
| Informatica DQ | 商用(エンタープライズ) | AI品質管理・MDM統合 | 大規模 |
| dbt tests | オープンソース(Apache 2.0) | DWH変換後の品質自動検証 | 中〜大規模(DWH環境) |
データマネジメント試験(仮称)での頻出ポイント
IPAが2027年度の新設を公表しているデータマネジメント試験(仮称)は、 シラバスがまだ公開されていません。 ただし、DMBOK2の11知識領域が出題基盤となることが示されており、 データ品質管理は実務頻出の領域として出題可能性が高いと推測されます。
試験情報の最新状況についてはデータマネジメント試験とは?概要・難易度・対象者もご参照ください。
押さえるべき頻出ポイント
- 6次元の名称・定義・違い:「正確性と有効性の違い」「一貫性と一意性の違い」など、 混同しやすいペアを問う四択問題が想定されます。 各次元の定義と具体例をセットで記憶してください。
- データクレンジングの4フェーズ順序:「プロファイリング → 検出 → 修正 → 検証」の順序と、 各フェーズで実施する作業内容を整理してください。
- ゴールデンレコードの概念:重複レコードを統合する際の「信頼できる単一のレコード」概念。 MDM(マスターデータ管理)との関係も整理しておくと良いでしょう。
- データスチュワードの役割:データ品質の日常的な監視・問題対応・ルール策定を担う役割です。 データオーナー(ビジネス側の最終責任者)との違いも重要です。
- データ品質ルールの種類:フォーマットルール・範囲ルール・参照整合性ルール・ビジネスルールなど、 品質ルールの分類を理解してください。
- 品質とガバナンスの関係:DMBOK2ではデータガバナンスが品質管理の方針・責任・プロセスを定める基盤として機能します。 「品質問題の原因はガバナンスの欠如にある」という視点を持つことが重要です。
試験対策上の注意点
試験では「正確性」(Accuracy)と「有効性」(Validity)の混同が起きやすいため注意が必要です。 正確性は「現実との一致」、有効性は「定義・ルールとの一致」という区別を明確にしてください。 たとえば「メールアドレスに@が含まれる」は有効性チェックであり、 「そのメールアドレスが実際に使用可能か」は正確性の問題です。
また「一貫性」はシステム間・テーブル間の矛盾を、「一意性」は同一テーブル内の重複を対象とする、 という空間的な違いを意識すると整理しやすくなります。
データ品質管理の知識を模試で確認
データマネジメント試験の予想問題(全60問)を公開中です。 DMBOK2の11領域全体を網羅した模擬試験で実力を確かめましょう。
よくある質問
データ品質の6次元はすべて同じ優先度で管理すべきですか?
業種・システム・ユースケースによって優先すべき次元は異なります。 たとえば医療系では正確性・完全性が最優先、マーケティングでは適時性・一意性が重要になります。 まず自社のデータ活用目的を整理し、影響度の高い次元から重点的に管理することが現実的です。
データクレンジングと正規化の違いは何ですか?
データクレンジングは「誤った・欠損・重複したデータを修正・補完・除去する」プロセスです。 一方、正規化はデータベース設計の手法で 「データの冗長性を排除し一貫性を保てる構造に変換する」ことを指します。 クレンジングは既存データの品質改善、正規化はデータ構造の設計手法という点で役割が異なります。
OpenRefineは商用利用できますか?
OpenRefineはBSDライセンスのオープンソースソフトウェアです。 商用利用・再配布・改変が可能で、ライセンス費用は発生しません。 ただし大規模データ・エンタープライズ用途では処理性能の限界があるため、 Talend Data QualityやInformatica Data Qualityなどの商用ツールとの使い分けを検討してください。
dbt testsはどのようなプロジェクトに向いていますか?
dbt(data build tool)のテスト機能は、BigQuery・Snowflake・Redshiftなどの クラウドデータウェアハウスを使ったデータパイプラインプロジェクトに向いています。 not_null・unique・accepted_values・relationships といった組み込みテストを 設定ファイルのみで定義でき、CI/CDに組み込んでデータ品質を自動検証できます。 SQLに慣れたデータエンジニアが多いチームに特に適しています。
データマネジメント試験(仮称)ではデータ品質管理の問題は何問程度出ますか?
シラバスが未公開のため確定情報はありません。 DMBOK2の11領域を均等に出題すると仮定すれば、 60問の試験で5〜6問程度がデータ品質管理領域からの出題と推測されます。 データガバナンスやデータセキュリティと並んで実務頻出領域であるため、 6次元の定義と違いを正確に押さえておくことを推奨します。
※ データマネジメント試験(仮称)に関する情報は、IPAが2026年3月31日に公表した 試験制度見直し案に基づいた推定を含みます。最新情報はIPAの公式サイトでご確認ください。