データクレンジングの実践 — 型変換・不一致値・Nullの処理
導入
「売上データを集計したら合計がおかしい」――よく見ると日付が文字列として保存されていたり、同じ店名が「東京店」「東京 店」と微妙に違う表記で混在していたりすることがあります。Tableau Prep Builderのクリーニングステップは、こうしたデータの乱れを修正するための専用工程です。
なぜ重要か
クリーニングステップは、DA試験のTableau Prep領域で最も頻出するトピックです。型変換・不一致値の統一・Null処理という3大操作を、どの状況でどれを使うかの判断が問われます。
実務でも、生データがそのまま分析に使える状態で届くことは稀で、前処理工程の大半がクリーニングに費やされます。「見た目は同じだが内部は異なる」データをPrepで機械的に整えられる力は、分析の信頼性の土台を作る基礎スキルです。
くわしく知ろう
クリーニングステップとは、フローの中でデータの品質を整えるために使うステップです。Tableau Prep Builderでは、各フィールドのデータ型・値の分布・Null(欠損値)の有無をプロファイルペインで視覚的に確認しながら、操作を加えていくことができます。
型変換は最も基本的なクリーニング操作のひとつです。たとえば「20240101」のような数字の羅列が文字列型として読み込まれた場合、日付型に変換しないと時系列フィルターや日付計算が正しく機能しません。Prep Builderではフィールド名の左側にある型アイコンをクリックするだけで、文字列・数値・日付・ブール値などに変換できます。
不一致値とは、同じ意味を持つにもかかわらず表記が微妙に異なる値のことで、「東京」「 東京」(先頭に空白)「Tokyo」などが混在するケースが典型例です。Prep Builderの「グループ化とフィルター」機能では、スペルが似た値を自動的に検出してまとめることができます。また個別に値を編集してリネームすることも可能です。
Null値とは値が存在しない欠損状態のことです。Nullが含まれると集計結果が意図と異なる場合があるため、フィルターで除外するか、0や「不明」などのデフォルト値に置き換える(null処理)かを選択して対処します。
具体例で理解する
たとえば顧客マスタに「年齢」フィールドがあっても文字列型で読み込まれていた場合、型変換で整数型に変更する必要があります。また「Tokyo」「TOKYO」「東京」が混在している地域フィールドは、グループ化機能でひとつの表記に統一することで、地域別集計が正しく機能するようになります。
試験での出題パターン
DA試験でクリーニングステップに関する設問は、主に3つの型があります。
パターン1:問題と操作の対応を問う問題。「日付が文字列で読み込まれた」→型変換、「表記ゆれがある」→グループ化/リネーム、「Nullが混在」→フィルター除外or置換、といった対応関係を選ばせます。
パターン2:グループ化機能の特徴を問う問題。「スペルが似た値を自動検出」「個別にリネーム可能」「集計前に実行する必要性」などを選択肢で試します。
パターン3:Null処理を問う問題。Null値が集計に与える影響、除外と置換の使い分け、デフォルト値設定などが問われます。
よくある間違い・紛らわしいポイント
×「型変換とフィルターは同じ」→○ 型変換はフィールド全体のデータ型を変える操作、フィルターは条件を満たさない行を除外する操作です。日付が文字列になっている場合はフィルターではなく型変換が正しい対応です。
×「グループ化は数値にも使える」→○ グループ化は主に文字列の表記ゆれを統一する操作です。数値のグループ化には「ビン」機能を使うのが一般的で、操作の性質が異なります。
×「Nullはすべて除外すべき」→○ Nullを除外するか代替値に置換するかは分析目的次第です。欠損自体が意味を持つ(「回答なし」として扱うべき)場合もあり、一律除外はデータの偏りを招きます。
まとめ・試験ポイント
- クリーニングステップ=データ品質の修正を行う専用ステップ
- 型変換=フィールドのデータ型を文字列・数値・日付などに変更する操作
- 不一致値=同義だが表記が異なる値。グループ化・リネームで統一する
- Null値=欠損値。フィルター除外または代替値への置換で対処する
- DA試験では「どの問題にどのクリーニング操作が対応するか」を問う場面が多い
学習した内容を模擬試験で確認しよう。Tableau Data Analyst模擬試験で実力を測ろう。
Tableau DA模擬試験に挑戦