データの接続と準備(DA)

データクレンジングの実践 — 型変換・不一致値・Nullの処理

導入

「売上データを集計したら合計がおかしい」――よく見ると日付が文字列として保存されていたり、同じ店名が「東京店」「東京 店」と微妙に違う表記で混在していたりすることがあります。Tableau Prep Builderのクリーニングステップは、こうしたデータの乱れを修正するための専用工程です。

くわしく知ろう

クリーニングステップとは、フローの中でデータの品質を整えるために使うステップです。Tableau Prep Builderでは、各フィールドのデータ型・値の分布・Null(欠損値)の有無をプロファイルペインで視覚的に確認しながら、操作を加えていくことができます。

型変換は最も基本的なクリーニング操作のひとつです。たとえば「20240101」のような数字の羅列が文字列型として読み込まれた場合、日付型に変換しないと時系列フィルターや日付計算が正しく機能しません。Prep Builderではフィールド名の左側にある型アイコンをクリックするだけで、文字列・数値・日付・ブール値などに変換できます。

不一致値とは、同じ意味を持つにもかかわらず表記が微妙に異なる値のことで、「東京」「 東京」(先頭に空白)「Tokyo」などが混在するケースが典型例です。Prep Builderの「グループ化とフィルター」機能では、スペルが似た値を自動的に検出してまとめることができます。また個別に値を編集してリネームすることも可能です。

Null値とは値が存在しない欠損状態のことです。Nullが含まれると集計結果が意図と異なる場合があるため、フィルターで除外するか、0や「不明」などのデフォルト値に置き換える(null処理)かを選択して対処します。

具体例

たとえば顧客マスタに「年齢」フィールドがあっても文字列型で読み込まれていた場合、型変換で整数型に変更する必要があります。また「Tokyo」「TOKYO」「東京」が混在している地域フィールドは、グループ化機能でひとつの表記に統一することで、地域別集計が正しく機能するようになります。

まとめ・試験ポイント

  • クリーニングステップ=データ品質の修正を行う専用ステップ
  • 型変換=フィールドのデータ型を文字列・数値・日付などに変更する操作
  • 不一致値=同義だが表記が異なる値。グループ化・リネームで統一する
  • Null値=欠損値。フィルター除外または代替値への置換で対処する
  • DA試験では「どの問題にどのクリーニング操作が対応するか」を問う場面が多い

学習した内容を模擬試験で確認しよう。Tableau Data Analyst模擬試験で実力を測ろう。

Tableau DA模擬試験を見る