データの接続と準備(DA)

データクレンジングの実践 — 型変換・不一致値・Nullの処理

導入

「売上データを集計したら合計がおかしい」――よく見ると日付が文字列として保存されていたり、同じ店名が「東京店」「東京 店」と微妙に違う表記で混在していたりすることがあります。Tableau Prep Builderのクリーニングステップは、こうしたデータの乱れを修正するための専用工程です。

なぜ重要か

クリーニングステップは、DA試験のTableau Prep領域で最も頻出するトピックです。型変換・不一致値の統一・Null処理という3大操作を、どの状況でどれを使うかの判断が問われます。

実務でも、生データがそのまま分析に使える状態で届くことは稀で、前処理工程の大半がクリーニングに費やされます。「見た目は同じだが内部は異なる」データをPrepで機械的に整えられる力は、分析の信頼性の土台を作る基礎スキルです。

くわしく知ろう

クリーニングステップとは、フローの中でデータの品質を整えるために使うステップです。Tableau Prep Builderでは、各フィールドのデータ型・値の分布・Null(欠損値)の有無をプロファイルペインで視覚的に確認しながら、操作を加えていくことができます。

型変換は最も基本的なクリーニング操作のひとつです。たとえば「20240101」のような数字の羅列が文字列型として読み込まれた場合、日付型に変換しないと時系列フィルターや日付計算が正しく機能しません。Prep Builderではフィールド名の左側にある型アイコンをクリックするだけで、文字列・数値・日付・ブール値などに変換できます。

不一致値とは、同じ意味を持つにもかかわらず表記が微妙に異なる値のことで、「東京」「 東京」(先頭に空白)「Tokyo」などが混在するケースが典型例です。Prep Builderの「グループ化とフィルター」機能では、スペルが似た値を自動的に検出してまとめることができます。また個別に値を編集してリネームすることも可能です。

Null値とは値が存在しない欠損状態のことです。Nullが含まれると集計結果が意図と異なる場合があるため、フィルターで除外するか、0や「不明」などのデフォルト値に置き換える(null処理)かを選択して対処します。

具体例で理解する

たとえば顧客マスタに「年齢」フィールドがあっても文字列型で読み込まれていた場合、型変換で整数型に変更する必要があります。また「Tokyo」「TOKYO」「東京」が混在している地域フィールドは、グループ化機能でひとつの表記に統一することで、地域別集計が正しく機能するようになります。

試験での出題パターン

DA試験でクリーニングステップに関する設問は、主に3つの型があります。

パターン1:問題と操作の対応を問う問題。「日付が文字列で読み込まれた」→型変換、「表記ゆれがある」→グループ化/リネーム、「Nullが混在」→フィルター除外or置換、といった対応関係を選ばせます。

パターン2:グループ化機能の特徴を問う問題。「スペルが似た値を自動検出」「個別にリネーム可能」「集計前に実行する必要性」などを選択肢で試します。

パターン3:Null処理を問う問題。Null値が集計に与える影響、除外と置換の使い分け、デフォルト値設定などが問われます。

よくある間違い・紛らわしいポイント

×「型変換とフィルターは同じ」→○ 型変換はフィールド全体のデータ型を変える操作、フィルターは条件を満たさない行を除外する操作です。日付が文字列になっている場合はフィルターではなく型変換が正しい対応です。

×「グループ化は数値にも使える」→○ グループ化は主に文字列の表記ゆれを統一する操作です。数値のグループ化には「ビン」機能を使うのが一般的で、操作の性質が異なります。

×「Nullはすべて除外すべき」→○ Nullを除外するか代替値に置換するかは分析目的次第です。欠損自体が意味を持つ(「回答なし」として扱うべき)場合もあり、一律除外はデータの偏りを招きます。

まとめ・試験ポイント

  • クリーニングステップ=データ品質の修正を行う専用ステップ
  • 型変換=フィールドのデータ型を文字列・数値・日付などに変更する操作
  • 不一致値=同義だが表記が異なる値。グループ化・リネームで統一する
  • Null値=欠損値。フィルター除外または代替値への置換で対処する
  • DA試験では「どの問題にどのクリーニング操作が対応するか」を問う場面が多い

学習した内容を模擬試験で確認しよう。Tableau Data Analyst模擬試験で実力を測ろう。

Tableau DA模擬試験に挑戦