クラスター分析 — データをグループに自動分類する
導入
お客さまを「よく買う人」「たまに買う人」「価格に敏感な人」と分けて施策を変えたいとき、手作業で分類するのは大変です。Tableauのクラスター分析を使えば、データが自動でグループに分かれ、顧客像を視覚的につかめるようになります。
なぜ重要か
クラスター分析は、DA試験の「分析と計算」ドメインで扱われる探索的分析手法です。採用アルゴリズム(k-means)、クラスター数Kの指定、Kの変更による結果変化など、分析手法としての理解が問われます。
実務でも、顧客セグメンテーション・商品グループ化・地域パターン抽出など、データ探索の定番手法として広く使われます。Kを変えて結果を比較する判断力と、自動分類結果をビジネス観点で意味づけする解釈力の両方が重要です。
くわしく知ろう
クラスター分析とは、似た特徴を持つデータ点を自動でグループ(クラスター)にまとめる分析手法のことです。Tableauではビュー上の散布図などに対して数クリックで適用できます。
Tableauが採用しているアルゴリズムはKクラスタリング(k-means法)です。Kクラスタリングとは、分析者がクラスター数(K)をあらかじめ指定し、各データ点を最も近いクラスターの中心(重心)に割り当てることを繰り返して収束させる手法を指します。クラスター数Kの指定が分析結果に大きく影響するため、ビジネス上の目的に合わせた設定が重要です。
Tableauでは、分析ペインから「クラスター」をビューにドラッグするだけでクラスタリングが実行されます。クラスター数は自動で推薦されますが、手動でKを変更して結果を比較することもできます。また、クラスターを計算に含めるディメンションやメジャーを追加・削除して、分類の基準を細かく調整できます。
作成したクラスターはディメンションとして保存でき、フィルターやカラーに活用できます。ただし、クラスタリングはデータの特徴を探索するための手法であり、結果の解釈には分析者のドメイン知識が不可欠です。機械が自動でグループを作るとはいえ、「このグループが何を意味するか」を判断するのは人間の役割になっています。
具体例で理解する
たとえば顧客データを「購入頻度」と「客単価」の2軸で散布図に表示してKクラスタリングを適用すると、ヘビーユーザー層・ライトユーザー層・高単価少頻度層などのグループが自動で分かれます。各グループにカラーが付与され、違いが一目で視覚化されます。
試験での出題パターン
DA試験でクラスター分析に関する設問は、主に3つの型があります。
パターン1:アルゴリズムの仕組みを問う問題。「k-means法」「クラスター数Kを分析者が指定」「最も近い重心に割り当てて収束させる」を選ばせます。決定木や時系列クラスタリングとの混同が誤答として出題されます。
パターン2:Kの設定を問う問題。「Kは変更可能」「Kによって結果が変わる」を選ばせます。「Kは自動で決まり変更できない」という誤答選択肢が頻出です。
パターン3:結果解釈を問う問題。「クラスターはディメンションとして保存可能」「ビジネス的意味付けは人間の役割」を選ばせます。機械的分類結果をそのまま結論にする安易な使い方を否定する観点です。
よくある間違い・紛らわしいポイント
×「Tableauのクラスタリングは自動で最適なKを決める」→○ 自動推薦はありますが、分析者が手動でKを変更できます。ビジネス目的(例:顧客を3セグメントに分けたい)に合わせた調整が重要です。
×「クラスタリング結果はそのまま意思決定に使える」→○ k-meansは似た特徴でグループ化するだけで、各グループの意味付けは人間が行う必要があります。「このクラスターは何を表すか」の解釈は分析者の役割です。
×「k-meansと決定木は同じ」→○ k-meansはクラスター中心に基づく分類、決定木は条件分岐による分類で、仕組みが根本的に異なります。Tableauが採用しているのはk-meansです。
まとめ・試験ポイント
- クラスター分析=似た特徴を持つデータを自動でグループ化する手法
- TableauのアルゴリズムはKクラスタリング(k-means法)
- Kの指定が必要=クラスター数は分析者が設定(自動推薦もあり)
- Kが変わると結果も変わる=ビジネス目的に合わせて調整
- 作成したクラスターはディメンションとして保存・活用可能
- 試験では「Kクラスタリングの仕組み」や「クラスター数の意味」が問われやすい
学習した内容を模擬試験で確認しよう。Tableau Data Analyst模擬試験で実力を測ろう。
Tableau DA模擬試験に挑戦