トレンドラインの統計モデル — 線形・多項式・指数の選び方
導入
散布図にトレンドラインを引いたとき、「線形と多項式のどちらを選べばよいのか」と迷ったことはないでしょうか。モデルの選び方ひとつで分析の信頼性が大きく変わります。ここでは、Tableauが提供する統計モデルの種類と選択基準を確認していきます。
くわしく知ろう
Tableauのトレンドラインには、線形・多項式・指数・対数・べき乗の5種類が用意されています。どれを選ぶかはデータの形状と、フィットの良さを示す統計指標によって判断します。
まず最もシンプルなのが線形モデルです。XとYの関係が一直線で近似できる場合に使います。売上が毎月ほぼ一定の割合で増加しているような場合に適しており、モデルの解釈がしやすいのが特徴として知られています。
次に多項式モデルは、曲線的な関係を捉えるためのモデルです。次数(degree)を指定することで2次曲線・3次曲線などに対応できます。ただし次数を上げすぎると過学習(データの細かいノイズまで拾ってしまう現象)が起きやすくなるため注意が必要です。
指数モデルは、値が指数関数的に増減する場合に使います。ウイルスの感染者数や複利計算のような急成長・急減少の場面に適しています。
モデルの良し悪しを判断する主な指標が決定係数(R二乗)とp値です。R二乗は0から1の値をとり、1に近いほどモデルがデータをよく説明できていることを示します。p値は「このトレンドラインが偶然生じた可能性」を示し、一般に0.05未満であればトレンドが統計的に意味のある関係と判断されます。Tableauではトレンドラインを右クリックして「統計情報の記述」を選ぶと、これらの値を確認できます。
具体例
たとえば月次売上が毎年ほぼ同じ割合で伸びている場合は線形モデルが適しています。一方、年初は低く夏にピークを迎えて年末にまた下がるような季節性のある売上には、2次の多項式モデルが曲線の山を表現しやすくなります。
まとめ・試験ポイント
- 線形モデル=一定の割合で増減する関係に使用
- 多項式モデル=曲線的な関係を捉える(次数を上げすぎると過学習)
- 指数モデル=指数関数的な急成長・急減少に使用
- R二乗(決定係数)=1に近いほどモデルのあてはまりが良い
- p値=0.05未満でトレンドラインが統計的に有意と判断
- 試験では「R二乗とp値の意味」や「モデル選択の基準」が問われやすい
学習した内容を模擬試験で確認しよう。Tableau Data Analyst模擬試験で実力を測ろう。
Tableau DA模擬試験を見る