トレンドラインの統計モデル — 線形・多項式・指数の選び方
導入
散布図にトレンドラインを引いたとき、「線形と多項式のどちらを選べばよいのか」と迷ったことはないでしょうか。モデルの選び方ひとつで分析の信頼性が大きく変わります。ここでは、Tableauが提供する統計モデルの種類と選択基準を確認していきます。
なぜ重要か
トレンドラインと統計モデルは、DA試験の「分析と計算」ドメインで重要な位置を占めます。5種類のモデル(線形・多項式・指数・対数・べき乗)の使い分け、R二乗・p値の読み方、過学習などの統計的概念が問われます。
実務でも、散布図にトレンドラインを引いて傾向を示すのは定番の分析パターンです。間違ったモデルを選ぶと誤った結論を導く恐れがあり、モデル選択の判断力は分析の信頼性に直結します。
くわしく知ろう
Tableauのトレンドラインには、線形・多項式・指数・対数・べき乗の5種類が用意されています。どれを選ぶかはデータの形状と、フィットの良さを示す統計指標によって判断します。
まず最もシンプルなのが線形モデルです。XとYの関係が一直線で近似できる場合に使います。売上が毎月ほぼ一定の割合で増加しているような場合に適しており、モデルの解釈がしやすいのが特徴として知られています。
次に多項式モデルは、曲線的な関係を捉えるためのモデルです。次数(degree)を指定することで2次曲線・3次曲線などに対応できます。ただし次数を上げすぎると過学習(データの細かいノイズまで拾ってしまう現象)が起きやすくなるため注意が必要です。
指数モデルは、値が指数関数的に増減する場合に使います。ウイルスの感染者数や複利計算のような急成長・急減少の場面に適しています。
モデルの良し悪しを判断する主な指標が決定係数(R二乗)とp値です。R二乗は0から1の値をとり、1に近いほどモデルがデータをよく説明できていることを示します。p値は「このトレンドラインが偶然生じた可能性」を示し、一般に0.05未満であればトレンドが統計的に意味のある関係と判断されます。Tableauではトレンドラインを右クリックして「統計情報の記述」を選ぶと、これらの値を確認できます。
具体例で理解する
たとえば月次売上が毎年ほぼ同じ割合で伸びている場合は線形モデルが適しています。一方、年初は低く夏にピークを迎えて年末にまた下がるような季節性のある売上には、2次の多項式モデルが曲線の山を表現しやすくなります。
試験での出題パターン
DA試験でトレンドラインに関する設問は、主に3つの型があります。
パターン1:モデル選択を問う問題。データの特徴(急成長・周期変動・緩やかな増加など)を示して、線形・多項式・指数・対数から最適なモデルを選ばせます。指数関数的な加速→指数モデル、周期性のあるS字→多項式が典型例です。
パターン2:統計指標の意味を問う問題。「R二乗は1に近いほど良い」「p値は0.05未満で有意」を選ばせます。R二乗とp値の混同、向きの反転(0に近いほど良い等)が誤答として出題されます。
パターン3:過学習を問う問題。多項式モデルで次数を上げすぎるとどうなるか、訓練データに過度にフィットする現象を選ばせます。
よくある間違い・紛らわしいポイント
×「R二乗は0に近いほど良い」→○ R二乗は0〜1の範囲で、1に近いほどモデルがデータを良く説明できています。0に近いとデータがモデルでほとんど説明できていない状態です。
×「p値とR二乗は同じ意味」→○ 別物です。R二乗はモデルのあてはまりの良さ、p値は「トレンドが偶然生じた可能性」で、0.05未満なら統計的に有意と判断します。
×「多項式の次数は高いほど良い」→○ 次数を上げすぎると過学習が起き、訓練データにはよく合うが新しいデータで外れるモデルになります。低次で十分なケースが多いことを意識する必要があります。
まとめ・試験ポイント
- 線形モデル=一定の割合で増減する関係に使用
- 多項式モデル=曲線的な関係を捉える(次数を上げすぎると過学習)
- 指数モデル=指数関数的な急成長・急減少に使用
- R二乗(決定係数)=1に近いほどモデルのあてはまりが良い
- p値=0.05未満でトレンドラインが統計的に有意と判断
- 試験では「R二乗とp値の意味」や「モデル選択の基準」が問われやすい
学習した内容を模擬試験で確認しよう。Tableau Data Analyst模擬試験で実力を測ろう。
Tableau DA模擬試験に挑戦