マーケティングの現場で起きているデータ分析時に陥りがちな罠 #04
外れ値には、お宝が眠る。データ分析の罠に陥らない「3つのコツ」
「売上シェア」と「テレビCM GRP」の相関はある?
Facebook Japanの中村淳一です。連載も気付いてみたら今回含め、残すところ2回となり、少し感慨深いです。今回も多くの皆さまにとって少しでも参考になれば幸いです。
さて、今回は何の罠についてお話をするかを伝える前に、まずは次の表をご覧いただき、ご自身でどのような分析をするか、そこから何が言えそうか、少し考えてみてください。
今年度の「売上シェア」と「テレビCMのGRP(Gross Rating Point:述べ視聴率)」について、AからDまで4つのブランドを比較した表です。
ブランドA | ブランドB | ブランドC | ブランドD | |||||
TV_GRP (X1) | 売り上げシェア(Y1) | TV_GRP (X2) | 売り上げシェア(Y2) | TV_GRP (X3) | 売り上げシェア(Y3) | TV_GRP (X4) | 売り上げシェア(Y4) | |
2020年 1月 | 804 | 10% | 914 | 10% | 746 | 10% | 658 | 8% |
2020年 2月 | 695 | 8% | 814 | 8% | 677 | 8% | 576 | 8% |
2020年 3月 | 758 | 13% | 874 | 13% | 1274 | 13% | 771 | 8% |
2020年 4月 | 881 | 9% | 877 | 9% | 711 | 9% | 884 | 8% |
2020年 5月 | 833 | 11% | 926 | 11% | 781 | 11% | 847 | 8% |
2020年 6月 | 996 | 14% | 810 | 14% | 884 | 14% | 704 | 8% |
2020年 7月 | 724 | 6% | 613 | 6% | 608 | 6% | 525 | 8% |
2020年 8月 | 426 | 4% | 310 | 4% | 539 | 4% | 1250 | 19% |
2020年 9月 | 1084 | 12% | 914 | 12% | 815 | 12% | 556 | 8% |
2020年 10月 | 482 | 7% | 726 | 7% | 642 | 7% | 791 | 8% |
2020年 11月 | 568 | 5% | 474 | 5% | 573 | 5% | 689 | 8% |
これだけを見ても、よくわかりません。そこで表を見た何人かは、まず全体の「平均」を出すかもしれません。または、少し分析に慣れた方でしたらデータのばらつき具合を見るために「分散」を調べるかもしれません。
では、その「平均」と「分散」を見てみましょう。
ブランドA | ブランドB | ブランドC | ブランドD | |||||
TV_GRP (X1) | 売り上げシェア(Y1) | TV_GRP (X2) | 売り上げシェア(Y2) | TV_GRP (X3) | 売り上げシェア(Y3) | TV_GRP (X4) | 売り上げシェア(Y4) | |
平均 | 750 | 9.0% | 750 | 9.0% | 750 | 9.0% | 750 | 9.0% |
分散 | 203 | 3.3% | 203 | 3.3% | 203 | 3.3% | 203 | 3.3% |
面白いことが起きました。なぜかどのブランドを見ても、テレビCMのGRPも、売上シェアも全く同じ数字になっています。
もとの表をご覧ください。売上シェアこそブランドA、ブランドB、ブランドCは同じ数字ですが、ブランドDは違います。GRPは各ブランドで違う数字が入っています。この結果が嘘だと思われたら、ご自身でエクセルを使って確認してみてください。
では、次に変数が2つある場合に、マーケティング業界でもよく使われる相関分析を使って相関係数を出してみます。
ブランドA | ブランドB | ブランドC | ブランドD | |
相関係数 | 0.82 | 0.82 | 0.82 | 0.82 |
面白いことに、相関係数も全く同じ数値になるようです。ブランドに関わらず、このカテゴリーではテレビCMのGRPは、売上シェアとの相関が見られるようです。なお、回帰直線で見ても、全てのブランドで同じ結果になります。
分析の罠:平均や相関係数だけを見て分かった気にならない
読者の皆さまの中には、ご存知の方もいらっしゃるかもしれませんが、この表は英国の統計学者フランク・アンスコムさんがつくったデータセットが元になり、「アンスコムの例(Anscombe’s Quartet)」と呼ばれています。
今回の分析の罠は、「平均や相関係数だけを見て分かった気になってしまってはいけない」です。
実際に分析をする現場の方もそうですが、特に決定権を持つマーケティングディレクターなどのマネジメント層の方は、この罠にはまりやすいのではないかと思います。
というのも、抱えているプロジェクトも多く忙しいため、結論だけを見て急いで決めようと、平均や相関係数などで全体感をつかめたと勘違いしていまい、判断するケースが多く見受けられます。
ある意味、ヒューリスティックなバイアスですね。調査会社のレポートを見るのも良いですが、ローデータを自分で分析する方が色々学びは多いと思います。
では、どうすれば良いのでしょうか?