マーケティングの現場で起きているデータ分析時に陥りがちな罠 #05
データ分析の「仮説と検証」、罠に陥らない重要な3つのポイント
Facebook Japanの中村淳一です。5回に渡るデータ分析の罠も最終回となりました。
前回までの回では、「相関」ではなく「因果関係」を見ることの大切さ、KGI/KPIの考え方、平均だけをみて決断することの危うさ、機械学習・A Iの時代だからこそ大事なデータの質、そこにまつわるユーザープライバシーの問題などについてお話ししました。
最後になる今回は、データ分析する上で一番の肝と言っても良い「仮説と検証」についての罠をお話しいたします。
仕事柄、数多くのデータ分析の方法に関する本を読みましたが、どの本にも共通して述べられているのが、分析前に立てる仮説の重要性です。
仮説なくして分析を始めても、あまりインサイトは出てきません。そのような状況は、分析者であれば数多く経験していると思います。
特にビッグデータの登場により、データが高度化・複雑化したことで、データセットの用意やエンコード状況の確認、欠損値処理などの前処理の時間も加速度的に増えており、今まで以上にデータ分析者にとって生産性に影響を与える大事なプロセスになっています。
前回までの回では、「相関」ではなく「因果関係」を見ることの大切さ、KGI/KPIの考え方、平均だけをみて決断することの危うさ、機械学習・A Iの時代だからこそ大事なデータの質、そこにまつわるユーザープライバシーの問題などについてお話ししました。
最後になる今回は、データ分析する上で一番の肝と言っても良い「仮説と検証」についての罠をお話しいたします。
仕事柄、数多くのデータ分析の方法に関する本を読みましたが、どの本にも共通して述べられているのが、分析前に立てる仮説の重要性です。
仮説なくして分析を始めても、あまりインサイトは出てきません。そのような状況は、分析者であれば数多く経験していると思います。
特にビッグデータの登場により、データが高度化・複雑化したことで、データセットの用意やエンコード状況の確認、欠損値処理などの前処理の時間も加速度的に増えており、今まで以上にデータ分析者にとって生産性に影響を与える大事なプロセスになっています。
データ分析・リサーチは何のためにあるのか?
仮説の罠に入る前に、そもそもデータ分析・リサーチがビジネスプロセス上どのような位置付けであるかを、私の経験を通して最初にお話しさせていただきます。
例えば、「売上の減少が続いている」という状況があったとします。その時、皆さまはまずどのようなアクションを取られるでしょうか?
多くの方は「売上の減少の原因の仮説を立てる」ことから始められるのではないでしょうか?
その後仮説を検証するべく、データを集めて分析をしたり、リサーチなどを行ったりすることが多いと思います。
言い換えれば、数多くの仮説の中から候補を絞ることが、データ分析やリサーチの重要な役割のひとつと言えます。
データ分析の罠:仮説の検証が甘く絞りきれないフラスコ型が多い
この「①仮説立て→②分析&仮説の絞り込み→③ソリューションの開発」というプロセスですが、①、②の部分が十分でなく、結果として、分析やリサーチ時点での課題の絞り込みが十分でないというケースが現実では非常に多いと感じております。
その理想と現実を表してみたのが下図の砂時計型(理想)とフラスコ型(現実)になります。
砂時計型:仮説の量が多く、特にイシューが特定されている。また分析もシャープなため仮説の絞り込みが良くされている。仮説の絞り込みとソリューションの開発に同程度労力・時間をかける。イシューが特定されているため、ソリューションの方向が同一で効率的でシナジーもうまれやすい。
フラスコ型:仮説の量は同等だがイシューが特定されていない。分析が浅いため仮説の絞り込みも見切り発車的に行うため、ソリューションの開発の幅が増えブレる。一見、より多くのソリューションが開発されるため良いように見えるが、実際は各ソリューションの方向がバラバラになるため非効率的になる。