マーケティングの現場で起きているデータ分析時に陥りがちな罠 #02
データ分析の典型的な罠「ガベージイン・ガベージアウト」知っていますか?
データ分析の罠:ガベージイン・ガベージアウトとは?
こんにちは。Facebook Japanの中村淳一です。前編では因果関係の大切さとその過程で陥りがちなデータ分析の罠についてお話しました。後編ではもうひとつの典型的な罠である「Garbage in, Garbage out(ガベージイン・ガベージアウト)」についてお話したいと思います。
この言葉はコンピューターサイエンスの世界ではよく使われていますが、直訳すれば“ゴミからはゴミしか生まれない”ということです。より具体的に言えば、そもそも使われているデータが無意味もしくは偏りがあるものであれば、出てくる分析結果も無意味もしくは偏りがあるということです。
マーケティングの現場を見ていて思うことは、これがR2(決定係数)の指標などモデル自体の正確性を表す指標が高かったとしても無意味であるという点です。「95%の正確性」と言われても、個人的にはそれはデータ次第であり、モデルとしては正確だろうけれど、元々のデータが間違っていたら逆にミスリードにつながる、と思ってしまいます。
マーケティングの世界での「データの質の罠」
ではマーケティングの世界におけるデータの質とはどういうことでしょうか?データの質は非常に多くの観点で考えられますが、今回は2つのデータの質の罠について取り上げます。
1) 単位の罠
マーケティングプランニングへの影響があるにも関わらず、意外と周知されていないのが「単位の罠」だと思います。これは数字だけがひとり歩きをし、その単位についてはきちんと理解されていないということです。
たとえばデジタルのキャンペーン計測において、リーチ数が3500万あったとします。多くの人はリーチなので必然的に単位は人数だと思うでしょう。ところが実際に人数として取り出すことは、Facebookのようにログイン情報を人別で持っていなければ非常にハードルが高いものです。多くの場合は、ひとりあたりが複数持てるアカウント数やユニークブラウザー数と呼ばれるCookieによる計測になります。
問題は、単位によりその意味合いが想像している以上に大きく変わることです。過去に当社で実施した調査では、ひとりあたり平均で、ユニークブラウザーは約7つ、デバイス保持数は約3台というデータもあります。
ということは同じ3500万でも、単位がデバイスならば1100万、ユニークブラウザーならば500万にリーチしたという計算になります。3500万にリーチしたなら成功と思っていたのに実は500万にしかリーチしていなければ、今後のプランも変わってしまいます。
インプレッションは一定のため、結果としてフリークエンシーは逆に7倍にされてしまうということであり、リーチの過大評価、フリークエンシーの過小評価の問題がおきます。単位に関しては、私はその元になるデータのつくり方を含めて、詳細をまず確認することで、正しい評価をするようにしています。