2017年7月11日火曜日

データ活用を見据えたデータ取得

データ分析におけるデータ取得

以前のブログ(新しい技術がデータ分析の前提を変える)では、新しい技術で新しいデータを取得できれば、一歩先のデータ分析を行える可能性がある、ということをお伝えいたしました。
今回は新しいデータを取得するにあたり、どのような観点に留意する必要があるのかについてお伝えできれば、と思います。
まず、どういったデータが取得できるのかを、以前取り上げた画像センシング技術を例にして考えたいと思います。画像センシング技術も各社様々ありますが、多くは以下のデータが取得できる模様です。

  ・性別、年代
 
また、製品によっては以下のようなデータも取得できそうです。

  ・顔の向き、表情

そして、機器の情報として以下のようなデータも取得できると考えられます。

    ・日時、設置場所

これらを整理すると以下のようなデータが取得できると想定されます。

▼表1.想定取得データ


表1は画像センシングシステムから排出されるデータになります。「ローデータ」と言ったりもします。しかしこのデータだけでは、実際どういったことができるのかまだ想定が難しいかもしれません。もう一段手を加えてみます。

▼表2.時間帯別人数集計

 
表2は表1のデータを日時別の人数集計をした結果です。表の関係上項目を[性別]と[設置場所]に限定しましたが、[性別]と[設置場所]以外の項目でも集計は可能です。また時間軸も日時別ではなく、月別でも分単位でも集計は可能です。さらにこのデータにセンシング以外のデータ(天候情報など)を紐づければ様々な傾向が見ることができます。

さて、当初のデータ分析を見据えたデータ取得という点に話を戻します。例にある画像センシング技術が最大6項目[性別、年代、顔の向き、表情、日時、設置場所]のデータを取得できるとします。仮にスーパーマーケットなどにこの画像センシング技術を導入しようとした場合、この6項目はすべて必要でしょうか。

答えは「イエス」でもあり「ノー」でもあります。結局、このデータを用いて「将来何をしたいのか」と「直近で何をするのか」ということに拠るからです。
スーパーマーケットが今までPOSデータを用いた売上分析のみ行っており、来客分析を行っていない場合、[日時]だけで十分の可能性があります。
表1のデータは秒単位で画像センシングシステムを通過したデータが保存されています。そのデータを集計し、POSのデータと紐づければ、以下のような来客数と売上の関係分析が行えます。


▼表3.時間帯別来客数と購買数       ▼図1. 時間帯別来客数と購買数推移

 まずはこういった状況の把握から、という分析でも十分な場合もあります。
一方、顧客がどの場所でどのくらい商品に興味を示しているか、という場合は[顔の向き]や[表情]、といったデータが必要になる可能性があります。また、[設置場所]の項目を食品、生鮮、日販、飲料、といったカテゴリにしたりすることで、「顧客がどの場所でどのくらい商品に興味を示しているか」ということを明らかにすることができるかもしれません。

データの集計時間単位、という観点においても上記例のように1時間単位でデータを保持すればよい場合もあります。もし、スマホアプリ等と連動して顧客に商品のレコメンドをしたい、といった場合は分単位や、秒単位でデータを保持しておく必要があります。
このように、どの程度データを取得すればよいのか、というのはデータを活用する目的によって大きく異なってきます。

データ活用の「目的」に沿ったデータ取得の重要性

過去に行ったプロジェクトでも、活用目的に沿ったデータを取得できていないというのは少なからず見受けられます。
一つの例として、チラシやフリーペーパーなどの紙媒体において、広告効果への視認性(見やすさ)の影響を分析したい、というテーマがありました。分析に使えるデータとして、原稿の文字数や配置場所、というデータはあります。しかし、分析目的を鑑みると、読者の観点から視認性(見やすさ)を示す適切なデータとして「実際の画像データ」も取得すべきでした。
もう一つの例として会員とのコンタクト履歴を収集していましたが、コンタクト方法(電話、メール、訪問、来店)を収集しておらず、コンタクト方法別の傾向を見つけることができなかった、ということがあげられます。

実際にデータがあると、データを用いてまず何か見たい、何らかのアウトプットを出したいということは分析をする側としてもわかる部分です。だからこそ、取得するデータがデータ活用目的に沿っているか今一度ご確認いただければと思います。

データサイエンス部 根本(株式会社アイズファクトリー