2017年6月27日火曜日

新しい技術がデータ分析の前提を変える

データ分析の前提


データ分析の前提として、事象を説明できるデータが正しく取得できている、ということがあります。しかし、実際に世の中で計測されているデータが正しく事象を表しているのか、というとそうではありません。
例えば視聴率調査を例にとってみましょう。長年の課題として「録画で見ている人たち」のデータが含まれていない、ということがありました。この課題に対して2016年10月以降に新たに「タイムシフト視聴率」という指標が考え出され、公表が始まっています。


しかし、視聴率自体が「テレビがONになっている時間を計測している」のであって、「テレビが見られているかどうかを計測している」わけではありません。それでも、現在ではその計測がもっとも視聴を計測するのに適した方法として採用されています。



また別の例を挙げます。小売店の売上管理に関してはPOSが広く普及しています。そして、POSデータに顧客情報を紐付けた顧客分析も様々な業界で行われています。しかし、売上に影響する項目のひとつである「来店者数」についてはこれまで正確に計測されてはいませんでした。計測されたデータといっても、1週間と区切って人力で取得された来店者のカウントデータや、ポイントカードの来店ポイントを用いた来店者データといったところでしょう。

もしこの状態で分析をするとした場合は次のような前提をおく必要があります。
人力で取得された来店者のカウントデータの場合、例えばその計測期間の売上と来店者の関係から他の期間の来店者を推測する、といったことをします。また、来店ポイントのデータを来店者データとする場合、カード保有者の総数から割り返して疑似的な来店者数をはじき出す、ということをせざるを得ません。これまでの現場であれば、そういった疑似的なデータからヒトが売上予測などを行っていたと思います。しかし、仮に売上予測が外れた場合にこの疑似的なデータの正しさは誰も検証できません。

新しい技術によるデータ取得


この来店者のカウントに関して、画像センシング技術などを用いた来店者計測が注目を集めています。この技術は人数のカウントだけではなく、性別や年代といった情報もカウント可能、ということです。もちろんこのような技術も100%正確、というわけではないと思います。しかし、これまでの人力で行う来店者調査や来店ポイントからの推測に比べればより正確で、低価格でしょう。

このような新しい技術が導入されることで、データ分析の前提が大きく変わります。先ほどの小売店の例で言えば、来店者数と売上の関係はまず明らかにできるでしょう。また、広告や販促活動の集客効果というのも明らかにできると考えられます。
また、以前こちらのブログでご紹介した社内ファイルサーバーの整理に問題を抱えているお客様の事例のケースでも同様です。ファイルからテキスト情報を抜き出すツールは既に存在しています。このテキストデータに対して、ファイルの作成者や作成日時、保存先サーバー名を自動的に取得・付与する技術があったとしましょう。そうすれば、このお客様のファイル情報群はあっという間に整備が完了されます。そして人工知能を使ったファイルの分類、といったようなことが可能になります。

冒頭でお話した視聴率調査において、新しい技術、例えば画像センシング技術がTVか視聴率調査機に導入されるとどうなるでしょうか。これまでが「テレビがONになっている時間を計測」という条件だけではなく「TVの前に○○秒以上とどまっている人」を視聴率の計測対象とすることでより実態に近い視聴率が得られるでしょう。また、年齢や性別が画像から得られることもより実態に近しいデータを得られます。
(※注:上記案について、「技術的に可能です」ということを述べているのみで、実際に商品化等をお薦めしているものではありません。)

取得できない事象をデータ分析で明らかにする、ということもできます。しかし、新しい技術を導入することで今まで取得できなかったデータを取得することができれば、より一歩先のテーマのデータ分析を行える可能性が出てきます。今後データ活用を検討される際に一度ご検討いただければと思います。また、我々も新しい技術にアンテナを張っていきたいと考えています。
                                        
データサイエンス部 根本(株式会社アイズファクトリー