2017年1月17日火曜日

データ活用の段階に合わせた成果物の定義

データ解析で得られる成果物とは

データ解析で得られる成果物(※注1)には様々なものがあります。基礎の部分としては、変数ごとの集計結果があります。少し難易度が上がると、クロス集計や相関分析、多変量解析による要因分析などの結果があります。

(※注1)
ソフトウエア開発やシステム開発において、プロジェクトの全体または一部の工程が完了したときに成果として完成した納品物、プログラム、仕様書・設計書などの文書類のこと。
(出典:デジタル大泉辞)

しかし、これらの成果物は活用されて意味を成すものです。そのためには成果物をどう活用するのか、が事前に定義されている必要があります。そして、その定義はデータを活用する段階に合わせる必要があります。

データ活用は、大きく3段階分けられます。例えば、新しい製品・サービスが発売される場合では以下のようになります。
  1. 初期段階:製品・サービスが発売された段階。予測や施策は人間が実施。
  2. 中期段階:製品・サービスが発売され一定期間が経過した段階。予測や施策は人間が実施。予測にツールや統計解析技術の検討が行われる。
  3. 後期段階:予測にツールや統計解析技術の検討が完了した段階。システム化を検討。
このように分けた理由は、以下の通りです。
まず製品・サービスの発売当初は、販売を安定させるためにある程度のリソースを確保する必要があります。次に、販売が見込めれば効率的に業務を実施することが求められます。この段階でツールの導入・統計解析技術の検討が行われ、最終的にはシステム化の検討がされます。このような流れがあるのが一般的です。

今回はこのデータ活用の段階に沿った成果物の定義についてお伝えします。

1.データ活用の初期段階

この段階は、製品・サービスの販売傾向を分析し、予測や施策は人間が考えながら行う時期です。この段階での解析の成果物は集計結果になります。
もっとも簡単な成果物は、製品・サービスや施策に定義された指標の集計結果です。指標の例としては製品・サービスであれば販売数があります。施策は、DM送付なら反応数、WEB広告ならクリック数、などです。

この指標を日次・週次・月次といった時系列で集計しモニタリングします。ここから、製品・サービスの販売傾向や施策の傾向をまずつかみます。

次は指標に影響する各要因の関係性を明らかにします。
先ほどのDM送付の例の場合、「性別反応数」のクロス集計があげられます。クロス集計は様々な見方でデータを見ることができます。先ほどの「性別反応数」に年代を追加することもできます。さらにDM送付数から反応率が出せます。時系列で集計することもできます。上記のすべての指標をまとめて算出することも可能です。
どの粒度でクロス集計をするか、ということでも諸々書き出すことはできますがここでは割愛します。
この集計を繰り返すことで様々な知見が得られます。また、その知見が多変量解析を実施する段階で重要になります。

2.データ活用の中期段階

この段階では、製品・サービスの販売や施策の指標に対し影響しそうな要因の傾向を、データから明らかにします。
先のDM送付の反応数の場合、性別・年齢などの属性データや購買金額などのクロス集計があげられます。さらにはこのクロス集計を時間軸で追っていくことで、各条件別の傾向をつかみます。
ここで得られた知見が多変量解析を実施する際の変数の選定に生かされます。クロス集計などの結果を踏まえ多変量解析(モデル化)を実施し、各要因間の影響を明らかにしていきます。

3.データ活用の後期段階

この段階は、解析システム構築やモニタリングツールの導入のフェーズです。したがって、成果物もシステム設計書やモニタリングツールの手順書などになります。この段階で新たに解析をする、ということはありません。しかし、システム設計書やモニタリングツールの手順書の作成に前段階で実施した解析内容が反映されなければなりません。


今回は、データ活用の段階に沿った成果物を定義することが必要なこととお伝えしました。例えば、サービスが始まったばかりで、何の指標をモニタリングするか明確でない状況で、多変量解析(モデル構築)を成果物に定義した場合を想定します。何かしらのモデルができたとしても、それが指標に対して適切かどうか判断のしようがありません。逆に、要因を特定できそうな仮説が立っているにも関わらず、クロス集計を成果物に定義する場合はどうでしょうか。この場合はこれまでやってきた解析が生かされない可能性があります。

データ解析を実施する際には、まず自社のデータ活用段階の確認を行ってください。そのうえで各段階に沿った成果物を定義することです。ステップが細かくなり一見長い道のりに感じると思います。しかし、これがデータが活用されるまでに必要なステップとなると考えています。


投稿者 データサイエンス部 根本(株式会社アイズファクトリー