2017年7月25日火曜日

データサイエンスは職人芸である

AIの躍進

近年、囲碁ではAlphaGo(アルファ碁)、将棋ではPONANZA(ポナンザ)など、AI(人工知能)が人間の能力を凌駕したとして世間をにぎわせています。これまでSFの中の話でしかなかった、AIが人間の知性を超えるいわゆる「シンギュラリティ」が2045年に到来するという予言が、現実味を帯びたとさえ騒がれています。


これらのAI躍進の裏には、大量のデータを解析する手法やアルゴリズムの発展、大量のデータを処理するインフラの進化・普及といった背景があります。
ビジネスにおいてもこれらの要素が還元され、ビッグデータ、非構造データの活用や、ディープラーニング(深層学習)、機械学習などによる高度なデータ分析が実業務に取り入れられる事例が次々と報道されるようになってきました。

そのような世の中の流れとともに、データを扱う専門家としてのデータサイエンティストに一層注目が集まるようになっています。


データサイエンスでできること

ときとして、お客様からは「データサイエンスなんて一部の大企業が取り組める話で、うちにはビッグデータといえるようなものはない」という声を聞くことがあります。AIの躍進の理由として語られる「膨大なデータ」と「最先端のアルゴリズム」を使わないと、データサイエンスは成り立たない、という印象があるようです。

確かに、データサイエンスの隆盛は、大量/多様(文章、画像、音声、動画等)なデータが扱えるようになったことや、近年目覚ましい発展を遂げている高度な分析手法と無関係ではありません。しかしながら、ビッグデータはなくとも、高度な分析手法を使わなくとも、データサイエンスで価値を生み出すことはできるのです。

ポイントは、「ビジネスの理解」「分析手法の理解」「データの理解」です。

事例:アメリカ大統領選挙の結果予測

2012年のアメリカ大統領選挙では、ビッグデータを活用した選挙戦が話題となりましたが、選挙予測においても、ネイト・シルバー氏が全50州の勝敗を的中させ、データ分析が政治評論家を越えたとして話題となりました(※1)。



彼が用いたデータの中心はせいぜい数万人の世論調査で、使用した分析は回帰分析とモンテカルロ・シミュレーションだけであると言われています(※2)。データ量もビッグデータというには程遠く、分析手法もどちらも古典的で良く知られたものです。

それではなぜ、全50州の結果を言い当てるという神業が成せたのでしょうか?

前出の記事(※2)によると、彼の分析においては、使用データの広範な集約および選定と、それらの扱い方の吟味がなされていたことが伺われます。彼が行ったことは、

(1)アメリカ大統領選挙についての知見や洞察をもとにして、
(2)結果を予測するという目的を達成するに足る分析手法を選定し、
(3)その分析に寄与するデータを用意した。

と言うことができます。

この(1)~(3)が、それぞれ先述の「ビジネスの理解」「分析手法の理解」「データの理解」にあたります。アメリカ大統領選挙の結果予測には、AlphaGoのようなディープラーニング(深層学習)という最先端の分析も、有権者全員のWebサイトのアクセスログやクレジットカードでの購買履歴といった膨大な量のデータも、必要ではなかったのです。アメリカ大統領選挙という「ビジネス」についての本質的な理解から、彼にはそれがわかっていたのです。

引き出しの使い方

最先端の分析手法を用いたり、大量/多様なデータを用いることでしか、得られない知見や達成できない精度があることは間違いありません。しかし、それは「どんな場合でも」必要であることを意味しません。現実問題として、費用対効果を考慮しなければならないことも多いでしょう。

分析手法も扱うデータも「引き出しの多さ」に寄与するものです。これに対し、「どの引き出しをどのように使うべきか」は、上の事例のとおり、「ビジネス」「分析手法」「データ」の3つの理解が組み合わさって導き出されます。

データサイエンティストには、この両者、つまり「引き出しの多さ」と「引き出しの使い方」が求められます。その意味で、データサイエンスは、データという主観を排した対象を扱うものでありながら、現実という「ビジネス」に対処する「職人芸」なのです。

ビジネスの理解は難しい

現実は変化します。それに従って、生み出されるデータやその意味も変化します。

昨年のアメリカ大統領選挙は、ネイト・シルバー氏を以てしても結果を予測できませんでした。世論調査に現れない投票、いわゆる隠れトランプ支持層の存在が背景にあったと考えられます。ビジネスが変化した、または、理解が足りていなかったということができるでしょう。

対処するにはどうすれば良いか? データサイエンスの挑戦は続きます。

おわりに


私どもアイズファクトリーでは、過去の解析プロジェクト実績で蓄積された「職人芸」を組み込み、お客様にデータサイエンティストなしで解析結果をご享受いただける《自動進化型データ解析プラットフォーム「bodais」》を提供しています。ご興味を持たれましたら、ぜひ当社サイトをご覧ください。


(※1)SAS Japan ホームページ

(※2)ビズハック 記事