2017年1月24日火曜日

人工知能ビジネスの考え方

東ロボくんが挫折した問題とは

東ロボくん(※注1)が東大入試をあきらめてしまいましたね。国立情報学研究所で開発されている人工知能東ロボくんは、物理や数学は得意だったのに、英語と国語の点数が思わしくなかったようです。けれども今、人工知能ビジネスについては大手各社が
数百人から千人単位でその人材確保にやっきになっている時代。はたして東ロボくんは挫折から再起できるのでしょうか。今回はその「人工知能ビジネスの考え方」で気づいた点をお伝えしましょう。

(※注1)
東ロボくん(とうろぼくん)とは、日本の国立情報学研究所(大学共同利用機関法人 情報・システム研究機構)が中心となって2011年に立ち上げられたプロジェクト「ロボットは東大に入れるか」において研究・開発が進められる人工知能の名称。東京大学に合格できるだけの能力を身につける事を目標としていたが、2016年11月に東京大学合格を断念した事を発表。
(出典:Wikipedia、 https://ja.wikipedia.org/wiki/東ロボくん)


コンピュータはもともと電子計算機と呼ばれていました。数式で表せるものを処理することが得意です。また、記憶装置は巨大な情報量を蓄積できます。しかし、自然界には数式では表せないものも多く、人間の日常生活ではそちらが大半を占めています。
人工知能ビジネスといっても、大別すれば次の二通り。
  • 姿なき挑戦者型:人間の心の能力にまで挑む(プロ棋士を打ち負かす)
  • 魔法の手型:人間の手間を省力化する(生産工場のロボットアーム)
以前は後者が割合を大きく占めていましたが、近年は前者に研究の重点が集まってきています。筆者には20年ほど前、大手工場で後者の人工知能CAD開発に2年近く従事していた経験がありますが、時代は変わったと言えましょう。

さて、東ロボくんが挫折した問題を見てみましょう。
  問題:  返事の続きを下記の英単語を組み合わせて受け答えしなさい
  使う英単語: cold, I, asked, for, drink, to, something
  お友達: 「暑いわね。歩いてきたの?」
  あなた: 「はい。のどが渇いた。だから(so)」

人間は「I asked for something cold to drink. 何か冷たいものが飲みたい」と続きを言えますが、東ロボくんは「cold I asked for something to drink. 寒いから何か飲みたい。」と語順を間違えてしまうとのことでした。この件は盛んに報道されました。『ではなぜ東ロボくんは語順を間違えてしまったのでしょうか。それは「暑いなら冷たいものを飲みたいだろう」という人間の常識がなかったためです』、と身もふたもない解説でした。

人工知能の思考部分はどうなっているか

では、東ロボくんはなぜこのような答えを出してしまうのか、その仕組み作りを追ってみましょう。
人工知能の思考部分の分析をしましょう。仮に東ロボくんの英語の受験勉強が下記のようなものだったとします。この手法は大まかには「深層学習」と呼ばれているものです。

手順1:英語のドラマの録画や映画を大量に記憶装置に記録する
手順2:記録させた映像から音声のみを抽出する
手順3:抽出した音声から音声入力ソフトを使って英会話の大量のテキスト(セリフ台本)を作成する
手順4:作成した英会話のセリフ台本を全文検索エンジンに入れる

このうち、技術的に難しいのは手順3ですが、その詳しい手法はまた別な専門分野と思うことにしましょう。

さて、この物作りの方法で、仮にうまく全文検索エンジンに「セリフ台本」が入れられたとして、それを使って先程の問題を実際に解いてみましょう。

テキストを全文検索(複数の文書から特定の文字列を検索する)エンジンに登録するとき、先頭から最後まで桁数の大きな連番を割り振っておくと、

操作1:「暑いわね。」「歩いてきたの?」で検索
操作2:検索結果のその連番を取得
操作3:その連番たちの次の連番を計算、それら連番を使用して再度検索結果を取得

(操作3の連番が英会話上の答えを指しているものとして)上記わずか三つの操作で答えをかき集めることができます。けれども、この統計的な手法には次の欠点があります。

欠点1:検索結果にノイズも混入してくることが多い
欠点2:しかも検索結果へのノイズ混入を防ぐことは予め困難

仮に下記のように混入ノイズも拾えてしまったとしましょう。

例:
答え1:「寒い(冷たい)から何か飲みたい。」(混入ノイズ)
答え2:「何か冷たいものが飲みたい」
答え3:「牛乳が飲みたい」
答え4:「少し休みたい」
答え5:「喫茶店に行かない?」
答え6:「自動販売機を探して」


さて、ここで出てきましたこの答え1(混入ノイズ)と答え2との違い。
実はこれは前回お伝えしました「言葉の共起度計算」(※注2)を使っても完全には区別できません。東ロボくんの挫折の原因は、上記のようなノイズ混入箇所にあったのではと推察できます。まさにここが今後の人工知能ビジネスの勘所といえます。


ここ3年ほど、仕事の質は違っても、同じこの「検索結果の混入ノイズの判定」に苦心してきまして、筆者は別なスコア計算手法を考え付くことができました。ぜひもっと詳説致したかったものですが、紙面が尽きてしまいました。お目通し戴き、ありがとうございました。


投稿者:データサイエンス部 矢野(株式会社アイズファクトリー