2016年12月6日火曜日

データの整形加工の考え方

学習し続けるレコメンドエンジンを作る「共起」

「共起」(きょうき)という言葉をご存じですか?
馴染みのない言葉ですが、「共起」とはある文中に含まれる特定の言葉に関連して、同時に別な言葉がよく使用されることをいいます。この「共起」という現象、ビジネスにあてはめると
面白いものが見えてきます。結論から書きますと、全文検索エンジンを使って、学習し続ける「レコメンドエンジン」を作ることができます。 弊社のあるプロジェクトでは、お客様から索引処理用の大量文書データ群を定期的に受領。データ整形加工を経て全文検索エンジンに投入、分析索引処理を自動処理化するという開発をしています。四年に渡ってそのサンプリング結果を報告し続けています。文書データの準備はお客様側で行っていただき、弊社は受領以降を作業。今回はその「データの整形加工の考え方」で気づいた点をお伝えしましょう。


「共起」をとらえ、検索エンジンにいかす

文書データには各「執筆者」がいます。単独・共同作業問わずその「執筆者」が文章を書きます。文章にはその「執筆者」の個性や嗜好が表現されます。ある程度の定型表現もあります。お客様からのご依頼は、はじめにこの定型表現を消去するように、と言うものでした。文書データの整形加工した結果を全文検索エンジンに一旦投入しています。守秘義務上その全貌は本稿ではつまびらかにはできませんが、弊社では独自のデータの整形加工をも行い、全文検索エンジンを使って「共起」という現象をとらえられるようにしています。

試しに「ゲノム」という言葉で検索してみます。適合文書が全文検索エンジンから結果として返され表示されました。中によく含まれている単語は限られたものでしかありません。主だったところを目で拾って列挙しますと
「遺伝子操作」「配列」「遺伝子」
このような言葉が並んでいました。

では次に「ラーメン橋」という言葉で検索してみます。今回も適合文書が全文検索エンジンから結果として返され表示されました。やはり中によく含まれている単語は限られたものでしかありません。主だったところを目で拾って列挙してみますと
「コンクリート構造」「高架橋」「鉄道橋」
このような言葉が並んでいました。医学や建築に疎い場合でも、このように関連した言葉の情報が返されるとイメージを持つことができます。

このプロジェクトのデータ整形加工と全文検索エンジンへの投入の実施実績は、弊社には大きな財産です。全文検索エンジンの検索にかけた検索語と、戻ってきた関連した言葉の文字面は異なるもので、かつ関連性の強い言葉です。それゆえに、これは一種の「共起」とみなすことができます。
もっとも、「共起」の解釈もさまざま。「しとしと」と言えば「雨が降(ってい)る」ことです。聞いた日本人は「雪」をイメージしません。「しとしと」は形容詞で名詞ではありませんし、「雨が降(ってい)る」という結果では状況を判断していることになります。全文検索エンジンの検索結果も仮にそこまで来れば、人工知能の苦手な「文脈の前後判断」を補うものになります。 実際には全文検索エンジンは「文書を登録しておき検索語ですばやく探す」ということが主な目的で作られているため、「共起」という現象の表現に向いてはいません。弊社では、この点を改善するように仕組み作りをしました。

「共起」をビジネスにあてはめる ―販売履歴の活用例

さて、冒頭に書きました、この「共起」という現象をビジネスにあてはめる、という点についてまとめましょう。
営利販売実績の向上のための解析に使うデータといえば、販売履歴。通常、時系列に蓄積されています。その販売実績データ、仮に下記のように全文検索エンジンに投入したとします。

日付時刻      店コード レジ処理番号     購入商品
 2016/11/26 11:30 00001 201611261130001 ビール おむつ 哺乳瓶 粉ミルク 食パン 
 2016/11/26 11:40 00001 201611261130002 ビール おむつ 粉ミルク 食パン  牛乳
   :  :

このように購入商品の列にデータの整形加工をして全文検索エンジンへ投入しておくことにより、商品名が言葉であるため、いくつかの条件付きで「共起」の拡大解釈が適用できます。単に「ビール」と検索した際、購入商品の共起の度数計算が可能になり、「ビール」とよく一緒に買われているものが何かを割り出すことができます。

商品マスタの商品コードに読み替えて投入しておくと、商品コードどうしの共起の度数計算ができることにもなります。現実的にはそちらが選択肢となります。上記の有名なデータの例を見ますと、購入者のプロフィールを当てられる(「分類」ができる)一面がありますが、その件はいずれまた別の機会にお伝えしましょう。


投稿者: データサイエンス部 矢野 (株式会社アイズファクトリー