2017年8月22日火曜日

データ収集と統計処理は表裏一体である ―データ収集に困ったら読むべきQ&A―

みなさまこんにちは。駆け出しのデータサイエンティストです。

お盆休みでしたね~、読者のみなさんはいかがお過ごしだったのでしょうか。筆者の夏は高校野球と心に決めているので、毎年甲子園の熱戦をTVやネット配信で眺めながら、全力で試合に臨む球児からパワーをもらっています。
今年の甲子園もなかなか見ごたえのある試合が多くて、ホームランの大会記録が飛び出したり、点差のつく試合が多かったりと、話題に尽きない大会となっていますよね。高校球児と同じく、ひとつの物事に熱中したこと、自分にもあったよなぁー。

さて、全力で夏休みを謳歌する大学生にとっては耳を塞ぎたい週末のノイズかもしれませんが、今回は心理学におけるデータ収集と統計処理のお話です。

理系としての心理学

「なんで心理学にデータ収集と統計処理?」と思われた方のために少々ご説明しますと、心理学とは、客観的なデータに基づいて「こころ」を推論する「理系」の学問です。「理系」というその理由は、19世紀から続く現在の心理学が、人間の「こころ」という目に見えない事象を追いかけるために、物理学における科学的手法を参考に学問として体系化されていった歴史があるからです。カウンセラーという職業や古代の哲学者の思想、深層心理なんていう話題から「心理学」は文系を想像されがちです。しかし、「こころ」の客観的な推論を目指して、1800年代から数値(刺激に対する反応時間、など)や言語(面接法、など)を用いて客観的にデータを収集しようとしていたんですよね~。



当然ながら、測定法や調査法、観察法など、心理学として客観的なデータを収集するための研究手法が存在していて、それぞれの手法に対応する心理統計法があります(※もちろん統計処理を必要としない研究手法もあります)。心理学を専攻する学生は毎日大学で多かれ少なかれ心理統計法に触れていて、かくいう筆者も心理学の専攻でしたので、毎日必死になって様々な統計手法を勉強したものです。

そんなバックグラウンドが結実して、今こうしてデータサイエンティストという立場からこのブログを執筆しています。大学の勉強というのも、どこでどう活かされるかわからないものですね。もちろん、筆者以外にも心理学出身のデータサイエンティストが数多く活躍しています。ちょっと意外でしょう?

収集されるデータと統計処理のミスマッチ

ところで、私が心理学の大学院生だった頃、秋口から冬にかけて論文執筆の季節になると、決まって学部生から質問される内容がありました。

「データは取ったんですけど、どんな統計処理したらいいですか?」

ちょっと待ってええええ!

そもそも、データを収集する前に決めるべき内容はたくさんあります。「どんな結果を示したいのか」、「どんな統計処理を施すのか」などが決まって初めて収集するデータの形式が決まり、いざ収集!となるのが理想の進め方です。ところが、文系出身のために統計の理解に必要な数ⅢCを履修していなかったり、心理学専攻の受験科目に数学が無いので勉強していなかったりと、理由はともかく心理学の専攻であっても統計処理に苦労する学生は多く、論文執筆の際にデータ収集と統計処理のミスマッチを起こすケースが見受けられました。

このミスマッチはデータ収集の前に統計の得意な人に少しでも相談していれば簡単に防げることが多いので、論文執筆を控える学生の皆さんは、仮に不安が無くても身近で統計学に詳しい方へ相談するようにしましょう。後悔なんとやら、ですよ(※心理学の研究においても、心理統計法に詳しい人を研究チームに加えることが推奨されています)。

具体的なミスマッチの回避策、及び対処策

さて、データ収集と統計処理に関して、相談の多かった10例を以下に挙げました。論文執筆を控える学生の皆さんは、ぜひ「データ収集前」に参考となることを祈ります。

<統計処理を想定していなかった系>

・指導教員から統計処理をするよう指摘されたが、統計処理を想定しておらず、自分で収集した数値データにどんな統計処理ができるのかがわからなかった。
  
→(例)想定していないため回避も難しいケースです。行動観察などの数値データに対する相談が多かった印象があります。まずは、「統計処理のできる数値データ」であるのかどうかを検討してみましょう(例えば、女性=1、男性=2という数値データなら、比率の検定などが検討できるかもしれません)。

・データを収集して度数や割合を算出したが、次に何をしたら統計処理ができるのかわからなかった。
  
→(例)せっかく度数や割合の算出を想定しているのであれば、その先にどんな統計処理ができるのかを事前に誰かと相談しておきたい事例です。対処法としては、自分自身が何を主張したいのか(差を示したい、偏りを示したい、経時変化を示したい、など)を検討して、それからデータに合わせて統計手法を選定しましょう。

<統計処理を想定していたものの、想定通りに進まなくなった系>

・水準間のデータ数が同等になるようにしたかったが、水準間でデータ数に偏りがあり、どのように統計処理をしたらよいかわからなかった。
 
→(例)健常なグループと疾患のあるグループの比較などで生じやすい事例です。先行研究などで事前に罹患率などからサンプル数を想定できるとよかったですね。この場合、データ数が少ない水準にデータ数を揃えた上で処理が可能な統計手法を検討しましょう。

・分散分析を実施しようとしたが、データの正規性が担保できず、このまま分散分析やt検定を続けてもよいかどうかわからなかった。
  
→(例)収集したデータ数により、正規性が担保できない事例はよく見られます。分散分析は正規性が担保できなくても検定結果に影響しにくい特徴(これを「頑健性」といいます)があるので、それを根拠に分散分析を続行するか、もしくはノンパラメトリック検定(※1)を検討しましょう。

・データの対応あり/なしを考慮せず、両者が混じったデータになってしまった。
 
→(例)これは事前にデータ収集の設計をしていれば確実に防げるケースです。事前に「同一協力者の差」を示したいのか、「異なるグループ間の差」を示したいのか明確にしておきましょう。すでにやってしまった場合は、対応あり(※2)のデータと対応なし(※3)のデータでは統計手法が異なるので、できるだけ両者を区別して別々に統計処理を行いましょう。

・同じ協力者から複数回のデータを収集しようとしたが、途中で協力者が離脱するなどして多くのデータが完全には揃わず、データ数が減ってしまった。
 
→(例)協力者が途中で離脱することは当然生じますので、どこまで減ってもいいのか事前に設定できるといいですね。収集後は「対応あり」の統計処理を検討しましょう。

・同じ人に複数回調査(実験、測定)したことが判明したが、匿名なので当該データを除外できないまま統計処理をしてもよいかわからなかった。
 
→(例)データ収集前に「すでに調査を受けたことがある人は参加しない」等を調査時に明文化したり、調査前にアナウンスしたりすることが大切です。もし実際に生じた場合は、時間や費用、データ数や影響の程度などを考慮して、調査(実験、測定)をやり直すか、重複を含んだデータとして統計処理を進めるか等の方針を決めましょう。

・因子分析を想定して4件法や3件法でデータを収集したが、それでは因子分析の要件を満たしていないと指摘され、統計処理に困ってしまった。
 
→(例)因子分析を想定している場合は、最低でも5件法以上でデータを収集するようにしましょう。もし4件法や3件法でデータを収集してしまった場合は、因子分析を諦めて度数や比率を算出するか、他の統計処理を検討しましょう

<統計処理を実施したが、想定する結果が出なかった系>

・先行研究と同じ心理尺度(※4)を用いて質問紙調査(アンケート)を実施したが、因子分析をしたら先行研究とは異なる因子構造になってしまい、どのように解釈したらよいかわからなかった。
 
→(例)先行研究とは回答者や回答する環境が異なるため、因子構造も先行研究とは異なることはよくあります。この場合、先行研究に抗って新しい因子構造を主張するか、先行研究に倣った因子構造とみなして統計処理を進めるか、等を検討します。先行研究と同じ尺度を用いるケースのほか、複数の先行研究から複数の心理尺度を混ぜ合わせて調査するケースでも生じることがあります。

・統計処理を施したが有意差が出ず、論文に掲載する結果を出すために何とか有意差の出る統計処理を実施したいが、どうしたらよいかわからなかった。
 
→(例)仮説検証型の研究ですと、統計処理をしても有意差が出ないケースはよくありますので、回避するのは難しいです。「差があるとは言えなかった(判定保留)」という結果を示すか、どうしても差を示したいのなら有意とする判定基準を甘くするか、有意になるまで網羅的に統計処理を行いましょう。ただし、統計処理を繰り返すと偶然有意になる可能性も高まり、「偶然差が出ただけ」という可能性が否定できなくなるため推奨はしません。

おわりに

前項で挙げた事例は、筆者が大学院のときに実際に質問された内容を基に執筆しました。これは心理学の論文執筆だけに限らず、他の学問分野でのデータ収集でも、企業がビジネスとして行なう街頭調査や意識調査などでも、同様のケースが問題となることがあります。データのリテラシーにも関係する話ですね。

もし、データを収集して毎回同様の結果が出るならいいですが、毎回異なっていたらどうでしょう?結果の再現性が無く、データを扱う人たちの信頼が失われてしまいかねません(これは信頼性や妥当性という、異なる観点なので、またの機会にしましょう)。

心理学の研究は、再現性が低いと指摘されることが多々あります。これは、「こころ」という目に見えない事象を扱うため、客観性の担保に限界があったり、そもそも個人のこころの働きに客観性が必要なのかという議論があったりするからです。
しかしながら、数多くのデータから傾向を統計的に導き出すことによる知見もまた学問の発展に有効だと思います。目に見えない「こころ」という事象について、データを収集し、統計的な結論を導き、「こころ」の知見を増やす取り組みを続ける必要があります。

もし、就職活動後であったり、公務員試験後であったりと、理由はどうあれ夏休み明けから論文執筆のためのデータを収集する学生がいるのであれば、ぜひ意識していただきたいです。

――データ収集と統計処理は表裏一体である、と。

P.S. 心理学専攻からデータサイエンティストを目指す!という方はコチラをどうぞ↓
https://bodais.com/company/recruit/


※1:データの正規性が担保できなくても利用できる検定法。一方、分散分析は「パラメトリック検定」に分類され、ノンパラメトリック検定とは異なった統計手法。

※2:同一の協力者から複数の水準について収集されたデータのこと(例:田中さんがA水準、B水準、C水準のすべてに参加している)

※3:すべての水準間で異なる協力者から収集されたデータのこと(例:田中さんがA水準、佐藤さんがB水準、高橋さんがC水準と、いったように全ての水準で異なる協力者がいる)

※4:「こころ」を測るための「ものさし」のこと。性格や気質など、目に見えない人間の特性を測るときに心理尺度が使用される。


データサイエンス部 
金原 (株式会社アイズファクトリー