「関係がある」と「関係がない」の間


ここでは、現在の主流のデータ解析の根底を流れる考え方をご紹介します。それは、データを持った主張者(それは「権威ある専門家」かもしれません)に騙されない懐疑的精神を持つために、必要な知識です。何かを信じる人も信じない人も、自分自身で、データを判断しましょう。これは、「文系の科学」です。


もちろん例として適当ですから、ここでは「血液型性格関連説」をとりあげます。

「△型は心配性である」という仮説を持ったとします。もちろん、含意として、「他の血液型に比べて、その割合が高い」という文章が隠されています。

「推測統計学」をちょっと知っている人なら、「心配性かどうか」調べるための質問や行動観察(いろいろ考えられますね)を、多くの人に行って、

血液型 ○型 △型 □型 ×型
心配性である 85人 90人 45人 30人
心配性でない 70人 40人 37人 38人

こんな表を作って(いい加減に作りましたので、根拠はありません)、χ2乗検定をして、有意であったら関係が統計学的に証明されたとし、有意でなかったら関係は否定されたと思うのではないでしょうか。

それは、違います。

ここには、統計を使う人が陥りがちな間違い、そして素人が統計学を使った主張者にごまかされてしまう点が、大きく見て二つ見受けられます。一つは「多くの人」、もう一つは「有意であったら関係あり、有意でなかったら関係なし」です。

 

●母集団とランダムサンプル

一番確実に、この関係を調べるには何をやったらいいでしょうか。日本人について知りたいのなら、日本人全員(母集団と呼びます)に対して血液型を調べ、心配性かどうか聞き、表にすればよいのです。

血液型 ○型 △型 □型 ×型
心配性である 3000万 2000万 1500万 1000万
心配性でない 2800万 1700万 1400万 1100万

こんな感じ(またいい加減)です。でも、こんなこと、できませんね。

ただし、ここで面白い思考トレーニングが可能である。日本人全体を調べて、このような結果が出た場合、果たして「両者に関係がある」のだろうか?これは、全数調査なので、統計学的推論の行えない領域である(こういうデータに「有意差」という言葉はありえない)。要するに、このようなデータを評価する基準は、個々人で決めなければならないものなのである。

ですので、そのかわりとして、「サンプル」を使います。サンプルとは、設定された母集団から、くじ引きで(等確率で)抜き出されてきた、母集団の代表です。もちろん、くじ引きですから、偏ることはあります。でも、サンプルをいくつか作れば、そのどれも偏っている、という可能性は低いでしょう。まずここが基本です。サンプルの作り方をよく見ましょう。

失格のサンプルの代表例は、「血液型性格関連アンケート」と題うたれたアンケートに、自主的にはがきを送ってきたというサンプルです。答えるときに、自分は□型だと知って、「ああ、私こういわれるのよねえ」と言いながら○をつけて送ってくる人たちを何十万人調べて、何がわかるのでしょうか。これでは、集計する前に結果がわかってしまっています(類似の失格例は、最近テレビで盛んな「テレゴング」投票です。あそこでは、強い意見を持った人が、わざわざ自分で電話代を支払って答えているのです。その点を割り引いて評価することです)。要するにこれらは、サンプルではありません。

もう一つ、失格ぎりぎりのサンプル例は、「ある時点で、特定の何らかの職業についていた、どこかで特定の何かをやっていた」人100人(あるいは全員)に聞きました、を表にした、というものです。これは、そのような人が特に何かの面で偏っているわけではないとみなせるのであれば、参考程度にはなるかもしれません。

また、その人たちのことだけを考えているのならいいですが、1回きりの調査からそのまま「一般的」な結論を引き出してはいけません。

特定の場所を調べる問題点を、サイコロを使って考えましょう。これは、コンピュータの乱数を使って120回振った「サイコロ」です。どの目もほぼ20回ずつ出てきていますので、かなりいいサイコロだと思います。でも、局所的な観察をすれば、このサイコロは偏りのあるものであるという結論は簡単に導けます。

434523656654232335346633154363154[232111252213424611121]565354
35151535115[44362513646432466424466]52412344546225236611233215

前半の[]だけを見れば、何だかこのサイコロは1と2が多く出るサイコロだなあと思えるでしょうし、後半の[]だけを見れば、4と6がよく出るなあと思えるでしょう。でも、そのような観察からこのサイコロが偏っているという結論を下せないことは明らかであると思います。偶然の偏りが生じるのは自然のメカニズムにすぎません。なので、こういう特定サンプルによって、「何らかの関係が存在した」と主張するデータを見る場合は、「同じような関係が、他の時点の他の場所の特定サンプルでも安定して何回も得られているか」を注意してみてください。「ある年の衆議院議員は△型が多かった」、よって、「政治家は○○という性格である」。では、他の年も調べてみてください。参議院議員や、地方議会も調べてみてください。さらには他の国も。どんな結果だったかは、ご想像におまかせしますが。あるいは、「△型はこういう交通事故を起こしやすい」では、「ある年の事故」だけでなく、他の年、他の場所も調べることです。都合のいいところだけかいつまんで見ないことです。これでだめなら、「関係はなさそうだ」という判断を下すのが、科学的です。

ランダムというのは、じつは偶然に生じる偏りも含むものなのだということについては、大阪大の菊池さんがMacUser Japanの「インタラクティブ・サイエンス・コラム」に書かれた「でたらめ」の回もご参照ください。

大事なのは、数の多さだけではではありません。むしろ、サンプルが選ばれたメカニズムこそが、重要なのです。都合のいいところだけ、使ってはいけません。あなたの見ているデータは、実は偏っている部分だけうまいこと取り出した、取り出されたものではありませんか?

 

●統計的検定:「関係がある」とは何か

母集団を確率的に代表しているサンプルに対して、はじめて統計学的検定が意味を持ちます。さまざまな人が、お手軽にχ2乗検定を用いていますが、サンプルが無効なら、そこで計算された確率は無意味です(注:ただし、「無作為割付」という、実験で用いられる手法があります。これは特定のサンプルでも、それをくじ引きで二つ以上のグループに分割して、何かの影響を比較するという手法です。この場合、検定は有意味になります)。検定を見るときには、サンプルをまず見てください。

では、有意性検定って、なんでしょうか。ここでは、応用数学の一分野であり、文科系の心理学、社会学に限らず、多くの自然科学の基礎でもある、推測統計学について考えていきましょう。

私たちは、サンプルを観察することによって、母集団における関係を知りたいのです。サンプルは、母集団の縮図と考えられますから。でも、サンプルで観察できる何らかの偏りは、単にたまたまそういうサンプルが偶然抽出されたからかもしれません。

ですので、母集団とサンプルの確率的関係を評価することになります。ここから複雑な、推測統計学の論理構成の話になります。複雑なのですが、これしか、関係を数学的に評価できないのです。ゆっくりついてきてください。

まず、「母集団では血液型と性格は全く無関係なのでは(どの血液型でも、心配性の割合は全て完全に等しいのでは)」という予測を立てます。これを、「帰無仮説」といいます。

そして、母集団で、割合が完璧にどこでも等しいとした場合、その前提のもとで、実際に手にしたサンプル分布が得られる確率が数学的に計算できます。これが、有意性検定の確率というものです。

この確率が非常に低い(5%とか、1%とか)場合、「もし、母集団において、各血液型を通じた心配性の割合が全て完全に等しいのなら、目の前にあるデータは、そこから100回ランダムにサンプルを抜き出したとき、5回(あるいは1回)以下しか得られないようなまれなデータであるということになる。だから、母集団において、心配性の割合が全て等しいという予測はおそらく間違っており、心配性の割合は全ての血液型で同じではないんだ」という推論をします。

これが、有意性検定の論理です。自然科学を含めた、統計的推測の全ての根拠になっています。有意性検定の確率は、「帰無仮説が正しい確率が5%」しかないとか、それゆえ「関係がある確率が95%だった」とかいう計算ではありません。ここに、実は大きな誤解があります。

ここから、どのような教訓を引き出せばよいでしょうか。

5%水準の検定を20回かければ、それぞれを独立したベルヌーイ試行と考えれば、「少なくとも1回以上の間違った有意差を得る確率」は65%近くになります(1度も間違えない確率が95%の20乗なので、それを1から引けば、少なくとも1度は「実際は全くない差を、差があると」間違えて判断する確率になります。ちなみに「少なくとも2回以上」でも30%近い)。血液型と性格に関するデータは、必然的にサンプリング調査にならざるを得ませんから、全く関係がなかったとしても、データ収集を繰り返せば一定の確率で「有意差」のあるデータがいくらでも得られます。それをもって、鬼の首を取ったようにいうことはできません。

「有意差」を見るときは、このような点に注意しましょう。「血液型と性格の関係が有意だった、ついに科学的に証明された」と喜んで主張する人のほうが、非科学的なことがありますよ。まあ、そういう場合、大抵はサンプルが変なことが多いのですが。

 

●どうやったら、「関係がある/関係がない」(だろう)と言えるのか

さて、出発点の帰無仮説は、「母集団では血液型と性格は全く無関係なのでは(どの血液型でも、心配性の割合は全て完全に等しいのでは)」でした。これを否定することによって、関係がありそうだ、という推論をしました。

では逆に、「母集団では、血液型と性格の間に何らかの関係がある」という帰無仮説を立てて、これからデータが得られる確率を計算して、その結果関係がない可能性に関する推論を行い、帰無仮説を否定できるでしょうか。

できません。

「母集団で、心配性の割合は全て等しい」という予測に基づいて、そこからサンプルデータの出てくる確率を数学的に計算することはできます。なぜなら、そのような場合は一通りしかないのですから。でも、「心配性の割合は異なっている」といったって、どう異なっているのか無限の可能性がありますから、確率を計算することは困難を極めます。

ですから、「関係がある」かどうかということを確率的に評価することはできますが、「関係がない」ということは直接は確率的に評価できないのです。これは、あらゆる統計学的推論の、原理上の問題です(推測統計学では、「帰無仮説」という、証明したいことの反対の前提から出発するので、このあたりの論理は非常に複雑です)。

これまで説明してきた論理からすると、どんなものでもデータを見るうえでは、こういう態度をとる必要があります。

もちろん、一度「有意差がなかった」からといって、「関係がなかったんだ」とする即断は、一つの結果だけ「関係があった、科学的だ」と言い張るのと同じくらい非科学的な推論です。現在、科学界で主流の有意性検定は、「関係のなさ」を直接評価するようには作られていないからです。

でも、何回やってもどうも安定して再現できないような結果が目の前のあるとき、そこではじめて「関係がないのだろう」という科学的推論ができるのです。数多くのデータを公平に見て、判断しなければならないのです。なぜなら、母集団を直接調べられない限り、われわれが手にするデータはそこからの縮図にすぎず、偶然の偏りがあるからです。

方法論のしっかりした、数多くの「血液型性格関連説」の検証データの中には、「有意である」という(心理学者側の)ものも存在しますが、しかしほとんどの分析では「関係がある」という仮説が全く支持されないか、逆の結果になったりして、それは安定して観察できる現象ではありませんでした。

それを慎重に評価した結果、多くの心理学者は、「血液型と性格の間に関係は存在しない、少なくとも一般に信じられている関係は存在しない。存在するのなら、そのような結果を示すデータが安定的に検出できるはずであるから。関係があるというデータは、まれにしか出現せず、また相互に一貫しない矛盾したものがほとんどであった」という判断を下したのです。

もちろん、論理的に、このことが「血液型と性格になんらかの関係がある」という非常にわずかな可能性を完璧に否定したものではありません。「関係がない」という完全な証明は、どのような(自然)科学を使っても原理的にできないのです(だって、何が証明されたら「関係がない」なんですか)。ただ、これまでのデータを素直に眺めれば、「関係がある」とデータ上から判断することはかなり無理でしょう。

でも、それでも関係があると主張したいのなら、関係を支持しないデータがどうしてあれほど多くの検証で得られてしまったのか、合理的な説明をつけなくてはなりません。むしろ、もし血液型と性格の間に観察してわかる明確な関係が存在するのなら、どうしてまともなサンプルによる方法をとった研究ではそのような結果が強く安定して出てこないのか、ということも考えた方がいいでしょう。関係が安定してあるということを、誰でも納得させることのできる多くのデータがなぜないのでしょう?「関係がある」とデータで主張するほうが、統計的推論の仕組みから言えば、論理的に明快でたやすいことであるのに。

ここであげたヒントを手がかりに、さまざまなデータを批判的に解釈してみてください。世の中には、「統計で証明された」あやしげなデータがごろごろしていますよ。そして、サンプルを使った推論は、文科系の使える数少ない科学的推論法ですから、ぜひこのロジックに親しんでください。


[血液型のページへ戻る]