データサイエンティストの最初の疑問「P値に関する疑問のあれこれ」
データサイエンス業界ではP値の誤解がはびこっている
こんにちは、みなさん。今日もデータを分析しておりますでしょうか。
データサイエンスが市民権を得て、業務で統計学を利用することも増えています。自身のキャリアアップの為に、データサイエンスについて勉強している社会人の方も多いと思います。いまや英語やIT、会計を学ぶのと同様に、ビジネスマンにとって必要な学習となっているでしょう。
しかし、統計学の教科書を片手に実務をおこなっていると、様々な疑問もでてきます。
そうした疑問の中でも、最初に突きあたるのがP値に関する疑問ではないでしょうか。
実際、P値に関して誤解したまま利用してしまい、せっかくのデータ分析の成果を活かせなかったり、逆に無理のあるシステム作りにつなげてしまったりしていることも散見されるように思います。
そこでここでは、アメリカ統計協会(ASA:American Statistical Association)のP値に関する声明を基に、P値の誤解と疑問を解いていこうと思います。
目次
P値とは何だったか
統計学の教科書には必ずP値の説明は書かれていると思いますが、既に統計学についてある程度感覚を掴んでいる方でないと、その説明もとても解りづらいかと思います。そこでまずP値がどういうものか復習しておきましょう。
さて、データサイエンス(統計学)の歴史を紐解くと、19世紀以前の時代においては「データ」というものをある意味「そのまま素直に」信じる傾向がありました。そのため、往々にして結果を過大解釈してしまいがちだったと言えます。どういうことでしょうか。
例えば、「私は神から超能力を授かり、あなたの嘘を見抜くことができるのだ!」と標榜する人物が現れたとします。そして他人の嘘を見抜くというパフォーマンスを行い、3人連続で当てられたとしましょう。するとデータに素直な昔の人は、「実際にこの人は”3人連続で嘘をあてる”というデータを示した!僕も試したら”1回も嘘をあてられない”という結果だった!この奇跡はホントなんだ!」と信じてしまうわけです。
しかし、「偶然」という事象をより正しく理解している現代の我々からすると、これが誤りであることはすぐにわかります。3人連続で嘘をあてる確率は、50%×50%×50%=12.5%ですから、ただ適当に言っているだけでも、そもそもそこまで低い確率ではありません。人物眼に長けた者であればより確率はあがるでしょうし、場所を変えて何回かチャレンジすれば、これくらいの”奇跡”は簡単に起きえる事象でしょう。
つまりこのデータからは、「該当の人物が超能力者である」という仮説は棄却され、「偶然嘘を言い当てた」可能性の方が信頼できそうということです。「3回連続で嘘をあてる」という同じデータを見ているのに、昔の人と現代の我々では反対の結論に行きついたわけです。
科学技術やデータサイエンスにおいて、上記のような「偶然性」はきちんと排除できるようにしておかないと、誤った結論を導きかねません。P値はこうしたデータの誤差や揺らぎから、結果を過大解釈してしまうことを戒めるために発明されました。つまりP値とは、「ある仮説について2つの統計データを比べたとき、それが偶然ではないか」を調べるものといえます。
先ほどの例で言えば、「この人物が超能力者である」という仮説に対して、「超能力者かもしれない人が嘘を見抜いたデータ」と「一般人が嘘を見抜いたデータ」を比べ、(そこに差があったとしても)偶然に起きたことなのか否かをチェックする統計学的技術がP値ということです。
現代のデータサイエンスでもP値にはびこる誤解
さて上記のように、あるデータから得られる仮説が確からしいかを調べるにあたって、「ただの偶然でしょ」という可能性を排除するためにはP値はとても重要なテクニックです。
しかしこうした素晴らしい発明であるP値も、曖昧な理解のもと使われているケースが少なくないようです。アメリカ統計協会(ASA:American Statistical Association)というおそらく世界最大の統計学者の団体がありますが、ASAにもP値に関する投書が多いようで、2016年には学会としてP値の正しい理解を表明する必要があると声明を出すにいたるまでの事態となりました。
現代におけるP値の誤用についてASAの6つの声明をもとにして、特に起きがちな誤解について解説していきましょう。
1. なぜ有意水準5%なのか?
まず、どの教科書を見てもP値は0.95(95%)を閾値にして、上記のような「偶然か否か」を判定しています。実務においてもこれは同様で、機械的に0.95で仕分けているケースが多いと思います。
しかし有名な話ですが、この0.95は単なる慣例値であって、そこに意味はあまりありません。データサイエンティストの先輩に聞いても、「大学でそう教わったから」「みんな使っているから」という答えしか返ってこないのではないでしょうか。
人間の感覚的に”ここまでのことが起きたら偶然とは言えないよね”という値ですので、それ自体に使い道がない値だとは言いませんが、同時に万能な値というわけでもありません。
本来的にはデータの特性によってP値は変えるべき値です。したがって、例えば0.951と0.949に意味の違いなどないかもしれません。機械的に処理してしまうと、有意な成果の思わぬ見過ごしを生む可能性もあります。
2. P値が0.95より小さいは”帰無仮説が誤り”なのか?
同じく統計の教科書を読むと、「P値が有意水準(上記の95%)より小さい場合、帰無仮説を棄却する」と書いてあります。しかしこれは厳密な表現ではありません。
たしかにここまでの解説の通り、P値というテクニックを使えば、偶然か否かを判定することができます。ただし、それは統計モデルを作り上げるに必要なあらゆる仮定が妥当に作られている場合のみです。どういうことでしょうか。
そもそも統計という学問は、たくさんの「仮定」を積み上げてモデルを作り上げています。例えば、以下のような仮定です。
・データは同じ条件で取得している
・データは偏りなくランダムに取得している
・データというものは、大量に集めていけば、いずれ正規分布の形になる
そして、P値が小さいということは、「帰無仮説が誤り」ということではなく、「たくさん積み上げてきた“仮定”のどれかが誤っている」ということなのです。
例えば、ある映画が誰に人気かを分析するとします。「10代の視聴者へのアンケート結果」と「60代の視聴者へのアンケート結果」の2つのデータから、「この映画は若者の評価が高い(帰無仮説)」という仮説を検証するとしましょう。P値を算出すると実際十分に小さく帰無仮説が棄却され、帰無仮説の逆=つまり高齢者の評価が偶然でなく高い映画だと分析できたとします。
しかし、ちょっと待ってください。P値が有意水準より小さいということは帰無仮説が棄却されることとイコールではありません。そもそもアンケートデータを取得するときにバイアスがかけられていれば、それにP値は反応してしまいます。
例えば、この映画の内容が激しいアクション映画だったとします。そして10代アンケートでは女性だけ、60代アンケートでは男性だけにアンケ―トを実施していたとしたらどうでしょうか。もちろん好みは人それぞれですが、一般論として男性の方がアクション映画を好む傾向にあり、このアンケートデータは取得の条件が同一ではなく、ランダムでもありません。帰無仮説として考えたかったのは、「若者と高齢者のどっちの評価が高い映画なのか」ですが、P値が反応したのは帰無仮説ではなく、「男性と女性とどっちがアクション映画を好むか」であった可能性が相応に高いということです。
繰り返しになりますが、P値が小さいとは、「帰無仮説が誤っている」ということではなく、たくさん積み上げてきた「仮定」のどれかが誤っているということなのです。
3. 統計的に有意であることは、ビジネス的に有意であるわけではない
ここまでP値をみたときに「有意」かどうかを判別する際の誤解について解説してきました。しかし、そもそもの話として、実はサンプルサイズを十分に巨大化していけば、些細な効果でもP値は有意といえるほど小さくなっていきます。たくさんのデータがあれば些細な違いでも発見できるということですから、これ自体は自然なことです。
しかし、そうやってサンプルサイズを拡大し、P値を有意な値として会社の上層部に報告したとして、それはビジネス的になんの意味があるのでしょうか?
P値はあくまで、偶然に起きてしまっているのではないか?を排除しているだけで、見つけた「偶然ではない法則」が重要か否かについて全く何も語っていません。
サンプルサイズを増やしていけば、統計的に有意なことを証明することはできますが、巨大なサンプル群なくして有意とも語れないような、小さな効果・小さな法則はビジネス的に有意なのでしょうか。多くの場合、否となるケースが多いでしょう。
ビジネス的な効果の大きさや重要性はP値でははかれないのです。
4. P値は、そもそも確率ではない
P値についての解説を読むと、「5%(0.95)より小さい確率は、滅多にないだろう(偶然ではないだろう)として帰無仮説が棄却か否かを結論づける」というように書いてあることが多いと思います。
しかしそもそも、「仮説が合っているか否か」とは「真か偽か」の2値で表現されるものであり、「当たったか外れたか」です。確率で評価できることではありません。「真である確率が95%」などという表現は本来できないはずなのです。「推定値が、真値を中心とした正規分布のグラフの95%区間に入っている」ということと、「95%の確率であたっている」ということは別な概念ですので、混同を避けましょう。
データサイエンティストが実務で気を付けるべきこと
さて、ここまでのP値の解説はいかがだったでしょうか。
これらをふまえたとき、当団体はデータサイエンスの実務者として分析やAIモデルの作成に従事されている方に、以下の言葉を進言しています。
「検定の結果が有意でなかったとしても、それ“だけ”で仮説を捨てるな。裏側にある背景を推定し、次のモデルにつなげよ。」
解説の通り、P値0.95で機械的に仕分ける意思決定は貧弱であり、多くの示唆を見逃している可能性があります。ビジネス的示唆を考える際に、P値が小さい仮説だけを並べて考えるのは、いわばチャンピオンデータだけを並べて話すようなもので、サイエンティストとして不誠実な態度です。調べたすべての仮説やデータの条件などを報告・共有し、全体を統合して見渡して示唆を考えるべきと提言しています。
これまで機械的に捨て去ってしまった仮説をふくめ、新たな示唆がないか考えてみて頂ければと思います。
それでは、また。
参考文献
American Statistical Association, March 7, 2016, 『AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES』
一般社団法人 新技術応用推進基盤 理事
谷村 勇平
「人工知能プロジェクトマネージャー試験」
公式テキスト
- 分野別要点整理 【理解度チェック問題付き】 -
著者:谷村 勇平(新技術応用推進基盤 理事)
発売日:2023年12月22日(金)
販売価格:全分野収録版:2,980円(税込価格3,278円)
ページ数:A5版 330ページ
購入方法:
公式ページよりご購入ください。
(https://rope.newtech-ma.com/)