來自統計學的「P值」詛咒

年來,許多科學造假的事情頻頻爆出,讓科學的嚴肅性和權威性受到了普遍懷疑。前天在萬維鋼精英日課中讀到了一篇《科學家的自欺欺人》,裡邊就提到:在所有心理學、醫學和社會調查研究中,凡是涉及統計方法的研究,從理論上來講,哪怕科學家兢兢業業,進行極其嚴肅的工作,大約每20篇論文中,就很有可能會有一篇論文的結果是無效的。而實際上,由於科研界很多「自欺欺人」的做法,會有更多的論文是無效的。這倒不是說科學家們都樂於造假,而是科學一旦用到統計方法,就有一個繞不過去的「P值」詛咒。

接下來我們就從常見的雙盲實驗來理解什麼是「P值」。假如現在有一醫藥公司開發出了一種新葯,怎麼證明有效呢?這就需要用雙盲實驗來證明。目前最科學的辦法是,隨機找病情類似的100位病人,隨機分成兩組,每組就有50人。一組服用開發的新葯,另一組服用「安慰劑」。但是每一位病人並不知道自己分到了哪一組,服用的是什麼。不僅如此還要讓醫護人員不知道自己照顧的病人服用的是什麼,其他所有條件都一樣。理想情況下,如果發現服用新葯的一組人都活著,服用安慰劑的一組都死了,那麼就一定可以認為藥效是良好的。可是實際的情況不可能這樣理想,大多數情況下是服用藥的一組有22人好了,死亡4個人,服用安慰劑的一組只有15個人病好了,但是只死亡了3人。

Advertisements

這就很尷尬了,到底新葯是有效還是無效呢?這就很不好說了。這個時候科研者會引用一個P值,稱之為「無效假設」。假設藥物無效,而這個疾病的死亡率是10%,那麼病人活著的概率就是90%,這就意味著每一組50人存活的概率就是0.9的50次方,等於0.00515。而這個值就是「P值」。這就是說,假如無效假設不成立,也就是藥物有效,而非是巧合的概率就是1-P等於0.99485。此時科學家的論文就可以有結論了,新葯有效的實驗結果不是巧合,藥物有效的可能性高達99.485%。這就可以說,在P值等於0.00515的指導下,第一組中多死亡的這一個人,很可能是巧合,而第一組比第二組的治癒率高大概率是真的。

這個結果乍一看似乎挺有道理的,無懈可擊。可是我們如果從頭看一下,注意一下P值的選取原則,就會發現「新葯有效的可能性高達99.485%」是錯的!P值的真正意義是,相對於「死亡率為10%」這個無效假設時,實驗結果完全巧合的概率。可是為啥你要選取10%來作無效假設呢,這個沒有科學的論證,純屬科學家的主觀選擇。如果萬一這個選擇毫無道理,甚至是錯的,那麼豈不是在拿人的生命開玩笑嗎?

Advertisements

現如今的學術界內一切有統計學參與的研究中,就存在著這麼一個P值,被稱作「黃金標準」,即P值要小於0.05,如果科學研究的P值大於等於0.05,學術界就認為科研結果純屬巧合,不值得信任,這樣的論文就是毫無價值的。而如果小於0.05,人們就認為科研成果是「顯著的」,可信的。

至於為什麼非得選取0.05,這就是科學界的「約定俗成」。是英國統計學家羅納德·費希爾(Ronald Fisher)提出的。當時他的意思是P小於0.05的結果才「值得看」,滿足P小於0.001的結論才是可以接受的。問題在於如果選擇P值小於等於0.001,科研成本就太高了。一個科學實驗就需要找太多的實驗對象,成本高的不可承受。於是科學界普遍退而求其次,選擇了0.05。事實上,這個標準也是不低的,不知道有多少青年的青春,都耗在了這個0.05上了。

而即便做到了P小於0.05,也不能說科研結果就是真的。我們開篇說到的每二十篇科研論文,就會有一篇文章是無效,就是這個道理,P等於0.05就意味著20分之1的可能性。根據2014年12月Regina Nuzzo發表在《Nature》的一篇論文《Scientific method:Statistical errors》所說,如果考慮到無效假設的任意性之類的因素,一篇P等於0.01的論文,屬於完全巧合的可能性,在某些情況下,高達11%!

這還不是最差的情況。更嚴重的是,現今科學界的研究者都存在嚴重的「動機性推理」。簡而言之,就是為了達到P小於0.05,「不擇手段」,這裡加上引號,是因為這並不是學術造假,仍然是受到科學界承認和尊重的「誠實」態度。比如採取「數據採摘」的手段,英文稱為「cherry-picking」的方法,降低P值。

在網站http://datacolada.org/41上《 Falsely Reassuring: Analyses of ALL p-values》的研究如下圖,顯示了過去這幾年,在經濟學、心理學和生物學論文中,P值的分佈,很明顯就能發現在P值等於0.05處,有一個明顯的凸起。唯一的解釋就是存在大量的論文故意把P值做到了恰好0.05以內。

既然科學家們都這樣處理實驗數據,那麼我們還怎麼相信科學呢?可是,我們是否就不要相信科學了呢?答案是,你不相信科學,你還能相信什麼呢?更何況,你我都能懂的道理,科學家們也早早都知道了,而且現今也正在積極的反思P值為科學帶來的詛咒。從這個意義來講,我們對科學實驗還是有希望的。

世界上的事情總是如此,美好的都是那麼的不真實,而真實的都是那麼的不完美。正如萬維鋼老師說的那樣:「真實的世界就是這樣——沒有我們最初想象的那麼美好,但是總值得我們活下去,而且有一點不能不承認,他比我們想象的更有意思。」

好了,今天的文章就到這裡,希望對您有所幫助。這是與您分享的第360篇文章,也是改版后的第41篇,歡迎您的閱讀。我們下周再見。

Advertisements

你可能會喜歡