R語言十八講(十五)—-置換檢驗和自助法

R語言十八講-PPV課

不知道看到這裡,讀者有么有發現,前面講了那麼多方法,幾大檢驗,回歸分析,方差分析「都有一個共同的特點,那就是有一定的前提假設,只有滿足這個假設時,模型才有較好的效果.我們可以來回顧一下:

線性回歸:因變數呈正態分佈,齊方差性,獨立,與自變數是線性關係,無離群點.

方差分析:因變數呈正態分佈,各組齊方差還有其他的回歸斜率相同等等

T檢驗:獨立,來自正態總體;或者非獨立,組間差異服從正態分佈.

可能你會說,如果不滿足正態假設,我們可以改用非參數的檢驗方法,比如擬合優度檢驗,秩和檢驗和符號秩檢驗,或者Kruskal-Wallis檢驗,Friedman檢驗.這些檢驗是非參數檢驗,但是若樣本量比較小,這些檢驗往往效果不太好.於是,今天給大家介紹另外一種檢驗方法—-置換檢驗.和自助法(bootstrap)

置換檢驗:1.與參數方法相同計算統計量記做t0

2.將所有樣本放在一個組,然後隨機的分配到兩個組中,再計算統計量記做t(1)

3.重複2操作,直至將多有可能的組合都弄完,得到一系列的統計量t(1)到t(n)

4.講這n個統計量按從小到大排序,組成其經驗分佈,然後,看t0是否落在經驗分佈的中間95%區間內,若在0.05的顯 著性水平下,t0落在中間95%區間之外,則拒絕原假設.

若第3步是將所有的可能都計算了,則稱為精確檢驗

若第3步是將部分組合計算了,則稱為近似分佈,一般用蒙特卡洛模擬.

R實現:

看到兩種方法還是有區別的,一個拒絕原假設,一個沒有拒絕.

這裡是一樣的,因為秩和檢驗默認就是精確檢驗

得到的結果基本一致.

我們發現置換法也可以處理有序的因子.它默認線性趨勢分析.

通過置換的方達.我們解決了總體分佈未知,樣本量太小,有離群點的困惑(如果你在問,為什麼置換一下就可以忽視這些假設了? 問的好,真的需要這樣的想法,雖然這裡我給不了解答,但你可以自己去查詢)但是,置換法有一個缺點或者叫不足吧,那就是獲取置信區間和估計測量精度很難.這時我們便用到另一種非參數方法—自助法

自助法: 1.從樣本中隨機有放回的抽樣的到自助樣本

2.計算統計量

3,重複步驟1和2得n個統計量,並從小到大排序.

4,在0.05顯著性水平下,找出中間95%區間就是置信區間,在這區間之外的就是拒絕域(這和置換法最後一步是一樣的)

R實現:

原來的R^2是0.7809在使用自助法之後,百分位方法的置信區間是(0.6724,0.8757)使用調整偏差方法后是(0.6158,0.8538)

由於,lmperm包在R中已經不能用了,所以線性回歸和方差分析的置換法,沒有做,如果有讀者知道怎麼安裝lmperm包,或者代替包,給我留言,非常感謝!


未完待續,

PPV原創文章,嚴禁轉載. (文:@白加黑治感冒)

推薦課程:《R語言與統計建模》

熟練運用R進行描述性統計分析,利用R語言進行數據分析和處理,根據場景進行統計建模,並能對結果進行深入分析和總結。

課程鏈接:http://www.ppvke.com/class/detailcontent/?hid=383&tid=100074

你可能會喜歡