數學與統計學是兩個不同的學科

關注微信:哆嗒數學網 每天獲得更多數學趣文

原文作者,Bai Li,就讀於多倫多大學計算機科學學院。

翻譯作者,豆漿,哆嗒數學網翻譯組成員。

校對,小米。

統計學與數學有著某種有趣而奇特的關係。在很多大學的院系,它們都是混合成「數學與統計系」。其他時候,統計學被歸為應用數學中的一個分支。純數學家傾向於把統計學看作是概率論的應用,或是因為它「不夠嚴謹」而不喜歡。

在研究了這二者之後,我認為說統計學是數學的一個分支是錯誤的。相反,統計學是一門獨立的學科,它使用數學,但與其他數學分支(如組合數學或微分方程或群論)有本質的區別。統計學是對不確定性的研究,而這種不確定性滲入到整個學科,以至於數學和統計學是根本不同的思維方式。

定義和證明

數學總是遵循固定的的定義-定理-證明的結構。無論你研究哪一個數學分支,無論是代數數論還是實分析,數學論證的結構或多或少是相同的。

你首先得定義一個對象,就說wug吧。在定義之後,每個人都可以看一下定義,並就哪些對象是wug和哪些對象不是wug達成一致。(編者註:wug是心理學家Jean Berko在她的實驗中虛構的一種動物)

接下來,你繼續證明關於wug的有趣的事情,使用奇妙的論證,如反證法和歸納法證明。 在證明的每一個步驟,讀者都可以證實,這一步在邏輯上是從定義出發的。經過幾次這樣的證明之後,你現在已經了解了大量關於wug的性質,以及它們如何與數學宇宙中的其他物體相聯繫的,每個人都很愉悅。

在統計學中,用直覺和例子來定義事物是很常見的,即是說「所見即所知」,很少像數學里那樣黑白分明。這是出於一個必然的理由: 統計學家用真實的數據來工作,這些數據往往是混亂的,並不容易理清,也難以從嚴格的定義來研究。

以「異常值」的概念為例。當數據包含異常值時,很多統計方法表現不佳,因此識別異常值並將其剔除是一種常見的做法。但是究竟是什麼構成了異常值呢?好吧,這取決於許多標準,比如你有多少個數據點,它距離其他點有多遠,以及你在擬合什麼樣的模型。

在上面的圖中,那兩點可能是異常值。你應該剔除它們,或者保留它們,或者可以剔除它們之一嗎?沒有正確的答案,你必須自己判斷。

又如,考慮p值。在很多時候,當p值低於0.05時,可以認為是統計學顯著的。但這個值僅僅是一個指導值,而不是一個必須遵守的規則——不是說0.048就是顯著的而0.051就不顯著。

現在讓我們假設你在運行AB測試,並且發現將按鈕更改為藍色會導致更高的點擊次數,p值為0.059。你應該建議你的老闆做這個改動嗎?如果你得到0.072或者0.105呢?在哪一點它就會變得不顯著呢?沒有正確的答案,你必須自己判斷。

再舉一個例子:異方差。這是一個奇特的詞,這意味著你的數據集的不同部分的方差是不相等的。異方差是不好的因為很多模型假設方差是常數,如果這個假設被違反,那麼你就會得到錯誤的結果,所以你需要使用一個不同的模型。

這個數據是異方差的,還是只看起來差異是不均勻的,因為3.5的左邊有那麼幾個點?這個問題是否嚴重到擬合線性模型是無效的?沒有正確的答案,你必須自己判斷。

另一個例子:考慮一個有兩個變數的線性回歸模型。當你在圖上繪製點時,你應該會期望這些點會大致落在一條直線上。當然,不完全是在一條線上,只是大致線性。但是如果你得到這個:

有一些證據表明這裡有非線性,但是你需要多少「彎曲程度」,才能讓你覺得這絕對不是「大致線性」以至於你必須使用一個不同的模型?再說一次,沒有正確的答案,你必須自己判斷。

我覺得你發現其中的規律了。在數學和統計學中,都是只有在某些假設得到滿足的情況下,才有模型。然而,與數學不同,在統計學里,沒有通用的程序可以告訴你數據是否滿足這些假設。

以下是統計模型的一些常見假設

1、隨機變數服從正態(高斯)分佈

2、兩個隨機變數相互獨立

3、兩個隨機變數滿足線性關係

4、方差是常數

你的數據不會完全符合正態分佈,所以所有的這些都是近似值。統計學里有一個普遍的說法:所有的模型都是錯的,但是有些卻是有用的。

另一方面,如果你的數據與你的模型假設有很大的偏差,那麼這個模型就會崩潰,你會得到沒用的結果。沒有通用的黑白分明的程序來決定你的數據是否正態分佈,所以在某些時候你必須介入並應用你的判斷。

經典演算法 VS 統計演算法

你可能會想:沒有嚴格的定義和證明,你如何確定你所做的一切是正確的?事實上,非統計學(這裡指數學)和統計學方法有不同的判斷「正確性」的方法。

非統計方法使用理論來證明其正確性。例如,我們可以通過歸納法證明Dijkstra演算法總是返回圖中的最短路徑,或者快速排序法總是按排序順序排列數組。為了比較運行時間,我們使用大O符號,這是一個用於嚴格化程序運行時間的數學結構,它刻畫的是當程序的輸入趨於無窮大時運行時間的行為

非統計演算法主要關注最壞情況分析,即便是近似和隨機演算法。對於旅行商問題,最好的近似演算法的近似比率為1.5 - 這意味著即使對於最差的輸入,該演算法的路徑也不超過最優解決方案的1.5倍。演算法是否在大多數實際輸入中執行得比1.5好很多都沒關係,因為它總是我們關心的那個最糟糕的情況。

如果能夠對現實世界的數據進行推斷和預測,那麼這個統計方法就是好的。一般來說,統計學有兩個主要目標。首先是統計推斷:分析數據以了解它產生的過程; 其次是預測:使用歷史數據的模式來預測未來。因此,在評估兩種不同的統計演算法時,數據至關重要。沒有多少理論能告訴你支持向量機是否比決策樹分類器更好 - 唯一的辦法就是在你的數據上面運行這兩個演算法,看看哪一個能給出更準確的預測。

在機器學習方面,還有一些理論試圖形式化地描述統計模型的行為,但是它們離現實應用還有較大距離。 例如,考慮VC維和PAC可學習性的概念。基本上,在理論給出的條件下,因為你提供了越來越多的數據,模型最終會收斂到最好的一個,但不關心你需要多少數據才能達到期望的準確率。

這種方法對於決定哪種模型最適合於特定數據集是非常理論化和不切實際的。在深度學習中,理論尤其短缺,可以通過反覆試驗找到模型超參數和體系結構。即使是理論上已經很好理解的模型,這個理論也只能作為一個指導原則; 你仍然需要交叉驗證來確定最佳的超參數。

模擬現實世界

數學和統計學都是我們用來模擬和理解世界的工具,但它們以非常不同的方式實現。數學創造了理想化的現實模型,裡面一切都是清晰的和確定的;統計學認為所有的知識都是不確定的,並且試圖理解數據儘管一切都存在隨機性。至於哪種方法更好——兩個方法都有其優勢和劣勢。

數學對於規則是合乎邏輯的並且可以用方程來表示的領域進行建模是很好的。其中一個例子是物理過程:只有一小部分規則對預測現實世界中發生的事情非常有用。而且,一旦我們發現了系統遵循的數學規律,它們是可以無限泛化的——即使我們只觀察到從樹上掉下來的蘋果,牛頓定律也可以準確地預測天體的運動。另一方面,數學在處理錯誤和不確定性方面顯得很笨拙。數學家創造了一個現實的理想版本,並希望它與真實的東西足夠接近。

當遊戲規則不確定時,統計學就會閃耀它的光芒。統計數據包含不確定性,而不是忽略錯誤。每一個值都有一個置信區間,在95%的時間內你可以預期它是正確的,但我們永遠不可能100%確定任何東西。但只要有足夠多的數據,正確的模型就可以從雜訊中分離出信號。這使得統計學在處理有許多未知的混雜因素(如模擬社會學現象或任何涉及人類決策的事物)時成為一個強有力的工具。

缺點是統計學只適用於你有數據的樣本空間; 當超出了過去訓練數據的範圍進行預測時,大多數模型都表現得不好。換句話說,如果我們用蘋果從樹上掉下來的數據進行回歸,它最終會很好地預測從樹上掉下來的其他蘋果,但是卻無法預測月球的軌跡。因此,數學比統計學能使我們更深入,更基礎地理解一個系統。

數學是一個美麗的學科,它能從複雜的系統提煉出本質。但是,當你試圖了解人們的行為方式,當主體不總是理性的時候,從數據中學習是一個很好的選擇。

關注微信:哆嗒數學網 每天獲得更多數學趣文

你可能會喜歡