大數據能否取代統計學?

以Google公司的崛起為標誌的智能時代,如滾滾的歷史車輪,一圈一圈、有條不紊地改變著我們的生活。

信息技術發展到今天,已經從根本上改變了工業革命和機械時代留給我們的思維方法和體系。

即使是明天一早發現無人駕駛汽車像mobike一樣如雨後春筍般出現在路上,我們所能感嘆的,可能也只不過是一句:這一天終於來了!

1 老問題,新看法

Google從最初有做無人駕駛汽車的想法開始,到做出像模像樣的原型車,只用了4年時間。

截止2016年,Google研製的無人駕駛汽車的總行駛里程已經達到了200萬英里,相當於一個人類司機300年的里程。

其實說來很奇怪,為什麼站在風口浪尖上的不是賓士寶馬特斯拉這樣的汽車公司,而是Google這樣一個搞搜索引擎的公司呢?

其實之前我們已經討論過了:智能時代的核心是大數據,而大數據的核心是如何將傳統的模型驅動轉化為智能的數據驅動,然後用海量數據的優勢去彌補複雜模型暫時不能達到的精確度。(98%的人無法跨越的認知鴻溝)

跟語音識別和智能翻譯一樣,無人駕駛汽車本質上也是一個人工智慧的問題,只要數據充足,就可以把智能問題轉化成數據問題。

下圍棋的AlphaGo贏李世友,靠得是海量棋譜和搜索演算法;同理,Google無人駕駛汽車靠得是「街景」功能「掃街」掃來的大量道路信息。

對於沒有掃過的陌生區域,無人駕駛基本上是束手無策的。

今天,二郎想換一個全新的角度去剖析和對比大數據和其他思維背後暗含的意義,以及郭靖和黃蓉又是如何融會貫通並且踐行的。

2 統計學 vs 大數據

先來看看大數據跟統計學有何衝突。

統計學是人類解決與大量數據相關問題時所發明的一種實用數學工具。

一些比較嚴謹的統計學教材會將統計學分為描述統計學 (Descriptive Statistics) 和推論統計學 (Inference Statistic) 兩大類依次介紹。

其中描述統計學約佔20%的篇幅,主要內容是如何描述獲得的數據,比如算個平均值、中位數,畫個直方圖之類的。

而推論統計學約佔80%的篇幅,討論怎樣才能從局部樣本的特性推測出全體特性,包括正態分佈、各種(非)參數檢驗,是廣大學子最頭疼的部分。

我們通常所說的「統計分析」,主要指推論統計學。

統計學的本質,可以用一句話總結:當研究對象的數據量大到無法窮舉時,我們只能使用「採樣」這樣一種妥協的方法,盡量有代表性地替代全體樣本

統計學的思路是先從個體(樣本)入手,達到統計數據,然後推論出群體(全集)的特性,再將群體的特性當成一般規律,應用在其他非樣本的個體身上。

而大數據想到達到的精準境界,比如精準醫療、精準扶貧,正好站在了統計學概率思維的對立面上。

大數據的終極形態應該是窮舉法,利用數據的完備性繞過局部樣本和統計規律,直接給出精準的個體信息。

比如說,黃蓉和郭靖都想打探洪七公喜歡吃什麼菜,但他倆所用的方法卻截然不同。

黃蓉選擇了統計學,親自下廚給洪七公烹制「川魯粵蘇,閩浙湘徽」的各種菜品,然後直接問洪七公的評論和反應,不出兩個禮拜,就能有95%的把握說自己已經把洪七公的飲食喜好摸清楚了。

郭靖選擇了大數據,他沒有手藝,只能用勤能補拙的屌絲方法,每天把洪七公吃了什麼菜記在本子上,即使別人請吃飯時的菜不能真實反映洪七公的喜好,但堅持一年下來,也能摸個七八成。

Anyway,黃蓉和郭靖各自的方法都能達到「打探洪七公喜歡吃什麼菜」的最終目的,皆大歡喜。

3 天才 vs 勤奮

我們一般都會認為窮舉法(也叫枚舉法)是笨方法。例如,對於一個同時包含數字和大小寫字母的8位密碼,如果用工作站,大概需要25天的時間才能破解,即使用1秒鐘可以試10億次密碼的超級計算機,也得用60個小時。

但是,當黑客沒有更好的演算法來破解密碼是,或許用一個高性能電腦或者工作站跑一個月這種笨方法,反而是最省事的選擇。

笨辦法只是郭靖的首選,像黃蓉這種聰明伶俐的人,首先想到的一定是去尋找普遍規律。大數學家高斯,就是黃蓉這一類人。

高斯小的時候,有一個大家耳熟能詳的故事。

數學老師為了偷懶打個盹,於是給同學出了一道難題:從1加到100。其他同學都老老實實地從頭開始算起,只有聰明的小高斯,當即就報出了答案:(100+1)×100÷2=5050

其實人類就像黃蓉,代表天才。最好是能用辦法和套路解決的問題,絕對不多浪費腦力。而機器就像郭靖,代表勤奮。雖然天資愚鈍不開竅,但他有異於常人的耐心和毅力。

不過,只有天才與勤奮並存,才有可能進化出真·學霸完全體呦!

4 稀缺互補才是王道

處理問題時選擇黃蓉還是郭靖,正是人類智能和機器智能的分水嶺。真正起決定作用的因素,是問題自身的屬性和資源的相對稀缺性。

黑客選擇用窮舉法暴力破解密碼時,電力和時間是相對廉價資源,計算能力和高級演算法卻相對稀缺。

高斯選擇動腦思考簡便演算法,而不是從1+2開始算起,因為時間是稀缺資源,他寧願花費腦力去換取更多玩耍的時間。

另外,科學實驗加統計學分析擅長探索因果關係,而多維大數據通常只能得到相關性信息。

真實生活中碰到的種種問題,肯定也沒有哪一種方法就萬能好使的,解決問題時應該對症下藥、看人下菜。比鬍子,靠關羽;比眼睛,靠張飛;比腦筋急轉彎,就得諸葛亮出馬了。

大數據思維和統計學思維相互補充,才能更高效地解決更多問題。

統計學思維的黃蓉跟大數據思維的郭靖一起搭夥,才能成為眾人羨慕的桃花俠侶;如果跟同樣是統計學思維的歐陽克在一起,日子肯定不好過。

你可能會喜歡