溺水與冰淇淋

不久之前,我和我在芝加哥大學經濟系的同事史蒂芬·列維特、查德·塞沃遜一起,與一些知名的大型零售企業的總裁們討論如何提高公司銷售業績的問題。一位高級市場經理向我們展示了下面這幅圖,他試圖說明的是,他所在公司的零售廣告對提高產品銷售額起到了很好的作用(出於保密考慮,圖中的具體數據我們進行了修改,但是變數之間的關係大致如下)。

廣告數量和銷售額之間的關係

這位高級市場經理自豪地對我們說:「看,這就是鐵證。這張圖表明廣告數量和銷售額之間有很明顯的正相關性。當我們做 1 000 條廣告的時候,銷售額大約為 3 500 萬美元。而如果只做 100 條廣告,銷售額就下降至 2 000 萬美元,看到了嗎?」

實際上,廣告數量和銷售額之間的關係並不像這位高級市場經理所講的。

Advertisements

要理解這一點,我們來看一看另一幅類似的圖。

冰淇淋銷售額和溺水死亡人數之間的關係

上圖展示了兩種截然不同的現象之間的關係:一是 1999~2005 年溺水事故的數量,二是同一時間段內美國最大的冰淇淋公司之一的冰淇淋零售額。

顯然,這兩個變數之間的關係用圖展示出來相當令人吃驚。

如果你是一位保護欲很強的家長,你看了這幅圖以後可能再也不會讓自己的孩子在水邊吃冰淇淋了。但是,很顯然,這裡存在著第三個隱性變數,那就是天氣。夏天氣溫高的時候,人們會吃更多的冰淇淋,同時游泳的次數也會增多,而游泳次數的增多導致溺水事故的高發。雖然人們確實會在夏天吃數量較多的冰淇淋,但是吃冰淇淋本身並不會導致溺水事故的發生,影響溺水事故數量的變數是天氣,而不是冰淇淋的銷售額。

Advertisements

再回到之前廣告數量和銷售額的例子,在那位高級市場經理向我們展示的圖中,是否存在第三個隱性變數呢?

在那次交談之後我們發現,該公司在每年 11 月和 12 月期間加大了廣告的投放量,而 11 月和 12 月正是美國傳統的消費旺季,所以在此期間公司的銷售額上升並不奇怪。季節這個隱性變數造成了廣告數量和銷售額之間存在因果關係的假象。

實際上,當我們對數據進行更深入的挖掘,並考慮到該公司提高廣告數量的時間段就會發現,數據(廣告數量和銷售額)之間並不存在因果關係,而只存在相關性。消費者購買了更多該公司的商品是出於季節的原因,未必是因為公司的廣告策略。

我們的世界充滿了這類錯誤。當我們覺得兩個變數之間可能存在因果關係時,我們往往很容易把相關性誤認為因果關係。因為這樣的錯誤,我們每天都在浪費大量的金錢和時間,卻根本沒有取得期望的效果。問題的癥結在於:世界充滿了各種各樣錯綜複雜的關係,想搞清楚事物之間的真實關係非常困難。

但是,現在我們有了一個新型武器,那就是當下流行的「大數據」。通過收集海量數據,並從數據中總結規律,我們可以獲得一些有趣的結果。大數據很重要,有很多好處,但是,也存在著大問題。研究大數據的方法仍然嚴重依賴變數之間的相關性,而不是因果關係。

大數據的另一個問題是,由於數據過於龐雜,因此處理起來十分困難。企業掌握了太多的數據,以至於它們根本不知道應該從哪裡下手,應該看數據的哪一個方面。企業往往竭盡所能地收集所有數據,卻被大數據所擊潰,因為它們感興趣的變數有太多種排列組合的可能性,實在不知道從何處下手。

在產生和收集數據之前,先認真地思考我們感興趣的變數之間可能存在怎樣的因果關係,再通過相關數據進行分析,就能獲得正確的結果。

Advertisements

你可能會喜歡