《大數據》精華連載(1):大數據概念與應用——大數據之「大」

《大數據》是知名教材《雲計算》的姊妹篇,是中國大數據專家委員會劉鵬教授聯合國內多位專家歷時兩年的心血之作。本書系統地介紹了大數據的理論知識和實戰應用,包括大數據採集與預處理、數據挖掘演算法和工具和大數據可視化等,並深度剖析了大數據在互聯網、商業和典型行業的應用。

本書配套的大數據實驗體系已經在鄭州大學、成都理工大學、鄭州升達經貿管理學院、信陽師範學院、西京學院、鎮江高等職業技術學校、軟通動力等十多所典型用戶單位落地實施。自出版以來,《大數據》廣受好評,並相繼推出了全套PPT。

點擊文末鏈接,了解《大數據》更多詳情。

本次將更新《大數據》第一章:大數據概念與應用——大數據之「大」:

大數據的出現開啟了大規模生產、分享和應用數據的時代,能讓我們通過對海量數據進行分析,以一種前所未有的方式獲得全新的產品、服務或獨到的見解,最終形成變革之力,實現重大的時代轉型。這就好比當我們感受浩瀚無垠的宇宙時,用望遠鏡只能看到宇宙的冰山一角,但更廣闊的區域都在表面之後,等待著進一步的探索。雲計算正是大數據探索過程中的動力源泉,通過對大數據進行檢索、分析、挖掘、研判,可以使得決策更為精準,釋放出數據背後隱藏的價值。大數據正在改變我們的生活及理解世界的方式,正在成為新發明和新服務的源泉,而更多的改變正蓄勢待發……

1.1 大數據的概念與意義

1.從「數據」到「大數據」

由於計量、記錄、預測生產生活過程的需要,人類對數據探尋的腳步從未停歇,從原始數據的出現,到科學數據的形成,再到大數據的誕生,走過了漫漫長路。數據同人類相伴而生,人類有「與生俱來的數據偏好」;「人類的認識發展史就是對數據的認識史」[1]。

時至今日,「數據」變身「大數據」,「開啟了一次重大的時代轉型」[2]。帶著種種好奇和疑問,本人利用兩個月幾乎全部的業餘時間,瀏覽了國內有關大數據的權威著作和文章,對大數據的特徵、來源、流向、價值、意義、趨勢、前景等問題,囫圇吞棗,略知一二。

「大數據」這一概念的形成,有三個標誌性事件:

(1)2008年9 月,美國《自然》(Nature)雜誌專刊——The next google,第一次正式提出「大數據」概念。

(2)2011年2月1日,《科學》(Science)雜誌專刊——Dealing with data,通過社會調查的方式,第一次綜合分析了大數據對人們生活造成的影響,詳細描述了人類面臨的「數據困境」。

(3)2011年5月,麥肯錫研究院發布報告——Big data: The nextfrontier for innovation, competition, and productivity,第一次給大數據做出相對清晰的定義:「大數據是指其大小超出了常規資料庫工具獲取、儲存、管理和分析能力的數據集。」

此外,大數據科學家Rauser、大數據分析師Merv Ddrian等人從不同的視角,分別對大數據的內涵與外延進行具體表述。但至今,學界仍無統一的公認的定義和解釋。2015年8月31日,國務院《促進大數據發展行動綱要》指出:「大數據是以容量大、類型多、存取速度快、應用價值高為主要特徵的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行採集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態。」《大數據白皮書2016》稱:「大數據是新資源、新技術和新理念的混合體。從資源視角看,大數據是新資源,體現了一種全新的資源觀;從技術視角看,大數據代表了新一代數據管理與分析技術;從理念的視角看,大數據打開了一種全新的思維角度。」

無論學界和政府組織如何定義「大數據」概念,大數據的內在特質始終就在那裡。當前,業界公認的大數據有「4V特徵,即:Volume(體量大)、Variety(種類多)、Velocity(速度快)和Value(價值高)。

(1)Volume(體量大)

大數據,顧名思義「大」,大是其主要特徵。從文字記錄出現到本世紀初,人類累積生成的數據總量,僅相當於現在全世界一兩天創造的數據量,「一天等於兩千年」。根據IDC(國際數據資訊公司)的報告預測,2013年全球存儲的數據預計達1.2澤位元組,如果將其存儲到只讀光碟上分成5堆,每一堆可以延伸至月球。從2013年至2020年,人類的數據規模將擴大50倍,每年產生的數據量將增長到44萬億GB,相當於美國國家圖書館數據量的數百萬倍,且每18個月翻一番。

(2)Variety(種類多)

大數據與傳統數據相比,數據來源廣、維度多、類型雜,各種機器儀錶在自動產生數據的同時,人自身的生活行為也在不斷創造數據;不僅有企業組織內部的業務數據,還有海量相關的外部數據。除數字、符號等結構化數據,更有大量包括網路日誌、音頻、視頻、圖片、地理位置信息等非結構化數據,且占數據總量的90%以上。

(3)Velocity(速度快)

隨著現代感測、互聯網、計算機技術的發展,數據生成、儲存、分析、處理的速度遠遠超出人們的想象力,這是大數據區別於傳統數據或小數據的顯著特徵。例如,歐洲核子研究中心CERN的離子對撞機每秒運行生成的數據高達40TB;1台波音噴氣發動機每30分鐘就會產生10TB的運行數據;Facebook每天有18億照片上傳或被傳播。過去歷經10年破譯的人體基因30億對鹼基數據,現在僅需15分鐘即可完成。2016年德國法蘭克福國際超算大會(ISC)公布的全球超級計算機500強榜單中,由國家超級計算無錫中心研製的「神威·太湖之光」奪得第一,該系統峰值性能12.5億億次/秒,其1分鐘的計算能力,相當於全球70億人同時用計算器不間斷計算32年。

(4)Value(價值高)

大數據有巨大的潛在價值,但同其呈幾何指數爆髮式增長相比,某一對象或模塊數據的價值密度較低,這無疑給我們開發海量數據增加了難度和成本。比如,一天24小時的監控錄像,可用的關鍵數據也許僅為1—2秒鐘。每天數十億的搜索申請中,只有少數固定詞條的搜索量會對某些分析研究有用處。

2.大數據的技術支撐

存儲成本的下降、計算速度的提高和人工智慧水平的提升,是全球數據高速增長的重要支撐。下面將從計算、存儲、智能這三大方面進行詳細闡述,如圖1-1所示。

圖1-1 產生大數據的三大因素

1)存儲:存儲成本的下降

在雲計算出現之前,數據存儲的成本是非常高的,例如,公司要建設網站,需要購置和部署伺服器,安排技術人員維護伺服器,保證數據存儲的安全性和數據傳輸的暢通性,還會定期清理數據,騰出空間以便存儲新的數據,機房整體的人力和管理成本都很高。

雲計算出現后,數據存儲服務衍生出了新的商業模式,數據中心的出現降低了公司的計算和存儲成本,例如,公司現在要建設網站,不需要去購買伺服器,不需要去僱用技術人員維護伺服器,可以通過租用硬體設備的方式解決問題。存儲成本的下降,也改變了大家對數據的看法,更加願意把1年、2年甚至更久遠的歷史數據保存下來,有了歷史數據的沉澱,才可以通過對比,發現數據之間的關聯和價值。正是由於存儲成本的下降,才能為大數據搭建最好的基礎設施。

2)計算:運算速度越來越快

分散式系統基礎架構Hadoop的出現,為大數據帶來了新的曙光,HDFS為海量的數據提供了存儲,MapReduce則為海量的數據提供了并行計算,從而大大提高了計算效率。同時,Spark、Storm、Impala等各種各樣的技術進入人們的視野。

海量數據從原始數據源到產生價值,期間會經過存儲、清洗、挖掘、分析等多個環節,如果計算速度不夠快,很多事情是無法實現的。所以,在大數據的發展過程中,計算速度是非常關鍵的因素。

3)智能:機器擁有理解數據的能力

大數據帶來的最大價值就是「智慧」,今天我們能看到的谷歌AlphaGo大勝世界圍棋冠軍李世石、阿里雲小Ai成功預測出《我是歌手》的總決賽歌王、iPhone上智能化語音機器人Siri、微信上與大家聊天的微軟小冰等,背後都是由海量數據來進行支撐的。換句話說,大數據讓機器變得有智慧,同時人工智慧進一步提升了處理和理解數據的能力。

3.大數據的意義

在《大數據時代》一書中,將大數據及大數據時代的特徵概括為:①要全體,不要抽樣——「我們需要的是所有數據,樣本=總體」。②要混雜,不要精確——「要學會擁抱混亂,允許不精確」。③要相關,不要因果——「知道是什麼就夠了,沒必要知道為什麼」[2]。

大數據撲面而來,令常人不知所措。縱觀人類科技發展史,似乎沒有哪一次科技革命像大數據這樣,從醞釀萌動到蔓延爆發,僅僅經歷短短的數年時間。大數據作為一種技術、工具、方法,對現代社會生活的影響和衝擊日益凸顯,在某些領域甚至是革命性與顛覆式的。聯繫自己所學專業,結合本職工作性質,試就大數據給人們認識與思維方式帶來的影響及變化,談點粗淺的學習體會。

用數據來說話。過去,人們習慣於「憑經驗辦事」,這是數據和信息有限條件下的無奈之舉。而今,我們必須學會「用數據說話」,正如美國著名管理學家愛德華·戴明所言:「我們信靠上帝。除了上帝,任何人都必須用數據來說話。」之所以要用數據來說話,是因為:

(1)有數據可說

在大數據時代,「萬物皆數」,「量化一切」,「一切都將被數據化」。人類生活在一個海量、動態、多樣的數據世界中,數據無處不在、無時不有、無人不用,數據就像陽光、空氣、水分一樣常見,好比放大鏡、望遠鏡、顯微鏡那般重要。「過去,阿基米德說:給我支點,我就能撬動地球;現在,每一個地球人都敢說:給我數據,就可以複製宇宙!」[1]

(2)說數據可靠

大數據中的「數據」真實可靠,它實質上是表徵事物現象的一種符號語言和邏輯關係,其可靠性的數理哲學基礎是世界同構原理。世界具有物質統一性,統一的世界中的一切事物都存在著時空一致性的同構關係。這意味著任何事物的屬性和規律,只要通過適當編碼,均可以通過統一的數字信號表達出來。換言之,一個事物的屬性和運動規律可以通過適當編碼表現在數據世界中,一個事物與其他事物的關係也可以通過適當編碼反映在數據世界中。認識主體獲得的不是對象本身的絕對映像,而是從對象中抽象出來的描述對象運動序列的數據。因此,大數據不過是反映人類接觸到的外部事物的同構關係的數字模型而已,是客觀世界中事物的多樣性和關聯性在計算機中的表達,且具有實時性、精確性、全面性、可逆性等特質。大數據專家克里斯·安德森曾指出:「現在已經是一個有海量數據的時代,只要有足夠的數據,數據就能說明問題了,如果你有一拍位元組的數據,一切就迎刃而解了。」

因此,「用數據說話」、「讓數據發聲」,已成為人類認知世界的一種全新方法。世界是物質,物質是數據的,數據正在重新定義世界的物質本原,並賦予「實事求是」新的時代內涵。我們必須善於用數據說話,用數據決策,用數據管理,用數據生活。

風馬牛可相及。在大數據背景下,因海量無限、包羅萬象的數據存在,讓許多看似毫不相干的現象之間發生一定的關聯,使人們能夠更簡捷、更清晰地認知事物和把握局勢。大數據的巨大潛能與作用現在難以進行估量,但揭示事物的相關關係無疑是其真正的價值所在。「相關關係可以幫助我們捕捉現在和預測未來」,「建立在相關關係分析法基礎上的預測是大數據的核心」。相關關係的實質[2]是量化兩個數值之間的數理關係,相關關係強是指當一個數據值變化時,另一個數據值很有可能也會隨之發生有規律的變化;相關關係弱則意味著一個數據值變化時,另一個數據值不會因而發生有規律的變化。人們常用「風馬牛不相及」這一成語,來形容兩件八竿子打不著的事情,現如今由於大數據、計算機、人工智慧技術的發展,「風馬牛可相及」的現象完全可能發生。

現實生活中,人們總喜歡問「為什麼?」不僅「知其然」,還要「知其所以然」,執著於尋求問題背後的因果關係。在大數據時代,事物聯繫的普遍性與複雜性變得越來越清晰,就某一現象而言,因果關係只是相對的,既沒有絕對的「因」,更不會有永恆的「果」,也許存在著其他形式的聯繫,即「相關關係」。因此,我們大可不必糾結於「原因」,在「因果關係」上耗費過多精力。其實,在很多時候和情境下,相關關係比因果關係更簡單實用,人們知道「是什麼」就夠了,沒有必要明白「為什麼」。著名大數據專家邁爾-舍恩伯格認為,「要相關,不要因果」是大數據時代的一個顯著特徵,「相關係數很有用,不僅僅是因為它為我們提供新的視角,而且提供的視角都很清晰。而我們一旦把因果關係考慮進來,這些視角就有可能被蒙蔽。」「通過去探求『是什麼』而不是『為什麼』,相關關係幫助我們更好地了解了這個世界。」

試舉兩個經典案例,來說明相關關係的意義:

(1)啤酒與尿布

沃爾瑪超市的管理人員在分析銷售數據時,發現一個難以理解的現象:有時候,「啤酒」與「尿布」兩件看上去毫無關係的商品,會經常出現在同一個購物籃子中。這種獨特的銷售現象引起高管的重視,后經進一步調查發現這種現象發生在年輕父親身上。在美國有嬰兒的家庭中,一般是母親在家裡照顧嬰兒,年輕的父親去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,於是就會出現啤酒與尿布這兩件看上去不相干的商品,經常會出現在同一個購物籃中的現象。如果這位年輕的父親在賣場只能買到兩件商品之一,那他很可能放棄購物而到另一家商店,直至可以一次同時買到啤酒與尿布為止。沃爾瑪發現這一獨特的現象后,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物。這一改變,既方便了年輕父親的購物,又增加了商場的銷售收入。

(2)谷歌與流感

谷歌的工程師們很早就發現,某些搜索詞條有助於了解流感疫情,例如:在流感季節,與流感有關的搜索會明顯增加;到了過敏季節,與過敏有關的搜索會顯著上升;而到了夏季,與晒傷有關的搜素又會大幅增加。這不難理解,一般的人沒有什麼生病的癥狀,是不會主動去查那些與疾病相關的內容。於是,2008年穀歌推出了「谷歌流感趨勢」(GFT),這一工具根據匯總的谷歌搜索數據,近乎實時地對全球當前的流行疫情進行估測,但當時並沒有引起太多人的關注。2009年在H1N1爆發幾周前,谷歌公司成功地預測了H1N1在全美範圍的傳播,甚至具體到特定的地區和州,而且判斷非常及時,令公共衛生官員和計算機專家們倍感震驚。人們的搜索行為本身與流感疫情並無因果關係,但谷歌通過用戶搜索日誌的匯總信息,及時準確的預測流感疫情的爆發,這就是相關關係的巨大力量。

驚喜無處不在。大數據是一個信息和知識的富礦,蘊藏著無限的商機與巨大的收益,驚喜無處不在。谷歌、亞馬遜、臉譜、阿里巴巴、騰訊、京東等領軍企業的成功實踐和輝煌業績,就是最生動、最有力的例證。大數據作為一種新興的生產要素、企業資本、社會財富,可謂取之不盡,用之不竭,而且能夠重複使用,循環利用。無論任何組織或個人,只要去深度分析和挖掘,總會有意想不到的收穫。美國德克薩斯大學針對數據有效性的一項研究表明,企業通過提升對自身數據的使用率和數據質量,能夠顯著提高企業的經營表現。如果企業數據使用率提升10%,零售、諮詢服務、航空等行業人均產出將分別提高49%、39%和21%。財富1000強中的中位數企業,數據使用率提高10%能夠每年增加20億美元的營業收入,帶來其人均產出提升約14%。而數據質量的提升,將會對企業產生更為顯著的影響,如果企業數據質量提升10%,公用事業、航空、電信、石化等行業受益最為明顯,凈資產收益率提升幅度將會超過200%,財富1000強中位數企業凈資產收益率提升幅度約為76%。

大數據不僅有商機與收益,而且是「未來的石油」,將成為社會創新發展的動力源泉。大數據正在推動科學研究範式、產業發展模式、社會組織形式、國家治理方式的轉型與變革。「數據可以治國,還可以強國。」「得數據者,得天下。」[4]大數據在中國大有可為,中國是一個人口大國、製造業大國、互聯網大國,這些都是最活躍的數據產生主體。根據權威預測,2020年中國在整個數字宇宙中佔比可達到18%,數字規模將超過美國,位居世界第一。令人可喜的是,黨和政府已就大數據做出戰略部署,制定了發展規劃和行動綱要,我們可以和發達國家在同一起跑線上賽跑,並可能實現彎道超越。

最後,借用《大數據時代》一書作者邁爾-舍恩伯格、庫克耶的警示作結語:對於大數據時代,如果你是一個人,你拒絕的話,可能失去生命;如果是一個國家的話,可能會失去這個國家的未來,失去一代人的未來。

你可能會喜歡