大數據的沙與沫

一個人有兩個我,一個在黑暗中醒著,一個在光明中睡著。

—— 紀伯倫《沙與沫》

從本質上來講,大數據其實就是數據倉庫上的概念邏輯拓展。但把它比擬做人類,一樣具有著多面的思想與靈魂的話,視乎才能把它更深入的了解與利用。

大數據就是一個非常大型的數據倉庫,對於一個決策者來說是重要的業務重點。但是大數據又和傳統數據不一樣,大數據是不需要構建的。

在傳統的資料庫當中,數據會被搜集組織起一串標準的字元段,並且是使用特定的密鑰進行索引的。如果你對微軟的應用程序熟悉的話,那麼你就可以非常容易理解這個概念。比如一個顧客的信息是由他的性別,名字,地址等其他信息所組成的標籤欄位。每個顧客都是以這種樣式記錄的,這樣就可以通過搜索關鍵詞來進行檢索,比如在搜索姓名。

現在你如果想鏈接到這些用戶的數據記錄要怎麼做?是鏈接到客戶的圖片還是鏈接到客戶的視頻呢?如果鏈接到用戶所有相關性數據記錄呢?

有這麼多的數據源會產生相互的映射,一般的數據還是不能完全做到,而且另外的鏈接數據也是非常大的。於是大數據的概念就產生了。在大多數的情況下,大數據應用的特殊數據結構在存儲和訪問巨大的數據量,有的數據訪問可能超過艾位元組的範圍內了。一般情況下,還需要跨越多個伺服器的分散式計算和離散的數據存儲進行并行計算,而小企業一般非常艱難得維持這麼大的塑聚存儲量。但是,就目前的發展情況來看,大數據正慢慢成為雲服務商的一個重要的服務了,從而將大數據推給更多的企業。

但是,還有一個關於「大」的問題,就是我們為什麼需要大數據呢?其實這個答案是相關性的價值。如果你就乍一看可能數據之間沒有什麼關係,通過大數據技術你可以從中獲取到非常有價值的信息。比如你想知道這家公司是不是非常容易被黑客利用,那麼你就需要多跨越幾個應用程序和數據來檢查無數個交易信息。這個時候如果沒有大數據處理技術和分析技術,這個項目基本是無法完成。

談大數據,大數據要求我們分析的數據樣本等於總體,那這麼多的數據從何而來?遠在信息數字化之前,我們就已經開始了收集數據和運用數據,數據的產生有兩個必要條件,那就是計量和記錄。只不過現在我們收集數據的方式更加多樣化了,收集數據的範圍更加廣泛了。僅僅是通過感測器,各種壓力、振動、溫度、速度、方位等等都能成為數據。

現代的社會,我們已經不在像以前一樣受限於數據了,文字、圖像、聲音、視頻都能成為數據,坐標、高度、方向、速度都能成為數據,就連互聯網上的聊天記錄和搜索記錄也都能成為數據。這一切的一切只是等待著被分析、被挖掘、被利用。

金無足赤,人無完人,大數據勢必也會存在自己的不足。首當其衝的就是我們的隱私問題,比如說「數據廢氣」使數據發揮了新的價值,能夠針對我們的瀏覽記錄推送個性化服務,但我們時刻都暴露在「第三隻眼」之下——我們的購物習慣、網頁瀏覽習慣、社會關係網被它們監視了,一旦泄露了怎麼辦。還有,大數據是不是過於依賴數據了,如果數據遠遠沒有我們想像中的那麼可靠怎麼辦。等等這些問題都有待於進一步解決。

最終隨著數據產生越來越多,業務的可用性和重要性也越來越增加,大數據概念的定義在以後可能會具體描述大多數的資料庫應用,也將會帶領我們探索更廣闊的領域。

你可能會喜歡