數據倉庫,大數據時代的容器

我經常接觸數據倉庫建設的需求,而現有的大數據系統也希望基於大數據建設數據倉庫,然而Hadoop為核心發展起來的軟體適用於OLAP的數據分析需求,OLTP這樣的分散式資料庫系統也如火如荼的發展。

在企業數據信息數據整合過程中,往往都是不同數據源放到不同的資料庫系統中,沒有數據倉庫的規範化建設,跨部門進行數據協作,打破數據孤島無法實現。

分散式系統,幫助解決這些問題,我們真正深入了解數據價值的人都知道,建設統一的數據中心,數據倉庫,整合行業數據可以進行多種維度的數據分析,數據驅動決策,幫助企業創新。目前在金融、電商、廣告等行業已經大規模利用新技術取得了不菲的成績。

今天,企業級數據分析平台發生了很大的變化。

Advertisements

發生什麼了?

那麼,對於傳統的數據倉庫,你有各種各樣的數據來源。您正在收集、清洗和整合數據,以便您可以將其呈現在您的數據倉庫中,進行統計分析、預測分析、商業智能和其他工作。

好吧,隨著時間的推移,現在變得更加複雜了。

我們有雲、有移動設備、社交媒體數據、機器數據、感測器數據。越來越多的數據來源,數據爆髮式增長,非結構化數據、半結構化數據、結構化數據。

有大量的關於大數據介紹中,你會看到幻燈片談論您必須處理PB級數據量,才能利用上這些新的數據分析技術。但是對我來說,這是沒有抓住重點。

數據倉庫真正的意義是什麼?為什麼企業對數據倉庫支出不斷增加。這是因為不是數據量和速度問題。隨著發展,我們只需要增加硬體就能增加我們數據處理的規模,這才是分散式系統的強大之處。

Advertisements

萬物互聯的時代,隨著數據的多樣性和異質性從而增加數據分析的複雜性。我們的需求是關聯和整合這些數據。但是,我們現有的數據分析工具,Hadoop或Spark並沒有帶來任何神器的解決方案。我們仍然在努力解決同樣的問題:如何從不同的渠道獲取數據、然後將他們關聯起來,這樣企業可以讓數據說話,數據驅動決策。為了解決這些問題,我們需要依賴更多新的工具。

數據倉庫的演變

利用新技術,使我們能更好的解決實際業務問題。

那麼,我們來看看不同的技術,是如何幫助我們解決與數據相關的需求,為業務提供數據支撐。

OLAP場景的Hadoop解決方案,OLTP場景的NewSQL解決方案。

流水線式的數據分析

我們看到一個有趣的現象,每個公司幾乎都建立了一個數據流水線,隨著新數據的進入,他們利用NoSQL資料庫來存儲文檔數據。就像是一個無線容量的資料庫,擁有很好的擴展性,並且還能進行大數據量的高速查詢和搜索。

我們可以看到很多大規模使用MongoDB、Hbase、cassandra資料庫,還有NewSQL的發展。

隨著數據多樣性的出現,出現了很多新型的資料庫。

新型數據分析需求

越來越高的數據分析需求和數據多樣性的探索,導致了資料庫系統的蓬勃發展,國產資料庫也有了非常大的進步可以進入國際頂級的資料庫會議發表論文,2017年騰訊的開源項目VLDB也發文了,而做為去IOE發起者的阿里在雲端阿里雲也如火如荼的發展資料庫服務,比如:PolarDB、螞蟻金服金融級資料庫分散式資料庫OceanBase都是黑科技級別的產品。為了在雲端兼顧OLTP和OLAP的數據分析引擎,各大雲廠商阿里雲、騰訊雲、XX雲都使勁的推廣各自的資料庫技術,也採取與開源資料庫廠商廣泛合作的方式。

底層資料庫系統,特別是NewSQL幾大巨頭也有有在長期招聘相關職位。可見目前分散式OLTP/OLAP資料庫發展的勢頭,必然是與Cloud相結合,也只有雲化才有機會大把撈金,不然開源資料庫這樣的生態下,底層基礎軟體出路在何方?

Analytic DB 的發展

我們列表 RDBMS -> MPP -> HADOOP -> NOSQL -> NEWSQL 主流的系統,根據我接觸過的公司或產品來列舉,個人認知有限,如未能列表全面,歡迎補充。

RDBMS

MPP

Hadoop Ecosystem

NoSQL

NewSQL

雖然NoSQL因其性能、可伸縮性與可用性而廣受讚譽,但其開發與數據重構的工作量要大於SQL存儲。因此,有些人開始轉向了NewSQL,它將NoSQL的優勢與SQL的能力結合了起來。

  • OLAP場景做到極致的Hadoop生態。

  • OLTP場景的NewSQL資料庫的發展。

Advertisements

你可能會喜歡