大數據的技術:大數據存儲,大數據挖掘

大數據的技術之大數據存儲

從海量數據時代開始,大規模數據的長期保存、數據遷移一直都是研究的重點。從20世紀90年代末至今,數據存儲始終是依據數據量大小的不斷變化和不斷優化向前發展的。

其中主要有:DAS(Direct Attached Storage),直接外掛存儲;NAS(Network Attached Storage),網路附加存儲;SAN(Storage Area Network),存儲域網路和SAN IP等存儲方式。這幾種存儲方式雖然是不同時代的產物,但各自的優缺點都十分鮮明。數據中心往往是根據自身伺服器數量和要處理的數據對象進行選擇。

此外,這兩年數據存儲的虛擬化從研究走向現實。所謂虛擬化,就是將原有的伺服器進行軟體虛擬化,將其劃分為若干個獨立的服務空間,如此可以在一台伺服器上提供多種存儲服務,大大提高了存儲效率,節約存儲成本,是異構數據平台的最佳選擇。從技術角度講,虛擬化可以分為存儲虛擬化和網路虛擬化,網路虛擬化是存儲虛擬化的輔助,能夠大幅度提升數據中心的網路利用率和傳輸速率。可以預見虛擬化會成為未來大數據存儲的一個主流技術。

Advertisements

大數據挖掘

在大數據的處理技術中,超大規模的數據挖掘一直是難點,也是重點。面對上百TB,甚至PB級別的異構數據,常規的處理工具往往難以擔當重任。需要考慮的是大數據是個不斷生長的有機體,因此在挖掘過程中還需要考慮到未來數據繼續增長所帶來的影響。

因此,大數據的挖掘需要採用分散式挖掘和雲計算技術。Google公司一直是分散式挖掘技術的領導者,它研發了MapReduce分散式挖掘工具,英特爾公司在此基礎上開發了Hadoop分散式挖掘工具。這兩個工具都具有高效、高擴展、高可靠性和高容儲率的特點,並提供免費版本,適用於各種類型的大數據挖掘。

Advertisements

你可能會喜歡