大數據工程師的必備技能

一、數據可視化

R不僅是編程語言,同時也R具有強大的統計計算功能和便捷的數據可視化系統。在此,推薦大家看一本書,這本書叫做《R數據可視化手冊》。《R數據可視化手冊》重點講解R的繪圖系統,指導讀者通過繪圖系統實現數據可視化。書中提供了快速繪製高質量圖形的150多種技巧,每個技巧用來解決一個特定的繪圖需求。

Python 出現了很多新的Python數據可視化庫,彌補了一些這方面的差距。matplotlib 已經成為事實上的數據可視化方面最主要的庫,此外還有很多其他庫,例如vispy,bokeh, seaborn, pyga, folium 和 networkx,這些庫有些是構建在 matplotlib 之上,還有些有其他一些功能。

Advertisements

ECharts和D3.js 是基於HTML5 的兩個純Javascript圖表庫,它們提供直觀,生動,可交互,可個性化定製的數據可視化圖表。創新的拖拽重計算、數據視圖、值域漫遊等特性大大增強了用戶體驗,賦予了用戶對數據進行挖掘、整合的能力。其擁有混搭圖表、拖拽重計算、製作數據視圖、動態類型切換、圖例開關、數據區域選擇、值域漫遊、多維度堆積等非常豐富的功能。

Excel中大量的公式函數可以應用選擇,使用Microsoft Excel可以執行計算,分析信息並管理電子表格或網頁中的數據信息列表與數據資料圖表製作,可以實現許多方便的功能,帶給使用者方便。事實上,Excel完全可以滿足大家日常工作中圖表製作和數據可視化的需求,所以,想要進入大數據行業,學好Excel是基礎。

Advertisements

二、機器學習

機器學習的基礎包括聚類、時間序列、推薦系統、回歸分析、文本挖掘、決策樹、支持向量機、貝葉斯分類和神經網路。這些基礎知識光是聽到名字就覺得深不可測,但是如果具備了統計學和概率學的基礎知識,就能夠輕鬆掌握這些高深莫測的名詞。因此,建議在進行機器學習之前,先進行統計學和概率學的學習是非常有必要的。

完成了統計學和概率學的基礎學習之後,之後就可以選擇一兩款機器學習工具來實戰練習了,谷歌的TensorFlow和百度的百度大腦都是非常優秀的機器學習框架。

三、演算法

對於程序員來說演算法並不會太陌生,首先要了解什麼是數據結構,它包括棧、隊列、鏈表、散列表、二叉樹、紅黑樹、B樹。之後就要學習常用演算法了,常用演算法包括:排序(插入排序、桶排序、堆排序、快速排序)、最大子數組、最長公共子序列、最短路徑和矩陣的存儲運算。

最後,掌握幾款常用的數據分析挖掘軟體,比如MATLAB、SPSS和SAS。

Advertisements

你可能會喜歡