每天一點統計學—— 信息圖形化

大數據是多種知識領域的集合,而統計是大數據的基礎,沒有統計基礎,你永遠無法知道大數據里正態分佈、貝葉斯演算法、神經網路這些高深名詞背後的真正含義。因此,從現在開始先進入統計學基礎知識的學習。

什麼是統計?

想知道為什麼你在京東上瀏覽的商品信息,能在頭條上也能看到嗎?想知道互聯網的廣告商們為什麼能夠知道你某段時間想要什麼並進行精確的廣告投放嗎?拋開技術的層面不說,這裡面蘊含了深奧的統計學知識。

統計是這樣一些數字:它們通過某種有意義的方式對原始事實和數字進行提煉,使得僅僅通過觀察原始數據無法立即水落石出的一些理念得以昭示。這裡的數據指的是:我們能夠根據其做出結論的事實或數字。瀏覽網頁的歷史記錄可以是統計的數據,每天吃什麼喝什麼也可以是統計的數據。

Advertisements

統計的研究過程

  1. 搜集數據。統計的根本在於數據,搜集數據的方法包括:查看先有數據源、做實驗或做調查。

  2. 分析。搜集到數據后,就能進行分析,得出統計量,你可以計算事件概率,預測發生某些事件的可能性,也可以了解某些結果的可信度。

  3. 下結論。完成數據分析后,就可以下結論、做預測了。

統計資料的圖形信息化

完成了數據分析后,呈現眼前的是一堆密密麻麻的數據,對於數據人士來說這並不算什麼,但可能你需要面對的是專業領域之外的上司、領導以及你的客戶,他們不明白這些數據代表的是什麼,這時統計資料的圖形信息化就起到了重要作用。統計資料的圖形信息化就是利用幾何圖形的線形、長度、面積或體積等長短或大小變化來表示統計資料的圖形。主要有散點圖、條形圖、直方圖、餅形圖、線形圖和累計圖等。

Advertisements

  • 散點圖

也稱XY圖,用於比較成對的數值,是用不同位置的點來描述數據的一種圖形。它經常被用來研究兩種變數之間的相關關係,是探索數據之間的關係形態及關聯程度常用的一種圖形,它通常用於比較跨類別的聚合數據,對於處理值的分佈和數據點的分簇,散點圖都很理想。

  • 條形圖

用寬度相同的條形的高低或長短來表示數據變動特徵的。圖形寬度不表示數據大小,只要選擇與高度成恰當比例即可。使用條形圖的主要目的是用於對比,可以比較不同時間、不同地區、不同種類統計數據之間的差別,其具體表現方法有縱置式、橫置式,有單條式也有復條式和分段式。

  • 直方圖

也是用條形來說明統計資料的。它與條形圖的區別是:繪製直方圖的數據必須是定量數據,即它的橫坐標應是連續的定量變數,而不能像條形圖那樣間隔排列。因此,直方圖的條形寬度是由數據決定的,而不像條形圖那樣由美觀決定。直方圖也是用於對比的,但主要是用來比較分組資料間的數據差距的,或者說是比較數據的分佈狀況。

  • 餅形圖

是以圖形面積的的大小、圓內扇形個數多少或圓內各扇形面積大小來表示統計資料的圖形。該圖形主要用於描述數據內部的結構,有時也用於比較。圓內扇形面積的劃分是根據圓的面積公式來計算。

  • 線性圖

是利用曲線的升降來說明定量變數數據的圖形。它具有繪製簡便、顯示資料直觀等特點,在實踐中有著廣泛的應用。線性圖的種類很多,下面介紹兩種經常使用的線性圖形。

動態曲線圖,動態曲線圖就是將數據按照實踐變化的先後順序,用點、線連接的方法繪製的線形圖。主要用來放映在一段時間內數據發展變化的情況。

頻數分布圖。頻數分布圖是用曲線的升降高低表明數據的分佈特徵。圖形的縱坐標可以是頻數也可以是頻率,橫坐標是分組的變數。在進行分析和研究數據特徵時,經常繪製頻數分布圖來表示數據的集中趨勢和偏度。

  • 累計圖

可以直接說明「大於」或者「小於」某值的數據有多少。在累計分佈中應用最廣泛的就是洛倫茨曲線。是美國經濟、統計學家洛倫茨根據義大利經濟學家柏拉圖提出的收入分配公式繪製成的描述收入和財富分配性質的曲線。

Advertisements

你可能會喜歡