用R語言對大氣污染物PM10進行統計分析

感謝關注天善智能,走好數據之路↑↑↑

歡迎關注天善智能,我們是專註於商業智能BI,人工智慧AI,大數據分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!

本文作者:郭小龍,R語言中文社區專欄作者。知乎專欄:https://www.zhihu.com/people/guo-xiao-long-3-18/posts

1、數據來源

中部某城市2011年1月的大氣污染物PM10的逐小時實況監測值,excel格式文檔。實際8個監測點,按A、B、C、D、E、F、G、H字母代替。

PM10是指可吸入顆粒物,別名飄塵,通常是指粒徑在10微米以下的顆粒物。測量單位為毫克/立方米。

2、分析目的

用R語言進行統計分析,分別計算不同站點的平均值、四分位數、標準差、標準分。通過不同值的差異對比,分析四個指標的實際意義。

Advertisements

3、R語言統計分析計算

3.1 數據預處理

首先,將xls文檔轉化為CSV格式文檔進行讀取,直接用函數read.xlsx()讀取時,發現該函數只能讀屬性為xlsx文檔,不能讀取屬性為xls文檔。

其次,進行PM10欄位的選取,無效數據的剔除,不同監測站點的替換以及數據格式轉化等數據預處理工作。代碼如下:

3.2 PM10濃度平均值的計算

平均值的含義不做解釋了。

本次分析時使用tapply()和mean()函數對不同站點的均值和所有站點均值都進行了計算,跟後面計算的四分位數、標準差等數值一塊單獨生成一個新的數據框。圖表後面列出。

3.3 四分位數的計算

四分位數定義:在統計學中把所有數值由小到大排列並分成四等份夠,處於三個分割點(0.25、0.5、0.75)位置的數值。

Advertisements

(1)計算所有站點的PM10濃度數值的四分位數,並繪製箱線圖。

(2)計算不同站點的四分位數,繪製箱線圖對比。

3.4 標準差的計算

標準差:是方差的算術平方根,用σ表示。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同

用R語言計算PM10的標準差,計算方法如下:

3.5 標準分的計算

標準分,是一種由原始分推導出來的相對地位量數,它是用來說明原始分在所屬的那批分數中的相對位置的。

本次分析中對不同站點的平均值用scale()函數計算其標準分。

3.6 結果分析

上圖從左到右,分別為站點、日期、平均值、中位數、標準差和標準分。

目前的環境監測中,站點的PM10濃度值是以多次監測的平均值計算,而中位數跟平均值還是有明顯差異的。在此不評論方法優劣,只是從描述統計學的角度,用上表中數據說明平均值和中位數的差異。

上表中,標準差(sd)與平均值(avg)呈正相關性。同一時間段內,數據離散程度低,均值也相對較小,說明受外界影響的極端值較少,這在不同站點四分位箱線圖中可以看得一目了然。這與實際情況也較為相符,站點附近有道路清掃、工地施工時飄起的揚塵能導致PM10的數據異常,計算時包含這些異常值可導致平均值增大。

從標準分(score)可以看出,A點正值最大,平均值最大;H點負值最大,平均值最小。根據標準分大小可以輕鬆判斷不同站點的質量好壞。

特別說明:本次統計分析重在用R語言對PM10數據的描述統計分析計算方法,其結果和分析只是輔助說明這四個指標的異同之處。

天善學院雙十一特價課程限時優惠進行中,6日-12日五場微課聯播,歡迎關注。https://www.hellobi.com/1111

11月6日年邁的數據分析師教你做年終總結報告

陳丹奕:知乎大神,前百度資深數據分析師

11月7日機器學習與工業實踐

鄒博:中國科學院副研究員,天津大學特聘教授

11月8日 貝葉斯演算法與新聞分類實戰

唐宇迪:深度學習領域多年一線實踐研究專家,同濟大學碩士

11月9日破冰Python,1小時快速入門

王大偉: Python愛好者社區公眾號負責人,擅長網路爬蟲、數據分析

11月10日 職場也有雙11--你賤賣自己的5大常用技巧

陳文:8年經驗數據分析師,資深業務顧問

直播管理員:xtechday,加入直播交流。

Advertisements

你可能會喜歡