用R語言對大氣污染物PM10進行統計分析
感謝關注天善智能,走好數據之路↑↑↑
歡迎關注天善智能,我們是專註於商業智能BI,人工智慧AI,大數據分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!
本文作者:郭小龍,R語言中文社區專欄作者。知乎專欄:https://www.zhihu.com/people/guo-xiao-long-3-18/posts
1、數據來源
中部某城市2011年1月的大氣污染物PM10的逐小時實況監測值,excel格式文檔。實際8個監測點,按A、B、C、D、E、F、G、H字母代替。
PM10是指可吸入顆粒物,別名飄塵,通常是指粒徑在10微米以下的顆粒物。測量單位為毫克/立方米。
2、分析目的
用R語言進行統計分析,分別計算不同站點的平均值、四分位數、標準差、標準分。通過不同值的差異對比,分析四個指標的實際意義。
Advertisements
3、R語言統計分析計算
3.1 數據預處理
首先,將xls文檔轉化為CSV格式文檔進行讀取,直接用函數read.xlsx()讀取時,發現該函數只能讀屬性為xlsx文檔,不能讀取屬性為xls文檔。
其次,進行PM10欄位的選取,無效數據的剔除,不同監測站點的替換以及數據格式轉化等數據預處理工作。代碼如下:
3.2 PM10濃度平均值的計算
平均值的含義不做解釋了。
本次分析時使用tapply()和mean()函數對不同站點的均值和所有站點均值都進行了計算,跟後面計算的四分位數、標準差等數值一塊單獨生成一個新的數據框。圖表後面列出。
3.3 四分位數的計算
四分位數定義:在統計學中把所有數值由小到大排列並分成四等份夠,處於三個分割點(0.25、0.5、0.75)位置的數值。
Advertisements
(1)計算所有站點的PM10濃度數值的四分位數,並繪製箱線圖。
(2)計算不同站點的四分位數,繪製箱線圖對比。
3.4 標準差的計算
標準差:是方差的算術平方根,用σ表示。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同
用R語言計算PM10的標準差,計算方法如下:
3.5 標準分的計算
標準分,是一種由原始分推導出來的相對地位量數,它是用來說明原始分在所屬的那批分數中的相對位置的。
本次分析中對不同站點的平均值用scale()函數計算其標準分。
3.6 結果分析
上圖從左到右,分別為站點、日期、平均值、中位數、標準差和標準分。
目前的環境監測中,站點的PM10濃度值是以多次監測的平均值計算,而中位數跟平均值還是有明顯差異的。在此不評論方法優劣,只是從描述統計學的角度,用上表中數據說明平均值和中位數的差異。
上表中,標準差(sd)與平均值(avg)呈正相關性。同一時間段內,數據離散程度低,均值也相對較小,說明受外界影響的極端值較少,這在不同站點四分位箱線圖中可以看得一目了然。這與實際情況也較為相符,站點附近有道路清掃、工地施工時飄起的揚塵能導致PM10的數據異常,計算時包含這些異常值可導致平均值增大。
從標準分(score)可以看出,A點正值最大,平均值最大;H點負值最大,平均值最小。根據標準分大小可以輕鬆判斷不同站點的質量好壞。
特別說明:本次統計分析重在用R語言對PM10數據的描述統計分析計算方法,其結果和分析只是輔助說明這四個指標的異同之處。
天善學院雙十一特價課程限時優惠進行中,6日-12日五場微課聯播,歡迎關注。https://www.hellobi.com/1111
11月6日年邁的數據分析師教你做年終總結報告
陳丹奕:知乎大神,前百度資深數據分析師
11月7日機器學習與工業實踐
鄒博:中國科學院副研究員,天津大學特聘教授
11月8日 貝葉斯演算法與新聞分類實戰
唐宇迪:深度學習領域多年一線實踐研究專家,同濟大學碩士
11月9日破冰Python,1小時快速入門
王大偉: Python愛好者社區公眾號負責人,擅長網路爬蟲、數據分析
11月10日 職場也有雙11--你賤賣自己的5大常用技巧
陳文:8年經驗數據分析師,資深業務顧問
直播管理員:xtechday,加入直播交流。