用R語言對大氣污染物PM10進行統計分析

2017-11-09
加入好友隨時分享有用經驗！

感謝關注天善智能，走好數據之路↑↑↑

歡迎關注天善智能，我們是專註於商業智能BI，人工智慧AI，大數據分析與挖掘領域的垂直社區，學習，問答、求職一站式搞定！

本文作者：郭小龍，R語言中文社區專欄作者。知乎專欄：https://www.zhihu.com/people/guo-xiao-long-3-18/posts

1、數據來源

中部某城市2011年1月的大氣污染物PM10的逐小時實況監測值，excel格式文檔。實際8個監測點，按A、B、C、D、E、F、G、H字母代替。

PM10是指可吸入顆粒物，別名飄塵，通常是指粒徑在10微米以下的顆粒物。測量單位為毫克/立方米。

2、分析目的

用R語言進行統計分析，分別計算不同站點的平均值、四分位數、標準差、標準分。通過不同值的差異對比，分析四個指標的實際意義。

3、R語言統計分析計算

3.1 數據預處理

首先，將xls文檔轉化為CSV格式文檔進行讀取，直接用函數read.xlsx()讀取時，發現該函數只能讀屬性為xlsx文檔，不能讀取屬性為xls文檔。

其次，進行PM10欄位的選取，無效數據的剔除，不同監測站點的替換以及數據格式轉化等數據預處理工作。代碼如下：

3.2 PM10濃度平均值的計算

平均值的含義不做解釋了。

本次分析時使用tapply()和mean()函數對不同站點的均值和所有站點均值都進行了計算，跟後面計算的四分位數、標準差等數值一塊單獨生成一個新的數據框。圖表後面列出。

3.3 四分位數的計算

四分位數定義：在統計學中把所有數值由小到大排列並分成四等份夠，處於三個分割點（0.25、0.5、0.75）位置的數值。

（1）計算所有站點的PM10濃度數值的四分位數，並繪製箱線圖。

（2）計算不同站點的四分位數，繪製箱線圖對比。

3.4 標準差的計算

標準差：是方差的算術平方根，用σ表示。標準差能反映一個數據集的離散程度。平均數相同的兩組數據，標準差未必相同

用R語言計算PM10的標準差，計算方法如下：

3.5 標準分的計算

標準分，是一種由原始分推導出來的相對地位量數，它是用來說明原始分在所屬的那批分數中的相對位置的。

本次分析中對不同站點的平均值用scale()函數計算其標準分。

3.6 結果分析

上圖從左到右，分別為站點、日期、平均值、中位數、標準差和標準分。

目前的環境監測中，站點的PM10濃度值是以多次監測的平均值計算，而中位數跟平均值還是有明顯差異的。在此不評論方法優劣，只是從描述統計學的角度，用上表中數據說明平均值和中位數的差異。

上表中，標準差（sd）與平均值（avg）呈正相關性。同一時間段內，數據離散程度低，均值也相對較小，說明受外界影響的極端值較少，這在不同站點四分位箱線圖中可以看得一目了然。這與實際情況也較為相符，站點附近有道路清掃、工地施工時飄起的揚塵能導致PM10的數據異常，計算時包含這些異常值可導致平均值增大。

從標準分（score）可以看出，A點正值最大，平均值最大；H點負值最大，平均值最小。根據標準分大小可以輕鬆判斷不同站點的質量好壞。

特別說明：本次統計分析重在用R語言對PM10數據的描述統計分析計算方法，其結果和分析只是輔助說明這四個指標的異同之處。

天善學院雙十一特價課程限時優惠進行中，6日-12日五場微課聯播，歡迎關注。https://www.hellobi.com/1111

11月6日年邁的數據分析師教你做年終總結報告

陳丹奕：知乎大神，前百度資深數據分析師

11月7日機器學習與工業實踐

鄒博：中國科學院副研究員，天津大學特聘教授

11月8日貝葉斯演算法與新聞分類實戰

唐宇迪：深度學習領域多年一線實踐研究專家，同濟大學碩士

11月9日破冰Python，1小時快速入門

王大偉： Python愛好者社區公眾號負責人，擅長網路爬蟲、數據分析

11月10日職場也有雙11--你賤賣自己的5大常用技巧

陳文：8年經驗數據分析師，資深業務顧問

直播管理員：xtechday，加入直播交流。

用R語言對大氣污染物PM10進行統計分析

感謝關注天善智能，走好數據之路↑↑↑

1、數據來源

2、分析目的

Advertisements

3、R語言統計分析計算

Advertisements

Advertisements

你可能會喜歡

Advertisements