基于数据分析的2019~2020北京市空气质量影响因素分析
基于数据分析的2019~2020北京市空气质量影响因素分析
Analysis of Influencing Factors of Air Quality in Beijing from 2019 to 2020 Based on Data Analysis
1. 引言
随着社会经济的发展,中国仍面临着许多难以解决的问题,环境问题为主要问题之一,环境污染问题对我国构建社会主义和谐社会的事业构成了严重的威胁和挑战,有了影响经济和制约社会的负面影响。空气质量指数(AQI)能够对空气质量进行定量描述,它描述了空气清洁程度或者污染的程度。环保局在计算空气质量时通过六个主要污染标准:二氧化硫、二氧化氮、PM10、PM2.5、一氧化碳和臭氧。AQI发布时一般都取用24小时平均值,它将这六项污染物用统一的标准呈现。
近年来随着人们对空气质量关注度的提高,国内外都有学者就空气质量问题进行了研究并发表相关研究文献,例如Neha Khanna (2000)采用多种大气污染物的综合评判的方法给出了一种新的空气污染指数(API)体系,并将此空气污染指数(API)与美国环保局(EPA)的污染标准指数(PSI)进行了对比 [1]。Indrami Gupta等(2006)选取印度的4个主要城市,分析了10年来总悬浮颗粒物和可吸入颗粒物的月平均值变化规律,指出这4个城市的总悬浮颗粒物(TSP)没有明显的减少趋势,但是PM呈递减或稳定趋势 [2]。国内对空气污染的指数研究主要以时间序列为主:赵景波(2004)以北京、兰州、乌鲁木齐等10个城市城区空气质量作为研究对象,研究分析2004年这10个城市的总悬浮颗粒物、二氧化硫、氮氧化物的污染差异和污染状况 [3]。鲁然英等(2006)通过分析2001~2005年的城市空气质量数据,指出了我国主要城市空气质量的时空分布状况 [4]。
在这些文章的基础上本研究拟通过分析2019~2020年北京市空气质量数据并对其进行回归建模,探究其变化趋势及空间特征并可以通过其中某几项或一项污染物的浓度变化预测AQI的变化,为北京市空气质量改善提出建议。
2. 数据处理及描述性分析
本文所用数据来源于中国AQI网站,包含AQI及PM2.5、PM10、二氧化硫、二氧化氮、一氧化碳、O3_8h浓度数据,数据选取范围为:2019年、2020年两年全年数据 [5]。
描述性统计能展示数据最基本的统计特征,下文通过展示各物质的统计学特征展示其AQI指数和其余六种物质的变化趋势及分布特征,从而对北京市的空气质量进行初步了解。
依据所收集的数据进行描述性分析和初步处理的步骤为:1) 数据处理,检查缺失值并去除缺失值项;2) 对AQI及“两尘四气”进行描述性统计分析;3) 画出空气质量饼图观察两年各空气质量等级的占比;4) 作AQI、及“两尘四气”随时间变化的时间序列图,观察变化规律;5) 作AQI及“两尘四气”两两之间做相关性分析 [6]。
统计量
AQI
PM2.5 (μg/m3)
PM10 (μg/m3)
SO2 (μg/m3)
NO2 (μg/m3)
CO (mg/m3)
O3 (μg/m3)
最小值
18
3
2
2
5
0.1
5.0
最大值
267
217
292
21
101
2.7
283.0
均值
82.81
39.86
62.12
4.03
32.92
0.667
96.218
标准偏差
43.271
32.317
38.490
2.539
16.331
0.3591
57.8948
方差
1872.392
1044.404
1481.489
6.445
266.686
0.129
3351.806
偏度
1.137
1.914
1.564
2.155
1.007
1.608
0.792
峰度
1.310
5.127
3.595
6.141
0.851
4.143
-0.070
Table 1. Statistical analysis of “Two Dust and Four Gas AQI” description in Beijing from 2019 to 2020
表1. 北京2019~2020年“两尘四气AQI”描述统计分析
表1中的标准差和方差的值可以看出各类物质浓度数据的离散程度,NO2、CO浓度和SO2浓度的标准偏差和方差很小,说明两者浓度数据的离散程度很小即各物质在随着时间的推移变化,这三种物质浓度的变化不大,且其浓度均值均达标,说明北京市在这三种物质治理上取得了显著成效;AQI、PM2.5、PM10和O3的标准偏差和方差很大,说明对应数据的离散程度很大即随着时间变化较大,在空气治理时应注重PM2.5、PM10和O3增大时原因以及时间特征。AQI的偏度均大于0,并且偏度值差值在1.363内,说明它们的数据分布呈现是右偏,及直方图中有一条长尾拖在右侧,偏斜程度相当。AQI及“两尘四气”中除O3以外峰度值均大于0,为尖顶峰,说明总体数据分布与正态分布相比较为陡峭。而O3的峰度值小于0,说明O3数据分布与正态分布相比较为平缓 [7]。
PM2.5
PM10
NO2
SO2
O3
CO
PM2.5
1
0.712**
0.617**
0.467**
0.002
0.861**
PM10
1
0.571**
0.477**
0.049
0.565**
NO2
1
0.560**
−0.328**
0.684**
SO2
1
−0.164**
0.583**
O3
1
−0.093*
CO
1
Table 2.Correlation of substances
表2. 各物质相关性
为了探索影响AQI指数的六种因素两两之间线性关系强弱,从而探索六种因素彼此对彼此变化影响的强弱,本文将对其进行相关性分析。表2为相关性分析结果,将北京2019~2020空气质量数据导入SPSS软件,进行变量之间的相关分析,通过此步可以看出两变量之间的相关性,经过“分析–相关–双变量”过程 [6],结果PM2.5与CO的相关系数为0.861,说明它们具有极强的正相关;PM2.5和PM10、NO2和SO2的相关系数分别为0.712、0.617和0.467,说明它们也具有较强的正相关性;PM10与NO2、SO2和CO的相关系数分别为0.571、0.477和0.565,说明它们具有较强的正相关性;NO2与SO2、CO的相关系数分别为0.560、0.684,说明它们具有较强的正相关性;SO2和CO的相关系数为0.583,两者之间也具有较强的相关性。其它变量间的相关系数小于0.4,说明它们之间相关性很弱 [6]。两物质之间存在正相关证明其中一种物质浓度的增大也会在一定程度上使另一种物质的浓度增大,当正相关系数越大,这种影响越明显,反之亦然。
Figure 1. Scatter plot of “Two Dust and Four Gas” changes over time in Beijing
图1. 北京市“两尘四气”随时间变化的散点图
从图1可以看出散点图均没有表现出明显的上升和下降的趋势,因此能够得到北京市“两尘四气”随时间变化均没有明显的线性变化关系。然而,由上可知,图像存在不固定频率的上升和下降,并且有受到季节性因素的影响,即表明“两尘四气”随时间变化具有明显的周期性和季节性 [6]。
O3随时间的变化表现出强烈的年度季节性,以及周期为1年的周期性,且数值冬季较小,夏季较大;PM2.5、PM10、CO、SO2、NO2随时间的变化也都具有明显的季节性,冬季的数值较大,夏季的数值较小,同时,CO、SO2。NO2也具有明显的以一年为周期的周期性。此外,2020年PM2.5、PM10的数值与2019年的数值相比有所降低 [6]。
Figure 2. Scatter plot of AQI changes over time in Beijing
图2. 北京市的AQI随时间变化的散点图
图2可以看出,AQI随时间的变化无上升和下降的趋势,但是存在季节性和周期性 [8],且在春冬季波动较大,在空气治理时可以多关注春冬季各物质排放情况。
Figure 3. Pie chart of air quality distribution in Beijing
图3. 北京市的空气质量分布饼图
本文运用饼图(图3)对数据中的质量等级进行描述从而得到北京市两年总体空气质量等级分布的特征,结果显示空气质量为良的占比最大。其次质量等级为“优”和“轻度污染”占比均在百分之二十五左右。综上所述,北京市空气质量总体处于优良状态,但是空气污染指数为“强度污染”和“中度污染”的天数也较多。在经济持续发展的情况下,北京作为全国“政治中心”和超一线城市,更应该积极响应国家政策,强化绿色优先理念,探索全面科学的策略改善自身空气质量。
3. 模型建立与检验
3.1. 因变量正态性检验,及数据处理
为了探索空气质量指数AQI和“两尘四气”浓度之间的关系,本文选用多因素回归分析以AQI指数做因变量其余六个指标做自变量进行回归拟合建模。在进行模型拟合之前将原数据分为测试集和训练集,选用70%的数据作为训练集用来估计模型中的参数,使拟合得出模型能够反映现实,剩下的30%的数据作为测试集可以对得到的模型进行评估。
通过对数据进行描述性分析认为本文所选择的6个自变量都会对AQI产生影响,于是考虑所有因素对AQI的影响。因为变换后的各变量的数量级差异较大,为了消除变量间的量纲关系,从而使数据具有可比性,所以回归前应用R软件中的scale()语言对数据进行标准化。
3.2. 模型建立
以北京市2019年和2020年两年的AQI数据为因变量,以“两尘四气”含量为自变量,运用R Studio中的lm()语言对数据进行回归分析但在进行回归建模时为了减小数据之间的绝对差异以及数据中部分绝对值的影响,本文对因变量取log对数,建立多元回归模型,结果如下表3:
回归系数
标准误差
t统计量
P值
显著性
常数
4.280600
0.009179
466.356
<2e−16
***
PM2.5 (μg/m3)
0.096902
0.022060
4.393
1.37e−05
***
PM10 (μg/m3)
0.151048
0.014945
10.107
< 2e−16
***
SO2 (μg/m3)
−0.040436
0.012522
−3.229
0.00132
**
NO2 (μg/m3)
0.117835
0.015383
7.621
1.27e−13
***
CO (mg/m3)
0.111130
0.021464
5.178
3.26e−07
***
O3_8h (μg/m3)
0.287462
0.010593
27.138
< 2e−16
***
MultipleR2
0.8301
Adjusted R2
0.828
F
407.8
P
< 2.2e−16
Table 3. Multiple regression model results table
表3. 多元回归模型结果表
输出的模型结果如下:
ln(AQI)=4.281+0.097pm2.5+0.151pm10−0.040SO2+0.118NO2+0.111CO+0.287O3_8h
由模型可以看出各物质的回归系数中最大的为O3_8h,即在同样增加一单位的浓度的条件下当O3_8h增大时AQI变化是最大的,即O3_8h对AQI增大的影响是最显著的。
3.3. 模型检验
由上文的结果表明:F统计量的值为407.8,P值 < 2.2e−16 < 0.05,此结果表明:5%的显著性水平下,可以认为所建立的回归方程显著有效,可决定系数R2 = 0.8301,调整后的R2 = 0.828,说明方程的拟合结果较好 [9]。
此后对模型残差进行正态性检验,由于本文样本量较大所以选择通过R Studio中的ks.test()语言即K-S方法对残差的正态性进行正态性检验,且由于这种方法默认的是检验是否服从标准正态,所以在检验前还需对模型残差数据标准化,检验输出结果为D = 0.055509,P-value = 0.08738,由结果可得P > 0.05则残差的正态性检验也是通过的。
对拟合的结果进行DW检验(Durbin-Watson test)检验变量是否存在自相关,结果显示DW = 1.7375,p-value = 0.0009763 < 0.05,说明误差一阶自相关,则在后面我们在R软件中用科克伦–奥克特法消除自相关性。后还需对模型进行共线性检验,本文通过R软件car包中的vif()函数进行,输出结果如下表4:
PM2.5
PM10
SO2
NO2
CO
O3_8h
5.764652
2.645757
1.857355
2.803276
5.457233
1.329169
Table 4. Collinearity test results table
表4. 共线性检验结果表
其结果都<10,说明共线性检验通过,自变量之间并不存在很高的共线性。在建立模型前对因变量作对数变换,通过Q-Q图结果认为对数变换后的因变量服从正态分布,从而残差满足正态性假设。
由上述检验结果我们只需对得到的模型用科克伦–奥克特法消除自相关性得到新的模型结果如下表5。
根据多元线性回归模型的结果,可以从回归系数的大小和显著性看出各自变量对AQI的影响程度,可以得出臭氧含量对AQI的影响最大,其次为NO2浓度,所以本文建议在治理改善空气质量时应该将重点放在这两种物质的治理上。
常数
PM2.5
PM10
SO2
NO2
CO
O3.8h
4.280759
0.103368
0.151501
−0.037063
0.118773
0.098079
0.284994
Table 5. Coefficient table after eliminating autocorrelation
表5. 消除自相关性后的系数表
4. 结论与建议
本文将自变量两两之间进行了相关分析发现:PM2.5与CO之间、PM2.5与PM10、NO2和SO2之间、PM10与NO2、SO2和CO等之间都具有较强的正相关性,在两两变量相关性分析中还发现某些变量间的相关系数小于0.4,即这些物质两两之间的相关性较弱。通过对各变量的时间序列图的分析,得到北京市“两尘四气”随时间变化均没有明显的线性变化关系。通过时间序列图可以分析出“两尘四气”随时间变化具有明显的周期性和季节性。
通过以AQI为因变量其余六个因素为自变量作回归分析,本文得出臭氧含量对AQI的影响最大。随着城市化和工业化发展,NOX和VOCs等污染物排放到大气中导致空气中臭氧浓度升高 [7],且其是在“两尘四气”中对AQI影响最大且为正影响的因素,在空气质量改善时应找到臭氧浓度升高的原因,并采用对应管理的办法,在空气治理时应侧重采取科学可行措施降低空气中的臭氧浓度。同时学者也可积极关注研究臭氧含量与空气质量之间的关系,探索防止其浓度过高的方法。
致谢
本文再次真诚感谢北京工业大学星火项目的支持。
相关知识
基于数据分析的2019~2020北京市空气质量影响因素分析
基于灰色关联的洛阳市空气质量影响因素分析
基于时间序列与随机森林模型的江西省空气质量影响因素分析
2019~2022年成都市春节期间烟花爆竹燃放对空气质量影响分析
大学生花呗消费习惯及其影响因素研究
——基于logistic模型的实证分析
北京市核心区洋白蜡行道树健康评价及影响因素
实时监测与数据分析:景区空气质量检测仪的核心功能
空气质量检测数据的处理与分析方法
基于Landsat数据的城市热岛效应分析与预测
城市热岛效应影响因素分析
网址: 基于数据分析的2019~2020北京市空气质量影响因素分析 https://www.huajiangbk.com/newsview1657721.html
上一篇: 春节8天假期 北京空气质量全部优 |
下一篇: 去年,东莞空气质量和PM2.5浓 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039