王冠嵩的网站

中国五市AQI时间序列特征

标签: 2015中国空气质量指数 2015-08-28

每天几点钟的空气更好更适合锻炼,一年中是否冬季真的空气最差,不同城市的空气质量特征是否相同,利用中国五座城市的历史AQI试图回答以上的问题。试图回答以上的问题

一般而言,每天几点钟的空气更好更适合锻炼,一年中是否冬季真的空气最差,不同城市的空气质量特征是否相同,利用中国五座城市的历史AQI试图回答以上的问题。

所用脚本链接:Github

注:(1)文中图片可以点击打开原图。(2)AQI(Air Quality Index):空气质量指数,由测量pm2.5含量所得,指数越高空气质量越差。

AQI时间序列

首先,把每小时的数据一一列出来并没有什么意义。于是生成了每一天的平均AQI值,五座城市的日均值堆砌出一副五彩纷腾的画,但并没有什么(*)用。

于是在日均AQI基础上,又生成了周均AQI(下左)和月均AQI(下右),曲线就有些眉目了。

图中只显示了所有城市都有数据的时间段,大概从2013年到2015年。很明显所有城市的AQI都具有周期性。北京的曲线几乎形成了五座城市的上围,广州和上海形成了下围。冬季是所有城市的空气质量最差时间段。这些观察和直观的印象基本是吻合的。

肉眼观测来看,随着时间的推移,AQI并没有显著的下降或上升趋势,也就是说在这段时间里AQI是一个平稳的时间序列。加入时间变量的回归也验证了这个现象。

下面的是(所有城市的)月均AQI(下左)和分城市的总体平均AQI(下右)的直方图,其中数据由虚拟变量回归所得。

直方图中能看出从十月到次年二月,AQI明显高于年中其他月份;平均来看,北京的空气质量最差,广州和上海最好,而沈阳要好过成都。

每日内分时AQI

有人说晨练空气好,有人说夜跑空气好。下面就来看看,按AQI算,一天中到底什么时候空气最好。

每日每小时,计算出该时高出或低处当日平均AQI的百分比。例如,某天平均AQI为50,在九点时AQI为60,则计算出九点钟偏离日均AQI为(60-50)/50=20%。如此处理是为了避免统计结果被高AQI的时期影响过多。在回归中可以直接取log达到一样的效果。

数据说明,下午三点钟的空气是最好的,AQI低于日均值11.7%。早晨六七点钟的空气基本和日均值持平,但晚上七点之后,空气质量就快速下降到高于日均值了。大部分人在工作日都没办法在下午出去活动,所以相比早上和晚上,还是早上锻炼空气更好了,当然前提是能起得来。

另外,从凌晨到下午三点的明显AQI下落趋势,在七到八点钟被短暂逆转,不是是否与上班高峰的尾气有关。但现在没有数据可以来证实。

北京AQI

以上分析在五座城市混合数据中完成,但不同城市的AQI特征并不一定是一样的。为了避免地区因素的干扰,我对各个城市分别进行了同样的分析过程。不同城市得到的结果基本类似,北京的空气质量收到的关注最多,以下便以北京为例作为展示,其他城市的链接列在下面。

北京周均AQI(下左)和月均AQI(下右):

北京月均AQI直方图(下左)和北京分时AQI直方图(下右):

其他城市

上海
周均AQI 月均AQI 月均AQI直方图 分时AQI直方图
广州
周均AQI 月均AQI 月均AQI直方图 分时AQI直方图
沈阳
周均AQI 月均AQI 月均AQI直方图 分时AQI直方图
成都
周均AQI 月均AQI 月均AQI直方图 分时AQI直方图

AQI与温度

上述AQI的时间序列图表明,北方城市比南方城市高,冬季比其他季节高,凌晨比下午高,可以概括为温度与AQI为负相关。

与此会引发很多有趣的讨论。例如一年中冬季的AQI高峰在控制了气温变量后是否还与取暖有关,此外不仅北方城市有冬季AQI高峰,南方不取暖的城市(广州)也有冬季的AQI高峰。再例如,加入温度变量后,上下班高峰的尾气排放是否会更显著地影响分时AQI,以检验汽车尾气对空气质量的影响有多大。

另外两个可能影响空气质量的因素是降雨量和风向/风速,以后可以继续搜集相关数据。