查看: 3815|回复: 1

AQI空气质量分析与预测的相关资料

字体大小: 正常放大

1178 主题	15 听众	1万积分

TA的每日心情

	开心 2023-7-31 10:17

签到天数: 198 天

[LV.7]常住居民III

自我介绍: 数学中国浅夏

电梯直达

1^#

发表于 2021-10-15 10:46 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

AQI分析与预测AQI全称是Air Quality Index，指空气质量指数，用来衡量空气清洁或者污染的程度，值越小，表示空气质量越好。
  x5 h; G" ~/ X7 f( ]; e, C+ w: ?本文的分析目标是：  t% k& H. I! g- A
一、描述性统计- \: N8 h2 D! k2 Y8 o$ l6 H- O
那些城市的空气质量较好/较差？空气质量在地理位置分布上，是否具有一定的规律？二、推断统计
, V3 M* N% W' m4 V6 ]' J8 s临海城市的空气质量是否优于内陆城市？三、相关系数分析
' c- Y* L* C$ a# \+ W* S$ p% g: D空气质量主要受哪些因素的影响？四、区间估计" y7 T/ K3 C2 a
全国城市空气质量普遍处于哪种水平？五、统计建模3 L7 i2 m0 ~& w! A3 ?9 ^+ {" g
怎样预测一个城市的空气质量？导包并读取数据：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns5 x5 L: B# z1 w
sns.set(style="darkgrid")plt.rcParams["font.family"] = "SimHei"plt.rcParams["axes.unicode_minus"] = False  I4 y7 w* R  T) ?* \
data = pd.read_csv("data/data.csv")print(data.shape)data.head()

数据集描述：

City：城市名

AQI：空气质量指数

Precipitation：降雨量

GDP：人均生产总值

Tempearture：温度

Longitude/Latitude：经/纬度

Altitude：海拔高度

PopulationDensity：人口密度

Coastal：是否沿海

GreenCoverageRate：绿化覆盖率

Incineration(10,000ton)：焚烧量（w吨）

数据清洗
检查缺失值：
数据集描述：

City：城市名

AQI：空气质量指数

Precipitation：降雨量

GDP：人均生产总值

Tempearture：温度

Longitude/Latitude：经/纬度

Altitude：海拔高度

PopulationDensity：人口密度

Coastal：是否沿海

GreenCoverageRate：绿化覆盖率

Incineration(10,000ton)：焚烧量（w吨）

数据清洗
检查缺失值：
data.isnull().sum(axis=0)

查看含缺失值列数据的分布：
#print(data["Precipitation"].skew())#偏度
sns.distplot(data["Precipitation"].dropna())#要删除NA值才能做分布密度图
plt.title("分布密度图")
0.27360760671177387

数值型变量，数据呈现右偏分布，所以使用中位数填充。

对缺失值进行中位数填充

data.fillna({"Precipitation":data["Precipitation"].median()},inplace=True)
检查异常值的三种方法

data.describe() 查看数据的描述：分位数、均值与标准差
基于正太分布 ±三个标准差涵盖99.7%的数据
箱线图（四分位距IQR=Q3-Q1，上下边界：Q3/Q1 ±1.5IQR）4 l- q7 ], d1 a3 x9 y2 F

查看数据集的偏度：

data.skew()

AQI                      1.198754
Precipitation             0.273608
GDP                      3.761428
Temperature             -0.597343
Longitude                -1.407505
Latitude                0.253563
Altitude                3.067242
PopulationDensity       3.125853
GreenCoverageRate       -0.381786
Incineration(10,000ton) 4.342614
dtype: float64

可以看到GDP和人口密度等都出现了严重的右偏分布，意味着存在很多极大的异常值。

下面我们查看以下GDP的异常值：

mean, std = data.GDP.mean(), data.GDP.std()
lower, upper = mean - 3 * std, mean + 3 * std

print("均值：", mean)
print("标准差：", std)
print("下限：", lower)
print("上限：", upper)
data.loc[(data.GDP < lower) | (data.GDP > upper), "GDP"]

均值： 2390.901815384616
标准差： 3254.876921271434
下限： -7373.728948429687
上限： 12155.532579198918
16 22968.60
63 18100.41
202 24964.99
207 17502.99
215 14504.07
230 16538.19
256 17900.00
314 15719.72
Name: GDP, dtype: float64

zan