1047521767 发表于 2021-10-15 10:46

AQI空气质量分析与预测的相关资料

AQI分析与预测AQI全称是Air Quality Index,指空气质量指数,用来衡量空气清洁或者污染的程度,值越小,表示空气质量越好。
本文的分析目标是:
一、描述性统计
那些城市的空气质量较好/较差?空气质量在地理位置分布上,是否具有一定的规律?二、推断统计
临海城市的空气质量是否优于内陆城市?三、相关系数分析
空气质量主要受哪些因素的影响?四、区间估计
全国城市空气质量普遍处于哪种水平?五、统计建模
怎样预测一个城市的空气质量?导包并读取数据:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns
sns.set(style="darkgrid")plt.rcParams["font.family"] = "SimHei"plt.rcParams["axes.unicode_minus"] = False
data = pd.read_csv("data/data.csv")print(data.shape)data.head()https://img-blog.csdnimg.cn/img_convert/4b505290931e0aa6ef09d0e0a06938e3.png

数据集描述:

City:城市名

AQI:空气质量指数

Precipitation:降雨量

GDP:人均生产总值

Tempearture:温度

Longitude/Latitude:经/纬度

Altitude:海拔高度

PopulationDensity:人口密度

Coastal:是否沿海

GreenCoverageRate:绿化覆盖率

Incineration(10,000ton):焚烧量(w吨)

数据清洗
检查缺失值:
数据集描述:

City:城市名

AQI:空气质量指数

Precipitation:降雨量

GDP:人均生产总值

Tempearture:温度

Longitude/Latitude:经/纬度

Altitude:海拔高度

PopulationDensity:人口密度

Coastal:是否沿海

GreenCoverageRate:绿化覆盖率

Incineration(10,000ton):焚烧量(w吨)

数据清洗
检查缺失值:
data.isnull().sum(axis=0)


https://img-blog.csdnimg.cn/img_convert/146c88f8247f819a37a225f125c1901f.png

查看含缺失值列数据的分布:
#print(data["Precipitation"].skew())#偏度  
sns.distplot(data["Precipitation"].dropna())#要删除NA值才能做分布密度图
plt.title("分布密度图")
0.27360760671177387

https://img-blog.csdnimg.cn/img_convert/86ce8adbe308b38b8722f2bd188bc3ac.png

数值型变量,数据呈现右偏分布,所以使用中位数填充。对缺失值进行中位数填充data.fillna({"Precipitation":data["Precipitation"].median()},inplace=True)
检查异常值的三种方法
[*]data.describe() 查看数据的描述:分位数、均值与标准差
[*]基于正太分布 ±三个标准差涵盖99.7%的数据
[*]箱线图(四分位距IQR=Q3-Q1,上下边界:Q3/Q1 ±1.5IQR)
查看数据集的偏度:
data.skew()

AQI                        1.198754
Precipitation              0.273608
GDP                        3.761428
Temperature               -0.597343
Longitude                 -1.407505
Latitude                   0.253563
Altitude                   3.067242
PopulationDensity          3.125853
GreenCoverageRate         -0.381786
Incineration(10,000ton)    4.342614
dtype: float64

可以看到GDP和人口密度等都出现了严重的右偏分布,意味着存在很多极大的异常值。下面我们查看以下GDP的异常值:
mean, std = data.GDP.mean(), data.GDP.std()
lower, upper = mean - 3 * std, mean + 3 * std

print("均值:", mean)
print("标准差:", std)
print("下限:", lower)
print("上限:", upper)
data.loc[(data.GDP < lower) | (data.GDP > upper), "GDP"]

均值: 2390.901815384616
标准差: 3254.876921271434
下限: -7373.728948429687
上限: 12155.532579198918
16     22968.60
63     18100.41
202    24964.99
207    17502.99
215    14504.07
230    16538.19
256    17900.00
314    15719.72
Name: GDP, dtype: float64





sjlxdn 发表于 2021-10-23 14:51

11111111111111111111
页: [1]
查看完整版本: AQI空气质量分析与预测的相关资料