python空气质量AQI 数据分析与预测----用到的库,数据集,数据清洗

it2022-05-05  135

#每天一点点# python 空气质量AQI 数据分析与预测

点击可以查看 分析:城市空气质量排名,临海城市空气质量是否由于内陆城市

点击可以查看 分析:相关系数矩阵

空气质量指数,用来衡量空气清洁或污染的成都,值越小,表示空气质量约好 任务说明: 期望能够对全国城市空气质量进行研究与分析,能够解决以下疑问: 1:哪些城市的空气质量较好/较差 2:临海城市是否空气质量优于内陆城市? 3:空气质量主要受哪些因素影响? 4:是否可以预测城市的空气质量? 5:是否可以预测城市是否临海?

#数据集描述 数据集的百度网盘链接链接:https://pan.baidu.com/s/1mfqbPvrE7DgGTLzTEp3YhA 提取码:2yoj

列名 含义 City 城市名 AQI 空气质量指数 Precipitation 降雨量 GDP 城市生产总值 Temperature 温度 Longitude 经度 Latitude 维度 Altitude 海拔高度 PopulationDensity 人口密度 Coastal 是否沿海 GreenCoverageRate 绿化覆盖率 Incineration(10,000ton) 焚烧量(10000吨)

#程序实现 #一:导入用到的库,进行一些初始化设置

import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt import warnings import seaborn as sns sns.set(style = 'darkgrid',font = 'SmiHei',rc = {'axes.unicode_minus':False})\ warnings.filterwarnings('ignore')

#二:加载相关数据集

data = pd.read_csv(r'C:\Users\CompletedDataset.csv') #改成自己的路径 print(data.shape) #查询表的大概情况,XX行,XX列 data.head() #查询表的前5行内容

#三:数据清洗

#1:缺失值处理

data.info() #本文件中的数据,是没有缺失值的

#isnull 判断是否有缺失值,如果有缺失值,则显示True,如果没有,则False #axis=0按行相加,如果有缺失值,那么这一行相加为1,如果没有,则为0

data.isnull().sum(axis=0)

输出结果 ??????? 输出结果 ???????

#2:异常值处理 判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性: 多达25%的数据可以变得任意远而不会很大地扰动四分位数, 所以异常值不能对这个标准施加影响

data.describe() #基本统计量 sns.boxplot(data = data['Precipitation']) #箱型图

输出结果 ??????? 输出结果 ???????

#3:重复值处理

data.duplicated().sum() #计算重复值的个数,这一行内容完全一致,判定为重复

最新回复(0)