Alfred数据分析项目实践笔记

it2022-05-08 17

文章目录

1. matplotlib (plt)==1.1 美化风格ggplot & 显示调整== 2. pandas (pd)==2.1 concat 数据组合====2.2 split 字符串分割====2.3 loc iloc数据提取====2.4 groupby====2.5 value_counts()====2.6 drop_duplicates 去重====2.7 head 取前五行数据====2.8 merge将两个表格合并====2.9 sort_value 排序== 3. numpy (np)==3.1 常见计算np.round、np.floor、np.ceil、np.where====3.2 astype 类型转换== 4. re 正则5. seaborn 可视化图表

1. matplotlib (plt)

1.1 美化风格ggplot & 显示调整

ggplot是matplotlib的一种美化风格最后三行是调整一些plt显示的问题

2. pandas (pd)

2.1 concat 数据组合

pd.concat是pandas数据组合，https://blog.csdn.net/mr_hhh/article/details/79488445 这篇博客有详细介绍，默认是下图组合方式。

2.2 split 字符串分割

pandas字符串分割，把“-”两端分开，分成两列：

原始：分割后：

2.3 loc iloc数据提取

pandas中loc用于提取数据，默认提取行数据。 https://blog.csdn.net/w_weiying/article/details/81411257 区别： loc根据索引，而iloc根据行列编号。如图：

2.4 groupby

以上是求不同城市平均工资的平均值 groupby用法 https://www.jianshu.com/p/42f1d2909bb6

2.5 value_counts()

value_counts()是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值。

.nlargest(11) 取最大的10个值。

2.6 drop_duplicates 去重

https://blog.csdn.net/u010665216/article/details/78559091/

2.7 head 取前五行数据

2.8 merge将两个表格合并

https://blog.csdn.net/zhouwenyuan1015/article/details/77334889

2.9 sort_value 排序

https://blog.csdn.net/wendaomudong_l2d4/article/details/80648633

by:str or list of str；如果axis=0，那么by=“列名”；如果axis=1，那么by=“行名”；ascending:布尔型，True则升序，可以是[True,False]，即第一字段升序，第二个降序

3. numpy (np)

3.1 常见计算np.round、np.floor、np.ceil、np.where

https://blog.csdn.net/tz_zs/article/details/80775256

3.2 astype 类型转换

4. re 正则

re.findall 正则匹配

5. seaborn 可视化图表

seaborn可视化，官方网站https://seaborn.pydata.org/generated/seaborn.FacetGrid.html aspect 宽高比 size 图表的大小 xlim x轴限制范围

博客 https://blog.csdn.net/unixtch/article/details/78820654

专利

最新回复(0)