python巨蟒之二——pandas基本操作（CSV文件处理）

it2022-05-05 663

pandas作为python的一个常用库，主要用于数据的处理。比如数据的读取和整理。

引入pandas模块： import pandas as pd csv文件是什么？逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。csv文件可以用excel和记事本打开。下面，读取一个名为1的csv文件，含有中文，一定要加解码方式gbk。 idInfo=pd.read_csv("1.csv",encoding='gbk') 显示读取的数据用head方法,默认显示前五条，括号里的参数三就是改为显示前三行的意思： idInfo.head(3) 显示数据总共的列数用columns方法： idInfo.columns 显示维度（几行几列）用shape,和numpy里的一样用： idInfo.shape 获取第n条的数据，这里示例里n为0,也可以用切片来读取中间的几条： idInfo.loc[0] idInfo.loc[3:6] 读取某几列，name和sex是列名： idInfo[["name","sex"]] 整一列数据除以100： c=idInfo["age"]/100 新增数据,假设新增数据是由name列的值除以对应sex列的数值得到的,记为result： c=idInfo["name"]/idInfo["sex"] idInfo["result"]=c 最大值最小值平均值用法也是和numpy差不多的： idInfo["name"].max() idInfo["name"].min() idInfo["name"].mean() 数据的排序，使用sort_value,inpalce参数为true时会覆盖数据，false只是单纯地打印至屏幕；ascending为true是升序排列，反之是降序: idInfo.sort_value("age",inplace=True,ascending=True)

专利

最新回复(0)