pandas作为python的一个常用库,主要用于数据的处理。比如数据的读取和整理。
引入pandas模块: import pandas as pd csv文件是什么?逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。csv文件可以用excel和记事本打开。下面,读取一个名为1的csv文件,含有中文,一定要加解码方式gbk。 idInfo=pd.read_csv("1.csv",encoding='gbk') 显示读取的数据用head方法,默认显示前五条,括号里的参数三就是改为显示前三行的意思: idInfo.head(3) 显示数据总共的列数用columns方法: idInfo.columns 显示维度(几行几列)用shape,和numpy里的一样用: idInfo.shape 获取第n条的数据,这里示例里n为0,也可以用切片来读取中间的几条: idInfo.loc[0] idInfo.loc[3:6] 读取某几列,name和sex是列名: idInfo[["name","sex"]] 整一列数据除以100: c=idInfo["age"]/100 新增数据,假设新增数据是由name列的值除以对应sex列的数值得到的,记为result: c=idInfo["name"]/idInfo["sex"] idInfo["result"]=c 最大值最小值平均值用法也是和numpy差不多的: idInfo["name"].max() idInfo["name"].min() idInfo["name"].mean() 数据的排序,使用sort_value,inpalce参数为true时会覆盖数据,false只是单纯地打印至屏幕;ascending为true是升序排列,反之是降序: idInfo.sort_value("age",inplace=True,ascending=True)