Pandas使用操作指南
数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。
数据帧(DataFrame)的功能特点:潜在的列是不同的类型大小可变标记轴(行和列)可以对行和列执行算术运算
pandas中的DataFrame可以使用以下构造函数创建:
参数 | 描述 |
---|---|
data | 数据采取各种形式,如:ndarray,series,map,lists,dict,constant和另一个DataFrame |
index | 对于行标签,要用于结果帧的索引是可选缺省值np.arrange(n) |
columns | 列标签 |
dtype | 每列的数据类型。 |
常见使用操作汇总
DataFrame对象
创建
1 |
|
查看
1 |
|
修改
1 |
|
数据处理利器:map
1 |
|
数据处理利器:apply
可以接收各种各样的函数(Python内置的或自定义的),也可以同时处理多列数据;
axis=0代表操作对列columns进行,axis=1代表操作对行row进行
1 |
|
apply()在运算时实际上是一行一行遍历的,IO开销比较大,可以使用progress_apply()监视运行进度;
1 |
|
数据处理利器:applymap
applymap() 是与map() 方法相对应的专属于Dataframe对象的方法,可传入函数、字典等,作用于整个数据框中的每个位置的元素,返回结果的形状与元数据框 一致!
1 |
|
过滤空值
常用于解决某行或某列值为NaN(空)的情况,很多时候我们要把这部分数据剔除,便于进一步的数据处理。
NaN由numpy产生,所以用python里的None无法判断pandas dataframe里的数据是否为空。本质上NaN不等于任何值,pandas的提供了相应的内置方法来处理该问题,如isnull(),notnull()
1 |
|
常见数据过滤操作
通过比较值过滤
1 |
|
以……开始或以……结尾,语法与python标准库str对应的方法相同
1 |
|
子字符串过滤,包含某值
1 |
|
计算某列某个值出现的次数
使用 shape 或 len
1 |
|
获取某列的所有值
使用tolist()或values.tolist()
1 |
|
基于其他列生成新的列
使用apply方法映射处理数据的函数(操作类似map),同时注意axis=1的设置(按行处理)
1 |
|
参考
https://zhuanlan.zhihu.com/p/100064394
http://www.360doc.com/content/20/0202/23/7669533_889336554.shtml
Pandas使用操作指南
http://example.com/2020/12/22/2020-12-22-Pandas使用操作指南/