本文为 Pandas 库的相关知识。
Pandas库的基本使用
用途:针对二位数据表进行数据处理,数据项拆分、过滤、合并(统计、可视化)
常用方法:
- 初始化:DataFrame(json,columns,index)
- 切片:loc按行列名称切;iloc按行列序号切
- 拼装:concat 按列名匹配合并
- 矩阵拼接:concatenate 简单的行列合并
- 合并:merge 按列名进行关联合并(重点)
- 导入csv文件:read_csv(文件名,sep=分隔符)
- 常见数据窥探方法:shape,info,columns,head
- value_counts:返回数据集中列的次数
- 数据处理函数:apply(lambda表达式)
- 求和:sum
# 引入库函数 |
练习题
数据合并练习
import numpy as np |
基于二手车的数据清洗
import pandas as pd |
基于电商订单的数据清洗
'''一、加载数据''' |