数据分析库探究:使用Pandas进行数据清洗与处理的示例?
Pandas是Python中最常用的数据分析库。它提供了一种结构化的方式来存储和操作数据。
以下是一个使用Pandas进行数据清洗与处理的示例:
导入所需库:
import pandas as pd
创建一个数据样本,例如包含缺失值的DataFrame:
data = {
'Name': ['John', 'Jane', 'Doe'],
'Age': [30, 25, None],
'City': ['New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)
数据清洗与处理:
a. 检查并填充缺失值:
df.fillna(value=0, inplace=True) # 填充为0, inplace=True表示直接修改原始数据
b. 处理异常值(比如年龄超过100岁):
# 仅保留合法的年龄
df = df[(df['Age'] >= 0) & (df['Age'] <= 100)]
以上示例展示了使用Pandas进行数据清洗与处理的基本流程。
还没有评论,来说两句吧...