Python数据分析库:使用Pandas处理缺失值和异常数据的实例。
Pandas是Python中一个强大的数据分析库。它提供了灵活的数据结构(Series和DataFrame)以及各种数据分析工具。
下面是一个处理缺失值和异常数据的简单例子:
- 导入Pandas库:
import pandas as pd
- 创建一个包含缺失值的DataFrame:
data = {'Name': ['John', 'Anna', 'Mike', 'Sarah'],
'Age': [28, 35, np.nan, 26],
'Score': [90, 75, 85, 92]},
index=None, name='DataFrame'
df = pd.DataFrame(data)
- 使用Pandas的函数处理缺失值:
# 检查是否有NaN
print(df.isnull().sum())
# 填充NaN值,这里用平均值填充Age列
df['Age'].fillna(df['Age'].mean(), inplace=True)
# 再次检查以确认缺失值已被填充
print(df.isnull().sum())
- 对异常数据进行处理,这里假设Score大于95为异常:
# 计算Score的分位数,这里选择95分位
score_percentile = df['Score'].quantile(0.95)
# 查找Score大于分位数的数据行
outliers = df[df['Score'] > score_percentile]]
print("Outlier Scores: ", outliers['Score'])
以上代码示例展示了如何使用Pandas处理缺失值、异常数据以及填充缺失值。
还没有评论,来说两句吧...