Python数据分析库:使用Pandas处理缺失值和异常数据的实例。

原创 一时失言乱红尘 2025-01-30 11:21 40阅读 0赞

Pandas是Python中一个强大的数据分析库。它提供了灵活的数据结构(Series和DataFrame)以及各种数据分析工具。

下面是一个处理缺失值和异常数据的简单例子:

  1. 导入Pandas库:
  1. import pandas as pd
  1. 创建一个包含缺失值的DataFrame:
  1. data = {'Name': ['John', 'Anna', 'Mike', 'Sarah'],
  2. 'Age': [28, 35, np.nan, 26],
  3. 'Score': [90, 75, 85, 92]},
  4. index=None, name='DataFrame'
  5. df = pd.DataFrame(data)
  1. 使用Pandas的函数处理缺失值:
  1. # 检查是否有NaN
  2. print(df.isnull().sum())
  3. # 填充NaN值,这里用平均值填充Age列
  4. df['Age'].fillna(df['Age'].mean(), inplace=True)
  5. # 再次检查以确认缺失值已被填充
  6. print(df.isnull().sum())
  1. 对异常数据进行处理,这里假设Score大于95为异常:
  1. # 计算Score的分位数,这里选择95分位
  2. score_percentile = df['Score'].quantile(0.95)
  3. # 查找Score大于分位数的数据行
  4. outliers = df[df['Score'] > score_percentile]]
  5. print("Outlier Scores: ", outliers['Score'])

以上代码示例展示了如何使用Pandas处理缺失值、异常数据以及填充缺失值。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,40人围观)

还没有评论,来说两句吧...

相关阅读