使用Pandas进行数据清洗:缺失值处理

原创 曾经终败给现在 2025-02-10 15:36 65阅读 0赞

在Python的Pandas库中,处理缺失值是数据清洗的重要步骤。以下是一些基本的方法:

  1. 检查缺失值
    使用isnull()NaN来检查数据集中是否存在缺失值。
  1. import pandas as pd
  2. # 创建一个包含缺失值的DataFrame
  3. data = {'A': [1, 2], 'B': [3, np.nan]], 'C': [4, 5]}
  4. df = pd.DataFrame(data)
  5. # 检查缺失值
  6. print(df.isnull().sum())
  1. 删除含有缺失值的行或列
    可以使用dropna()方法,如果希望保留最后一行(对于行数据),可以设置参数thresh=None, pad=False
  1. # 删除含有缺失值的行
  2. df_no_missing_rows = df.dropna()
  3. # 如果需要保留最后一行,可以这样操作
  4. last_row_to_keep = df[-1:]
  5. df_with_last_row = last_row_to_keep.append(df)
  6. print("Original DataFrame with missing values:")
  7. print(df)
  8. print("\nDataFrame without missing rows:")
  9. print(df_no_missing_rows)
  10. print("\nDataFrame with the last row kept:")
  11. print(df_with_last_row)
  1. 填充缺失值
    可以选择不同的方法来填充缺失值,如平均值、中位数、众数、最小值或最大值等。
  1. # 使用均值填充缺失值
  2. df_filled_mean = df.fillna(value=df.mean())
  3. print("\nDataFrame with missing values filled with mean:")
  4. print(df_filled_mean)

根据实际需求和数据特性,选择合适的方法进行处理。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,65人围观)

还没有评论,来说两句吧...

相关阅读