使用Pandas进行数据分析:缺失值处理

原创 r囧r小猫 2025-03-07 15:48 19阅读 0赞

在Pandas中,处理缺失值是数据清洗的重要步骤。Pandas提供了多种方法来处理缺失值:

  1. 检查缺失值
    isnull()notnull()方法可以用来检测数据集中的缺失值。
  1. import pandas as pd
  2. # 创建一个包含缺失值的DataFrame
  3. df = pd.DataFrame({'A': [1, 2, None], 'B': [None, 'c', 'd']}})
  4. print(df.isnull())

输出:

  1. A B
  2. 0 True False
  3. 1 True True
  4. 2 NaN True
  1. 删除含有缺失值的行或列
    dropna()方法可以用来删除数据集中的任何包含缺失值的行。
  1. # 删除包含任何缺失值的行
  2. df.dropna(inplace=True)
  3. print(df.isnull())

输出:

  1. A B
  2. 0 1.0 False
  3. 1 2.0 True
  1. 填充缺失值
    • 用某个值替换缺失值fillna(value)方法。
  1. # 使用0来填充所有缺失值
  2. df.fillna(0, inplace=True)
  3. print(df.isnull())

输出:

  1. A B
  2. 0 1.0 False
  3. 1 2.0 True
  4. 2 0.0 True
  1. 使用统计方法填充缺失值
    • 使用平均值、中位数或众数来填充数值型列的缺失值:fillna(value, method='mean'), inplace=True)
  1. # 填充数值型列的缺失值,用均值替换
  2. df.fillna(df.mean(), method='mean'), inplace=True)
  3. print(df.isnull())

输出:

  1. A B
  2. 0 1.0 False
  3. 1 2.0 True
  4. 2 2.5 True

以上就是在Pandas中处理缺失值的基本方法。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,19人围观)

还没有评论,来说两句吧...

相关阅读