Pandas数据分析:数据缺失处理问题

原创 傷城~ 2025-02-19 02:15 54阅读 0赞

在 Pandas 进行数据分析时,数据缺失(NaN)是一个常见的问题。以下是一些处理数据缺失的常用方法:

  1. 删除缺失值:如果你确定某些记录有缺失值且对分析结果影响不大,可以直接使用 dropna() 方法删除含有缺失值的行或列。
  1. import pandas as pd
  2. data = {'A': [1, 2], 'B': [3, np.nan]},
  3. index=['row1', 'row2'],
  4. columns=['col_A', 'col_B']
  5. df = pd.DataFrame(data)
  6. # 删除含有缺失值的行
  7. df_row_with_missing = df[df.index == 'row2']]
  8. df = df.drop('row2')
  9. print("Original DataFrame:")
  10. print(df)
  1. 填充缺失值:Pandas 提供了多种填充缺失值的方法,例如:
  • 使用中位数、平均值或众数填充数值列:
  1. df['col_B'] = df['col_B'].fillna(df['col_B'].median())
  • 用某个特定值(如0)填充分类列的缺失值:
  1. df['col_A'] = df['col_A'].fillna(0, method='ffill')
  • 用自定义函数或 Series 来填充:
  1. def custom_fill(value):
  2. return value if pd.isnull(value) else 0
  3. df['col_B'] = df['col_B'].fillna(custom_fill)

根据实际情况选择合适的填充方法。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,54人围观)

还没有评论,来说两句吧...

相关阅读