数据清洗与预处理:Python pandas库实战案例

原创 r囧r小猫 2025-03-09 01:00 19阅读 0赞

数据清洗和预处理是数据分析过程中的重要步骤,主要是为了提高数据的质量,使其更适合后续的分析。在Python中,pandas库提供了丰富的工具进行数据清洗。

以下是一些实战案例:

  1. 删除重复值:
    ```python
    import pandas as pd

假设df是一个DataFrame

df = pd.DataFrame({
‘name’: [‘Alice’, ‘Bob’, ‘Alice’],
‘age’: [25, 30, 35]
})
print(“原始数据:”)
print(df)

删除重复值

df = df.drop_duplicates()
print(“\n去重后的数据:”)
print(df)

  1. 2. 处理缺失值:
  2. ```python
  3. # 假设存在缺失值的DataFrame
  4. df_with_missing = pd.DataFrame({
  5. 'name': ['Alice', 'Bob', 'Charlie'],
  6. 'age': [25, 30, np.nan],
  7. 'city': ['New York', 'Chicago', 'San Francisco']
  8. })
  9. print("\n原始数据带有缺失值:")
  10. print(df_with_missing)
  11. # 处理缺失值(用中位数填充)
  12. df_filled = df_with_missing.fillna(df_with_missing.median())
  13. print("\n用中位数填充后的数据:")
  14. print(df_filled)

以上就是使用Python pandas库进行数据清洗与预处理的一些实战案例。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,19人围观)

还没有评论,来说两句吧...

相关阅读