数据清洗与预处理:Python pandas库实战案例
数据清洗和预处理是数据分析过程中的重要步骤,主要是为了提高数据的质量,使其更适合后续的分析。在Python中,pandas库提供了丰富的工具进行数据清洗。
以下是一些实战案例:
- 删除重复值:
```python
import pandas as pd
假设df是一个DataFrame
df = pd.DataFrame({
‘name’: [‘Alice’, ‘Bob’, ‘Alice’],
‘age’: [25, 30, 35]
})
print(“原始数据:”)
print(df)
删除重复值
df = df.drop_duplicates()
print(“\n去重后的数据:”)
print(df)
2. 处理缺失值:
```python
# 假设存在缺失值的DataFrame
df_with_missing = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, np.nan],
'city': ['New York', 'Chicago', 'San Francisco']
})
print("\n原始数据带有缺失值:")
print(df_with_missing)
# 处理缺失值(用中位数填充)
df_filled = df_with_missing.fillna(df_with_missing.median())
print("\n用中位数填充后的数据:")
print(df_filled)
以上就是使用Python pandas库进行数据清洗与预处理的一些实战案例。
还没有评论,来说两句吧...