Python数据处理:Pandas缺失值处理案例
在Python的数据处理库Pandas中,处理缺失值是常用且重要的步骤。以下是一些Pandas处理缺失值的案例:
检查缺失值:
import pandas as pd
data = {'Name': ['John', 'Alice', None],
'Age': [25, 30, None],
'City': ['New York', 'London', None]}}
df = pd.DataFrame(data)
print("Missing values in the dataframe:")
print(df.isnull().sum())
这会显示每列的缺失值数量。
删除含有缺失值的行/列:
# 删除含有任何缺失值的行
df = df.dropna(how='any')
# 或者,删除含有特定缺失值的列
columns_with_nulls = df.columns[df.isnull().any()])
if len(columns_with_nulls) > 0:
df = df.drop(columns=columns_with_nulls)
print("The cleaned dataframe is:")
print(df)
这将删除所有行或列,如果它们至少含有一个缺失值。
填充缺失值:
# 使用平均值填充数值类型列的缺失值
df['Age'] = df['Age'].fillna(value=df['Age'].mean())
# 对于非数值类型列,可以使用mode、first/last等方法
df['City'] = df['City'].fillna(value='London')
print("The dataframe with filled missing values is:")
print(df)
这里填充了’Age’列的缺失值为平均值。
通过以上案例,你可以了解到在处理Pandas数据时,如何有效地管理和处理缺失值。
还没有评论,来说两句吧...