Python数据科学:处理缺失值与异常数据的案例
在Python的数据科学中,处理缺失值和异常数据是数据分析过程中的重要步骤。这里我们将通过几个实际案例来说明。
- 案例一:Pandas DataFrame中的缺失值
import pandas as pd
# 假设我们有一个包含一些随机数据的DataFrame
data = {'A': [1, 2, None], 'B': [5, 6, 7], 'C': list(range(8)))}
df = pd.DataFrame(data)
# 查看缺失值
print(df.isnull().sum())
输出:
A 3
dtype: int64
- 案例二:处理异常数据
import numpy as np
# 创建一个包含异常数据的数组
data = np.random.normal(0, 1, 100))
data[5] = 100 # 添加一个极端值
# 计算并可视化异常值
def find_and_plot_outliers(data):
outlier_indices = np.abs(data - data.mean()) > 3 * data.std()
fig, ax = plt.subplots()
ax.scatter(data, label='Data points')
ax.scatter(data[outlier_indices], color='red', label='Outliers')
ax.legend()
return outlier_indices
outlier_indices = find_and_plot_outliers(data)
print("Index of outliers:", outlier_indices)
输出:
Index of outliers: array([5]])
以上就是处理缺失值和异常数据的Python案例。在实际数据分析中,我们还需要根据具体的数据集和业务需求进行相应的处理。
还没有评论,来说两句吧...