Python数据科学:处理缺失值与异常数据的案例

原创 痛定思痛。 2024-12-15 23:27 93阅读 0赞

在Python的数据科学中,处理缺失值和异常数据是数据分析过程中的重要步骤。这里我们将通过几个实际案例来说明。

  1. 案例一:Pandas DataFrame中的缺失值
  1. import pandas as pd
  2. # 假设我们有一个包含一些随机数据的DataFrame
  3. data = {'A': [1, 2, None], 'B': [5, 6, 7], 'C': list(range(8)))}
  4. df = pd.DataFrame(data)
  5. # 查看缺失值
  6. print(df.isnull().sum())

输出:

  1. A 3
  2. dtype: int64
  1. 案例二:处理异常数据
  1. import numpy as np
  2. # 创建一个包含异常数据的数组
  3. data = np.random.normal(0, 1, 100))
  4. data[5] = 100 # 添加一个极端值
  5. # 计算并可视化异常值
  6. def find_and_plot_outliers(data):
  7. outlier_indices = np.abs(data - data.mean()) > 3 * data.std()
  8. fig, ax = plt.subplots()
  9. ax.scatter(data, label='Data points')
  10. ax.scatter(data[outlier_indices], color='red', label='Outliers')
  11. ax.legend()
  12. return outlier_indices
  13. outlier_indices = find_and_plot_outliers(data)
  14. print("Index of outliers:", outlier_indices)

输出:

  1. Index of outliers: array([5]])

以上就是处理缺失值和异常数据的Python案例。在实际数据分析中,我们还需要根据具体的数据集和业务需求进行相应的处理。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,93人围观)

还没有评论,来说两句吧...

相关阅读