使用Python进行数据分析:数据清洗和问题发现示例

原创 比眉伴天荒 2024-12-15 03:45 46阅读 0赞

在Python中,我们可以使用pandas库来进行数据分析。以下是一个关于数据清洗(Data Cleaning)以及问题发现的简单示例。

  1. 数据清洗:
    ```python
    import pandas as pd

假设我们有一个包含缺失值的数据框

data = {‘Name’: [‘John’, ‘Anna’, ‘Michael’],
‘Age’: [28, 35, None],
‘City’: [‘New York’, ‘London’, ‘Paris’]}
df = pd.DataFrame(data)

数据清洗,处理缺失值

df[‘Age’] = df[‘Age’].fillna(value=mean_age) # 假设我们已经有了平均年龄

print(df)

  1. 2. 问题发现:
  2. ```python
  3. # 检查数据集中是否存在重复行
  4. _duplicate_rows = df[df.duplicated()])
  5. if duplicate_rows.empty:
  6. print("Data does not contain any duplicates.")
  7. else:
  8. print(f"Duplicates found in rows: {duplicate_rows.index.tolist()}}")
  9. # 检查年龄列是否均匀分布
  10. age_distribution = df['Age'].value_counts()
  11. if all(value == max_age_dist for value, max_age_dist in age_distribution.items())):
  12. print("Age distribution appears to be uniform.")
  13. else:
  14. print(f"Uneven age distribution found: {age_distribution}}")

这个示例中,我们首先处理了数据中的缺失值,并计算了平均年龄来填充。然后,我们检查了数据集中是否存在重复行,以及年龄列是否均匀分布。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,46人围观)

还没有评论,来说两句吧...

相关阅读