使用Python进行数据分析:数据清洗和问题发现示例
在Python中,我们可以使用pandas库来进行数据分析。以下是一个关于数据清洗(Data Cleaning)以及问题发现的简单示例。
- 数据清洗:
```python
import pandas as pd
假设我们有一个包含缺失值的数据框
data = {‘Name’: [‘John’, ‘Anna’, ‘Michael’],
‘Age’: [28, 35, None],
‘City’: [‘New York’, ‘London’, ‘Paris’]}
df = pd.DataFrame(data)
数据清洗,处理缺失值
df[‘Age’] = df[‘Age’].fillna(value=mean_age) # 假设我们已经有了平均年龄
print(df)
2. 问题发现:
```python
# 检查数据集中是否存在重复行
_duplicate_rows = df[df.duplicated()])
if duplicate_rows.empty:
print("Data does not contain any duplicates.")
else:
print(f"Duplicates found in rows: {duplicate_rows.index.tolist()}}")
# 检查年龄列是否均匀分布
age_distribution = df['Age'].value_counts()
if all(value == max_age_dist for value, max_age_dist in age_distribution.items())):
print("Age distribution appears to be uniform.")
else:
print(f"Uneven age distribution found: {age_distribution}}")
这个示例中,我们首先处理了数据中的缺失值,并计算了平均年龄来填充。然后,我们检查了数据集中是否存在重复行,以及年龄列是否均匀分布。
还没有评论,来说两句吧...