数据处理与分析:Python pandas库应用实例
Python的pandas库是数据分析领域常用的一种工具。它提供了大量用于数据操作和分析的功能。以下是一些使用pandas进行数据处理和分析的实例:
读写CSV/Excel文件:
import pandas as pd
# 从CSV文件中读取数据
df = pd.read_csv('file.csv')
# 写入Excel文件
df.to_excel('output.xlsx', index=False)
数据清洗:
- 删除重复项:
df.drop_duplicates(inplace=True)
处理缺失值,如填充平均值或使用特定值(例如NaN)表示:
# 填充平均值
mean_value = df.mean().loc['column_name']
df['column_name'] = df['column_name'].fillna(mean_value)
- 删除重复项:
数据分组和聚合:
- 按某一列进行分组:
grouped_df = df.groupby('column_name')
- 对各组进行求和、平均值等操作:
agg_result = grouped_df['column_name'].agg(['sum', 'mean']])
- 按某一列进行分组:
以上只是pandas库在数据处理与分析中的一些基本应用,实际上pandas的功能强大且灵活,可以应对各种复杂的数据处理任务。
还没有评论,来说两句吧...