数据分析实战:Python pandas库数据处理实例
Python的pandas库是进行数据处理和分析的重要工具。以下是一些使用pandas处理数据的例子:
数据读取:
- CSV文件:
pd.read_csv('file.csv')
- Excel文件(需要特定库,如openpyxl):
pd.read_excel('file.xlsx')
- SQL数据库:
pd.read_sql_query('SELECT * FROM table_name', con=your_conn)
- CSV文件:
数据清洗:
- 删除重复项:
df.drop_duplicates()
- 处理缺失值(例如,填充0):
df.fillna(0, inplace=True)
- 删除重复项:
数据分组和聚合:
- 按某一列进行分组:
grouped = df.groupby('column_name')
- 对每组的求和或平均:
aggregated_values = grouped['column_name'].sum()
- 按某一列进行分组:
数据排序:
- 按某一列升序/降序排序:
sorted_df = df.sort_values('column_name', ascending=False)
- 按某一列升序/降序排序:
以上就是使用pandas处理数据的基本实例,实际操作中可能需要根据具体的数据和需求进行调整。
还没有评论,来说两句吧...