Python数据分析:pandas库的基础操作与应用实例
Pandas是Python中最常用的数据分析库。它提供了一种高效、灵活的方式来处理和分析数据。以下是一些基本的操作以及应用实例:
安装和导入:
# 安装 pandas
!pip install pandas
# 导入 pandas
import pandas as pd
创建数据框:
# 创建一个简单的数据框
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35]},
index=['ID1', 'ID2', 'ID3']]
df = pd.DataFrame(data)
查看数据:
print(df.head()) # 查看前五行
print(df.tail(3))) # 查看后三行
选择列或特定行:
column_name = 'Name'
selected_column = df[column_name]]
row_index = 'ID2'
selected_row = df.loc[row_index]
数据操作:
- 添加新列:
df['Email'] = df.apply(lambda row: row['Name'] + '@example.com', axis=1)
合并或拼接数据框:
# 平行堆叠数据框
merged_df = pd.concat([df, df2]], ignore_index=True)
# 水平拼接(根据某个列的值进行分组)数据框
grouped_df = df.groupby('Category').sum()
- 添加新列:
数据清洗和预处理:
删除重复行或特定行:
# 删除重复行
df.drop_duplicates(inplace=True)
# 删除特定行(根据条件)
condition = df['Age'] > 30
df = df[condition]
以上就是Pandas库的基础操作与应用实例。在实际的数据分析项目中,这些操作将更加复杂和灵活。
还没有评论,来说两句吧...