如何使用Pandas库进行Python数据分析？

原创水深无声 2024-12-25 22:18 102阅读 0赞

Pandas是一个强大的数据处理库，广泛用于Python的数据分析。以下是如何使用Pandas进行数据分析的基本步骤：

导入Pandas库：
```
import pandas as pd
```
数据加载或生成：

如果数据来自CSV、Excel或数据库等，可以使用read_csv(), read_excel(), read_sql()等函数读取：
```
df = pd.read_csv('your_file.csv')
```

如果数据需要生成，可以使用Pandas的数据构造方式（如list, dict等）创建DataFrame：

data = {'Name': ['Alice', 'Bob'],
                    'Age': [25, 30]}
df = pd.DataFrame(data)

数据清洗和预处理：

检查缺失值、重复值，以及异常数据，如使用isnull(), duplicated(), describe()等函数：
```python
检查缺失值
missing_values = df.isnull().sum()
print(missing_values)

删除重复值（默认按行删除）

df.drop_duplicates(inplace=True)


4. 数据分析和可视化：
- 使用Pandas的各种统计方法，如`mean()`, `median()`, `std()`等：
```python
# 计算年龄的平均值和标准差
age_avg = df['Age'].mean()
age_std = df['Age'].std()
print(f"Age average: {age_avg}")
print(f"Age standard deviation: {age_std}")
# 统计姓名出现次数（频率）
name_freq = df['Name'].value_counts(normalize=True) * 100
name_freq = name_freq.sort_index(ascending=False)
print("Top names and their frequencies (in percentage):")
print(name_freq)