Python爬虫实践:网页抓取与数据清洗
在Python中,我们可以使用requests库获取网页内容,然后使用BeautifulSoup等库解析HTML并提取所需数据。数据清洗则包括去除冗余信息、处理缺失值、纠正错误数据等步骤。
下面是一个简单的爬虫示例,从一个网站抓取标题:
import requests
from bs4 import BeautifulSoup
# 请求网页
url = 'https://example.com' # 这里替换为你要爬取的URL
response = requests.get(url)
# 如果请求成功(HTTP状态码200),则解析HTML
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有标题(这里假设标题都是h1标签)
titles = soup.find_all('h1')
for title in titles:
print(title.get_text())
else:
print(f"请求失败,状态码:{response.status_code}}")
注意,爬虫使用时应遵守相关法律法规和网站的Robots协议。
还没有评论,来说两句吧...