Python爬虫实践:requests+BeautifulSoup的简单爬取案例
在Python爬虫中,我们通常会使用requests库来发送HTTP请求获取网页内容,然后利用BeautifulSoup库解析HTML文档提取所需信息。
下面是一个简单的爬取案例,爬取一个网站的首页标题:
- 导入所需的库
import requests
from bs4 import BeautifulSoup
- 发送GET请求获取网页内容
url = 'https://example.com' # 替换成你要爬取的目标URL
response = requests.get(url)
- 解析HTML内容并提取标题(假设标题在
<title>
标签内)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.find('title').text
print(title) # 输出爬取的首页标题
这样就实现了一个简单的Python爬虫,爬取指定URL的首页标题。
还没有评论,来说两句吧...