Python爬虫篇二之利用re正则爬取豆瓣页面练习

àì夳堔傛蜴生んèń 2021-09-08 22:00 266阅读 0赞

在我的爬虫一篇中,咱了解到了大概的爬虫思路,那么咱带着思路进一步研究爬虫技术
今天我们要用到re这个模块,对爬取到的内容进行清洗,拿到具体想要的内容

首先我们要了解re这个模块的功能,主要就是利用正则表达式,来提取内容

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。
这次主要简单介绍一下常用的正则表达式处理函数
正则表达式量词

  1. * 重复0次或多次
  2. + 重复1次或多次
  3. ? 重复0次或1
  4. { n} 重复n
  5. { n,3 重复n次或多次
  6. { n,m}重复nm
  7. .*贪婪匹配
  8. .*?惰性匹配

re.findall:在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表

练习案例

  1. lis =re.findall('\d+','你试试啊100428,你的1093989')
  2. print(lis)

re.finditer:和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回,这个功能我们用的比较多
练习案例

  1. it = re.finditer(r"\d+","我的电话号是10086,我女朋友的电话是:10010")
  2. for i in it:
  3. print(i.group())

re.match是从头开始匹配
练习案例

  1. s= re.match(r"\d+","我的电话号是:10086,我女朋友的电话是:10010")
  2. print(s.group())

re.search,找到一个结果就返回,返回的结果是match对象,拿数据需要.group()
练习案列

  1. s= re.search(r"\d+","我的电话号是:10086,我女朋友的电话是:10010")
  2. print(s.group())

re.compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
练习案例

  1. obj =re.compile(r"\d+")
  2. ret = obj.finditer("我的电话号是:10086,我女朋友的电话号是:10010")

我们现在进行的练习需要用到re.compile预加载,和re.finditer居多
现在开始练习爬取豆瓣250 url =https://movie.douban.com/top250
在这里插入图片描述
分析页面,拿到剧名,年份,评分,评价人数,影评
打开谷歌浏览器,利用开发者工具(F12)对页面进行检查可以发现,需要的内容都存放在li中
在这里插入图片描述

分析完找到内容和规律后,可以发现每个li内容的格式都是一样的,现在可以进行爬取
只想要想要的内容,而不想要其他的东西应该怎么处理呢?
在这个案例当中,我们需要了解,贪婪模式 .* ,和非贪婪模式.*?

贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为,贪婪模式在整个表达式匹配成功的前提下,尽可能多的匹配,而非贪婪模式在整个表达式匹配成功的前提下,尽可能少的匹配。

在提取数据时,可以用.?来替代不要的数据,想要的东西也可以用(?P<名字>.?)这种格式拿到数据
了解完大家去试一下吧

源码如下

  1. #导入正则,处理页面
  2. import re
  3. #导入requests模块进行页面爬取
  4. import requests
  5. #导入csv模块为了存储csv文件,方便后续的数据分析
  6. import csv
  7. # 设置伪装头
  8. headers = {
  9. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
  10. }
  11. # 指定url地址
  12. # url = "https://movie.douban.com/top250?start=%s&filter="%index
  13. url = "https://movie.douban.com/top250"
  14. reps = requests.get(headers=headers, url=url)
  15. #根据页面的字符集设置字符编码
  16. reps.encoding = "UTF-8"
  17. aaa = reps.text
  18. #爬取到内容后进行数据处理,拿想要的东西
  19. obj = re.compile(
  20. r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<p class="">.*?<br>(?P<tt>.*?) .*?</p>'
  21. r'.*?<span class="rating_num" property="v:average">(?P<pf>.*?)</span>.*?<span>(?P<pj>.*?)</span>'
  22. r'.*?<span class="inq">(?P<py>.*?)</span>.*?', re.S)
  23. ss = obj.finditer(aaa)
  24. #在这里我们进行csv文件存储
  25. f = open("pc.csv", mode="a+", encoding="UTF8")
  26. csvwj = csv.writer(f)
  27. for it in ss:
  28. #拿到处理好的数据后,进行输出,看看又没有爬取到内容
  29. # print(it.group("name"))
  30. #print(it.group("tt").strip())
  31. # print(it.group("pf"))
  32. # print(it.group("pj"))
  33. # print(it.group("py"))
  34. #最后我们想要把数据存起来,最好用字典的形式将数据封装起来
  35. #因为日期后面有空行,这里我们要特别处理,所以可以单独存放
  36. dic = it.groupdict()
  37. dic["tt"] = dic["tt"].strip()
  38. csvwj.writerow(dic.values())

我把步骤都打在注释里了,大家试着消化一下。
在进行爬取的时候尝试着看看想要的内容是否在HTML页面当中,如果是就可以进行爬取,本次案例显然可以。
如果基础还不错,可以分析页面,实现多页面爬取。

发表评论

表情:
评论列表 (有 0 条评论,266人围观)

还没有评论,来说两句吧...

相关阅读