【第1篇】Python爬虫实战-王者荣耀高清壁纸下载

快来打我* 2023-10-03 13:08 104阅读 0赞

目标网址:https://pvp.qq.com/web201605/wallpaper.shtml

目录

1、页面分析

2、程序源码

3、结果展示


1、页面分析

通过F12打开浏览器控制台,刷新一下页面,通过依次查看,可以找到页面请求请求地址

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE5MzA5NDcz_size_16_color_FFFFFF_t_70 由于返回的数据不是标准的JSON格式我们需要对url进行简化处理,最终得到url地址为:

https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?iTypeId=2&sDataType=JSON&iListNum=20&page=1&iActId=2735

请求这个url地址就可以得到一个标准的JSON数据格式,其中page表示当前页码,iListNum表示每页展示多少条数据。

我们再来分析这个JSON,通过页面源码可以找到这段代码

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE5MzA5NDcz_size_16_color_FFFFFF_t_70 1

说明:

sProdImgNo_2对应的图片分辨率:1024x768

sProdImgNo_3对应的图片分辨率:1280x720

下面依次类推……

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE5MzA5NDcz_size_16_color_FFFFFF_t_70 2

我们以sProdImgNo_2的值举例:

http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735072812%2F1627447964%5F84828260%5F29462%5FsProdImgNo%5F2%2Ejpg%2F200

我们对该地址进行url解码之后,发现

http://shp.qpic.cn/ishow/2735080511/1628133281_84828260_9817_sProdImgNo_2.jpg/200

这个地址是压缩图片地址

http://shp.qpic.cn/ishow/2735080511/1628133281_84828260_9817_sProdImgNo_2.jpg/0

这个是真实的图片地址

如何找到真实地址,简单就是把url地址末尾的200改为0即可。

至此页面请求分析完成。

2、程序源码

  1. #!/usr/bin/python
  2. # -*- coding: UTF-8 -*-
  3. """
  4. @author: YangPC
  5. @QQ:327844761
  6. @微信公众号:ewbang
  7. """
  8. import requests
  9. from urllib import parse
  10. import os
  11. headers = {
  12. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
  13. }
  14. def func(page=1):
  15. url = f'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?iTypeId=2&sDataType=JSON&iListNum=20&page={page}&iActId=2735'
  16. response = requests.get(url=url, headers=headers).json()
  17. # 总页数
  18. iTotalPages = int(response['iTotalPages'])
  19. # 列表数据
  20. img_list = response['List']
  21. print(f"正在爬取第{page}页的数据".center(100, '*'))
  22. for img_info in img_list:
  23. # 图片名称
  24. img_name = parse.unquote(img_info['sProdName']).strip()
  25. # 图片地址
  26. sProdImgNo_2 = img_info['sProdImgNo_2']
  27. save(img_name, sProdImgNo_2, "1024x786")
  28. sProdImgNo_3 = img_info['sProdImgNo_3']
  29. save(img_name, sProdImgNo_3, "1280x720")
  30. sProdImgNo_4 = img_info['sProdImgNo_4']
  31. save(img_name, sProdImgNo_4, "1280x1024")
  32. sProdImgNo_5 = img_info['sProdImgNo_5']
  33. save(img_name, sProdImgNo_5, "1440x900")
  34. sProdImgNo_6 = img_info['sProdImgNo_6']
  35. save(img_name, sProdImgNo_6, "1920x1080")
  36. sProdImgNo_7 = img_info['sProdImgNo_7']
  37. save(img_name, sProdImgNo_7, "1920x1200")
  38. sProdImgNo_8 = img_info['sProdImgNo_8']
  39. save(img_name, sProdImgNo_8, "1920x1440")
  40. # 下一页
  41. if page < iTotalPages:
  42. func(page + 1)
  43. # 保存图片到目录
  44. def save(img_name, url, size):
  45. # 找到真实的文件路径
  46. url = parse.unquote(url).replace("/200", "/0")
  47. # 文件保存路径
  48. path = os.getcwd() + f'\\{img_name}\\'
  49. # 如果目录不存在就创建目录
  50. if not os.path.exists(path):
  51. os.makedirs(path)
  52. try:
  53. with open(f"{path}{img_name}_{size}.jpg", 'wb') as f:
  54. f.write(requests.get(url).content)
  55. print(f"{img_name}_{size}.jpg,下载成功。")
  56. except Exception as e:
  57. print(f"{img_name}_{size}.jpg,下载失败。")
  58. pass
  59. if __name__ == '__main__':
  60. func()

3、结果展示

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE5MzA5NDcz_size_16_color_FFFFFF_t_70 3

发表评论

表情:
评论列表 (有 0 条评论,104人围观)

还没有评论,来说两句吧...

相关阅读