爬虫日记(88)：Scrapy的Downloader类（一）

缺乏、安全感 2022-10-10 15:57 214阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，214人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫日记(91)：Scrapy的ScrapyAgent类

从前面的HTTP11DownloadHandler类分析可知，它是调用ScrapyAgent类来处理具体的HTTP或HTTPS的协议来下载网页数据。如下调用过程： ![wat

喜欢ヅ旅行/ 2023年01月23日 12:47/ 0 赞/ 14 阅读

相关爬虫日记(89)：Scrapy的DownloadHandlers类

前面分析了下载器的整个源码，理解了下载器的工作过程，在那里经常会遇到一个类，就是DownloadHandlers类，这个类主要用来对不同的下载协议进行管理的，比如文件协议和ht

旧城等待，/ 2022年10月19日 12:59/ 0 赞/ 179 阅读

相关爬虫日记(88)：Scrapy的Downloader类（三）

接着下来我们来分析下载的过程以及数据返回之后的处理，在这个过程里要小心地安排处理的步骤，否则会比较容易出错。 ![watermark_type_ZmFuZ3poZW5naGV

迈不过友情╰/ 2022年10月18日 15:57/ 0 赞/ 186 阅读

相关爬虫日记(85)：Scrapy的ExecutionEngine类（一）

前面分析了Crawler类，这个类实现了爬虫创建和运行管理，同时也是一个爬虫的公共类，可以把这个类传送到各个类中去使用。紧接着就会把控制权交给下一个类ExecutionEngi

心已赠人/ 2022年10月17日 04:08/ 0 赞/ 151 阅读

相关爬虫日记(84)：Scrapy的Crawler类（一）

Crawler类是一个爬虫类，主要用来管理整个执行引擎ExecutionEngine类和蜘蛛类实例化。在分析这个类之前，我们先来看一下怎么样调用这个类的，代码如下： ![20

布满荆棘的人生/ 2022年10月16日 09:42/ 0 赞/ 203 阅读

相关爬虫日记(83)：Scrapy的CrawlerProcess类（一）

前面学习了Twisted的基础知识了，接着回过头来再看整个Scrapy程序，在执行 Scrapy 命令时，主要经过以下几步： 1）调用 cmdline.py 的 execut

ゝ一纸荒年。/ 2022年10月16日 01:49/ 0 赞/ 226 阅读

相关爬虫日记(88)：Scrapy的Downloader类（二）

接着下来，我们来分析Downloader类的初始化过程，以及相关的数据结构，这样才能明白它具体做了些什么事情。 ![watermark_type_ZmFuZ3poZW5naG

太过爱你忘了你带给我的痛/ 2022年10月13日 15:51/ 0 赞/ 161 阅读

相关爬虫日记(88)：Scrapy的Downloader类（一）

从前面的分析我们知道，当下载的连接URL去重之后，就需要把URL放到下载器里进行下载，这样才会得到网页相关的数据，比如HTML、图片、脚本等等。然后我们根据网页再来抽取相关的数

缺乏、安全感/ 2022年10月10日 15:57/ 0 赞/ 215 阅读

相关爬虫日记(87)：Scrapy的RFPDupeFilter类(一）

前面已经分析了调度器的入队代码，在这里会调用RFPDupeFilter类的功能，用来判断两个下载的url请求是否相同，如果相同，并且参数设置为去重时，就会不再下载，这样避免了重

Bertha 。/ 2022年10月06日 15:53/ 0 赞/ 173 阅读

相关爬虫日记(86)：Scrapy的Scheduler类（一）

前面学习过了引擎类，明白整个引擎的工作过程，在引擎里要调用调度管理类，这样才能够把请求下载进行去重，或者优先下载等功能实现。现在我们就来分析这个类的实现，以便完全理解调度管理类

野性酷女/ 2022年10月05日 01:57/ 0 赞/ 153 阅读