爬虫日记(84)：Scrapy的Crawler类（三）

刺骨的言语ヽ痛彻心扉 2022-10-16 12:26 232阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，232人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫日记(91)：Scrapy的ScrapyAgent类

从前面的HTTP11DownloadHandler类分析可知，它是调用ScrapyAgent类来处理具体的HTTP或HTTPS的协议来下载网页数据。如下调用过程： ![wat

喜欢ヅ旅行/ 2023年01月23日 12:47/ 0 赞/ 14 阅读

相关爬虫日记(89)：Scrapy的DownloadHandlers类

前面分析了下载器的整个源码，理解了下载器的工作过程，在那里经常会遇到一个类，就是DownloadHandlers类，这个类主要用来对不同的下载协议进行管理的，比如文件协议和ht

旧城等待，/ 2022年10月19日 12:59/ 0 赞/ 179 阅读

相关爬虫日记(88)：Scrapy的Downloader类（三）

接着下来我们来分析下载的过程以及数据返回之后的处理，在这个过程里要小心地安排处理的步骤，否则会比较容易出错。 ![watermark_type_ZmFuZ3poZW5naGV

迈不过友情╰/ 2022年10月18日 15:57/ 0 赞/ 186 阅读

相关爬虫日记(85)：Scrapy的ExecutionEngine类（三）

接着下来我们来分析\_next\_request\_from\_scheduler函数，这个函数主要实现从调度器里获得下载请求，然后把请求下载再放到下载器里去下载。实现这部分的

た入场券/ 2022年10月18日 00:50/ 0 赞/ 158 阅读

相关爬虫日记(84)：Scrapy的Crawler类（三）

前面完成Crawler类的构造函数分析，接着下来我们来分析这个类的第一个开始调用的函数，Crawler类被创建之后，就会立即调用crawl函数，代码如下： class Cra

刺骨的言语ヽ痛彻心扉/ 2022年10月16日 12:26/ 0 赞/ 233 阅读

相关爬虫日记(84)：Scrapy的Crawler类（二）

spidercls是一个蜘蛛类，比如这里是<class 'ItemDemo.spiders.quotes.QuotesSpider'>内容，self.settings是前面加载

我就是我/ 2022年10月16日 09:58/ 0 赞/ 205 阅读

相关爬虫日记(84)：Scrapy的Crawler类（一）

Crawler类是一个爬虫类，主要用来管理整个执行引擎ExecutionEngine类和蜘蛛类实例化。在分析这个类之前，我们先来看一下怎么样调用这个类的，代码如下： ![20

布满荆棘的人生/ 2022年10月16日 09:42/ 0 赞/ 203 阅读

相关爬虫日记(83)：Scrapy的CrawlerProcess类(三）

前面完成了CrawlerRunner类构造函数的分析，接着从哪里继续开始呢？我想应该按顺序执行的主线来进行，可以从之前运行的命令里看到执行下面的函数： class Comma

Bertha 。/ 2022年10月16日 07:14/ 0 赞/ 156 阅读

相关爬虫日记(88)：Scrapy的Downloader类（一）

从前面的分析我们知道，当下载的连接URL去重之后，就需要把URL放到下载器里进行下载，这样才会得到网页相关的数据，比如HTML、图片、脚本等等。然后我们根据网页再来抽取相关的数

缺乏、安全感/ 2022年10月10日 15:57/ 0 赞/ 214 阅读

相关爬虫日记(86)：Scrapy的Scheduler类（三）

前面已经分析过入队的情况，进入队列时，会根据请求的内容来生成一个数字指纹，如果两个数字指纹一样，那么就可以丢掉这个请求，这样就可以防止重复的请求，这样可以提高效率。接着下来，我

绝地灬酷狼/ 2022年10月06日 12:45/ 0 赞/ 144 阅读