Scrapy第四篇：复杂的起始start_urls和采集遗漏问题

傷城~ 2024-04-08 08:38 51阅读 0赞

#### 1.复杂的start\_urls。 ####

有时候我们的起始url并不是单纯的url数组，可能是从数据库读取，可能是从文件中读取，也可能是通过requests访问远程API获取的。这时候就无法使用start\_urls = \[\]的形式了。需要采用一下方式：（以读取文件为例）

def start_requests(self):
            self.urls = []
            with open('D:\Java\program\myscrapy\hot\hot\htmls.txt', 'r') as f:
                self.urls = f.readlines()
     
            for url in self.urls:
                time.sleep(2)
                yield scrapy.Request(url=url, callback=self.parse)

#### 2.采集遗漏 ####

①Request中加入参数，主爬虫文件中的parse方法的请求函数中加入参数：dont\_filter=True

yield scrapy.Request(next_path, dont_filter=True, callback=self.parse)

②修改Setting.py文件

# 解决爬取遗漏问题
    AUTOTHROTTLE_ENABLED = True

③删除allowed\_domains。有时候是被限制域给过滤掉了。

![61366b3c5cad46f2bb7413ac2d338988.png][]

#### 3.创建请求的快捷方式 ####

普通形式： （不支持相对路径）

yield scrapy.Request(next_page, callback=self.parse)

快捷方式：（支持相对路径）

yield response.follow(next_page, callback=self.parse)

yield from response.follow_all(anchors, callback=self.parse)

[61366b3c5cad46f2bb7413ac2d338988.png]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/08/9518d089a22d49b3967d55c85b68c3d3.png

发表评论取消回复

表情：

评论列表（有 0 条评论，51人围观）

还没有评论，来说两句吧...

相关阅读

相关 Scrapy第三(①)篇：安装Scrapy

1.安装前提是已经安装了Anaconda[Scrapy第二(①)篇python环境之依赖管理器Anaconda(python3.9)\_苍穹之跃的博客-CSDN博客![

曾经终败给现在/ 2024年04月08日 10:27/ 0 赞/ 111 阅读

相关 Scrapy第十四篇：数据压缩lzma算法

html是大量的文本内容，压缩存储会大大减少磁盘使用量，这里介绍一下zma压缩算法。使用方式如下实例： import lzma import req

向右看齐/ 2024年04月08日 09:46/ 0 赞/ 119 阅读

相关 Scrapy第八篇：数据存储（scrapy融合peewee）

目录 1.安装依赖 2.构建模型：编辑items.py 3.传入数据：编辑Spider.py 4.保存数据：修改pipelines.py 5.开启管道：修改sett

约定不等于承诺〃/ 2024年04月08日 08:41/ 0 赞/ 92 阅读

相关 Scrapy第四篇：复杂的起始start_urls和采集遗漏问题

1.复杂的start\_urls。有时候我们的起始url并不是单纯的url数组，可能是从数据库读取，可能是从文件中读取，也可能是通过requests访问远程API获取的

傷城~/ 2024年04月08日 08:38/ 0 赞/ 52 阅读

相关 Scrapy第三(②)篇：创建scrapy项目

1.创建项目新建存放项目的文件夹scrapyproject，并黑窗口cd到该文件夹下：创建项目 scrapy startproject 项目名称 ![3

野性酷女/ 2024年04月08日 08:25/ 0 赞/ 111 阅读

相关 SpringCloud篇---第四篇

系列文章目录 -------------------- 文章目录系列文章目录一、说说 RPC 的实现原理二、eureka自我保护机制是什么

我不是女神ヾ/ 2024年02月20日 12:45/ 0 赞/ 102 阅读

相关 Git篇---第四篇

系列文章目录 -------------------- 文章目录系列文章目录前言一、什么是git stash drop？二、如何找

淩亂°似流年/ 2024年02月05日 14:19/ 0 赞/ 94 阅读

相关 tomcat篇---第四篇

系列文章目录 -------------------- 文章目录系列文章目录前言一、为什么我们将tomcat称为Web容器或者Servle

╰+攻爆jí腚メ/ 2024年02月05日 13:39/ 0 赞/ 86 阅读

相关第四个知识点 P类复杂问题

第四个知识点 P类复杂问题原文地址：[http://bristolcrypto.blogspot.com/2014/10/52-things-number-4-comp

悠悠/ 2023年08月17日 16:12/ 0 赞/ 96 阅读

相关解决scrapy框架下数据采集遗漏问题

setting.py: 解决爬取遗漏问题 AUTOTHROTTLE_ENABLED = True Request中加入参数，主爬虫文件中的parse方法的

叁歲伎倆/ 2022年10月08日 02:25/ 0 赞/ 190 阅读