在scrapy中，不过滤重复的请求

逃离我推掉我的手 2021-09-14 16:16 270阅读 0赞

Scrapy提供了一个内置的重复请求过滤器，用于根据网址过滤重复的请求。可以根据业务需求制定规则过滤重复的请求

## 基于url过滤重复的请求 ##

假设已访问过

http:://www.abc.com/p/xyz.html?id=1234&refer=4567

我想做的是过滤请求，如：

http:://www.abc.com/p/xyz.html?id=1234&refer=5678

通过编写自定义中间件以进行重复删除，并将其添加到设置中

import os
    
    from scrapy.dupefilter import RFPDupeFilter
    from scrapy.utils.request import request_fingerprint
    
    class CustomFilter(RFPDupeFilter):
    """A dupe filter that considers specific ids in the url"""
    
        def __getid(self, url):
            mm = url.split("&refer")[0] #or something like that
            return mm
    
        def request_seen(self, request):
            fp = self.__getid(request.url)
            if fp in self.fingerprints:
                return True
            self.fingerprints.add(fp)
            if self.file:
                self.file.write(fp + os.linesep)

然后在settings.py中添加如下代码

DUPEFILTER_CLASS = 'scraper.duplicate_filter.CustomFilter'

--------------------

## 不过滤重复任何请求 ##

若在 scrapy 中，不过滤任何 request 请求，可以自定义如下文件

from scrapy.dupefilter import RFPDupeFilter
    
    class CloseDupefilter(RFPDupeFilter):
        def request_seen(self, request):
            return False

然后在settings.py中添加如下代码

DUPEFILTER_CLASS = 'scraper.duplicate_filter.CustomFilter'

发表评论取消回复

表情：

评论列表（有 0 条评论，270人围观）

还没有评论，来说两句吧...

相关阅读

相关如何避免在Python爬虫中常见的重复请求问题

在Python爬虫中，重复请求是一个常见的问题。这可能会导致资源耗尽，服务器的拒绝服务攻击（DoS）等风险。以下是一些避免重复请求的方法： 1. 使用Session或Cook

缺乏、安全感/ 2024年12月16日 05:06/ 0 赞/ 4 阅读

相关 .net 自动过滤重复的数组

.NET 中可以使用 LINQ(Language Integrated Query，语言集成查询)来自动过滤重复的数组。具体方法如下： 1. 首先将数组转换为一个 `IEn

「爱情、让人受尽委屈。」/ 2024年03月25日 17:26/ 0 赞/ 15 阅读

相关 scrapy过滤重复数据和增量爬取

[原文链接][Link 1] 前言这篇笔记基于上上篇笔记的---《[scrapy电影天堂实战(二)创建爬虫项目][scrapy]》，而这篇又涉及redis，所以又

谁践踏了优雅/ 2023年08月17日 17:48/ 0 赞/ 96 阅读

相关在scrapy中设置headers

现在的大部分网站都进行了反爬虫措施，比如知乎、猫眼和豆瓣等等。那么作为一个spider我们就要学会反反爬虫，而且这是反爬虫工程师和反反爬虫工程师之间的长期斗争，就像矛与盾谁更厉

太过爱你忘了你带给我的痛/ 2023年08月17日 16:22/ 0 赞/ 44 阅读

相关 axios过滤重复请求及批量取消请求

实现思路：把每次发送的请求及参数通过CancelToken创建标记添加到vuex的一个列表中，响应完成后从vuex的列表中删除该标记每次添加标记到列表时先与列表比

谁践踏了优雅/ 2023年02月18日 09:48/ 0 赞/ 18 阅读

相关爬虫日记(60)：Scrapy的过滤性管道

在开发爬虫的过程中，经常会遇到有一些内容不感兴趣、不需要的，这时候就需要使用过滤性的管道来处理。比如你去下载一些网店的数据，只对有价格显示的项有用，没有价格显示出来就没有办法处

心已赠人/ 2023年01月18日 04:14/ 0 赞/ 145 阅读

相关 sql 如何过滤重复记录

请各位大侠帮忙了问题1：对于以下几个记录 ID 123456 123123 123456 123456 123789 所有执行完SQL后

﹏ヽ暗。殇╰゛Y/ 2022年04月14日 02:08/ 0 赞/ 271 阅读

相关 scrapy请求队列：

Scrapy 如何获取 request 队列？最近由于在数据量比较大的抓取遇到了一些问题，就想看看运行时的request队列中的url有什么，可是google的很久也没

浅浅的花香味﹌/ 2022年04月13日 07:40/ 0 赞/ 155 阅读

相关 Flask中使用filter过滤，不在某个范围内

参考代码如下 try: objects = User.query.filter(~User.username.in_(["admin"

今天药忘吃喽~/ 2022年02月25日 07:22/ 0 赞/ 218 阅读

相关在scrapy中，不过滤重复的请求

Scrapy提供了一个内置的重复请求过滤器，用于根据网址过滤重复的请求。可以根据业务需求制定规则过滤重复的请求基于url过滤重复的请求假设已访问过 htt

逃离我推掉我的手/ 2021年09月14日 16:16/ 0 赞/ 271 阅读