第3.3章 scrapy之spiderkeeper

不念不忘少年蓝@ 2022-05-22 12:52 219阅读 0赞

[SpiderKeeper Git地址][SpiderKeeper Git]， 因为我们有10台爬虫机器，250个爬虫，于是安排同事使用spiderkeeper管理，但是在deploy环节，50个爬虫的时候，就发布不上去了，逼的我没办法，只能看源码，分析upload做了什么。  
![1][]  
**1 调试准备**  
调试的环境我是windows，故执行`pip install scrapyd`进行安装，更改scrapyd的配置  
![2][]  
将`bind_address = 127.0.0.1`更改为`bind_address = 0.0.0.0`  
然后执行`scrapyd`启动，  
**2 spiderkeeper启动**  
配置了两台scrapyd  
![1][1 1]  
就可以发现有俩个实例  
![2][2 1]  
**3 创建project**  
创建project比较简单，通过下图操作添加就可以  
![1][1 2]  
而spider的产生，是通过定时任务进行的,源码默认的是每10s执行一次  
![2][2 2]  
![3][]  
那么这些爬虫任务来自哪里呢,跟踪发现他会从默认第一个sever中获取，发送listspiders.json请求，并将爬虫清单写入到sk\_spider中  
![4][]  
**4 egg上传**  
egg文件上传做了啥流程如下，最关键的就是通过addversion.json将egg远程发布，这个环节执行时间较长。参考[Scrapyd API][]说明  
![1][1 3]  
既然了解到原理，我就没必要通过egg上传的方式，费时费力，还启动不了。  
操作很简单，按照[第2.4章 远程部署scrapyd工程][2.4_ _scrapyd]，接着启动

nohup spiderkeeper --server=http://localhost:6800 --server=http://10.101.3.166:6800 --server=http://10.101.3.167:6800 --server=http://10.101.3.168:6800 --server=http://10.101.3.169:6800 --server=http://10.101.3.171:6800 --server=http://10.101.3.172:6800 --server=http://10.101.3.173:6800 --server=http://10.101.3.174:6800 --server=http://10.101.3.175:6800 &

spiderkeeper源码安装和卸载命令如下

python setup.py install --record files.txt 记录安装后文件的路径
    cat files.txt | xargs rm -rf  删除这些文件

[SpiderKeeper Git]: https://github.com/DormyMo/SpiderKeeper
[1]: /images/20220522/0ec665b8680a4a569081b14b5189a728.png
[2]: /images/20220522/fe673bfb40524f10bb662b5acee73400.png
[1 1]: /images/20220522/5653c40a7f8440e6bc37eb2e30b3e85c.png
[2 1]: /images/20220522/e1fb23d310b64340925faa1802d5b72e.png
[1 2]: /images/20220522/9f8ffdcd789c4df1a39e70adcbdab661.png
[2 2]: /images/20220522/bdeed654fa5a4353bce549579b0445aa.png
[3]: /images/20220522/7e6e171c21594340968c48141a184d15.png
[4]: /images/20220522/d6d560c342eb4147b6d6c9185e48e069.png
[Scrapyd API]: http://scrapyd.readthedocs.io/en/stable/api.html
[1 3]: /images/20220522/88c050f05e2248a7bfc349629d2e206e.png
[2.4_ _scrapyd]: https://blog.csdn.net/warrah/article/details/80771314