基于python+scrapy的租房信息数据展示系统 旧城等待, 2024-04-01 13:59 56阅读 0赞 目 录 摘 要 I ABSTRACT II 1 绪论 1 1.1 研究背景及需求分析 1 1.2 国内外研究现状 2 1.2.1 爬虫技术概述 2 1.2.2 爬虫设计者面临的问题与反爬虫技术现状 4 1.3 研究目标及研究内容 6 1.4 论文的整体结构 7 1.5 本章小结 7 2 相关理论及技术 8 2.1 robot协议对本设计的影响 8 2.2 爬虫 8 2.2.1 工作原理 8 2.2.2 工作流程 8 2.2.3 抓取策略 9 2.3 python发展现状 9 2.5 scrapy架构 10 2.5.1 scrapy:开源爬虫架构 10 2.6 MongoDB数据库 13 2.6.1 NoSQL数据库介绍 13 2.6.2 MongoDB数据库介绍 13 2.7 python web框架Django 14 2.7.1 Django框架介绍 14 2.7.2 MTV模式 14 2.7.3 ORM模式 14 2.7.4 template模板语言 14 2.7.5 Django工作机制 15 2.8 semantic UI开发框架 15 2.8.1 semantic介绍 15 2.8.2 semantic开发 16 2.9 高德地图API 16 2.10 本章小结 16 3 系统分析与设计 17 3.1 系统分析 17 3.1.1 系统功能 17 3.1.2 爬取对象分析 17 3.1.3 模块设计 18 3.2 数据流 19 3.3 系统总体逻辑层次 20 3.4 本章小结 21 4 爬虫与数据存储、展示的具体实现 22 4.1 爬虫模块 22 4.1.1 环境搭建与前期分析 22 4.1.2 爬虫规则预处理模块 23 4.1.3 数据抓取模块 24 4.1.4 数据存储模块 29 4.1.5 反反爬虫模块 30 4.2 数据库设计 34 4.2.1 数据库环境搭建 34 4.2.2 数据库表设计 35 4.3 数据展示模块 35 4.3.1 django环境搭建 35 4.3.2 前端UI模块 37 4.3.3 网页架构搭建模块 39 4.3.4 前端与数据库连接模块 41 4.3.5 地图展示模块 42 4.4 开启Django服务器 43 4.5 成果展示 43 4.6 本章小结 45 5 系统测试 46 5.1 测试环境及工具 46 5.2 系统功能性测试 46 5.2.1 数据爬取功能测试 46 5.2.2 数据展示测试 49 5.3 系统非功能性测试 49 5.4 本章小结 49 6 总结与展望 50 参考文献 51 致谢 52 附录一 外文文献(原文) 53 附录二 外文文献(译文) 59 1.3 研究目标及研究内容 本系统的研究目标为: 1.对国内外网络爬虫技术与反爬虫技术研究现状、网络协议及协议运行相关技术等背景知识进行了解,对国内网租房市场进行调查了解; 2.研究学习scrapy爬虫架构及非结构化数据库相关技术; 3.分析目标用户人群对房屋租赁信息的业务需求,结合市面上房屋租赁信息平台的特点,设计整个系统的数据流动方式、设计多个框架之间相互协作的业务流程; 4.针对部分网页的反爬取策略,采用反反爬虫技术,完成对房屋租赁网站信息的获取; 5.结合房屋租赁信息的数据特点,对爬取到的房屋租赁数据进行合理的处理,并且利用非关系数据库MongoDB设计实现数据存储,为数据展示提供必要的数据支持; 6.研究学习web框架Django,完成网站搭建,学习semantic UI编写网页界面,使用列表形式或地图形式完成数据展示; 6.对该系统进行功能性与非功能性测试,验证系统的可用性; 7.总结所做的工作,对进一步的研究工作作出展望。 本系统实现了一个房屋租赁信息爬取与数据展示系统。首先通过python开源爬虫框架scrapy对目标房屋租赁信息网站进行爬取,包括58同城、安居客、107间房、我爱我家网、房天下、列表网、58同城移动端等,依据不同网页的不同特性选择不同的爬取策略,编写爬虫代码,过滤并抽取所需出租房源信息,建立以城市为区分的房源信息数据库。数据库部分采用非结构化数据库MongoDB,避免网上信息的非结构性对数据存储的影响。然后采用python开源网站搭建框架Django完成对爬取到的租房信息的web端展示。除此之外,本系统采用高德地图API提供的“坐标拾取器”功能完成位置信息与经纬度之间的转换,并将爬取到的数据可视化展示在地图上,一并展示于前端页面。在爬虫部分,除了对房屋租赁信息的爬取外,还实现了对网上免费代理的爬取、存储、有效性验证与维护。本系统还涉及到的技术有:MongoDB与scrapy框架的集成,MongoDB与Django框架的集成,semantic UI快速html5界面开发等。 1.4 论文的整体结构 本论文共由六章组成,各章节安排如下: 第一章绪论,说明了该系统开发的可行性与现实应用意义,介绍了爬虫技术及反爬虫技术的发展现状,介绍了开发该系统所预期达到的目标及所需做的工作。 第二章对系统中涉及到的相关技术进行了介绍,并说明了相关技术在本系统中的作用。如Robot协议等,其中着重对爬虫架构scrapy、非结构化数据库MongoDB、开源网站框架Django进行了介绍。 第三章为系统分析与设计,本章对所要完成的系统进行了整体分析设计。分析了系统所要实现的功能,设计出总体架构,对其进行细分,分成各个模块,然后对各个模块进行了介绍。 第四章为系统设计实现与成果展示,本章编写代码实现了爬虫,对数据库进行了设计,并完成了数据展示模块。本文转载自http://www.biyezuopin.vip/onews.asp?id=11779最后对本系统的运行成果进行了展示。 第五章系统测试。本章对整个系统进行测试,包括对测试环境的描述,对系统的功能性测试和非功能性测试。 第六章总结与展望,本章对系统进行总结,并总结了开发过程中的一些所思所想。然后对本系统的进一步研究方向进行了展望。 { % load static %} <html> <head> <meta charset="UTF-8"> <title>欢迎来到我的数据展示系统</title> <link href="{% static 'css/semantic.css' %}" rel="stylesheet"> <script src="{% static 'js/jquery.min.js' %}"></script> <script src="{% static 'js/semantic.js' %}"></script> </head> <body> <div class="ui inverted vertical masthead center aligned segment header" style="width: 100%;height: 15%" > <div class="ui container"> <div class="ui large secondary inverted pointing menu"> <i class="toc item"><i class="sidebar icon"></i></i><a href="http://127.0.0.1:8000/index" class="active item">Home</a> <div class="right item"> <button class="ui inverted button"><a href="http://127.0.0.1:8000/indexen">English</a></button> <button class="ui inverted button"><a href="http://127.0.0.1:8000/indexch">中文</a></button> </div> </div> </div> </div> { % block index_header %} { % endblock %} { % block content %} { % endblock %} <div class="ui black inverted vertical footer segment"> <div class="ui center aligned container"> <div class="ui stackable inverted grid"> <div class="three wide column"> <h4 class="ui inverted header">友情链接</h4> <div class="ui inverted link list"> <a class="item" href="http://ty.58.com/" target="_blank">58同城</a> <a class="item" href="https://ty.5i5j.com/" target="_blank">我爱我家</a> <a class="item" href="http://www.107room.com/" target="_blank">107房间</a> <a class="item" href="https://ty.anjuke.com/" target="_blank">安居客</a> <a class="item" href="http://taiyuan.fang.com/?s=BDPZ-BL" target="_blank">房天下</a> <a class="item" href="http://taiyuan.liebiao.com/" target="_blank">列表网</a> </div> </div> <div class="five wide column"></div> <div class="three wide column"> <h4 class="ui inverted header">联系我</h4> <div class="ui inverted link list"> <img src="{% static 'images/wechat.jpg' %}" style="height: 130px;width: 130px"> </div> </div> </div> <div class="ui inverted section divider"></div> <div class="ui horizontal inverted small divided link list"> @2018-from-hongyi mail hongyi_2015@hotmail.com </div> </div> </div> </body> </html> ![在这里插入图片描述][3f274593262a46a3a47175b1c1834c9d.png_pic_center] ![在这里插入图片描述][99a43284829d40d7904799c66d350514.png_pic_center] ![在这里插入图片描述][83294d6d3a654ef19687ebef15d1b278.png_pic_center] ![在这里插入图片描述][ce457c77050440c1ad14e71004b15317.png_pic_center] ![在这里插入图片描述][3e88f08fe40e48c7b74bc0e139a5fbf6.png_pic_center] ![在这里插入图片描述][d5ba9f5602bc41978ccd97cf2f9248de.png_pic_center] ![在这里插入图片描述][8da41b11f829477c9ef48046a4e3e9e0.png_pic_center] ![在这里插入图片描述][f7feae4e26fe42dab0b79c1714df9d40.png_pic_center] ![在这里插入图片描述][19c99409c0be4fb6ad918b4c362ad972.png_pic_center] ![在这里插入图片描述][f9b9d5b92fe04bbdb316dbf8884b999b.png_pic_center] ![在这里插入图片描述][bcfa57399c27474eab63d72cde119eed.png_pic_center] ![在这里插入图片描述][d3558cfbdd43475bb84d04215d1b5aaa.png_pic_center] ![在这里插入图片描述][5b84d6f8609c4f8da2f441cd8a529316.png_pic_center] ![在这里插入图片描述][7d5c550116c844818bf6dca6ac63bb41.png_pic_center] ![在这里插入图片描述][fb4b4a256d9d4328b941442379a3068b.png_pic_center] ![在这里插入图片描述][78fd8c08467c4716b089136f5eb42cdc.bmp_pic_center] ![在这里插入图片描述][04f7223f551640bf929b3a46bed3d522.png_pic_center] ![在这里插入图片描述][b8ab7f3658f14cbab60d2a9608d59071.bmp_pic_center] ![在这里插入图片描述][9f65fc373bcc46a4a315078f929da156.png_pic_center] ![在这里插入图片描述][e5d43d51073d4536872cb7ba262a24a2.png_pic_center] ![在这里插入图片描述][b769b329f21c4d2d9862138ba6d2eda4.png_pic_center] ![在这里插入图片描述][1c6f100002134ebeaa62fdd42efdab9f.png_pic_center] ![在这里插入图片描述][f2ea656f753045a4ac2c1fe32d93cc29.png_pic_center] [3f274593262a46a3a47175b1c1834c9d.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/98f631cafa9a493183eb6511b69a9325.png [99a43284829d40d7904799c66d350514.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/4bfd28681c3f4158877221bcc5413ee2.png [83294d6d3a654ef19687ebef15d1b278.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/5b31d9a9c9814d708504825a8a614ddf.png [ce457c77050440c1ad14e71004b15317.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/941092ac2d2d4ad19975ba289a64508c.png [3e88f08fe40e48c7b74bc0e139a5fbf6.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/9e5bbd030a7d41bebbf829a0bc7c7f95.png [d5ba9f5602bc41978ccd97cf2f9248de.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/2c8e8f142321447ca4d64604a30eb801.png [8da41b11f829477c9ef48046a4e3e9e0.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/682a4144e8b14b34bc5d0fdfab551d3d.png [f7feae4e26fe42dab0b79c1714df9d40.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/4d5c6890cbb8451c924e14a452c5310d.png [19c99409c0be4fb6ad918b4c362ad972.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/ab22cab7ebb945799d279cc24cbb94c5.png [f9b9d5b92fe04bbdb316dbf8884b999b.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/c4de284681f648c19f9d03b1b572b5c4.png [bcfa57399c27474eab63d72cde119eed.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/2c345513a32f4889bde010c22ef65346.png [d3558cfbdd43475bb84d04215d1b5aaa.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/1cb968ffe27449719673edc4f7fb3c4a.png [5b84d6f8609c4f8da2f441cd8a529316.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/7352dfb8c7464e9c96b956a4b05f2e5a.png [7d5c550116c844818bf6dca6ac63bb41.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/889db41aa88c45899ffc781c36241c12.png [fb4b4a256d9d4328b941442379a3068b.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/8b09cec9648c4e7a98d9aef9a9f791d1.png [78fd8c08467c4716b089136f5eb42cdc.bmp_pic_center]: https://img-blog.csdnimg.cn/78fd8c08467c4716b089136f5eb42cdc.bmp#pic_center [04f7223f551640bf929b3a46bed3d522.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/ed6754d80be84581ab3d547a92b675db.png [b8ab7f3658f14cbab60d2a9608d59071.bmp_pic_center]: https://img-blog.csdnimg.cn/b8ab7f3658f14cbab60d2a9608d59071.bmp#pic_center [9f65fc373bcc46a4a315078f929da156.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/895b57bbdfaf4080a260a89c78009be0.png [e5d43d51073d4536872cb7ba262a24a2.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/c641a32470da4d538a4b9ed6fe3182d3.png [b769b329f21c4d2d9862138ba6d2eda4.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/895aa79eb80b44c39d94c9f0d9b67122.png [1c6f100002134ebeaa62fdd42efdab9f.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/806a50fc02054623aa3a376fc1319fd3.png [f2ea656f753045a4ac2c1fe32d93cc29.png_pic_center]: https://image.dandelioncloud.cn/pgy_files/images/2024/04/01/31fb614afa4547cabb50dc25b623b1e3.png
相关 基于python+scrapy的租房信息数据展示系统 目 录 摘 要 I ABSTRACT II 1 绪论 1 1.1 研究背景及需求分析 1 1.2 国内外研究现状 2 1.2.1 爬虫技术概述 2 旧城等待,/ 2024年04月01日 13:59/ 0 赞/ 57 阅读
相关 基于java租房看房预约系统设计与实现 【用户功能模块】 (1)登录功能:注册普通账号登录;登录后可以修改用户的基本信息,也可以退出。 (2)浏览资讯:浏览网站管理发布的资讯,可以评论,评论后需要管理员审核和查看 我会带着你远行/ 2024年03月24日 11:34/ 0 赞/ 68 阅读
相关 基于JAVA中药材信息展示平台系统 毕业设计开题报告 > 博主介绍:《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 > 所有 痛定思痛。/ 2024年02月19日 11:59/ 0 赞/ 62 阅读
相关 基于web的画作展示系统/作品展示平台 摘 要 网络的广泛应用给生活带来了十分的便利。所以把画作展示系统与现在网络相结合,利用JSP技术建设画作展示系统,实现画作展示系统的信息化。则对于进一步提高画作展示系统的发展 我会带着你远行/ 2023年10月16日 17:14/ 0 赞/ 12 阅读
相关 基于springboot的大学生租房系统源码论文数据库 3.1系统功能 现在无论是在PC上还是在手机上,相信全国所有地方都在进行大学生租房管理。随着经济的不断发展,系统管理也在不断增多,大学生租房系统就是其中一种,很多人会登录 刺骨的言语ヽ痛彻心扉/ 2023年10月09日 19:11/ 0 赞/ 24 阅读
相关 特色租房管理系统/租房管理系统/房屋租赁管理系统 摘 要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化 你的名字/ 2023年10月03日 20:14/ 0 赞/ 70 阅读
相关 基于SpringBoot框架的公寓租房管理系统的设计与实现 > 源码获取:私聊回复【SpringBoot、公寓租房】获取 > 更多选题参考: > [Java练手项目 & 个人学习等选题参考][Java_ _] 文章目录 迷南。/ 2023年09月23日 14:14/ 0 赞/ 64 阅读
相关 Python——租房信息数据分析 租房信息数据分析 1 题目:租房信息数据分析 2. 导入数据 3. 各行政区房源分布 4. 小区房源数量TOP10 Love The Way You Lie/ 2023年01月01日 15:59/ 0 赞/ 299 阅读
相关 深圳租房信息爬虫 考虑到以后可能会在深圳工作,所以写了这个爬虫,希望对自己的找房过程提供一些便捷。 信息来源是豆瓣的深圳租房小组(想爬取其他城市只需要更换一下URL就好)。 你们一定会说这么 叁歲伎倆/ 2021年09月29日 11:18/ 0 赞/ 349 阅读
还没有评论,来说两句吧...