厦门市集美区租房分析

2020/02/21 posted in  项目

数据获取

数据来源基于贝壳租房,搜索集美区得到的数据(数据来源:https://xm.zu.ke.com/zufang/rs%E9%9B%86%E7%BE%8E%E5%8C%BA/)

本文利用web scraper 爬取网页数据。web scraper是一款浏览器插件,进行简单调试,可对浏览网页数据进行一定程度的获取。本文利用qq浏览器+web scraper插件对数据进行获取。

创建sitemap

注意的是集美区房屋数据总计82页,尝试跳转页面之后发现页面参数在地址栏的位置,对其进行修改。(https://xm.zu.ke.com/zufang/jimei/pg[1-82]rs%E9%9B%86%E7%BE%8E%E5%8C%BA/#contentList)

选择包含要素element

获取多数据情况,可以选择需要获取数据的element,再在element选项下,筛选合适的数据。

选择需要的元素内容

筛选出需要分析字段,预览格式有效保存好字段选项。

scrape

爬取格式见上图,点击sitemap下的scrape,开始获取数据,获取完全部数据将数据存为csv下载,到本地。

beike.csv

清洗数据

下载完数据打开格式如图,用excel打开对数据进行清理,总计2342行数据,同检索到结果相同。

筛选数据

web-scraper-order,及web-scraper-start-url数据是获取数据过程中生成数据,对后续分析显著作用,予以剔除。

数据分列

1. title

title下的数据包含租房方式,小区,具体位置,以及房间朝向情况,利用excel表格分类,分割符号:·对租房方式及其他选项分列,余下字段利用空格进行分裂即可。

2. detail

detail字段下,包含字段信息较多,首先利用查找替换,将数据中存在换行符(ctrl+j)予以替换,依次分列出区域,具体位置,面积,朝向,房间,楼层字段。

数据一致化

剔除重复列的字段,对于将价格,面积,楼层数转化为数值,其中,部分地下室楼房缺少楼层信息,补充标注为1。

清洗完的数据如图所示:

清洗.xlsx

数据可视化

可视化.twb

总体租房方式以整租为主,少量房源为合租房。

总体平均租房面积为91.51平方米,其中杏西房源相对平均面积较高,高达127.67平方米,而环海东寓房源面积53.81平方米,相较较低。

房子朝向大多符合传统的“背北朝南”,阳光及通风较好。

将各区域的房价,楼层情况,及平均月租价格来看,杏林桥头的总体水平处在较高层面。租房可以参照上图看价格合理情况。

最后,各租房的平均单位租金进行分析来看,如果你在贝壳租房上找到合适的房子入住,平均你的一个垃圾桶一个月最低要花费你9.09元的租金。

清洗