一、通过网络机器人(爬虫)抓取对国内主要二手房网站内容,遵守robots.txt协议。对抓取后网页内容进行分析后入库。
二、国内主要房产网站包括:搜房网,赶集网,58同城,房王网,我爱我家,中原地产。
三、爬取内容主要有
1,二手房源详细信息,含图片。
2,小区详细信息,含图片。
3,经纪人概况。
4,部分其他辅助信息
四、可以设定目标网站,定时执行爬取工作;可以每天进行增量爬取。
五、抓取的统计信息,成功失败信息记录。
六、数据库采用mysql。
七、项目完成后提交易读的含注释的程序源码,数据库设计,软件使用说明。
八、应标者请按所网站分别报价。本包为定向发布,未受邀请者无入。