一、通过网络机器人(爬虫)抓取对国内主要二手房网站内容,遵守robots.txt协议。对抓取后网页内容进行分析后入库。
二、国内主要房产网站包括:搜房网,安居客,新浪乐居,赶集网,58同城,房王网,链家地产,我爱我家,中原地产,满堂红地产,裕丰地产。
三、爬取内容主要有
1,二手房源详细信息,含图片。
2,小区详细信息,含图片。
3,经纪人概况。
4,部分其他辅助信息
四、可以设定目标网站,定时执行爬取工作;可以每天进行增量爬取。
五、抓取的统计信息,成功失败信息记录。
六、采用c++编程,运行环境win8,数据库采用mysql。
七、项目完成后提交易读的含注释的程序源码,数据库设计,软件使用说明。
八、应标者请按所网站分别报价。