项目要求
1.根据我列出的源词进行无限层的抓取
2.数据库进行去除重复
3.数据库存储(格式随便)
4.抓取间隔
5.并发数
6.在服务器上运行(环境 win2003或者win2008)
详细解释:
根据我给出的源词进行搜索。搜索后获取相关词。再以相关词进行抓取 以此无限循环。把抓取到的数据进行去重复。然后保存到本地(txt。mysql。格式的话随便) 可以设置抓取时间间隔的(秒)。并发需要高。软件是要在服务器上运行的环境是win2003或者win2008 开发语言不限 可以net c java 只要可以开发出来即可 对开发语言没有限制。
抓取的话是先把源词的相关词获取一遍 然后再无限层的抓取下去。
开发周期很快的 这软件不难 这只是第一个软件 接下来还有很多软件开发 一个月约开发1款 希望来个靠谱的长期合作的外包。
搜索引擎是搜狗。抓取限制我们自己解决。