所有软件外包项目 Gray arrow bg 开发基于Webkit浏览器内核的网络爬虫

开发基于Webkit浏览器内核的网络爬虫

发包方 : Jhonepeter 状态 :竞标已结束
项目编号 : 219728
项目预算 : 竞标出价
开发周期 : 30 天
技能 : C++
发布日期 : 2016-03-18
竞标后显示联系方式

描述

需求内容:
基于Webkit浏览器内核的网络爬虫。
Linux或Windows下面可以使用命令调用。

需求目标:
1.动态解析网页中的链接,包括JavaScript中的动态请求地址
2.模拟用户点击事件,需要根据特定url录制点击事件流程任务
3.分级保存捉去到的url地址,可以设置深度,保证广度优先

需求描述:
因为现在是web2.0时代,绝大部分网页都会使用javascript处理页面,而且很多网页内容都是通过Ajax技术加载的。因此,只是简单地解析HTML文件会远远不够。而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不完整的。在默认的情况下,爬虫是抓取不到这些Ajax生成的内容的,这时候要想获取就必须调用浏览器的内核引擎来下载这些动态页面。我们选用WebKit: Safari和Chrome的内核,性能你懂的,在真实场景中还是以它为主。

必须解决的问题:

1.静态页面链接分析提取。
2.Javascript动态解析。利用Webkit内核执行以上Javascript代码生成出以下HTML代码,再通过静态页面链接分析获取URL。
3.交互分析,要模仿出人的行为,例如点击鼠标,按下回车键等。并且设计录制保存流程任务。
4.Hook所有的网络请求, 修改webkit代码hook住每一个由webkit发送出去的请求,并保存URL。
5.服务器端使用,使用虚拟视窗系统,不能有人机交互。Linux或Windows下面可以使用命令调用。

竞标

请您先登录,然后提交此项目的竞标方案。
还不是智城用户? 智城期待您的加入,请注册成为我们的一员吧!
Project ad2