所有软件外包项目 Gray arrow bg 爬虫开发(爬取几项大学信息)

爬虫开发(爬取几项大学信息)

发包方 : Dazedpuppy 状态 :竞标已结束
项目编号 : 213442
项目预算 : ¥8,000-10,000
开发周期 : 30 天
技能 : MySQL Java
发布日期 : 2014-11-11
竞标后显示联系方式

描述

我们现在需要若干程序员来开发爬虫,爬取国外院校的课程信息,包括院系、教授、时间、教室、学期起止时间。我们现在已经针对典型网页开发出脚本,所以之后的开发基本上只是微调。我们会发给你脚本。需要开发的爬虫数目有上千个。我们每个支付20元人民币。每个爬虫的开发时间其实非常短,我们现在人手不够,所以外包一部分。如果感兴趣的话,请加我QQ联系,22009568。

一、部署说明
1、创建数据库。执行seafish.sql文件,创建数据库。
2、配置数据库连接。修改jdbc.properties文件,配置数据库连接。
爬虫系统将爬虫任务,爬取的数据存存数据库中。目前两部分的数据存在不同的数据库中。后续可以将数据存入同一数据库。
3、配置casperjs路径,工作路径。修改common.properties,配置相关参数。
其中CMD指向本地casperjs.bat(casperjs为绿色软件,可放置在系统任意目录)
WKDIR是工作路径,包含多个文件夹。每个文件夹代表一个学校,以学校ID命名,包 括casperjs脚本,及爬取后的数据。
4、在数据库中,往main_task表中,插入任务数据,只需要指定学校ID。
5、执行 com.omar.entry.Main ,开始爬虫任务。
6、需要在系统环境变量path中,配置casperjs目录
例如:E:\projects\classbox\spider\n1k0-casperjs-cd1fab5\batchbin

二、代码说明
系统由以下几部分组成:
1、Spring容器,负责管理数据库连接、线程池、配置参数等资源管理。
2、ControlPanel,控制页面。负责Spring容器生成,对外提供静态的数据处理、爬虫任务管理等方法。
3、Spider,爬虫管理。负责爬虫任务生成(根据学期及院系生成独立的子任务)。并通过线程池,对任务进行调度。
4、Exec,爬虫执行者。负责调用casperjs,执行具体的爬虫任务,并反馈结果。
5、爬虫脚本:act_term 需要爬取的学期;class.js class爬取脚本;depart.js 院系爬取脚本;term.js 学期爬取脚本。

包说明:
1、resources 包含spring配置文件,及相关的配置文件。
2、entry 包含程序入口。
3、jpa 包含jpa代码,负责数据库操作。
4、model 包含数据库映射
5、work 包含爬虫任务管理,爬虫执行代码。
6、工作目录下的学校子目录。包含爬虫脚本,爬取后的数据。

项目竞标

接包方 国家/地区
通过实名认证 拥有案例
2
Weinilinyu
通过实名认证 拥有案例
1
Funeyu
通过实名认证 拥有案例
1
Momofish

竞标

请您先登录,然后提交此项目的竞标方案。
还不是智城用户? 智城期待您的加入,请注册成为我们的一员吧!
Project ad2