1. 图形化的采集任务定义界面 只需在浏览器内用鼠标点选你要采集的网页内容即可配置采集任务
2. 内容定位方式支持结构定位和相对标志定位,1)用户只需用鼠标点击就可以配置采集任务,实现所见即所得的采集任务配置界面;2)网页内容的变化(如文字增减、变更,文字颜色、字体的变化等)不会影响采集的准确性
3. 支持任务嵌套,可采集无限级的页面内容 只需在当前任务的页面中选择指向你要采集的下级页面的链接,即可建立嵌套任务,采集下级页面的内容,且嵌套级数不限。这种便利都得益于我们全新的内容定位方式和图形化的采集任务配置界面。
4. 可同时采集任何内容 除了最基本的文字、图片、文件外,还可以采集针对具体HTML标签的源码、属性值等。
5. 强大的信息自动再加工能力 你可以在配置任务的时候,指定对采集到的内容进行任何的替换、筛选。
6. 可对采集到的内容进行自动排序
7. 支持采集结果保存到EXCEL和任意格式的文件 支持自定义文件模板。
8. 支持实时保存到数据库 支持SQLite/MYSQL等数据库。
9. 支持实时上传到网站服务器 支持POST和GET方式,可自定义上传参数,模拟人工提交
10. 支持实时保存到任意格式的文件 支持自定义模板,支持按记录保存和将多个记录保存到单个文件,支持大纲、明细式的保存(所有记录的某些内容保存到一个大纲文件中,然后每条记录又单独保存到一个文件。
11. 支持多种灵活的任务调度方式,实现无人值守采集
12. 支持多任务,支持任务导入和导出
13. 基于Java Nutch或者Python Scrapy等跨平台技术开发
14. B/S架构,提供web管理界面,界面要求简洁大方,易于操作
14.提供一年左右的服务支持
15.提供相关设计文档和源代码
.....