所有软件外包项目 Gray arrow bg python搜索引擎系统开发

python搜索引擎系统开发

发包方 : Chaidan 状态 :火热竞标中
项目编号 : 229197
项目预算 : 竞标出价
开发周期 : 30 天
技能 : Python
类别 : -
发布日期 : 2019-04-19
竞标后显示联系方式

描述

搜索引擎系统主要分为三部分:信息采集模块、基于系统插件结构的主题过滤模块和基于ApacheSolr索引服务器的中文分词预处理模块。网络爬虫模块负责根据要爬虫的网页的URL集(预取列表)进行网页爬虫。在爬行过程中,提取并分析页面的脚本内容,用正则表达式匹配Ajax请求。如果包含Ajax请求,则使用htmlUnit来处理当前页面,以便在完成页面中获取JS的所有静态页面。主题过滤模块主要基于朴素贝叶斯算法,结合系统插件构建的特殊机制,实现主题过滤功能,达到主题爬虫的效果。信息预处理模块是将存储的Web内容解析为字段并将其转换为最基本的索引表示单元项(term)的过程。针对系统本身是面向英语的特点,在系统中添加中文分词插件,更好地实现检索策略的本质“关键词匹配”,然后建立反索引,对过滤后的词汇单元进行分析,达到快速检索信息的目的

项目竞标

接包方 国家/地区
拥有案例
10
Bestpartner
成都市
拥有案例
5
Xisou
上海市
用户在智城存有保证金 拥有案例
5
Ittray
广州市
拥有案例
4
York_li
上海市
通过实名认证
1
Hain
北京市
通过实名认证 拥有案例
1
Trenshion
上海市

竞标

请您先登录,然后提交此项目的竞标方案。
还不是智城用户? 智城期待您的加入,请注册成为我们的一员吧!
Project ad2