智城识别ID 71012
承接项目数 0
好评率 0%
会员 1级
总收入 ¥ 0RMB
保证金 0 RMB
拥有技能 Jme C++ Flash Java Flex CNet BerkeleyDB Android Qt Html5

案例

Zhuzhi
9 年多前上传

开发周期 : 2 周
项目报价 : ¥8,000-¥10,000

文本分析文章主题思想提取

系统采用核心技术为分词以及词权重计算,采用的分词为自定义正向最大匹配与逆向最大匹配算法,采用隐含马尔科夫模型,依据中文的人名概率,地名概率判断实体词,同时根据定期抓取搜狗细胞词库与百度热词扩充词典,对于新词热词的更新速度较快(一天以内).
使用修正的TF/IDF算法,通过计算100万篇新闻得到基础预料词库的词权重,将词权重存储与BDB类KV数据库,词语量在二十万左右,同时通过每天抓取新浪搜狐,网易,腾讯新闻,扩充语料库,并定期重新计算TF/IDF词权重.

Zhuzhi
文本分析文章主题思想提取