浏览器之家


ICTCLAS2009版中文分词 2009

中国科学院盘算技巧研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),重要功效包含中文分词;词性标注;命名实体辨认;新词辨认;同时支撑用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009
用户词典接口扩大
用户可以动态增加、删除用户词典中的词,调节分词的后果。进步了用户词典应用的机动性。
分词粒度可调
可以把持分词成果的粒度。共享版本供给两种分词粒度,标准粒度和粗粒度,满足不同用户的需求。
词性标注功效加强
多种标注级的选择,系统可供选择的标注级有:盘算所一级标注级,盘算所二级标注集,北大一级标注集,北大二级标注集。
要害词提取
主动抽取出能很好地代表文档主题的若干个词或短语。要害词抽取技巧广泛利用于信息检索、文本分类/聚类、信息过滤、文档摘要等各种智能文本信息处理范畴,具有很好的利用价值。
指纹提取
根据文章的内容,结构,词语间的关系,分析出能够表现该文章的语义指纹,应用数字序列表现。

下载地址:

评论

没安装畅言模块