ideaseg 中文分词器
ideaseg
是 Indexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器,
包含了最新的模型数据。HanLP
相比其他诸如 IK
、jcseg
等分词器而言,在分词的准确率上有巨大的提升。
ideaseg
提供三种分词模式,分别是:
名称 | analyzer | 版本 | 说明 |
---|---|---|---|
标准中文分词 | ideaseg | v1.0 | 支持 NLP 技术的普通中文分词器 |
带拼音的中文分词 | ideaseg_pinyin | v1.0 | 在标准中文分词基础上增加拼音,同时保留原始的中文 |
支持多语种的中文分词 | ideaseg_multilang | v1.1 | 适配多语种的混合分词,要求不同语种的句子使用包括逗号、句号、分号等符号隔开,中文的词条同时包含拼音词条 |
你可以通过 Indexea 提供的『分词测试工具』来测试不同的分词器的效果,如下图所示:
如果你需要对包含多种语言混杂的内容进行索引,可以在创建索引或者重建索引时选择支持多语种混合的中文分词器,如下图所示: