Skip to main content

ideaseg 中文分词器

ideasegIndexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据。HanLP 相比其他诸如 IKjcseg 等分词器而言,在分词的准确率上有巨大的提升。

ideaseg 提供三种分词模式,分别是:

名称analyzer版本说明
标准中文分词ideasegv1.0支持 NLP 技术的普通中文分词器
带拼音的中文分词ideaseg_pinyinv1.0在标准中文分词基础上增加拼音,同时保留原始的中文
支持多语种的中文分词ideaseg_multilangv1.1适配多语种的混合分词,要求不同语种的句子使用包括逗号、句号、分号等符号隔开,中文的词条同时包含拼音词条

你可以通过 Indexea 提供的『分词测试工具』来测试不同的分词器的效果,如下图所示:

analyzer tester

如果你需要对包含多种语言混杂的内容进行索引,可以在创建索引或者重建索引时选择支持多语种混合的中文分词器,如下图所示:

ideaseg_multilang