Personal tools
You are here: Home 社区项目 本地化项目 CJKSplitter
Document Actions

CJKSplitter

by 潘俊勇 last modified 2006-09-14 19:46

支持中日韩三语全文检索分词模块,采用二元分词算法

CJKSplitter - 中日韩三语全文检索分词模块

作者:潘俊勇 润普公司
状态:0.6版本已经完成

CJKSplitter 是一个基于ZCTextIndex支持中日韩三语的全文检索断字模块,他使用unicode存储索引书籍,使用了一个简单但可用的二词算法,而不是采用词典方式。和从前的词典方式比较,他的索引数据更大但匹配更精确。

特性

  • 支持多种编码,包括gbk/gb2312/gb18030/mbcs/big5/unicode/utf-8等,

    安装这个产品将包括三个ZCTextIndex的断字模块(无需修改代码配置):

    • 'CJK splitter' : 支持unicode/utf-8编码,此断字方法和0.1版本兼容
    • 'CJK GB splitter' : 支持unicode/gb18030/gbk/gb2312/mbcs 编码.
    • 'CJK BIG5 splitter' : 支持unicode/big5/mbcs编码
  • 支持Archetypes最新版本中的unicode存储方法,自动识别处理unicode编码

  • 使用unicode进行存储,节省中文存储空间

  • 支持英文模糊查询,如,可查 zop*

  • 支持中文单字模糊查询

参考:


Powered by Plone CMS, the Open Source Content Management System

This site conforms to the following standards: