• 中文、日文、韩文(CJK)和泰语语言

Manticore 提供了内置支持,用于索引具有连续书写的语言(即不使用空格或其他标记来区分单词或句子的语言)。这使您能够以两种不同的方式处理这些语言的文本:

  1. 使用 ICU 库进行精确分词。目前仅支持中文。

SQL:

CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'
POST /cli -d "
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'"
$index = new \Manticoresearch\Index($client);
$index->setName('products');
$index->create([
            'title'=>['type'=>'text'],
            'price'=>['type'=>'float']
        ],[
            'charset_table' => 'cont',
            'morphology' => 'icu_chinese'
        ]);

Python:

utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'cont\' morphology = \'icu_chinese\'')

Javascript:

res = await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'cont\' morphology = \'icu_chinese\'');

Java:

C#:

  1. 使用 Jieba 库进行精确分词。与 ICU 类似,目前也仅支持中文。

SQL:

Python:

Javascript:

Java:

C#:

  1. 使用 N-gram 选项 ngram_lenngram_chars 进行基本支持。对于使用连续字符的每种语言,Manticore 提供了单独的字符集表(如 chinese, korean, japanese, thai)。另外,你也可以使用通用的 cont 字符集表来同时支持所有 CJK 和泰语,或者仅使用 cjk 字符集来支持所有 CJK 语言。

SQL:

Python:

Javascript:

java:

C#:

此外,Manticore 内置支持中文停用词,别名为 zh

SQL:

PHP:

Python:

Javascript:

java:

C#:

最后更新于