• 支持的语言

Manticore 支持多种语言,基本上通过 charset_table = non_cont(这是默认值)为大多数语言启用基本支持。non_cjk 选项是 non_cont 的别名,也可以使用:charset_table = non_cjk

对于许多语言,Manticore 提供了一个 停用词 文件,可以用来提高搜索相关性。

此外,某些语言还提供了高级词法功能,可以通过使用基于字典的词形还原或词干提取算法来显著提高搜索相关性,以实现更好的分词和标准化。

下表列出了所有支持的语言,并指明了如何启用:

  • 基本支持(“Supported” 列)

  • 停用词(“Stopwords file name” 列)

  • 高级词法(“Advanced morphology” 列)

语言
支持
停用词文件名
高级词法
备注

Afrikaans (南非荷兰语)

charset_table=non_cont

af

-

Arabic (阿拉伯语)

charset_table=non_cont

ar

morphology=stem_ar (阿拉伯语词干提取器); morphology=libstemmer_ar

Armenian (亚美尼亚语)

charset_table=non_cont

hy

-

Assamese (阿萨姆语)

手动指定charset_table

-

-

Basque (巴斯克语)

charset_table=non_cont

eu

-

Bengali (孟加拉语)

charset_table=non_cont

bn

-

Bishnupriya (比什努普里亚语)

手动指定charset_table

-

-

Buhid (布希德语)

手动指定charset_table

-

-

Bulgarian (保加利亚语)

charset_table=non_cont

bg

-

Catalan (加泰罗尼亚语)

charset_table=non_cont

ca

morphology=libstemmer_ca

charset_table=chinese

zh

morphology=icu_chinese

使用ICU进行更精确的处理

charset_table=chinese

zh

morphology=jieba_chinese

使用Jieba进行更精确的处理

Chinese using ngrams

ngram_chars=chinese

zh

ngram_chars=1

快速索引,但搜索性能可能不如其他方法

Croatian (克罗地亚语)

charset_table=non_cont

hr

-

Kurdish (库尔德语)

charset_table=non_cont

ckb

-

Czech (捷克语)

charset_table=non_cont

cz

morphology=stem_cz (捷克语词干提取器)

Danish (丹麦语)

charset_table=non_cont

da

morphology=libstemmer_da

Dutch (荷兰语)

charset_table=non_cont

nl

morphology=libstemmer_nl

English (英语)

charset_table=non_cont

en

morphology=lemmatize_en (单一词根形式); morphology=lemmatize_en_all (所有词根形式); morphology=stem_en (波特词干提取器); morphology=stem_enru (波特英语和俄语词干提取器); morphology=libstemmer_en (来自libstemmer的英语)

Esperanto (世界语)

charset_table=non_cont

eo

-

Estonian (爱沙尼亚语)

charset_table=non_cont

et

-

Finnish (芬兰语)

charset_table=non_cont

fi

morphology=libstemmer_fi

French (法语)

charset_table=non_cont

fr

morphology=libstemmer_fr

Galician (加利西亚语)

charset_table=non_cont

gl

-

Garo (伽罗语)

手动指定charset_table

-

-

German (德语)

charset_table=non_cont

de

morphology=lemmatize_de (单一词根形式); morphology=lemmatize_de_all (所有词根形式); morphology=libstemmer_de

Greek (希腊语)

charset_table=non_cont

el

morphology=libstemmer_el

Hebrew (希伯来语)

charset_table=non_cont

he

-

Hindi (印地语)

charset_table=non_cont

hi

morphology=libstemmer_hi

Hmong (苗族语)

手动指定charset_table

-

-

Ho (霍语)

手动指定charset_table

-

-

Hungarian (匈牙利语)

charset_table=non_cont

hu

morphology=libstemmer_hu

Indonesian (印尼语)

charset_table=non_cont

id

morphology=libstemmer_id

Irish (爱尔兰语)

charset_table=non_cont

ga

morphology=libstemmer_ga

Italian (意大利语)

charset_table=non_cont

it

morphology=libstemmer_it

Japanese (日语)

ngram_chars=japanese

-

ngram_chars=japanese ngram_len=1

需要基于ngram的分词

Komi (科米语)

手动指定charset_table

-

-

Korean (韩语)

ngram_chars=korean

-

ngram_chars=korean ngram_len=1

需要基于ngram的分词

Large Flowery Miao

手动指定charset_table

-

-

Latin (拉丁语)

charset_table=non_cont

la

-

Latvian (拉脱维亚语)

charset_table=non_cont

lv

-

Lithuanian (立陶宛语)

charset_table=non_cont

lt

morphology=libstemmer_lt

Maba (马巴语)

手动指定charset_table

-

-

Maithili (迈提利语)

手动指定charset_table

-

-

Marathi (马拉地语)

手动指定charset_table

-

-

Marathi (马拉地语)

charset_table=non_cont

mr

-

Mende (门德语)

手动指定charset_table

-

-

Mru (木鲁语)

手动指定charset_table

-

-

Myene (迈耶语)

手动指定charset_table

-

-

Nepali (尼泊尔语)

手动指定charset_table

-

morphology=libstemmer_ne

Ngambay (恩甘巴语)

手动指定charset_table

-

-

Norwegian (挪威语)

charset_table=non_cont

no

morphology=libstemmer_no

Odia (奥迪亚语)

手动指定charset_table

-

-

Persian (波斯语)

charset_table=non_cont

fa

-

Polish (波兰语)

charset_table=non_cont

pl

-

Portuguese (葡萄牙语)

charset_table=non_cont

pt

morphology=libstemmer_pt

Romanian (罗马尼亚语)

charset_table=non_cont

ro

morphology=libstemmer_ro

Russian (俄语)

charset_table=non_cont

ru

morphology=lemmatize_ru (单一词根形式); morphology=lemmatize_ru_all (所有词根形式); morphology=stem_ru (波特俄语词干提取器); morphology=stem_enru (波特英语和俄语词干提取器); morphology=libstemmer_ru (来自libstemmer)

Santali (桑塔利语)

手动指定charset_table

-

-

Sindhi (信德语)

手动指定charset_table

-

-

Slovak (斯洛伐克语)

charset_table=non_cont

sk

-

Slovenian (斯洛文尼亚语)

charset_table=non_cont

sl

-

Somali (索马里语)

charset_table=non_cont

so

-

Sotho (索托语)

charset_table=non_cont

st

-

Spanish (西班牙语)

charset_table=non_cont

es

morphology=libstemmer_es

Swahili (斯瓦希里语)

charset_table=non_cont

sw

-

Swedish (瑞典语)

charset_table=non_cont

sv

morphology=libstemmer_sv

Sylheti (西里赫语)

手动指定charset_table

-

-

Tamil (泰米尔语)

手动指定charset_table

-

morphology=libstemmer_ta

Thai (泰语)

charset_table=thai

th

-

Turkish (土耳其语)

charset_table=non_cont

tr

morphology=libstemmer_tr

Ukrainian (乌克兰语)

charset_table=non_cont,U+0406->U+0456,U+0456,U+0407->U+0457,U+0457,U+0490->U+0491,U+0491

-

morphology=lemmatize_uk_all

Yoruba (约鲁巴语)

charset_table=non_cont

yo

-

Zulu (祖鲁语)

charset_table=non_cont

zu

-

最后更新于