• 支持的语言
Manticore 支持多种语言,基本上通过 charset_table = non_cont
(这是默认值)为大多数语言启用基本支持。non_cjk
选项是 non_cont
的别名,也可以使用:charset_table = non_cjk
。
对于许多语言,Manticore 提供了一个 停用词 文件,可以用来提高搜索相关性。
此外,某些语言还提供了高级词法功能,可以通过使用基于字典的词形还原或词干提取算法来显著提高搜索相关性,以实现更好的分词和标准化。
下表列出了所有支持的语言,并指明了如何启用:
基本支持(“Supported” 列)
停用词(“Stopwords file name” 列)
高级词法(“Advanced morphology” 列)
Afrikaans (南非荷兰语)
charset_table=non_cont
af
-
Arabic (阿拉伯语)
charset_table=non_cont
ar
morphology=stem_ar (阿拉伯语词干提取器); morphology=libstemmer_ar
Armenian (亚美尼亚语)
charset_table=non_cont
hy
-
Assamese (阿萨姆语)
手动指定charset_table
-
-
Basque (巴斯克语)
charset_table=non_cont
eu
-
Bengali (孟加拉语)
charset_table=non_cont
bn
-
Bishnupriya (比什努普里亚语)
手动指定charset_table
-
-
Buhid (布希德语)
手动指定charset_table
-
-
Bulgarian (保加利亚语)
charset_table=non_cont
bg
-
Catalan (加泰罗尼亚语)
charset_table=non_cont
ca
morphology=libstemmer_ca
charset_table=chinese
zh
morphology=icu_chinese
使用ICU进行更精确的处理
charset_table=chinese
zh
morphology=jieba_chinese
使用Jieba进行更精确的处理
Chinese using ngrams
ngram_chars=chinese
zh
ngram_chars=1
快速索引,但搜索性能可能不如其他方法
Croatian (克罗地亚语)
charset_table=non_cont
hr
-
Kurdish (库尔德语)
charset_table=non_cont
ckb
-
Czech (捷克语)
charset_table=non_cont
cz
morphology=stem_cz (捷克语词干提取器)
Danish (丹麦语)
charset_table=non_cont
da
morphology=libstemmer_da
Dutch (荷兰语)
charset_table=non_cont
nl
morphology=libstemmer_nl
English (英语)
charset_table=non_cont
en
morphology=lemmatize_en (单一词根形式); morphology=lemmatize_en_all (所有词根形式); morphology=stem_en (波特词干提取器); morphology=stem_enru (波特英语和俄语词干提取器); morphology=libstemmer_en (来自libstemmer的英语)
Esperanto (世界语)
charset_table=non_cont
eo
-
Estonian (爱沙尼亚语)
charset_table=non_cont
et
-
Finnish (芬兰语)
charset_table=non_cont
fi
morphology=libstemmer_fi
French (法语)
charset_table=non_cont
fr
morphology=libstemmer_fr
Galician (加利西亚语)
charset_table=non_cont
gl
-
Garo (伽罗语)
手动指定charset_table
-
-
German (德语)
charset_table=non_cont
de
morphology=lemmatize_de (单一词根形式); morphology=lemmatize_de_all (所有词根形式); morphology=libstemmer_de
Greek (希腊语)
charset_table=non_cont
el
morphology=libstemmer_el
Hebrew (希伯来语)
charset_table=non_cont
he
-
Hindi (印地语)
charset_table=non_cont
hi
morphology=libstemmer_hi
Hmong (苗族语)
手动指定charset_table
-
-
Ho (霍语)
手动指定charset_table
-
-
Hungarian (匈牙利语)
charset_table=non_cont
hu
morphology=libstemmer_hu
Indonesian (印尼语)
charset_table=non_cont
id
morphology=libstemmer_id
Irish (爱尔兰语)
charset_table=non_cont
ga
morphology=libstemmer_ga
Italian (意大利语)
charset_table=non_cont
it
morphology=libstemmer_it
Japanese (日语)
ngram_chars=japanese
-
ngram_chars=japanese ngram_len=1
需要基于ngram的分词
Komi (科米语)
手动指定charset_table
-
-
Korean (韩语)
ngram_chars=korean
-
ngram_chars=korean ngram_len=1
需要基于ngram的分词
Large Flowery Miao
手动指定charset_table
-
-
Latin (拉丁语)
charset_table=non_cont
la
-
Latvian (拉脱维亚语)
charset_table=non_cont
lv
-
Lithuanian (立陶宛语)
charset_table=non_cont
lt
morphology=libstemmer_lt
Maba (马巴语)
手动指定charset_table
-
-
Maithili (迈提利语)
手动指定charset_table
-
-
Marathi (马拉地语)
手动指定charset_table
-
-
Marathi (马拉地语)
charset_table=non_cont
mr
-
Mende (门德语)
手动指定charset_table
-
-
Mru (木鲁语)
手动指定charset_table
-
-
Myene (迈耶语)
手动指定charset_table
-
-
Nepali (尼泊尔语)
手动指定charset_table
-
morphology=libstemmer_ne
Ngambay (恩甘巴语)
手动指定charset_table
-
-
Norwegian (挪威语)
charset_table=non_cont
no
morphology=libstemmer_no
Odia (奥迪亚语)
手动指定charset_table
-
-
Persian (波斯语)
charset_table=non_cont
fa
-
Polish (波兰语)
charset_table=non_cont
pl
-
Portuguese (葡萄牙语)
charset_table=non_cont
pt
morphology=libstemmer_pt
Romanian (罗马尼亚语)
charset_table=non_cont
ro
morphology=libstemmer_ro
Russian (俄语)
charset_table=non_cont
ru
morphology=lemmatize_ru (单一词根形式); morphology=lemmatize_ru_all (所有词根形式); morphology=stem_ru (波特俄语词干提取器); morphology=stem_enru (波特英语和俄语词干提取器); morphology=libstemmer_ru (来自libstemmer)
Santali (桑塔利语)
手动指定charset_table
-
-
Sindhi (信德语)
手动指定charset_table
-
-
Slovak (斯洛伐克语)
charset_table=non_cont
sk
-
Slovenian (斯洛文尼亚语)
charset_table=non_cont
sl
-
Somali (索马里语)
charset_table=non_cont
so
-
Sotho (索托语)
charset_table=non_cont
st
-
Spanish (西班牙语)
charset_table=non_cont
es
morphology=libstemmer_es
Swahili (斯瓦希里语)
charset_table=non_cont
sw
-
Swedish (瑞典语)
charset_table=non_cont
sv
morphology=libstemmer_sv
Sylheti (西里赫语)
手动指定charset_table
-
-
Tamil (泰米尔语)
手动指定charset_table
-
morphology=libstemmer_ta
Thai (泰语)
charset_table=thai
th
-
Turkish (土耳其语)
charset_table=non_cont
tr
morphology=libstemmer_tr
Ukrainian (乌克兰语)
charset_table=non_cont,U+0406->U+0456,U+0456,U+0407->U+0457,U+0457,U+0490->U+0491,U+0491
-
morphology=lemmatize_uk_all
Yoruba (约鲁巴语)
charset_table=non_cont
yo
-
Zulu (祖鲁语)
charset_table=non_cont
zu
-
最后更新于