SphinxSE
SphinxSE 是一个 MySQL 存储引擎,可以通过 MySQL/MariaDB 服务器的插件架构编译进 MySQL/MariaDB 服务器。
尽管名称为 SphinxSE,它实际上并不存储任何数据。它作为内置客户端,允许 MySQL 服务器与 searchd 通信,执行搜索查询并检索搜索结果。所有的索引和搜索操作都在 MySQL 之外完成。
一些常见的 SphinxSE 应用包括:
简化将 MySQL 全文搜索 (FTS) 应用程序迁移到 Manticore;
使 Manticore 可以与暂时没有提供原生 API 的编程语言一起使用;
在需要在 MySQL 端进行进一步处理时提供优化(例如,与原始文档表的 JOIN 操作或 MySQL 端的额外过滤)。
安装 SphinxSE
你需要获取 MySQL 源码副本,进行准备并重新编译 MySQL 二进制文件。MySQL 源码(mysql-5.x.yy.tar.gz)可以从 http://dev.mysql.com 网站获取。
编译带有 SphinxSE 的 MySQL 5.0.x
将
sphinx.5.0.yy.diff补丁文件复制到 MySQL 源码目录,并运行
$ patch -p1 < sphinx.5.0.yy.diff如果没有适用于特定版本的 .diff 文件,可以尝试应用与版本号最接近的补丁。重要的是,补丁应该能够无错误应用。 2. 在 MySQL 源码目录中运行
$ sh BUILD/autorun.sh在 MySQL 源码目录中,创建
sql/sphinx目录,并将 Manticore 源码中的mysqlse目录下的所有文件复制到该目录。例如:
$ cp -R /root/builds/sphinx-0.9.7/mysqlse /root/builds/mysql-5.0.24/sql/sphinx配置 MySQL 并启用新引擎:
编译并安装 MySQL:
编译带有 SphinxSE 的 MySQL 5.1.x
在 MySQL 源码目录中,创建
storage/sphinx目录,并将 Manticore 源码中mysqlse目录的所有文件复制到该新位置。例如:
在 MySQL 源码目录中运行:
配置 MySQL 并启用 Manticore 引擎:
构建并安装 MySQL:
检查 SphinxSE 安装
要验证 SphinxSE 是否已成功编译到 MySQL 中,启动新构建的服务器,运行 MySQL 客户端,并执行 SHOW ENGINES 查询。你应该能看到所有可用引擎的列表,其中 Manticore 应该会显示,并且“Support”列应显示“YES”:
使用 SphinxSE
要使用 SphinxSE 进行搜索,你需要创建一个特殊的 ENGINE=SPHINX“搜索表”,然后使用 SELECT 语句,并将全文查询放置在查询列的 WHERE 子句中。
以下是一个创建语句和搜索查询的示例:
在搜索表中,前三个列 必须 使用以下类型:第1列为 INTEGER UNSIGNED 或 BIGINT(文档 ID),第2列为 INTEGER 或 BIGINT(匹配权重),第3列为 VARCHAR 或 TEXT(查询内容)。此映射是固定的,不能省略、移动或更改这些三列。此外,查询列必须建立索引,其他列则不需要。列名可以使用任意名称,列名是忽略的。
其他列必须为 INTEGER、TIMESTAMP、BIGINT、VARCHAR 或 FLOAT。它们将绑定到 Manticore 结果集中提供的属性,列名必须与 sphinx.conf 中指定的属性名称相匹配。如果 Manticore 搜索结果中没有匹配的属性名,该列的值将为 NULL。
还可以将特殊的“虚拟”属性名称绑定到 SphinxSE 列。使用 _sph_ 代替 @ 来实现此功能。例如,要获取 @groupby、@count 或 @distinct 虚拟属性的值,可以分别使用 _sph_groupby、_sph_count 或 _sph_distinct 列名。
CONNECTION 字符串参数用于指定 Manticore 的主机、端口和表。如果在 CREATE TABLE 中未指定连接字符串,则假定表名为 *(即搜索所有表)并使用 localhost:9312。连接字符串的语法如下:
你可以稍后更改默认连接字符串:
你还可以在每个查询中覆盖这些参数。
如示例所示,查询文本和搜索选项应放置在搜索查询列(即第3列)的 WHERE 子句中。选项以分号分隔,名称与值之间用等号连接。可以指定任意数量的选项。可用选项包括:
query - 查询文本;
mode - 匹配模式。必须为 "all"、"any"、"phrase"、"boolean" 或 "extended" 之一。默认值为 "all";
sort - 匹配排序模式。必须为 "relevance"、"attr_desc"、"attr_asc"、"time_segments" 或 "extended" 之一。对于除 "relevance" 外的所有模式,排序列(对于 "extended")或属性名称也是必需的:
offset - 结果集中的偏移量;默认为 0;
limit - 从结果集中检索的匹配项数;默认为 20;
index - 要搜索的表名:
minid, maxid - 要匹配的最小和最大文档 ID;
weights - 要分配给 Manticore 全文字段的权重列表:
filter, !filter - 要匹配的属性名及其值的逗号分隔列表:
range, !range - comma-separated (integer or bigint) Manticore attribute name, and min and max values to match:
range, !range - 要匹配的 Manticore 属性名以及最小和最大值的逗号分隔列表:
maxmatches - 每个查询的最大匹配数,如 max_matches 搜索选项 中所述:
cutoff - 最大允许匹配数,如 cutoff 搜索选项 中所述:
maxquerytime - 最大允许查询时间(以毫秒为单位),如 max_query_time 搜索选项 中所述:
groupby - 分组函数和属性。参考 此文 了解分组搜索结果:
groupsort - 分组排序子句:
distinct - 分组时计算 COUNT(DISTINCT) 的属性:
indexweights - 当搜索多个表时,使用的表名及权重的逗号分隔列表:
fieldweights - 排名器使用的每个字段权重的逗号分隔列表:
comment - 用于在查询日志中标记此查询的字符串,如 comment 搜索选项 中所述:
select - 包含要计算的表达式的字符串:
host, port - 远程
searchd主机名和 TCP 端口:
ranker - 与 "extended" 匹配模式一起使用的排名函数,如 ranker 中所述。已知的值包括 "proximity_bm25"、"bm25"、"none"、"wordcount"、"proximity"、"matchany"、"fieldmask"、"sph04"、"expr
" 语法支持表达式排名器(其中 EXPRESSION 应替换为特定的排名公式),以及 "export":
“export” 排名器的功能类似于 ranker=expr,但它保留每个文档的因子值,而 ranker=expr 在计算最终的 WEIGHT() 值后会丢弃这些值。请记住,ranker=export 旨在偶尔使用,例如训练机器学习(ML)函数或手动定义自己的排名函数,不应在实际生产中使用。在使用此排名器时,您可能希望查看 RANKFACTORS() 函数的输出,该函数生成一个包含每个文档所有字段级因子的字符串。
geoanchor - 地理距离锚点。有关地理搜索的更多信息,请查看本节。它接受四个参数,分别是纬度和经度属性名称,以及锚点坐标。
一个非常重要的说明是,让 Manticore 处理结果集的排序、过滤和切片要高效得多,而不是增加最大匹配数并在 MySQL 端使用 WHERE、ORDER BY 和 LIMIT 子句。这有两个原因。首先,Manticore 采用多种优化措施,并且在执行这些任务时表现优于 MySQL。其次,需要由 searchd 打包、传输和由 SphinxSE 解压的数据量会更少。
您可以使用 SHOW ENGINE SPHINX STATUS 语句获取与查询结果相关的附加信息:
您还可以通过状态变量访问这些信息。请注意,使用此方法不需要超级用户权限。
SphinxSE 搜索表可以与使用其他引擎的表进行连接。以下是使用 example.sql 中的 "documents" 表的示例:
通过 MySQL 构建片段
SphinxSE 还具有一个 UDF 函数,允许您通过 MySQL 创建片段。此功能类似于 HIGHLIGHT(),但可以通过 MySQL+SphinxSE 访问。
提供 UDF 的二进制文件称为 sphinx.so,应与 SphinxSE 一起自动构建并安装到适当的位置。如果由于某种原因未能自动安装,请在构建目录中找到 sphinx.so,并将其复制到 MySQL 实例的插件目录中。完成后,使用以下语句注册 UDF:
函数名称必须是 sphinx_snippets,不能使用其他名称。函数参数如下:
**原型:**函数 sphinx_snippets ( document, table, words [, options] );
document 和 words 参数可以是字符串或表列。选项必须像这样指定:'value' AS option_name。有关支持的选项列表,请参阅 高亮部分。唯一的 UDF 特定附加选项称为 sphinx,允许您指定 searchd 的位置(主机和端口)。
使用示例:
最后更新于