SQL 限制
Elastic Stack Serverless
非常大的查询在解析阶段可能会消耗过多内存,在这种情况下,Elasticsearch SQL 引擎将中止解析并抛出错误。 在这种情况下,请考虑通过潜在地简化查询或将其拆分为较小的查询来减少查询的大小。
Elasticsearch 有一种特殊类型的关系字段,称为 nested
字段。在 Elasticsearch SQL 中,可以通过引用其内部子字段来使用它们。 即使在非驱动程序模式下(在 CLI 和 REST 调用中),SYS COLUMNS
和 DESCRIBE TABLE
仍然会将它们显示为具有 NESTED
类型,但它们不能在查询中使用。 只能以以下形式引用其子字段
[nested_field_name].[sub_field_name]
例如
SELECT dep.dep_name.keyword FROM test_emp GROUP BY languages;
Elasticsearch SQL 不支持在 WHERE
和 ORDER BY
子句中的嵌套字段之上使用标量函数,但比较和逻辑运算符除外。
例如
SELECT * FROM test_emp WHERE LENGTH(dep.dep_name.keyword) > 5;
和
SELECT * FROM test_emp ORDER BY YEAR(dep.start_date);
不受支持,但
SELECT * FROM test_emp WHERE dep.start_date >= CAST('2020-01-01' AS DATE) OR dep.dep_end_date IS NULL;
受支持。
Elasticsearch SQL 不支持多重嵌套文档,因此查询不能引用索引中的多个嵌套字段。 这适用于多级嵌套字段,也适用于同一级别上定义的多个嵌套字段。 例如,对于以下索引
column | type | mapping
----------------------+---------------+-------------
nested_A |STRUCT |NESTED
nested_A.nested_X |STRUCT |NESTED
nested_A.nested_X.text|VARCHAR |KEYWORD
nested_A.text |VARCHAR |KEYWORD
nested_B |STRUCT |NESTED
nested_B.text |VARCHAR |KEYWORD
nested_A
和 nested_B
不能同时使用,nested_A
/nested_B
和 nested_A.nested_X
的组合也不能同时使用。 在这种情况下,Elasticsearch SQL 将显示一条错误消息。
当 SELECT 嵌套字段时,分页将无法按预期工作,Elasticsearch SQL 将返回至少页面大小的记录。 这是因为嵌套查询在 Elasticsearch 中的工作方式:将返回根嵌套字段及其匹配的内部嵌套字段,分页发生在**根嵌套文档而不是其内部命中**上。
Elasticsearch 中的 keyword
字段可以通过定义 normalizer
来规范化。Elasticsearch SQL 不支持此类字段。
由于 Elasticsearch 处理值数组的“隐形”方式,因此不支持数组字段:映射未指示字段是否为数组(具有多个值),因此在不读取所有数据的情况下,Elasticsearch SQL 无法知道字段是单值还是多值。 当为字段返回多个值时,默认情况下,Elasticsearch SQL 将抛出异常。 但是,可以通过 REST 中的 field_multi_value_leniency
参数(默认禁用)或驱动程序中的 field.multi.value.leniency
(默认启用)来更改此行为。
在执行聚合 (GROUP BY
) 时,Elasticsearch SQL 依赖于 Elasticsearch 的 composite
聚合来支持分页结果。 但是,这种类型的聚合确实存在一个限制:排序只能应用于用于聚合存储桶的键。 Elasticsearch SQL 通过执行客户端排序来克服此限制,但作为一项安全措施,仅允许最多 **65535** 行。
建议对使用按聚合排序的查询使用 LIMIT
,本质上指示所需的 N 个最前面的结果
SELECT * FROM test GROUP BY age ORDER BY COUNT(*) LIMIT 100;
可以运行没有 LIMIT
的相同查询,但是如果传递了最大大小 (**10000**),则会返回一个异常,因为 Elasticsearch SQL 无法跟踪(和排序)所有返回的结果。
此外,在 ORDER BY
中使用的聚合必须仅是普通的聚合函数。 不能使用标量函数或运算符,因此不能使用组合了两个或多个聚合函数的复杂列进行排序。 以下是一些不允许的查询示例
SELECT age, ROUND(AVG(salary)) AS avg FROM test GROUP BY age ORDER BY avg;
SELECT age, MAX(salary) - MIN(salary) AS diff FROM test GROUP BY age ORDER BY diff;
使用子查询 (SELECT X FROM (SELECT Y)
) **在很小程度上受到支持**:任何可以“展平”为单个 SELECT
的子查询都可以与 Elasticsearch SQL 一起使用。 例如
SELECT * FROM (SELECT first_name, last_name FROM emp WHERE last_name NOT LIKE '%a%') WHERE first_name LIKE 'A%' ORDER BY 1;
first_name | last_name
---------------+---------------
Alejandro |McAlpine
Anneke |Preusig
Anoosh |Peyn
Arumugam |Ossenbruggen
上面的查询是可能的,因为它等效于
SELECT first_name, last_name FROM emp WHERE last_name NOT LIKE '%a%' AND first_name LIKE 'A%' ORDER BY 1;
但是,如果子查询包含 GROUP BY
或 HAVING
,或者封闭的 SELECT
比 SELECT X FROM (SELECT ...) WHERE [simple_condition]
更复杂,则当前不支持。
不支持在 HAVING
子句中使用 FIRST
和 LAST
。 这同样适用于 MIN
和 MAX
,当它们的目标列的类型为 keyword
或 unsigned_long
时,因为它们在内部转换为 FIRST
和 LAST
。
在 GROUP BY 或 HISTOGRAM
中使用 TIME 数据类型
当前不支持将 TIME
数据类型用作分组键。 例如
SELECT count(*) FROM test GROUP BY CAST(date_created AS TIME);
另一方面,如果它被包装在一个返回另一种数据类型的标量函数中,仍然可以使用它,例如
SELECT count(*) FROM test GROUP BY MINUTE((CAST(date_created AS TIME));
TIME
数据类型目前也不支持在直方图分组函数中使用。 例如
SELECT HISTOGRAM(CAST(birth_date AS TIME), INTERVAL '10' MINUTES) as h, COUNT(*) FROM t GROUP BY h
由于 geo_shape
字段没有 doc values,因此这些字段不能用于过滤、分组或排序。
默认情况下,geo_points
字段已索引并具有 doc values。 但是,仅存储和索引纬度和经度,原始值会有一些精度损失(纬度为 4.190951585769653E-8,经度为 8.381903171539307E-8)。 海拔组件被接受,但不存储在 doc values 中,也不进行索引。 因此,在过滤、分组或排序中调用 ST_Z
函数将返回 null
。
Elasticsearch SQL 使用 search API 的 fields
参数检索列值。 fields
参数的任何限制也适用于 Elasticsearch SQL 查询。 例如,如果对任何返回的字段或在索引级别禁用了 _source
,则无法检索这些值。
PIVOT
中的聚合表达式当前仅接受一个聚合。 因此,无法为任何一个透视列获得多个聚合。
PIVOT
查询可以透视的值必须在查询中作为文字列表提供; 目前不支持提供子查询来构建此列表。 例如,在此查询中
SELECT * FROM test_emp PIVOT (SUM(salary) FOR languages IN (1, 2))
必须明确列出感兴趣的 languages
:IN (1, 2)
。 另一方面,此示例不起作用
SELECT * FROM test_emp PIVOT (SUM(salary) FOR languages IN (SELECT languages FROM test_emp WHERE languages <=2 GROUP BY languages))