SQL 限制编辑

大型查询可能会抛出 ParsingException编辑

极大的查询在解析阶段可能会消耗过多的内存,在这种情况下,Elasticsearch SQL 引擎将中止解析并抛出错误。在这种情况下,请考虑通过简化查询或将其拆分为较小的查询来减小查询的大小。

SYS COLUMNSDESCRIBE TABLE 中的嵌套字段编辑

Elasticsearch 有一种特殊类型的关系字段,称为 嵌套 字段。在 Elasticsearch SQL 中,可以通过引用它们的内部子字段来使用它们。尽管非驱动程序模式(在 CLI 和 REST 调用中)下的 SYS COLUMNSDESCRIBE TABLE 仍然会将它们显示为 NESTED 类型,但它们不能在查询中使用。只能以以下形式引用其子字段

[nested_field_name].[sub_field_name]

例如

SELECT dep.dep_name.keyword FROM test_emp GROUP BY languages;

WHEREORDER BY 子句中不允许对嵌套字段使用标量函数编辑

Elasticsearch SQL 不支持在 WHEREORDER BY 子句中对嵌套字段使用标量函数,但比较和逻辑运算符除外。

例如

SELECT * FROM test_emp WHERE LENGTH(dep.dep_name.keyword) > 5;

SELECT * FROM test_emp ORDER BY YEAR(dep.start_date);

不受支持,但

SELECT * FROM test_emp WHERE dep.start_date >= CAST('2020-01-01' AS DATE) OR dep.dep_end_date IS NULL;

受支持。

多嵌套字段编辑

Elasticsearch SQL 不支持多嵌套文档,因此查询不能引用索引中的多个嵌套字段。这适用于多级嵌套字段,也适用于在同一级别定义的多个嵌套字段。例如,对于此索引

       column         |     type      |    mapping
----------------------+---------------+-------------
nested_A              |STRUCT         |NESTED
nested_A.nested_X     |STRUCT         |NESTED
nested_A.nested_X.text|VARCHAR        |KEYWORD
nested_A.text         |VARCHAR        |KEYWORD
nested_B              |STRUCT         |NESTED
nested_B.text         |VARCHAR        |KEYWORD

nested_Anested_B 不能同时使用,nested_A/nested_Bnested_A.nested_X 组合也不能同时使用。对于这种情况,Elasticsearch SQL 将显示一条错误消息。

对嵌套内部命中进行分页编辑

当 SELECTing 一个嵌套字段时,分页将无法按预期工作,Elasticsearch SQL 将返回*至少*页面大小的记录。这是因为 Elasticsearch 中嵌套查询的工作方式:将返回根嵌套字段及其匹配的内部嵌套字段,分页发生在**根嵌套文档上,而不是在其内部命中上**

规范化的 keyword 字段编辑

Elasticsearch 中的 keyword 字段可以通过定义 normalizer 进行规范化。Elasticsearch SQL 不支持此类字段。

数组类型的字段编辑

不支持数组字段,因为 Elasticsearch 处理值数组的方式是“不可见的”:映射不会指示字段是数组(具有多个值)还是不是数组,因此,如果不读取所有数据,Elasticsearch SQL 就无法知道字段是单值还是多值。当为一个字段返回多个值时,默认情况下,Elasticsearch SQL 将抛出异常。但是,可以通过 REST 中的 field_multi_value_leniency 参数(默认禁用)或驱动程序中的 field.multi.value.leniency(默认启用)来更改此行为。

按聚合排序编辑

在进行聚合(GROUP BY)时,Elasticsearch SQL 依靠 Elasticsearch 的 composite 聚合来支持对结果进行分页。但是,这种类型的聚合确实有一个限制:排序只能应用于用于聚合桶的键。Elasticsearch SQL 通过进行客户端排序克服了这一限制,但是作为一项安全措施,它只允许最多 **65535** 行。

建议对使用按聚合排序的查询使用 LIMIT,基本上指示所需的顶部 N 个结果

SELECT * FROM test GROUP BY age ORDER BY COUNT(*) LIMIT 100;

可以在没有 LIMIT 的情况下运行相同的查询,但是在这种情况下,如果超过了最大大小(**10000**),则会返回异常,因为 Elasticsearch SQL 无法跟踪(和排序)返回的所有结果。

此外,ORDER BY 中使用的聚合必须只是简单的聚合函数。不能使用标量函数或运算符,因此不能使用组合了两个或多个聚合函数的复杂列进行排序。以下是一些**不允许**的查询示例

SELECT age, ROUND(AVG(salary)) AS avg FROM test GROUP BY age ORDER BY avg;

SELECT age, MAX(salary) - MIN(salary) AS diff FROM test GROUP BY age ORDER BY diff;

使用子查询编辑

使用子查询(SELECT X FROM (SELECT Y)**支持程度很小**:任何可以“扁平化”为单个 SELECT 的子查询都可以使用 Elasticsearch SQL。例如

SELECT * FROM (SELECT first_name, last_name FROM emp WHERE last_name NOT LIKE '%a%') WHERE first_name LIKE 'A%' ORDER BY 1;

  first_name   |   last_name
---------------+---------------
 Alejandro     |McAlpine
 Anneke        |Preusig
 Anoosh        |Peyn
 Arumugam      |Ossenbruggen

上面的查询是可能的,因为它等价于

SELECT first_name, last_name FROM emp WHERE last_name NOT LIKE '%a%' AND first_name LIKE 'A%' ORDER BY 1;

但是,如果子查询包含 GROUP BYHAVING,或者封闭的 SELECTSELECT X FROM (SELECT ...) WHERE [simple_condition] 更复杂,则当前**不支持**

HAVING 子句中使用 FIRST/LAST 聚合函数编辑

不支持在 HAVING 子句中使用 FIRSTLAST。当 MINMAX 的目标列类型为 keywordunsigned_long 时,它们在内部会被转换为 FIRSTLAST,因此也不支持。

在 GROUP BY 或 HISTOGRAM 中使用 TIME 数据类型编辑

当前不支持使用 TIME 数据类型作为分组键。例如

SELECT count(*) FROM test GROUP BY CAST(date_created AS TIME);

另一方面,如果它被包装在一个返回另一种数据类型的标量函数中,则仍然可以使用它,例如

SELECT count(*) FROM test GROUP BY MINUTE((CAST(date_created AS TIME));

当前也不支持在直方图分组函数中使用 TIME 数据类型。例如

SELECT HISTOGRAM(CAST(birth_date AS TIME), INTERVAL '10' MINUTES) as h, COUNT(*) FROM t GROUP BY h

地理相关函数编辑

由于 geo_shape 字段没有文档值,因此这些字段不能用于过滤、分组或排序。

默认情况下,geo_points 字段已编入索引并具有文档值。但是,只有纬度和经度被存储和索引,并且与原始值相比,精度有所损失(纬度为 4.190951585769653E-8,经度为 8.381903171539307E-8)。接受海拔高度分量,但不会将其存储在文档值中,也不会对其进行索引。因此,在过滤、分组或排序中调用 ST_Z 函数将返回 null

使用 fields 搜索参数进行检索编辑

Elasticsearch SQL 使用 搜索 API 的 fields 参数检索列值。对 fields 参数的任何限制也适用于 Elasticsearch SQL 查询。例如,如果为任何返回的字段或在索引级别禁用了 _source,则无法检索这些值。

PIVOT 子句中的聚合编辑

PIVOT 中的聚合表达式当前只接受一个聚合。因此,无法为任何一个透视列获取多个聚合。

PIVOTIN 子句中使用子查询编辑

PIVOT 查询可以透视的值必须在查询中作为文字列表提供;当前不支持提供子查询来构建此列表。例如,在此查询中

SELECT * FROM test_emp PIVOT (SUM(salary) FOR languages IN (1, 2))

感兴趣的 languages 必须显式列出:IN (1, 2)。另一方面,此示例**不起作用**

SELECT * FROM test_emp PIVOT (SUM(salary) FOR languages IN (SELECT languages FROM test_emp WHERE languages <=2 GROUP BY languages))