脚本、缓存和搜索速度
Elastic Stack Serverless
Elasticsearch 执行了许多优化,以使使用脚本尽可能快。一个重要的优化是脚本缓存。编译后的脚本被放置在缓存中,以便引用该脚本的请求不会产生编译开销。
缓存大小很重要。您的脚本缓存应该足够大,能够容纳用户需要并发访问的所有脚本。
如果您在 节点统计中看到大量的脚本缓存逐出和不断增加的编译数量,则您的缓存可能太小。
默认情况下,所有脚本都会被缓存,因此只有在发生更新时才需要重新编译它们。默认情况下,脚本没有基于时间的过期。您可以使用 script.cache.expire
设置来更改此行为。使用 script.cache.max_size
设置来配置缓存的大小。
脚本的大小限制为 65,535 字节。设置 script.max_size_in_bytes
的值可以增加这个软限制。如果您的脚本非常大,那么请考虑使用原生脚本引擎。
脚本非常有用,但不能使用 Elasticsearch 的索引结构或相关的优化。这种关系有时会导致搜索速度变慢。
如果您经常使用脚本来转换索引数据,您可以通过在摄取期间转换数据来加快搜索速度。但是,这通常意味着索引速度会变慢。让我们看一个实际的例子来说明如何提高搜索速度。
在运行搜索时,通常按两个值的总和对结果进行排序。例如,假设一个名为 my_test_scores
的索引包含测试分数数据。此索引包含两个类型为 long
的字段
math_score
verbal_score
您可以运行一个带有脚本的查询,该脚本将这些值相加。这种方法没有错,但查询会变慢,因为脚本估值作为请求的一部分发生。以下请求返回 grad_year
等于 2099
的文档,并按脚本的估值结果进行排序。
GET /my_test_scores/_search
{
"query": {
"term": {
"grad_year": "2099"
}
},
"sort": [
{
"_script": {
"type": "number",
"script": {
"source": "doc['math_score'].value + doc['verbal_score'].value"
},
"order": "desc"
}
}
]
}
如果您搜索的是一个小索引,那么将脚本作为搜索查询的一部分包含进来可能是一个不错的解决方案。如果您想加快搜索速度,您可以在摄取期间执行此计算,并将总和索引到一个字段中。
首先,我们将向索引添加一个名为 total_score
的新字段,该字段将包含 math_score
和 verbal_score
字段值的总和。
PUT /my_test_scores/_mapping
{
"properties": {
"total_score": {
"type": "long"
}
}
}
接下来,使用包含脚本处理器的摄取管道来计算 math_score
和 verbal_score
的总和,并将其索引到 total_score
字段中。
PUT _ingest/pipeline/my_test_scores_pipeline
{
"description": "Calculates the total test score",
"processors": [
{
"script": {
"source": "ctx.total_score = (ctx.math_score + ctx.verbal_score)"
}
}
]
}
要更新现有数据,请使用此管道将 my_test_scores
中的任何文档重新索引到一个名为 my_test_scores_2
的新索引中。
POST /_reindex
{
"source": {
"index": "my_test_scores"
},
"dest": {
"index": "my_test_scores_2",
"pipeline": "my_test_scores_pipeline"
}
}
继续使用该管道将任何新文档索引到 my_test_scores_2
。
POST /my_test_scores_2/_doc/?pipeline=my_test_scores_pipeline
{
"student": "kimchy",
"grad_year": "2099",
"math_score": 1200,
"verbal_score": 800
}
这些更改会减慢索引过程,但允许更快的搜索。您可以对 my_test_scores_2
进行的搜索使用 total_score
字段进行排序,而无需使用脚本。响应几乎是实时的!虽然此过程减慢了摄取时间,但大大增加了搜索时的查询速度。
GET /my_test_scores_2/_search
{
"query": {
"term": {
"grad_year": "2099"
}
},
"sort": [
{
"total_score": {
"order": "desc"
}
}
]
}