搜索操作

编辑

嗯……它被称为 Elasticsearch 可不是没有原因的!让我们来谈谈客户端中的搜索操作。

客户端允许你完全访问 REST API 公开的每一个查询和参数,尽可能遵循命名方案。让我们看几个例子,以便你熟悉语法。

Match 查询

编辑

这是一个用于 match 查询的标准 curl 命令

curl -XGET 'localhost:9200/my_index/_search' -d '{
    "query" : {
        "match" : {
            "testField" : "abc"
        }
    }
}'


这是在客户端中构建的相同查询

$params = [
    'index' => 'my_index',
    'body'  => [
        'query' => [
            'match' => [
                'testField' => 'abc'
            ]
        ]
    ]
];

$results = $client->search($params);


请注意,PHP 数组的结构和布局与 JSON 请求主体相同。这使得将 JSON 示例转换为 PHP 非常简单。检查 PHP 数组(对于更复杂的示例)的一个快速方法是将其编码回 JSON 并检查它

$params = [
    'index' => 'my_index',
    'body'  => [
        'query' => [
            'match' => [
                'testField' => 'abc'
            ]
        ]
    ]
];

print_r(json_encode($params['body']));


{"query":{"match":{"testField":"abc"}}}



搜索结果遵循与 Elasticsearch 搜索响应相同的格式,唯一的区别是将 JSON 响应反序列化为 PHP 数组。处理搜索结果就像迭代数组值一样简单

$params = [
    'index' => 'my_index',
    'body'  => [
        'query' => [
            'match' => [
                'testField' => 'abc'
            ]
        ]
    ]
];

$results = $client->search($params);

$milliseconds = $results['took'];
$maxScore     = $results['hits']['max_score'];

$score = $results['hits']['hits'][0]['_score'];
$doc   = $results['hits']['hits'][0]['_source'];


Bool 查询

编辑

可以使用客户端轻松构建 Bool 查询。例如,这个查询

curl -XGET 'localhost:9200/my_index/_search' -d '{
    "query" : {
        "bool" : {
            "must": [
                {
                    "match" : { "testField" : "abc" }
                },
                {
                    "match" : { "testField2" : "xyz" }
                }
            ]
        }
    }
}'


会像这样结构化(注意方括号的位置)

$params = [
    'index' => 'my_index',
    'body'  => [
        'query' => [
            'bool' => [
                'must' => [
                    [ 'match' => [ 'testField' => 'abc' ] ],
                    [ 'match' => [ 'testField2' => 'xyz' ] ],
                ]
            ]
        ]
    ]
];

$results = $client->search($params);


请注意,must 子句接受数组的数组。这会在内部序列化为 JSON 对象数组,因此最终结果输出与 curl 示例相同。有关 PHP 中数组和对象的更多详细信息,请参阅在 PHP 中处理 JSON 数组和对象

一个更复杂的例子

编辑

让我们构建一个稍微复杂一点的例子:一个包含过滤器和查询的布尔查询。这是 Elasticsearch 查询中非常常见的活动,所以这将是一个很好的演示。

查询的 curl 版本

curl -XGET 'localhost:9200/my_index/_search' -d '{
    "query" : {
        "bool" : {
            "filter" : {
                "term" : { "my_field" : "abc" }
            },
            "should" : {
                "match" : { "my_other_field" : "xyz" }
            }
        }
    }
}'


在 PHP 中

$params = [
    'index' => 'my_index',
    'body'  => [
        'query' => [
            'bool' => [
                'filter' => [
                    'term' => [ 'my_field' => 'abc' ]
                ],
                'should' => [
                    'match' => [ 'my_other_field' => 'xyz' ]
                ]
            ]
        ]
    ]
];


$results = $client->search($params);


滚动

编辑

Elasticsearch 的滚动功能用于以批量方式对许多文档进行分页,例如导出属于单个用户的所有文档。它比常规搜索更有效,因为它不需要维护对文档进行排序的开销很大的优先级队列。

滚动的工作原理是维护索引的“时间点”快照,然后用于分页。即使存在后台索引/更新/删除操作,此窗口也允许一致的分页。首先,你执行一个启用了 scroll 的搜索请求。这将返回一个“页面”的文档,以及一个用于继续分页浏览命中的 scroll_id

有关滚动的更多详细信息,请参阅参考文档

这是一个示例,可以用作更高级操作的模板

$client = ClientBuilder::create()->build();
$params = [
    'scroll' => '30s',          // how long between scroll requests. should be small!
    'size'   => 50,             // how many results *per shard* you want back
    'index'  => 'my_index',
    'body'   => [
        'query' => [
            'match_all' => new \stdClass()
        ]
    ]
];

// Execute the search
// The response will contain the first batch of documents
// and a scroll_id
$response = $client->search($params);

// Now we loop until the scroll "cursors" are exhausted
while (isset($response['hits']['hits']) && count($response['hits']['hits']) > 0) {

    // **
    // Do your work here, on the $response['hits']['hits'] array
    // **

    // When done, get the new scroll_id
    // You must always refresh your _scroll_id!  It can change sometimes
    $scroll_id = $response['_scroll_id'];

    // Execute a Scroll request and repeat
    $response = $client->scroll([
        'body' => [
            'scroll_id' => $scroll_id,  //...using our previously obtained _scroll_id
            'scroll'    => '30s'        // and the same timeout window
        ]
    ]);
}