字符过滤器参考
编辑字符过滤器参考
编辑字符过滤器用于在字符流传递给分词器之前对其进行预处理。
字符过滤器接收原始文本作为字符流,并且可以通过添加、删除或更改字符来转换该流。例如,字符过滤器可以用于将印度-阿拉伯数字 (٠١٢٣٤٥٦٧٨٩) 转换为其阿拉伯-拉丁等效数字 (0123456789),或从流中去除 HTML 元素(如 <b>
)。
Elasticsearch 有许多内置的字符过滤器,可用于构建自定义分析器。
- HTML Strip 字符过滤器
html_strip
字符过滤器会去除 HTML 元素(如<b>
)并解码 HTML 实体(如&
)。- 映射字符过滤器
mapping
字符过滤器会将指定的字符串的任何出现都替换为指定的替换项。- 模式替换字符过滤器
pattern_replace
字符过滤器会将与正则表达式匹配的任何字符替换为指定的替换项。