字符过滤器参考

编辑

字符过滤器用于在字符流传递给分词器之前对其进行预处理。

字符过滤器接收原始文本作为字符流,并且可以通过添加、删除或更改字符来转换该流。例如,字符过滤器可以用于将印度-阿拉伯数字 (٠‎١٢٣٤٥٦٧٨‎٩‎) 转换为其阿拉伯-拉丁等效数字 (0123456789),或从流中去除 HTML 元素(如 <b>)。

Elasticsearch 有许多内置的字符过滤器,可用于构建自定义分析器

HTML Strip 字符过滤器
html_strip 字符过滤器会去除 HTML 元素(如 <b>)并解码 HTML 实体(如 &amp;)。
映射字符过滤器
mapping 字符过滤器会将指定的字符串的任何出现都替换为指定的替换项。
模式替换字符过滤器
pattern_replace 字符过滤器会将与正则表达式匹配的任何字符替换为指定的替换项。