字符过滤器参考
编辑字符过滤器参考编辑
字符过滤器 用于在将字符流传递给 标记器 之前对其进行预处理。
字符过滤器接收原始文本作为字符流,并可以通过添加、删除或更改字符来转换该流。例如,字符过滤器可用于将印度阿拉伯数字 (٠١٢٣٤٥٦٧٨٩) 转换为其阿拉伯-拉丁等效项 (0123456789),或从流中剥离 HTML 元素,例如 <b>
。
Elasticsearch 具有许多内置字符过滤器,可用于构建 自定义分析器。
- HTML 剥离字符过滤器
html_strip
字符过滤器会剥离 HTML 元素,例如<b>
,并解码 HTML 实体,例如&
。- 映射字符过滤器
mapping
字符过滤器会将指定字符串的所有出现替换为指定的替换。- 模式替换字符过滤器
pattern_replace
字符过滤器会将与正则表达式匹配的任何字符替换为指定的替换。