字符过滤器参考编辑

字符过滤器 用于在将字符流传递给 标记器 之前对其进行预处理。

字符过滤器接收原始文本作为字符流,并可以通过添加、删除或更改字符来转换该流。例如,字符过滤器可用于将印度阿拉伯数字 (٠‎١٢٣٤٥٦٧٨‎٩‎) 转换为其阿拉伯-拉丁等效项 (0123456789),或从流中剥离 HTML 元素,例如 <b>

Elasticsearch 具有许多内置字符过滤器,可用于构建 自定义分析器

HTML 剥离字符过滤器
html_strip 字符过滤器会剥离 HTML 元素,例如 <b>,并解码 HTML 实体,例如 &amp;
映射字符过滤器
mapping 字符过滤器会将指定字符串的所有出现替换为指定的替换。
模式替换字符过滤器
pattern_replace 字符过滤器会将与正则表达式匹配的任何字符替换为指定的替换。