标准化 Token 过滤器

编辑

有一些可用的 token 过滤器可以尝试标准化特定语言的特殊字符。

阿拉伯语

arabic_normalization

德语

german_normalization

印地语

hindi_normalization

印度语系语言

indic_normalization

库尔德语(索拉尼语)

sorani_normalization

波斯语

persian_normalization

斯堪的纳维亚语

scandinavian_normalizationscandinavian_folding

塞尔维亚语

serbian_normalization