您现在的位置: 首页 > 标签 > 分析器
分析器
分析器
相关文章 : 1篇 浏览 : 7次

分析(Analysis)在Lucene中指的是将域(Field)文本转换为最基本的索引表示单元—项(Term)的过程。分析器(Analyzer)对分析操作进行了封装,通过执行一系列操作,将文本语汇单元化,这些操作包括提取单词、去除标点符号、去除语汇单元上的音调符号、将大写字母转换成小写、移除常用词、将单词转换为词干(词干还原)等。这个过程也可称为语汇单元化过程(tokenization),而从文本流中得到的文本块称为语汇单元(tokens)。各tokens与关联的Field名结合就构成了各个项(Term)。在Lucene中,一个标准的分析器Analyzer由两部分组成,一部分是分词器,被称为Tokenizer;另一部分是过滤器,被称为TokenFilter。一个分析器Analyzer往往由一个分词器和多个过滤器组成。这里所说的过滤器,和检索时用的过滤器是完全不同的两个概念,这里所讲的过滤器是用于对用户切分出来的词进行一些处理,如去掉一些敏感词、停用词、大小写转换、单复数转换等等。