elasticsearch基础--IK分词器

Updated on with 0 views and 0 comments

一 、下载

去github中下载自己的elasticsearch对应版本的分词器插件,我的elasticsearch版本为7.4.2,所以我下载的IK分词器插件版本也是7.4.2

Releases · medcl/elasticsearch-analysis-ik (github.com)

二、安装

使用docker创建elasticsearch时,我们关联了一个plugins目录,将解压后的目录移动到该文件夹下

如果是下载包进行的安装,也可以在elasticsearch目录下找到plugins文件夹

然后重启elasticsearch即可

重启后,查看elasticsearch日志提示已经加载了IK分词器

image.png

三、测试

IK分词器支持最细粒度分词(ik_max_word)和最粗粒度分词(ik_smart)

最细粒度分词会将输入的文本,根据词典进行最细粒度的拆分,一段文本可能会分出很多词,如下示例

在kibana中使用最细粒度分词对美利坚合众国进行分词

GET _analyze
{
"analyzer": "ik_max_word",
"text": "美利坚合众国"
}

得到结果如下

image.png

使用最粗粒度分词对美利坚合众国进行分词

GET _analyze
{
"analyzer": "ik_smart",
"text": "美利坚合众国"
}

得到结果如下

image.png

四、词典维护

在下载的IK-Analysis插件中,config目录下有一个IKAnalyzer.cfg.xml文件,该文件内容如下

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict"></entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords"></entry>
        <!--用户可以在这里配置远程扩展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>   

此时,我们需要添加自定义的词典,my.dic如下所示

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict">my.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords"></entry>
        <!--用户可以在这里配置远程扩展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

然后再config目录下新建my.dic文件,并再里面添加龙龙龙

然后重启elasticsearch

再kibana中执行下述命令

GET _analyze
{
  "analyzer": "ik_smart",
  "text": "你好龙龙龙"
}

分词结果如下,龙龙龙,被作为一个词语进行了分词

image.png

五、常见报错

5.1 Data too large

在es的配置文件elasticsearch.yml中新增配置,重启elasticsearch

# 缓存回收大小,无默认值
# 有了这个设置,最久未使用(LRU)的 fielddata 会被回收为新数据腾出空间
# 控制fielddata允许内存大小,达到HEAP 20% 自动清理旧cache
indices.fielddata.cache.size: 20%
indices.breaker.total.use_real_memory: false
# fielddata 断路器默认设置堆的 60% 作为 fielddata 大小的上限。
indices.breaker.fielddata.limit: 40%
# request 断路器估算需要完成其他请求部分的结构大小,例如创建一个聚合桶,默认限制是堆内存的 40%。
indices.breaker.request.limit: 40%
# total 揉合 request 和 fielddata 断路器保证两者组合起来不会使用超过堆内存的 70%(默认值)。
indices.breaker.total.limit: 95%

标题:elasticsearch基础--IK分词器
作者:wenyl
地址:http://www.wenyoulong.com/articles/2023/08/01/1690853259511.html