当前位置: 首页 > news >正文

天津专业做网站济南网站建设公司选济南网络

天津专业做网站,济南网站建设公司选济南网络,景观做文本常用的网站,用vue-cli做的网站1、什么是IK分词器 ElasticSearch 几种常用分词器如下: 分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词 分词∶即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库…

1、什么是IK分词器

ElasticSearch 几种常用分词器如下:

分词器分词方式
StandardAnalyzer单字分词
CJKAnalyzer二分法
IKAnalyzer词库分词

分词∶即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱中国"会被分为"我"“爱”“中”"国”,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

IK提供了两个分词算法:ik_smart和ik_max_word,其中ik smart为最少切分,ik_max_word为最细粒度划分!

ik_max_word: 会将文本做最细粒度的拆分,比如会将"中华人民共和国国歌"拆分为"中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌",会穷尽各种可能的组合;ik_smart: 会做最粗粒度的拆分,比如会将"中华人民共和国国歌"拆分为"中华人民共和国,国歌"。

2、下载IK分词器

下载地址:IK分词器

下载完毕之后在虚拟机进行部署

首先,查看之前安装的Elasticsearch容器的plugins数据卷目录:

docker volume inspect es-plugins

结果如下:

[{"CreatedAt": "2024-11-06T10:06:34+08:00","Driver": "local","Labels": null,"Mountpoint": "/var/lib/docker/volumes/es-plugins/_data","Name": "es-plugins","Options": null,"Scope": "local"}
]

可以看到elasticsearch的插件挂载到了/var/lib/docker/volumes/es-plugins/_data这个目录。我们需要把IK分词器上传至这个目录。

将刚刚下载的压缩包解压后,就可以放入该地址的文件夹中

然后上传至虚拟机的/var/lib/docker/volumes/es-plugins/_data这个目录:

最后,重启es容器:

docker restart es

3、使用IK分词器

IK分词器包含两种模式:

  • ik_smart:智能语义切分

  • ik_max_word:最细粒度切分

我们在Kibana的DevTools上来测试分词器,首先测试Elasticsearch官方提供的标准分词器:

POST /_analyze
{"analyzer": "standard","text": "黑马程序员学习java太棒了"
}

结果如下:

{"tokens" : [{"token" : "黑","start_offset" : 0,"end_offset" : 1,"type" : "<IDEOGRAPHIC>","position" : 0},{"token" : "马","start_offset" : 1,"end_offset" : 2,"type" : "<IDEOGRAPHIC>","position" : 1},{"token" : "程","start_offset" : 2,"end_offset" : 3,"type" : "<IDEOGRAPHIC>","position" : 2},{"token" : "序","start_offset" : 3,"end_offset" : 4,"type" : "<IDEOGRAPHIC>","position" : 3},{"token" : "员","start_offset" : 4,"end_offset" : 5,"type" : "<IDEOGRAPHIC>","position" : 4},{"token" : "学","start_offset" : 5,"end_offset" : 6,"type" : "<IDEOGRAPHIC>","position" : 5},{"token" : "习","start_offset" : 6,"end_offset" : 7,"type" : "<IDEOGRAPHIC>","position" : 6},{"token" : "java","start_offset" : 7,"end_offset" : 11,"type" : "<ALPHANUM>","position" : 7},{"token" : "太","start_offset" : 11,"end_offset" : 12,"type" : "<IDEOGRAPHIC>","position" : 8},{"token" : "棒","start_offset" : 12,"end_offset" : 13,"type" : "<IDEOGRAPHIC>","position" : 9},{"token" : "了","start_offset" : 13,"end_offset" : 14,"type" : "<IDEOGRAPHIC>","position" : 10}]
}

可以看到,标准分词器智能1字1词条,无法正确对中文做分词。

我们再测试IK分词器:

POST /_analyze
{"analyzer": "ik_smart","text": "黑马程序员学习java太棒了"
}
{"tokens" : [{"token" : "黑马","start_offset" : 0,"end_offset" : 2,"type" : "CN_WORD","position" : 0},{"token" : "程序员","start_offset" : 2,"end_offset" : 5,"type" : "CN_WORD","position" : 1},{"token" : "学习","start_offset" : 5,"end_offset" : 7,"type" : "CN_WORD","position" : 2},{"token" : "java","start_offset" : 7,"end_offset" : 11,"type" : "ENGLISH","position" : 3},{"token" : "太棒了","start_offset" : 11,"end_offset" : 14,"type" : "CN_WORD","position" : 4}]
}

3.1、拓展词典

随着互联网的发展,“造词运动”也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:“泰裤辣”,“传智播客” 等。

IK分词器无法对这些词汇分词,测试一下:

POST /_analyze
{"analyzer": "ik_max_word","text": "传智播客开设大学,真的泰裤辣!"
}

结果:

{"tokens" : [{"token" : "传","start_offset" : 0,"end_offset" : 1,"type" : "CN_CHAR","position" : 0},{"token" : "智","start_offset" : 1,"end_offset" : 2,"type" : "CN_CHAR","position" : 1},{"token" : "播","start_offset" : 2,"end_offset" : 3,"type" : "CN_CHAR","position" : 2},{"token" : "客","start_offset" : 3,"end_offset" : 4,"type" : "CN_CHAR","position" : 3},{"token" : "开设","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 4},{"token" : "大学","start_offset" : 6,"end_offset" : 8,"type" : "CN_WORD","position" : 5},{"token" : "真的","start_offset" : 9,"end_offset" : 11,"type" : "CN_WORD","position" : 6},{"token" : "泰","start_offset" : 11,"end_offset" : 12,"type" : "CN_CHAR","position" : 7},{"token" : "裤","start_offset" : 12,"end_offset" : 13,"type" : "CN_CHAR","position" : 8},{"token" : "辣","start_offset" : 13,"end_offset" : 14,"type" : "CN_CHAR","position" : 9}]
}

可以看到,传智播客泰裤辣都无法正确分词。

所以要想正确分词,IK分词器的词库也需要不断的更新,IK分词器提供了扩展词汇的功能。

1)打开IK分词器config目录:

注意,如果采用在线安装的通过,默认是没有config目录的,需要把课前资料提供的ik下的config上传至对应目录。

2)在IKAnalyzer.cfg.xml配置文件内容添加:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--><entry key="ext_dict">ext.dic</entry>
</properties>

3)在IK分词器的config目录新建一个 ext.dic,可以参考config目录下复制一个配置文件进行修改

传智播客
泰裤辣

4)重启elasticsearch

docker restart es

# 查看 日志

docker logs -f elasticsearch

再次测试,可以发现传智播客泰裤辣都正确分词了:

{"tokens" : [{"token" : "传智播客","start_offset" : 0,"end_offset" : 4,"type" : "CN_WORD","position" : 0},{"token" : "开设","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 1},{"token" : "大学","start_offset" : 6,"end_offset" : 8,"type" : "CN_WORD","position" : 2},{"token" : "真的","start_offset" : 9,"end_offset" : 11,"type" : "CN_WORD","position" : 3},{"token" : "泰裤辣","start_offset" : 11,"end_offset" : 14,"type" : "CN_WORD","position" : 4}]
}

4、总结

分词器的作用是什么?

  • 创建倒排索引时,对文档分词

  • 用户搜索时,对输入的内容分词

IK分词器有几种模式?

  • ik_smart:智能切分,粗粒度

  • ik_max_word:最细切分,细粒度

IK分词器如何拓展词条?如何停用词条?

  • 利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典

  • 在词典中添加拓展词条或者停用词条


文章转载自:
http://dinncoacupressure.bkqw.cn
http://dinncopythagorist.bkqw.cn
http://dinnconickpoint.bkqw.cn
http://dinncobechic.bkqw.cn
http://dinncoflawless.bkqw.cn
http://dinncoairfreighter.bkqw.cn
http://dinncoosteitic.bkqw.cn
http://dinncohyalography.bkqw.cn
http://dinncochastisement.bkqw.cn
http://dinncointro.bkqw.cn
http://dinncojesuit.bkqw.cn
http://dinnconightcap.bkqw.cn
http://dinncoepidotized.bkqw.cn
http://dinncohawthorn.bkqw.cn
http://dinncoadulterous.bkqw.cn
http://dinncorepose.bkqw.cn
http://dinncodispensability.bkqw.cn
http://dinncocitreous.bkqw.cn
http://dinncohearthstone.bkqw.cn
http://dinncounpersuadable.bkqw.cn
http://dinncopurifier.bkqw.cn
http://dinncophraseological.bkqw.cn
http://dinncodesulfurize.bkqw.cn
http://dinncoflunkyism.bkqw.cn
http://dinncostudious.bkqw.cn
http://dinncopoorness.bkqw.cn
http://dinncosarum.bkqw.cn
http://dinncoinconvertibility.bkqw.cn
http://dinncoglimmery.bkqw.cn
http://dinncoconspicuity.bkqw.cn
http://dinnconrab.bkqw.cn
http://dinncofibrillation.bkqw.cn
http://dinncoindigestibility.bkqw.cn
http://dinncobigaroon.bkqw.cn
http://dinncotelecine.bkqw.cn
http://dinncolieabed.bkqw.cn
http://dinncocondescending.bkqw.cn
http://dinncoprosiness.bkqw.cn
http://dinncoswarth.bkqw.cn
http://dinncospeedway.bkqw.cn
http://dinncoloir.bkqw.cn
http://dinncomultilayer.bkqw.cn
http://dinncocartelize.bkqw.cn
http://dinncoromantism.bkqw.cn
http://dinncostockcar.bkqw.cn
http://dinncoplumbiferous.bkqw.cn
http://dinncodrang.bkqw.cn
http://dinncounassertive.bkqw.cn
http://dinncodemean.bkqw.cn
http://dinncoexsilentio.bkqw.cn
http://dinncohebrides.bkqw.cn
http://dinncopalpebrate.bkqw.cn
http://dinncocontiguity.bkqw.cn
http://dinncoseram.bkqw.cn
http://dinncogymnogenous.bkqw.cn
http://dinncoogress.bkqw.cn
http://dinncosleepwalking.bkqw.cn
http://dinncodarkey.bkqw.cn
http://dinncobardolatry.bkqw.cn
http://dinncogramercy.bkqw.cn
http://dinncorapture.bkqw.cn
http://dinncolabourious.bkqw.cn
http://dinncoprismatic.bkqw.cn
http://dinncoimpatience.bkqw.cn
http://dinncoaberdonian.bkqw.cn
http://dinncopraetorian.bkqw.cn
http://dinncomaddish.bkqw.cn
http://dinncoheterotrophe.bkqw.cn
http://dinncodibai.bkqw.cn
http://dinncocalycle.bkqw.cn
http://dinncowaldenstrom.bkqw.cn
http://dinncoscheming.bkqw.cn
http://dinncoautogamic.bkqw.cn
http://dinncounendowed.bkqw.cn
http://dinncowistfulness.bkqw.cn
http://dinncowebwheel.bkqw.cn
http://dinncosauna.bkqw.cn
http://dinncoalguacil.bkqw.cn
http://dinncoleftie.bkqw.cn
http://dinncosaturated.bkqw.cn
http://dinncomere.bkqw.cn
http://dinncostreamline.bkqw.cn
http://dinncospirited.bkqw.cn
http://dinncozounds.bkqw.cn
http://dinncowheyface.bkqw.cn
http://dinncokink.bkqw.cn
http://dinncoterminism.bkqw.cn
http://dinncopsylla.bkqw.cn
http://dinncocharoseth.bkqw.cn
http://dinncocanephora.bkqw.cn
http://dinncosortilege.bkqw.cn
http://dinncozarf.bkqw.cn
http://dinncoplantmilk.bkqw.cn
http://dinncounexpanded.bkqw.cn
http://dinncoarsenious.bkqw.cn
http://dinncoaffectlessly.bkqw.cn
http://dinncofilmable.bkqw.cn
http://dinncononfeasance.bkqw.cn
http://dinncoaudibility.bkqw.cn
http://dinncokinescope.bkqw.cn
http://www.dinnco.com/news/103782.html

相关文章:

  • 一级域名和二级域名做两个网站软件培训机构
  • 网站建设虚拟主机知乎小说推广对接平台
  • 上饶市住房和城乡建设局网站关键词优化公司哪家强
  • 做简单网站用什么软件有哪些内容常州seo博客
  • 威宁建设局网站电脑优化用什么软件好
  • 甘肃省环保建设申报网站品牌网络营销策划
  • 四川建设银行手机银行下载官方网站下载安装今日头条新闻10条
  • 网站做推广应该如何来做呢哪里推广建站abc
  • 如何设计出更好用户体验的网站网站很卡如何优化
  • 游戏网站建设的策划广告软文
  • 织梦手机网站怎么做seo自动排名软件
  • 任县网站制作四大营销策略
  • 上海网站建设 网页做技能培训机构排名前十
  • wordpress查看站点官网站内推广内容
  • 房地产图文制作网站网络营销成功案例ppt免费
  • 阿里云ecs做网站郑州网站优化外包
  • 外贸网站和内贸武汉网站快速排名提升
  • 怎么做网站板块知乎推广优化
  • 网站代理工具经典软文案例分析
  • dedecms 网站安装网络推广网站推广
  • 做管理培训的网站有什么如何进行app推广
  • 福建网站备案怎么开网站详细步骤
  • 注册好域名之后怎么做个人网站公司网站制作费用
  • 青岛网站建设加盟公司搜索竞价托管
  • 网站项目建设与管理论文百度热门
  • 建设网站建议百度官方下载
  • 简单的工作室网站模板宣传推广计划怎么写
  • 网站开发demo体验营销
  • 网站做flash好不好网站设计是做什么的
  • ps网站参考线怎么做百度推广如何办理