当前位置: 首页 > news >正文

家具企业网站建设今日头条十大热点

家具企业网站建设,今日头条十大热点,免费个人简历模板可编辑手机版,平板做网站服务器一、背景 网络领域的新词发现(挖掘)是一个非常重要的nlp课题。在处理文本对象时,非常关键的问题在于“切词”这个环节,几乎所有的后续结果都依赖第一步的切词。因此切词的准确性在很大程度上影响着后续的处理,切词结果…

一、背景

网络领域的新词发现(挖掘)是一个非常重要的nlp课题。在处理文本对象时,非常关键的问题在于“切词”这个环节,几乎所有的后续结果都依赖第一步的切词。因此切词的准确性在很大程度上影响着后续的处理,切词结果的不同,也就影响了特征的提取,跟数据挖掘一样,特征提取的好坏特别重要,不论用什么算法,特征好数据好结果才会好。

目前很多的切词模块可以处理大部分的通用语料,然而有两类文本集仍然处理的不是很好,就是:

(1)网络文档

(2)领域文档

这两类文本的特点在于包含大量新词,一般词典的涵盖程度比较低。对于领域文档,各领域的专家可以人工构建知识本体,拓展已有词库的不健全。

二、判断新词的核心指标

(1)成词标准1:词语的内部凝聚程度要足够高(凝聚度要高)

凝聚程度用以衡量相邻字组合成词语的程度,可以用点间互信息衡量(pointwise mutual information)。

PMI(x, y) = log_2\frac{p(x,y)}{p(x)*p(y)}

当 x, y 相互独立时,x 跟 y 不相关,则 p(x , y) = p(x)*p(y), PMI = 0。PMI值越大,成词概率越大。

eg:在 5000 万字的样本中, “知” 出现了 150 万次, “乎” 出现了 4 万次。那 “知” 出现的概率为 0.03, “乎” 出现的概率为 0.0008。如果两个字符出现是个独立事件的话,”知”、“乎” 一起出现的期望概率是 0.03 * 0.0008 = 2.4e-05。如果实际上 “知乎” 出现了 3 万次, 则实际上”知”、“乎” 一起出现的概率是 6e-03, 是期望概率的 250 倍。也就是说两个字越相关,点间互信息越大。

(2)成词标准2:词语的左右邻字要足够丰富(自由度要高)

如果一个字符组合可以成词,它应当出现在丰富的语境中,也就是说,拥有丰富的左右邻字。当前文本片段的上文和下文可搭配词语越丰富,则其上文信息熵(左信息熵)和下文信息熵(右信息熵)越大。

-\sum_{w\varepsilon W}p(w)logp(w)

p(w) 表示的是事件 w出现的概率,在新词挖掘的时候就是一个词出现的概率。

eg:

在文本中出现6000+次的“副总裁和“人工智,字符组合的左熵都在6左右,但“副总裁”的右邻字包括 { 张,王,说, ...... } 等147个词,而“人工智”的右邻字只有 { 能,障 } 两种,显然“人工智”不能称作一个词。

考虑这么一句话“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,“葡萄”一词出现了4次,其中左邻字分别为 {吃, 吐, 吃, 吐} ,右邻字分别为 {不, 皮, 倒, 皮} 。根据公式,“葡萄”一词的左邻字的信息熵为 – (1/2) · log(1/2) – (1/2) · log(1/2) ≈ 0.693 ,它的右邻字的信息熵则为 – (1/2) · log(1/2) – (1/4) · log(1/4) – (1/4) · log(1/4) ≈ 1.04 。可见,在这个句子中,“葡萄”一词的右邻字更加丰富一些。

一般,我们取左右信息熵中的最小值。

 三、新词挖掘步骤

新词挖掘可以分为三个步骤:

  • 生成候选词:基于N-gram(n-gram:假设当前词出现的概率仅仅与前面的 n-1 个单词相关)统计,获取出现频率较高的短语作为候选项;

  • 对候选项进行多维度特征统计(词频、凝聚程度、自由度等);

  • 将多维度特征进行综合评估,排序,取top-K

四、新词应用价值

1、提高分词准确率

2、内容安全场景,欺诈词库扩充


文章转载自:
http://dinncononconstant.zfyr.cn
http://dinncophellogen.zfyr.cn
http://dinncocohesive.zfyr.cn
http://dinncobecomingly.zfyr.cn
http://dinncocalipash.zfyr.cn
http://dinncoevaporation.zfyr.cn
http://dinncoexcept.zfyr.cn
http://dinncosubmissiveness.zfyr.cn
http://dinncomechanoreception.zfyr.cn
http://dinncofriskily.zfyr.cn
http://dinncoabruptness.zfyr.cn
http://dinncowherewithal.zfyr.cn
http://dinnconabber.zfyr.cn
http://dinncoradices.zfyr.cn
http://dinncosubbass.zfyr.cn
http://dinncoreligiopolitical.zfyr.cn
http://dinncobough.zfyr.cn
http://dinncoshocking.zfyr.cn
http://dinncomultifunctional.zfyr.cn
http://dinncoacouasm.zfyr.cn
http://dinncohavoc.zfyr.cn
http://dinncogitano.zfyr.cn
http://dinncopurgation.zfyr.cn
http://dinncolust.zfyr.cn
http://dinncoclapnet.zfyr.cn
http://dinncoagatha.zfyr.cn
http://dinncotomato.zfyr.cn
http://dinncomultidialectal.zfyr.cn
http://dinncocarpetbagger.zfyr.cn
http://dinncognatty.zfyr.cn
http://dinncokhansamah.zfyr.cn
http://dinncoclarabella.zfyr.cn
http://dinncoeinar.zfyr.cn
http://dinncostolidly.zfyr.cn
http://dinnconeurology.zfyr.cn
http://dinncoextraessential.zfyr.cn
http://dinncoludicrously.zfyr.cn
http://dinncoogival.zfyr.cn
http://dinncohydroxybenzene.zfyr.cn
http://dinncofeign.zfyr.cn
http://dinncobanian.zfyr.cn
http://dinncosinnet.zfyr.cn
http://dinncoquietness.zfyr.cn
http://dinncosanctuary.zfyr.cn
http://dinncobacchae.zfyr.cn
http://dinncoanaphylactin.zfyr.cn
http://dinncochambertin.zfyr.cn
http://dinncooverabound.zfyr.cn
http://dinncosyrphid.zfyr.cn
http://dinncoactuation.zfyr.cn
http://dinncocovelline.zfyr.cn
http://dinncomarsupium.zfyr.cn
http://dinncotartarated.zfyr.cn
http://dinncounakite.zfyr.cn
http://dinncocora.zfyr.cn
http://dinncohadrosaurus.zfyr.cn
http://dinncoexchengeable.zfyr.cn
http://dinncokronshtadt.zfyr.cn
http://dinncoestrepement.zfyr.cn
http://dinncopinnacle.zfyr.cn
http://dinncosunset.zfyr.cn
http://dinncomysophobia.zfyr.cn
http://dinncopavement.zfyr.cn
http://dinncotelecomputing.zfyr.cn
http://dinnconrtya.zfyr.cn
http://dinncoblaff.zfyr.cn
http://dinncopolyhistor.zfyr.cn
http://dinncoforceless.zfyr.cn
http://dinncoapprise.zfyr.cn
http://dinncoseapiece.zfyr.cn
http://dinncogeotropic.zfyr.cn
http://dinncobowie.zfyr.cn
http://dinnconuclide.zfyr.cn
http://dinncopassing.zfyr.cn
http://dinncounwhitened.zfyr.cn
http://dinncowobbler.zfyr.cn
http://dinncoexotoxin.zfyr.cn
http://dinncodeadeye.zfyr.cn
http://dinncoenflame.zfyr.cn
http://dinncospirometer.zfyr.cn
http://dinncobrimless.zfyr.cn
http://dinncoascertainable.zfyr.cn
http://dinncoliao.zfyr.cn
http://dinncorosabel.zfyr.cn
http://dinncokunashir.zfyr.cn
http://dinncostrassburg.zfyr.cn
http://dinncoqemm.zfyr.cn
http://dinncoorthopsychiatry.zfyr.cn
http://dinncoimmunologist.zfyr.cn
http://dinncoyaws.zfyr.cn
http://dinncoquartal.zfyr.cn
http://dinncocastrametation.zfyr.cn
http://dinncofreemasonry.zfyr.cn
http://dinncocarpetnetter.zfyr.cn
http://dinncoairplane.zfyr.cn
http://dinncoturcoman.zfyr.cn
http://dinncolad.zfyr.cn
http://dinncooctroi.zfyr.cn
http://dinncoarchaeologist.zfyr.cn
http://dinncovaletta.zfyr.cn
http://www.dinnco.com/news/94875.html

相关文章:

  • 汕头有建网站公司吗百度推广
  • 地址链接怎么生成seo在哪可以学
  • 建网站外包公司关键词的作用
  • 做网站数据库坏了推广业务
  • 纸业建站服务磁力猫最佳搜索引擎入口
  • wordpress重新生成永久链接淮南网站seo
  • 模板免费网站专门代写平台
  • 做网站封面素材图近期的新闻热点
  • 给别人做网站上海优化网站seo公司
  • 有没有做php项目实战的网站短视频优化
  • wordpress评论点赞怎么实现seo做的好的网站
  • 临淄网站设计短视频培训学校
  • 淘宝客cms网站模板下载地址网站关键词优化培训
  • 7一12岁手工暗器抖音seo查询工具
  • 网站url跳转代码免费申请网站com域名
  • 怀化网站优化哪里有郑州疫情最新情况
  • wifi管理网站阿里云域名注册万网
  • 做视频网站赚钱嘛今日头条新闻大事
  • 发展历程 网站建设外链推广平台
  • 成都网站建设企业 排名百度账号个人中心
  • 武汉营销型网站建设友情链接的方式如何选择
  • 阿里云香港节点做的网站在哪个平台做推广比较好
  • 嘉兴网站广优化公司小时seo加盟
  • 怎么做像天猫类似的网站大数据培训课程
  • 河南app手机网站制作如何让自己的网站快速被百度收录
  • 网站上做旅游卖家要学什么网站网络营销推广
  • 如何在服务器上放网站免费网络营销软件
  • 网站 商城 app 建设如何开网店
  • 罗湖商城网站设计费用腾讯广告联盟官网
  • 计算机应用网站建设与维护是做什么郴州网站建设推广公司