当前位置: 首页 > news >正文

江西万通建设有限公司网站app引流推广软件

江西万通建设有限公司网站,app引流推广软件,绍兴做网站的,开发公司案外人执行异议申请书文章目录一、关于 langid二、基本使用Normalization多个语言中选择一个三、训练模型1、需要2、工具是3、过程4、代码调用自定义模型一、关于 langid https://github.com/saffsd/langid.py 用于检测语言 二、基本使用 import langidlangid.classify("This is a test"…

文章目录

    • 一、关于 langid
    • 二、基本使用
      • Normalization
      • 多个语言中选择一个
    • 三、训练模型
      • 1、需要
      • 2、工具是
      • 3、过程
      • 4、代码调用自定义模型


一、关于 langid

https://github.com/saffsd/langid.py
用于检测语言


二、基本使用

import langidlangid.classify("This is a test")
('en', -54.41310358047485)

Normalization

可以使用 0–1 之间的数据来衡量

from langid.langid import LanguageIdentifier, model
identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)identifier.classify("This is a test")
# ('en', 0.9999999909903544)

多个语言中选择一个

上述方式,很多时候存在语言不准的情况,可以设置默认语言,让 langid 来选取

langid.set_languages(['de','fr','it'])langid.classify("I do not speak english")
('it', 0.99999835791478453)


def detect():identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)identifier.set_languages(['th', 'zh', 'en'])arr = ['I do not speak english','ผู้สื่อข่าวได้รับแจ้งว่ามีประชาชนเ','得亲密。','由泰国当红男星"film" Rattapoom Toekongsap和泰国超模']for str in arr:print(identifier.classify(str))

三、训练模型


1、需要

1、单语文档语料库

2 层深的文件夹层次结构:域 – 语言类型 – 文档文件

每个文档应该是一个单独的文件,每个文件应该在一个 2 层深的文件夹层次结构中,语言嵌套在域中。

./corpus/domain1/en/File1.txt 
./corpus/domainX/en/001-file.xml

2、工具是

  1. index.py - 索引语料库。生成文件、语料库、语言对的列表。
  2. tokenize.py - 获取索引并标记相应的文件
  3. DFfeatureselect.py - 按文档频率选择特征
  4. IGweight.py - 计算语言和领域的 IG 权重
  5. LDfeatureselect.py - 获取 IG 权重并使用它们来选择一个特征集
  6. scanner.py - 基于功能集构建扫描仪
  7. NBtrain.py - 使用索引语料库和扫描仪学习 NB 参数

3、过程

1、索引

$ python index.py ./corpus

2、标记

python tokenize.py corpus.model

3、识别最频繁的标记

通过文档频率识别最频繁的标记

python DFfeatureselect.py corpus.model

4、计算每个顶级特征的 IG 权重
以下两个都需要执行

python IGweight.py -d corpus.model
python IGweight.py -lb corpus.model

5、计算每个令牌的 LD 分数

python LDfeatureselect.py corpus.model

这将生成用于构建 NB 模型的 LD 特征的最终列表。


6、组装扫描仪

python scanner.py corpus.model

扫描仪是对特征集的编译 DFA,可用于计算文档中每个特征在单次遍历文档中出现的次数。此 DFA 是使用 Aho-Corasick 字符串匹配构建的。


7、朴素贝叶斯参数

最后,我们学习实际的朴素贝叶斯参数:

python NBtrain.py corpus.model

4、代码调用自定义模型

1)从指定位置加载模型,并进行 normalize

identifier = LanguageIdentifier.from_modelpath(model_path, norm_probs=True)

model 本质是一个长字符串


2)从字符串加载模型

from langid.langid import LanguageIdentifier, modelidentifier = LanguageIdentifier.from_modelstring(model, norm_probs=True) 

3)命令行中使用

# normalize
$ python langid.py -n
>>> 你好呀
('zh', 0.9998446372669386)# normalize + custom model  
$ python langid.py -n -m  /Users/xxx/langid.py/langid/train/corpus.model/model 
>>> 这是美好的开始
('zh', 0.999999927953073)

伊织 2021-09-07

http://www.dinnco.com/news/19579.html

相关文章:

  • 做推广有什么好网站汕头网站优化
  • 网站被黑能查到是谁做的吗站长工具查询seo
  • 做企业网站那家好知乎怎么申请关键词推广
  • 白云区做网站公司厦门seo外包
  • 好用的软件下载网站天津百度关键词seo
  • 建设网站 翻译宁波seo优化服务
  • 政府部门网站开发项目建设背景网络营销有哪些内容
  • 不改域名和空间 只改网站类型域名注册网站
  • dwcc2017怎么做网站免费seo网站自动推广软件
  • app手机电视网站设计方案北京网站推广排名外包
  • 什么nas可以做网站服务器西安网站seo排名优化
  • 铁路工程建设材料预算价格2网站沪深300指数基金
  • 网站内容规划怎么写柳州网站建设哪里有
  • 谷歌网站地图在线生成近两年网络营销成功案例
  • 经典网站设计个人免费网站申请注册
  • 价格低文案宁波seo如何做推广平台
  • 不用淘宝客api如何做网站网络销售公司怎么运作
  • 郑州网站优化推广dw网页设计模板网站
  • b2c网站建设价格站长之家怎么用
  • 传播文化有限公司网站建设阿里云官网首页
  • 先做网站装修还是先买虚拟主机seo排名系统源码
  • 做网站需要每年都交钱吗seo交互论坛
  • 做马甲的网站嘉兴优化公司
  • 安徽省建设业协会网站企业网站设计方案
  • 衢州市建设工程质量监督站网站烟台seo外包
  • 做黄色网站多少年怎样制作免费网页
  • jfinal怎么做网站深圳网站设计公司哪家好
  • 红酒网站建设策划书软文营销
  • 百度搜索网站打开错误艺考培训
  • 3yx这个网站做刷单网址seo分析