当前位置: 首页 > news >正文

做解析会员电影的网站今日新闻十大头条内容

做解析会员电影的网站,今日新闻十大头条内容,wordpress 5.3,人民日报政府网站建设文章目录 介绍评估数据 介绍 文本嵌入通常是在单一任务的少量数据集上进行评估,这些数据集未涵盖其可能应用于其他任务的情况,不清楚在语义文本相似性(semantic textual similarity, STS)等任务上的最先进嵌入是否同样适用于聚类或…

文章目录

    • 介绍
    • 评估数据

介绍

  文本嵌入通常是在单一任务的少量数据集上进行评估,这些数据集未涵盖其可能应用于其他任务的情况,不清楚在语义文本相似性(semantic textual similarity, STS)等任务上的最先进嵌入是否同样适用于聚类或重排序等其他任务。这使得该领域的进展难以跟踪,因为不断有各种模型被提出,而没有进行适当的评估。
  为了解决这个问题,Hugging Face团队推出了大规模文本嵌入基准(Massive Text Embedding Benchmark, MTEB)。MTEB涵盖了8个嵌入任务,共58个数据集和112种语言,是目前迄今为止最全面的文本嵌入基准。
  MTEB源码:https://github.com/embeddings-benchmark/mteb
  MTEB论文:https://arxiv.org/abs/2210.07316
  MTEB排行榜:https://huggingface.co/spaces/mteb/leaderboard

评估数据

  由于众所周知的原因,Hugging Face官网访问无法直接,所以这篇文章提供了一个比较友好的代理方案来下载数据集。

  由于mteb1.12.4的版本中使用了ISO编码,导致task_langs参数不太好使了,这里暂时使用1.1.1版本。
  pip install mteb==1.1.1
  pip install C_MTEB

# -*- coding: utf-8 -*-
# Author  : liyanpeng
# Email   : yanpeng.li@cumt.edu.cn
# Datetime: 2024/5/28 18:23
# Filename: download_data.py
from mteb import MTEBimport os
import subprocessos.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
data_path = '/root/data3/liyanpeng/hf_data'def show_dataset():evaluation = MTEB(task_langs=["zh", "zh-CN"])dataset_list = []for task in evaluation.tasks:if task.description.get('name') not in dataset_list:dataset_list.append(task.description.get('name'))desc = 'name: {}\t\thf_name: {}\t\ttype: {}\t\tcategory: {}'.format(task.description.get('name'), task.description.get('hf_hub_name'),task.description.get('type'), task.description.get('category'),)print(desc)print(len(dataset_list))def download_dataset():evaluation = MTEB(task_langs=["zh", "zh-CN"])err_list = []for task in evaluation.tasks:# task.load_data()# https://huggingface.co/datasets/task_name = task.description.get('hf_hub_name')print(task_name)cmd = ['huggingface-cli', 'download', '--repo-type', 'dataset', '--resume-download','--local-dir-use-symlinks', 'False', task_name, '--local-dir', os.path.join(data_path, task_name)]try:result = subprocess.run(cmd, check=True)except subprocess.CalledProcessError as e:err_list.append(task_name)print("{} is error".format(task_name))if err_list:print('download failed: \n', '\n'.join(err_list))else:print('download success.')if __name__ == '__main__':download_dataset()show_dataset()

  一共是31个数据集:

在这里插入图片描述

http://www.dinnco.com/news/46246.html

相关文章:

  • 专业微网站建设公司哪家好网站关键词优化外包
  • 复兴企业做网站推广成都百度推广开户公司
  • 南京网站优化代发百度首页排名
  • 张店学校网站建设哪家好重庆网站建设
  • 网站建设wlpeixun揭阳百度快照优化排名
  • 上海的建设项目招投标在哪个网站杭州百度
  • 做网站前必须设计原型吗下载地图导航手机版免流量费用
  • 哪个网站可以做付邮免费送活动北京网站优化对策
  • 做网站1000以下哪家好开封网站设计
  • 网站制作旅行社兰州seo关键词优化
  • 网站建设价格槽闸阀外链工厂
  • html5 css3网站模版知名网络推广
  • 荆门刚刚发布的沈阳seo排名优化教程
  • 如何修改wordpress权限seo是什么部位
  • 网站seo是什么意思黑马教育培训官网
  • 网站kv如何做产品推广方案怎么写
  • 邯郸wap网站建设公司东莞seo网站推广建设
  • 深圳有哪些做网站的公司好姓名查询
  • 北京最新发布信息长尾词seo排名
  • 网站的优化靠谱seo网站建设平台官网
  • 网站建设好了怎么进行推广营销神器
  • wordpress.com无法打开seo排名快速
  • 浙江高端网站建设营销推广软文案例
  • html手机网站开发教程网络营销战略
  • wordpress 登录用户北京网优化seo优化公司
  • wordpress自动生成网站地图百度极速版app下载
  • 网站建设工具品牌有西安整站优化
  • 南宁定制网站建设抖音推广网站
  • 浙江建设银行网站软文发布门户网站
  • 亿创电力建设集团有限公司网站简述seo和sem的区别与联系