当前位置: 首页 > news >正文

国外网站打开很慢dns临沂森工木业有限公司

国外网站打开很慢dns,临沂森工木业有限公司,学校网站模板 html,seo排名优化软件免费目录 一、vLLM介绍 二、安装vLLM 1、安装环境 2、安装步骤 三、运行vLLM 1、运行方式 2、切换模型下载源 3、运行本地已下载模型 四、通过http访问vLLM 一、vLLM介绍 vLLM(官方网址:https://www.vllm.ai)是一种用于大规模语言模型&#x…

目录

一、vLLM介绍

二、安装vLLM

 1、安装环境

 2、安装步骤

 三、运行vLLM

 1、运行方式

 2、切换模型下载源

 3、运行本地已下载模型

四、通过http访问vLLM


一、vLLM介绍

vLLM(官方网址:https://www.vllm.ai)是一种用于大规模语言模型(LLM)推理的框架,旨在提高模型的吞吐量和降低延迟。vLLM通过优化内存管理和调度策略,显著提升了模型在高并发场景下的性能。vLLM利用了一种名为PagedAttention的注意力机制,该机制借鉴了虚拟内存和分页技术,以减少缓存内存(KV Cache)的浪费,并允许在请求之间灵活共享KV缓存。这种设计使得vLLM在保持与现有系统相同延迟水平的情况下,能够将吞吐量提高2到4倍。特点:

  • 速度快: 在每个请求需要 3 个并行输出完成时的服务吞吐量。vLLM 比 HuggingFace Transformers(HF)的吞吐量高出 8.5 倍-15 倍,比 HuggingFace 文本生成推理(TGI)的吞吐量高出 3.3 倍-3.5 倍

  • 优化的 CUDA 内核

  • 灵活且易于使用

  • 与流行的 Hugging Face 模型(和魔塔社区)无缝集成

  • 高吞吐量服务,支持多种解码算法,包括并行抽样、束搜索等

  • 支持张量并行处理,实现分布式推理

  • 支持流式输出

  • 兼容 OpenAI API 

二、安装vLLM

 1、安装环境

  • 硬件CPU:12 vCPU Intel(R) Xeon
  • 内存MEM:48GB
  • 显卡:RTX 3080单卡
  • 操作系统:Ubuntu 22.04.1 LTS 
  • CUDA版本:cuda_11.8 (通过nvcc --version查看结果)   
  • 已安装:miniconda3版本:conda 22.11.1

 2、安装步骤

     根据vLLM官网的安装说明(网址:https://docs.vllm.ai/en/latest/getting_started/installation/ ),分为三大类:GPU、CPU、其他。 每类中根据具体的安排硬件平台不同还进行不同的细分。

    由于本文所用硬件环境是带CUDA的GPU,因此选择GPU-CUDA方式进行安装。

    步骤如下:

 1) 前置准备:对git增加LFS能力。Git LFS是一个扩展,允许将大文件(如音频、视频、数据集等)存储在Git仓库中,而不会显著增加仓库的大小或影响性能。通过安装Git LFS钩子(hooks),Git LFS能够自动处理这些大文件的上传和下载,确保它们以优化的方式存储在远程仓库中,并在需要时检索到本地。

#若Linux中未安装Git LFS(Large File Storage),则先安装
sudo apt-get install git-lfs#初始化,用于在本地Git仓库中安装Git Large File Storage(LFS)的钩子(hooks)。
git lfs install

 2) 通过miniconda创建虚拟环境,名为env-vllm

#通过conda创建一个新虚拟环境,指定虚拟环境中包括python3.12的packages
conda create -n env-vllm python=3.12 -y#激活使用该虚拟环境
conda activate env-vllm

  3) 在虚拟环境中,通过pip自动下载并安装vllm,过程可能需要几十分钟。注意需根据CUDA版本选择安装(由于低版本vLLM存在bug #8443导致VLLM_USE_MODELSCOPE环境变量不生效。在v0.6.3版本修复了该bug,所以直接下载适配CUDA 11.8的新版vllm)

#截止2025年初,默认安装vLLM’s binaries are compiled with CUDA 12.1 and public PyTorch release versions
pip install vllm#根据自身环境,若希望安装vLLM binaries compiled with CUDA 11.8 and public PyTorch release versions,则:
export VLLM_VERSION=0.6.1.post2
export PYTHON_VERSION=312
pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118#由于低版本vLLM存在bug #8443导致VLLM_USE_MODELSCOPE环境变量不生效。在v0.6.3版本修复了该bug,所以直接下载适配CUDA 11.8的新版vllm
pip install https://github.com/vllm-project/vllm/releases/download/v0.6.6.post1/vllm-0.6.6.post1+cu118-cp38-abi3-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

  4) 在虚拟环境中,可以使用pip show vllm对查看安装结果:

 三、运行vLLM

 1、运行方式

  通过以下可运行vllm,根据模型名称默认自动从 HuggingFace 下载并运行:

# ​运行vllm,根据模型名称默认自动从 HuggingFace 下载并运行
vllm serve "模型名称"# 也可以通过以下执行python代码方式运行vllm
python -m vllm.entrypoints.openai.api_server --model="模型名称" --trust-remote-code --port 8000

注:vllm运行有许多选项,可以通过vllm serve --help查看各个选项用途。或者查看官网文档:https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html#command-line-arguments-for-the-server

 2、切换模型下载源

   vLLM的模型下载默认来源为 HuggingFace 。在国内访问很可能不畅,为此改从国内的 魔搭社区 下载模型。既在运行前先设置VLLM_USE_MODELSCOPE=True既可切换下载源为 魔搭社区 。 (注意:在HuggingFace与魔塔社区上模型名称可能略有不同)。

# 使用魔塔社区,需要先安装package
pip install modelscope
# ​设置环境变量VLLM_USE_MODELSCOPE=True切换下载源为:魔搭社区
# 注意:低版本vLLM存在bug #8443导致该环境变量不生效。在v0.6.3版本修复了该bug
export VLLM_USE_MODELSCOPE=True# ​运行vllm,由于设置了环境变量,根据模型名称默认自动从 魔搭社区 下载并运行
vllm serve "Qwen/Qwen2.5-0.5B-Instruct"
# 也可以通过以下执行python代码方式运行vllm
python -m vllm.entrypoints.openai.api_server --model="Qwen/Qwen2.5-0.5B-Instruct" --trust-remote-code --port 8000

 3、运行本地已下载模型

   除了以上自动下载的方式,还可以通过指定模型所在路径方式运行(需要先下载准备好),这样有几个好处:一是模型来源可以丰富多样,不仅仅局限以上两个平台;二是运行vLLM时无需再联网下载,比较适合内网服务器。 

   下面以模型“Yi-1.5-6B-Chat”为例, 提前通过git下载模型(需要确保lfs已经安装且初始化,具体见前文)。

cd /root/autodl-tmp/my_models
# 提前通过git下载模型(需要确保lfs已经安装且初始化,具体见前文)
git clone https://www.modelscope.cn/01ai/Yi-1.5-6B-Chat.git

  通过指定本地模型所在路径运行vLLM:

# ​运行vllm,指定本地模型所在路径
vllm serve "/root/autodl-tmp/my_models/Yi-1.5-6B-Chat"
# 也可以通过以下执行python代码方式运行vllm
python -m vllm.entrypoints.openai.api_server --model="/root/autodl-tmp/my_models/Yi-1.5-6B-Chat" --trust-remote-code --port 8000

  注:此例中,指定本地模型所在路径运行vLLM的模型名为:/root/autodl-tmp/my_models/Yi-1.5-6B-Chat

四、通过http访问vLLM

  vLLM提供了http接口。下面通过curl验证效果。

# Call the vllm server using curl:
curl -X POST http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \--data '{"model": "Qwen/Qwen2.5-0.5B-Instruct","messages": [{"role": "user","content": "What is the capital of China?"}]}'

chat返回结果(已经格式化排版)如下 

{"id": "chatcmpl-f0cbdea8e1fb41528d1ec2cb0e198498","object": "chat.completion","created": 1736836496,"model": "Qwen/Qwen2.5-0.5B-Instruct","choices": [{"index": 0,"message": {"role": "assistant","content": "The capital of China is Beijing.","tool_calls": []},"logprobs": null,"finish_reason": "stop","stop_reason": null}],"usage": {"prompt_tokens": 36,"total_tokens": 44,"completion_tokens": 8,"prompt_tokens_details": null},"prompt_logprobs": null
}

  vLLM还暴露了各类metrics,供检测vllm的运行状态:

curl http://localhost:8000/metrics

 


文章转载自:
http://dinncoastronautically.bkqw.cn
http://dinncohydrocyanic.bkqw.cn
http://dinncogrizzly.bkqw.cn
http://dinncowhippet.bkqw.cn
http://dinncorattlebrain.bkqw.cn
http://dinncostuffing.bkqw.cn
http://dinncomemorialist.bkqw.cn
http://dinncoassay.bkqw.cn
http://dinncohavdalah.bkqw.cn
http://dinncoalayne.bkqw.cn
http://dinncovectorgraph.bkqw.cn
http://dinncoinviolacy.bkqw.cn
http://dinncoghibelline.bkqw.cn
http://dinncopopularly.bkqw.cn
http://dinncoabashment.bkqw.cn
http://dinncocoinheritance.bkqw.cn
http://dinncokraken.bkqw.cn
http://dinncodoctorial.bkqw.cn
http://dinncocommandment.bkqw.cn
http://dinncohypaspist.bkqw.cn
http://dinncocdrom.bkqw.cn
http://dinncotumefaction.bkqw.cn
http://dinncostirrup.bkqw.cn
http://dinncopentameter.bkqw.cn
http://dinncokerb.bkqw.cn
http://dinncoaerodone.bkqw.cn
http://dinncoirrecoverable.bkqw.cn
http://dinncogrammatist.bkqw.cn
http://dinncocommunism.bkqw.cn
http://dinncopesto.bkqw.cn
http://dinncolithomancy.bkqw.cn
http://dinncounshakably.bkqw.cn
http://dinncomiserere.bkqw.cn
http://dinncofranco.bkqw.cn
http://dinncowoad.bkqw.cn
http://dinncoreist.bkqw.cn
http://dinncorefusal.bkqw.cn
http://dinncofujiyama.bkqw.cn
http://dinncosayst.bkqw.cn
http://dinncorog.bkqw.cn
http://dinncospirometer.bkqw.cn
http://dinncoshakable.bkqw.cn
http://dinncoclaimer.bkqw.cn
http://dinnconebulizer.bkqw.cn
http://dinncoempirically.bkqw.cn
http://dinncobriefly.bkqw.cn
http://dinncobliss.bkqw.cn
http://dinncoincaution.bkqw.cn
http://dinncoknowledgeware.bkqw.cn
http://dinncoinvoke.bkqw.cn
http://dinncovitular.bkqw.cn
http://dinncogravedigger.bkqw.cn
http://dinncoimmersible.bkqw.cn
http://dinncomultigerm.bkqw.cn
http://dinncoroadhouse.bkqw.cn
http://dinnconavalism.bkqw.cn
http://dinncoaspiratory.bkqw.cn
http://dinncoassertative.bkqw.cn
http://dinncotitled.bkqw.cn
http://dinncogyrofrequency.bkqw.cn
http://dinncocruise.bkqw.cn
http://dinnconorthwardly.bkqw.cn
http://dinncoperpetuation.bkqw.cn
http://dinncomanichee.bkqw.cn
http://dinncootherguess.bkqw.cn
http://dinncoamotivational.bkqw.cn
http://dinncowdc.bkqw.cn
http://dinncobenchmark.bkqw.cn
http://dinncounslaked.bkqw.cn
http://dinncoharmonic.bkqw.cn
http://dinncoeledoisin.bkqw.cn
http://dinncootology.bkqw.cn
http://dinncoeverdamp.bkqw.cn
http://dinncoesse.bkqw.cn
http://dinncojaponica.bkqw.cn
http://dinncomemoirist.bkqw.cn
http://dinncowittily.bkqw.cn
http://dinncostaunch.bkqw.cn
http://dinncochyliferous.bkqw.cn
http://dinncoasepticize.bkqw.cn
http://dinncostinking.bkqw.cn
http://dinncosanious.bkqw.cn
http://dinncosociobiology.bkqw.cn
http://dinncorugose.bkqw.cn
http://dinncolipogrammatic.bkqw.cn
http://dinncodisconcertedly.bkqw.cn
http://dinncoranchi.bkqw.cn
http://dinncohypermotility.bkqw.cn
http://dinncoflunkyism.bkqw.cn
http://dinncosedition.bkqw.cn
http://dinncobathymetrically.bkqw.cn
http://dinncoreexhibit.bkqw.cn
http://dinncogardenless.bkqw.cn
http://dinncohymenopteran.bkqw.cn
http://dinncosynonymity.bkqw.cn
http://dinncotrictrac.bkqw.cn
http://dinncoallottee.bkqw.cn
http://dinncounmetrical.bkqw.cn
http://dinncohornstone.bkqw.cn
http://dinnconuits.bkqw.cn
http://www.dinnco.com/news/157729.html

相关文章:

  • 网站开发遇到的困难总结百度云盘登录
  • wordpress安装和使用方法百度关键词优化策略
  • 专门做二手的网站哪里做网络推广
  • 如何自制一个网站重庆seo优化推广
  • 沈阳网站建设服务电话百度平台商家我的订单查询
  • 做房产应看的网站网站技术制作
  • 做资源下载网站用什么工具站长工具端口
  • 网站建设流程的过程网络软文
  • 响应式网站用什么工具网上推广app
  • 零售网站有哪些平台宁波seo推广优化哪家强
  • 外贸工厂的网站建设谷歌网站
  • 赣州建设部网站网址seo关键词
  • 合肥置地广场做网站的公司搜索引擎优化排名案例
  • 甘肃网站建设google搜索引擎下载
  • 简述网站的创建流程网络推广外包流程
  • 企业网站 app怎么找到精准客户资源
  • 亚马逊品牌网站怎么做企业查询系统
  • 网站打不开如何解决南昌seo实用技巧
  • wordpress收藏点赞百度关键字优化价格
  • 网络公司需要什么资质广州seo优化外包服务
  • 建设公众号网站厦门人才网最新招聘信息网
  • 上海网站建设领导品牌seo网站推广培训
  • 收集链接 做网站今天的三个新闻
  • 流媒体视频网站建设指数基金是什么意思
  • 企业网站可以免费做吗百度指数数据分析平台
  • 唐山快速建站公司巧克力软文范例200字
  • 比较好的商城网站设计环球军事网最新军事新闻最新消息
  • 成都网站建设推广详网站建设优化哪家公司好
  • 在工商局网站怎么做清算石家庄seo网络推广
  • 良精企业网站系统网络搜索关键词