安装vllm的时候卡主：Collecting vllm-nccl-cu12＜2.19,＞=2.18 (from vllm)

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

越狱的鼠标 · css样式导致div背景边框闪烁_css ...· 1 年前 ·

果断的土豆 · thymeleaf按钮点击click方法传值 ...· 2 年前 ·

千年单身的充电器 · C++ AMP 概述 | ...· 2 年前 ·

温文尔雅的竹笋 · HarmonyOS ...· 2 年前 ·

按照vllm的时候卡主：

Requirement already satisfied: typing-extensions in /home/wangguisen/miniconda3/lib/python3.10/site-packages ( from vllm ) ( 4.9 .0 ) Requirement already satisfied: filelock >= 3.10 .4 in /home/wangguisen/miniconda3/lib/python3.10/site-packages ( from vllm ) ( 3.13 .1 ) Collecting ray >= 2.9 ( from vllm ) Downloading https://pypi.tuna.tsinghua.edu.cn/packages/b4/46/1b63092ad7387448f0a8922c441054ee6d551236f642b27a0bc195d9a258/ray-2.23.0-cp310-cp310-manylinux2014_x86_64.whl ( 65.7 MB ) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 65.7 /65.7 MB 3.1 MB/s eta 0 :00:00 Collecting nvidia-ml-py ( from vllm ) Using cached https://pypi.tuna.tsinghua.edu.cn/packages/9f/fb/4abda63f347daa50fcbf068ebfe37e10e247565af5df8473ddb7b3836ba4/nvidia_ml_py-12.550.52-py3-none-any.whl ( 39 kB ) Collecting vllm-nccl-cu1 2 < 2.19 , >= 2.18 ( from vllm ) Using cached https://pypi.tuna.tsinghua.edu.cn/packages/41/07/c1be8f4ffdc257646dda26470b803487150c732aa5c9f532dd789f186a54/vllm_nccl_cu12-2.18.1.0.4.0.tar.gz ( 6.2 kB ) 搜解决办法的时候发现有个issue里说：vllm 如果使用cuda11.7 需要使用版本小于等于0.2.0

pip install vllm==0.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
vllm与cuda版本有对应关系，请按照https://docs.vllm.ai/en/latest/getting_started/installation.html选择版本
https://github.com/modelscope/swift/blob/main/docs/source/LLM/VLLM%E6%8E%A8%E7%90%86%E5%8A%A0%E9%80%9F%E4%B8%8E%E9%83%A8%E7%BD%B2.md
                                    (base) root@node15:/disk2/Qwen2.5-VL-72B-Instruct-AWQ# docker exec -it Qwen2.5-VL-72B-Instruct-AWQ bash
root@64ab8e1634b9:/vllm-workspace# pip install qwen-vl-utils
Looking in indexes: https://mirrors.aliyun.com/pypi/simple/
WARNING: Retrying (Retry(total=
                                    如果不添加该字段，默认会编译支持所有架构；为了加速编译以及降低二进制文件大小，添加该字段，具体comute_？需要和自己显卡算力相匹配。表示编译后，一些文件的存储路径；默认是nccl/build；当然如果是root用户可以指定到/usr/local/ncc/；表示CUDA的目录，默认就是/usr/local/cuda（自己ls看一下）；根据提示，打开NCCL_DEBUG=WARN。表示使用12个核心，可根据自己情况进行调整；一致，其中也给出了方案。查看当前虚拟环境路径后。替换头文件 和 库文件。
                                    基于已有的老镜像 pytorch_20230712:v3 进行升级，满足chatglm3的要求。老镜像本身是pytorch2.0的，同时也支持挂载gpu，并带有jupyterlab, 本身还是好用的。现在为了满足chatglm3的项目需求，同时也不想再拉新的外部镜像，所以做一下升级。最后结果算成功了吧，不过也算是猜个坑。
                                    下载 nccl 库文件，然后将其放置到指定的目录 /home/username/.config/vllm/nccl/cu12/ 中，并将其重命名为 "libnccl.so.2.18.1" （如果该目录下存在这个文件，把之前的文件删除即可）。2、然后再运行安装命令就行了。
                                    3.将相应的XML文件转化为dota格式的标签文件，转换代码可参考我的上一篇博客。4.将dota格式的标签文件转化为YOLOv8训练所需的YOLO格式。1.采用rolabelImg标注产生相应的XML标签文件。6.修改dota8-obb.yaml文件路径及类别。下面是我安装的相应依赖，torch可在官网命令安装。5.修改yolov8-obb.yaml的类别。2.下载代码及安装相应的依赖环境。
                                    本文提供详细的安装CUDA工具包和ChatGLM3依赖包的步骤，最后成功运行两个测试程序。操作系统版本：Rocky Linux 9.5，显卡型号：NVIDIA RTX 6000ADA。
NCCL的简介
NCCL（NVIDIA Collective Communications Library）是由 NVIDIA 开发的一种高性能的多 GPU 通信库，用于在多个 NVIDIA GPU 之间实现快速的数据传输和协同计算。它可以在深度学习和高性能计算领域中提供分布式训练和数据并行加速的支持。
NCCL实现了针对NVI