QwQ-32B本地化部署
关于模型下载
国内访问github和huggingface的质量都不是太好,如果需要稳定的速度,可以考虑购买一台海外(比如:SG)的云主机,搭建一个proxy,proxy我选择了proxy.py,这个简单的代理工具,采用docker一键运行:
$ docker run -it -p 8899:8899 --rm abhinavsingh/proxy.py:latest
start-qwq-32b.sh
vllm serve "/data/home/tisteryu/.cache/modelscope/hub/models/Qwen/QwQ-32B" \
--port 8000 \
--served-model-name QwQ-32B \
--dtype auto \
--kv-cache-dtype auto \
--max-model-len 131072 \
--tensor-parallel-size 4