QwQ-32B本地化部署 // Tister Blog

关于模型下载

国内访问github和huggingface的质量都不是太好，如果需要稳定的速度，可以考虑购买一台海外（比如：SG）的云主机，搭建一个proxy，proxy我选择了proxy.py，这个简单的代理工具，采用docker一键运行：

$ docker run -it -p 8899:8899 --rm abhinavsingh/proxy.py:latest

start-qwq-32b.sh 
vllm serve "/data/home/tisteryu/.cache/modelscope/hub/models/Qwen/QwQ-32B" \
        --port 8000   \
        --served-model-name QwQ-32B \
        --dtype auto \
        --kv-cache-dtype auto \
        --max-model-len 131072 \
        --tensor-parallel-size 4