关于模型下载

国内访问github和huggingface的质量都不是太好,如果需要稳定的速度,可以考虑购买一台海外(比如:SG)的云主机,搭建一个proxy,proxy我选择了proxy.py,这个简单的代理工具,采用docker一键运行:

$ docker run -it -p 8899:8899 --rm abhinavsingh/proxy.py:latest
start-qwq-32b.sh 
vllm serve "/data/home/tisteryu/.cache/modelscope/hub/models/Qwen/QwQ-32B" \
        --port 8000   \
        --served-model-name QwQ-32B \
        --dtype auto \
        --kv-cache-dtype auto \
        --max-model-len 131072 \
        --tensor-parallel-size 4