环境准备

Python 3.11+, CUDA 11.8+, 16GB+ 内存

安装步骤

pip install torch transformers
pip install accelerate bitsandbytes

模型下载

从 HuggingFace 下载 Llama 3 或 Qwen 模型

推理运行

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B")