vllm
vllm ist eine Plattform, um LLM hochperformant zu betreiben. Besonders bei mehreren parallelen Zugriffen kann es im Vergleich zu den llama.cpp-basierten Plattformen wie Ollama oder LM-Studio seine Muskeln spielen lassen.
Für die Beispiele wird Docker benötigt.
Huggingface-Hub
Zum Downloaden von LLM wird der Huggingface-CLI benötigt:
curl -LsSf https://hf.co/cli/install.sh | bash
Dein Huggingface-Token wird in einer Umgebungsvariablen „HF_TOKEN“ erwartet.
Ich habe das Basis-Verzeichnis für den Huggingface-Hub auf ein anderes Laufwerk gelegt:
export HUGGINGFACE_HUB_CACHE=/media/stripe/ki/data/hf/hub
export TRANSFORMERS_CACHE=/media/stripe/ki/data/hf/transformers
export HF_HOME=/media/stripe/ki/data/hf
Hier ein paar Beispiele zum Starten eines Docker-Containers mit dem jeweiligen LLM:
Qwen3 Coder Next
docker run -d --restart unless-stopped --runtime nvidia --gpus all \
-v /media/stripe/ki/data/hf:/root/.cache/huggingface \
-p 1234:8000 \
--env HF_TOKEN \
--name qwen3-coder-next-nvfp4 \
--ipc=host \
vllm/vllm-openai:latest-cu130 \
--model RedHatAI/Qwen3-Coder-Next-NVFP4 \
--served-model-name onza \
--tensor-parallel-size 1 \
--max-model-len 131072 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--host 0.0.0.0 \
--port 8000
Gemma-4-31b
docker run -d --restart unless-stopped --runtime nvidia --gpus all \
-v /media/stripe/ki/data/hf:/root/.cache/huggingface \
-p 1234:8000 \
--env HF_TOKEN \
--name gemma4-31b-it \
--ipc=host \
--shm-size 16G \
vllm/vllm-openai:gemma4-cu130 \
--model RedHatAI/gemma-4-31B-it-NVFP4 \
--served-model-name onza \
--max-model-len 131072 \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--host 0.0.0.0 \
--port 8000 \
--reasoning-parser gemma4 \
--tool-call-parser gemma4 \
--enable-auto-tool-choice
Gemma-4-26B-A4B
docker run -d --restart unless-stopped --runtime nvidia --gpus all \
-v /media/stripe/ki/data/hf:/root/.cache/huggingface \
-p 1234:8000 \
--env HF_TOKEN \
--name gemma4-26b-a4b-it \
--ipc=host \
--shm-size 16G \
vllm/vllm-openai:gemma4-cu130 \
--model google/gemma-4-26B-A4B-it \
--served-model-name onza \
--tensor-parallel-size 1 \
--max-model-len 131072 \
--gpu-memory-utilization 0.95 \
--host 0.0.0.0 \
--port 8000 \
--reasoning-parser gemma4 \
--tool-call-parser gemma4 \
--enable-auto-tool-choice