vllm

vllm ist eine Plattform, um LLM hochperformant zu betreiben. Besonders bei mehreren parallelen Zugriffen kann es im Vergleich zu den llama.cpp-basierten Plattformen wie Ollama oder LM-Studio seine Muskeln spielen lassen.

Für die Beispiele wird Docker benötigt.

Huggingface-Hub

Zum Downloaden von LLM wird der Huggingface-CLI benötigt:

curl -LsSf https://hf.co/cli/install.sh | bash

Dein Huggingface-Token wird in einer Umgebungsvariablen „HF_TOKEN“ erwartet.

Ich habe das Basis-Verzeichnis für den Huggingface-Hub auf ein anderes Laufwerk gelegt:

export HUGGINGFACE_HUB_CACHE=/media/stripe/ki/data/hf/hub
export TRANSFORMERS_CACHE=/media/stripe/ki/data/hf/transformers
export HF_HOME=/media/stripe/ki/data/hf

Hier ein paar Beispiele zum Starten eines Docker-Containers mit dem jeweiligen LLM:

Qwen3 Coder Next

docker run -d --restart unless-stopped --runtime nvidia --gpus all \
    -v /media/stripe/ki/data/hf:/root/.cache/huggingface \
    -p 1234:8000 \
    --env HF_TOKEN \
    --name qwen3-coder-next-nvfp4 \
    --ipc=host \
    vllm/vllm-openai:latest-cu130 \
        --model RedHatAI/Qwen3-Coder-Next-NVFP4 \
        --served-model-name onza \
        --tensor-parallel-size 1 \
        --max-model-len 131072 \
        --enable-auto-tool-choice \
        --tool-call-parser qwen3_coder \
        --host 0.0.0.0 \
        --port 8000

Gemma-4-31b

docker run -d --restart unless-stopped --runtime nvidia --gpus all \
    -v /media/stripe/ki/data/hf:/root/.cache/huggingface \
    -p 1234:8000 \
    --env HF_TOKEN \
    --name gemma4-31b-it \
    --ipc=host \
    --shm-size 16G \
    vllm/vllm-openai:gemma4-cu130 \
        --model RedHatAI/gemma-4-31B-it-NVFP4 \
        --served-model-name onza \
        --max-model-len 131072 \
        --tensor-parallel-size 1 \
        --gpu-memory-utilization 0.95 \
        --host 0.0.0.0 \
        --port 8000 \
        --reasoning-parser gemma4 \
        --tool-call-parser gemma4 \
        --enable-auto-tool-choice

Gemma-4-26B-A4B

docker run -d --restart unless-stopped --runtime nvidia --gpus all \
    -v /media/stripe/ki/data/hf:/root/.cache/huggingface \
    -p 1234:8000 \
    --env HF_TOKEN \
    --name gemma4-26b-a4b-it \
    --ipc=host \
    --shm-size 16G \
    vllm/vllm-openai:gemma4-cu130 \
        --model google/gemma-4-26B-A4B-it \
        --served-model-name onza \
        --tensor-parallel-size 1 \
        --max-model-len 131072 \
        --gpu-memory-utilization 0.95 \
        --host 0.0.0.0 \
        --port 8000 \
        --reasoning-parser gemma4 \
        --tool-call-parser gemma4 \
        --enable-auto-tool-choice

Quellen:

🔗https://docs.vllm.ai/en/latest/