Modell-Formate

Es gibt derzeit im Wesentlichen die Formate:

Unqantisierte Modelle

Diese bestehen aus einem Ordner, der die eigentlichen Model-Dateien enthält. Der Name des Ordners enthält üblicherweise weder „AWQ“, noch „EXL2“, noch „GPTQ“. Der Loader in OTGW ist „Transformers“.
AWQ (Alternating weight quantization)

AWQ-Interferenz findet rein auf der GPU statt. Derzeit werden nur Nvidia Grafikkarten unterstützt.

AWQ arbeitet mit variablen Quantisierungstiefen, und versucht darüber, die Qualitätsverluste abzufangen und trotzdem Platz zu sparen. AWQ-Modelle sind sehr schnell.

AWQ hat in OTGW einmal funktioniert, allerdings ist die Unterstützung wegen Versionskonflikten entfernt worden. Vielleicht kehrt sie zukünftig noch zurück...

Nähere Informationen findest Du hier.
EXL2 / EXL3 (Exllama v2 / v3)

EXL2/3 ist ebenfalls ein Format, das rein auf der GPU ausgeführt wird.

Es gibt zu den meisten Modellen verschiedene konstante Quantisierungs-Tiefen, hier angegeben in BPW (Bits per weight). 8BPW wird von einigen als „Overkill“ betrachtet, die höchste empfohlene Quantisierung liegt wohl bei 6 oder 6.5 BPW. Ab 3 BPW abwärts lässt die Qualität allerdings auch stark nach, so dass ich dazu rate, Quantisierungen zwischen 4 und 6.5 BPW zu wählen, wenn das VRAM es hergibt.

EXL2/3 benötigt ein bisschen mehr VRAM als GGUF, dafür ist es auch etwas schneller.

Der Loader für EXL2 ist „ExLlamav2_HF“, für EXL3 ist es „Exllamav3_HF“

Mehr Informationen findest Du hier.
GGUF

GGUF ist das einzige Format, das komplett auf der GPU betrieben werden kann, aber auch die Möglichkeit bietet, einzelne Ebenen des LLM in den RAM auszulagern. Das geht zwar gehörig auf Kosten der Geschwindigkeit, aber besser es läuft langsam, als wenn es gar nicht läuft! Das ermöglicht z.B. auch, als Spielerei einmal „richtig große“ Modelle laufen zu lassen.

Der Loader für GGUF ist „llama.cpp“.

GGUF ist mein bevorzugtes Format, denn es scheint sowohl die beste Qualität zu produzieren, und darüberhinaus bietet es auch die Flexibilität, einige Layer des Modells in den CPU-RAM zu verschieben, was zwar viel langsamer ist, aber dafür kann man auch Modelle laufen lassen, die über das zur Verfügung stehende VRAM (weit) hinausgehen.

Nähere Informationen findest Du hier.
GPTQ

GPTQ ist ebenfalls ein Format, das rein auf der GPU ausgeführt wird. Hier gibt es vorwiegend Quantisierungen in 4 Bit oder 8 Bit, dafür noch variable „Group Sizes“ und eine „Act Order“. Die Größe entspricht für 8 Bit grob der Anzahl der Parameter in Milliarden in Gigabyte, bei 4 Bit ist es rund die Hälfte.

Der Loader für GPTQ ist ebenfalls „ExLlamav2_HF“.

Nähere Informationen findest Du hier.