Textmodelle

Generell kann man sagen, dass sich zu Textmodellen kaum allgemeingültige Aussagen treffen lassen.

Ich versuche es trotzdem:

Es kommt nicht nur auf die Größe an. Zum Beispiel wird aller Voraussicht nach ein 70B Modell aus dem Jahre 2023 schlechter abschneiden, als ein 35B Modell aus dem Jahre 2025. Die Entwicklung geht im Bereich KI so unglaublich schnell voran, dass ein zwei Jahre altes Modell heute den Platz auf der SSD in der Regel nicht mehr wert ist.
Auch wenn beide Dateien auf der SSD nahezu gleich groß sind, wird in den meisten Fällen ein 70B Modell mit 4-Bit-Quantisierung besser abschneiden, als ein 35B Modell mit 8-Bit-Quantisierung.
Sogenannte „finetuned“ Modelle sind auf einen speziellen Use-Case optimiert, scheiden dadurch aber oft in anderen Bereichen schlechter ab, als das Ausgangsmodell. Das sieht man z.B. ganz gut an einigen Modellen, die für das Erzählen von Geschichten optimiert wurden, und wunderbar einer Handlung folgen können, aber dafür bezüglich der Multilingualität schlechter abschneiden, als das ursprüngliche Modell.
Sogenannte „Reasoning“-Modelle sind zwar gründlicher, was das Erlangen von Ergebnissen angeht, da sie das erlangte Ergebnis selbst noch einmal in Frage stellen, aber dafür jedoch auch deutlich langsamer, was ihre Einsetzbarkeit von Fall zu Fall einschränken kann. Man spricht hier von „Latenz“, also der Verzögerung vom Abschicken der Anforderung bis zum Erhalt der Antwort. Das macht die meisten Reasoning-Modelle z.B. für Chat-Bots unbrauchbar. Aber für den Einsatz z.B. beim „Agentic Coding“, wo der Fokus mehr auf Genauigkeit als auf Geschwindigkeit liegt, sind sie sehr gut geeignet.
Reasoning-Modelle sind sehr „Kontext“-intensiv. Das kann bei kommerziellen in der Clouud gehosteten Modellen einen enormen Unterschied auf der Kostenseite verursachen.

Ausnahmen bestätigen wie immer die Regel!