Regeln

Rahmenbedingungen

Die Maximale Zeit für das Erzeugen einer Antwort habe ich auf 30 Minuten festgelegt.
Ich verwende die OpenAI-API von TGWUI für die Tests.
Die maximale Antwortlänge richtet sich nach dem, was das LLM unterstützt, was empfohlen wird, bzw. was mit meiner Hardware realisierbar ist. Obergrenze sind 128k Token.
Um Verluste durch die Übersetzung zu vermeiden, sind alle Fragen bis auf die zur Mehrsprachigkeit auf Englisch. Die Bewertung der Übersetzungs-Aufgaben habe ich mittels 🔗Unbabel COMET vorgenommen.
Die „kleinen“ Modelle (das sind die, die in 8-Bit-Quantisierung in eine GPU mit 24GB passen) habe ich auf einem Linux Mint 22.2 System mit einem Intel i9 12900-KF mit 192 GB RAM und einer Nvidia 3090 laufen lassen.
Die größeren Modelle habe ich auf einem Linux Mint 22.2 System mit einem AMD-Threadripper 7860X mit 128 GB RAM und 2 Nvidia 4090 laufen lassen.
Als Modellformat verwende ich meist GGUF, aber ich habe zu Vergleichszwecken auch ein paar Tests mit Modellen im EXL3-Formate gemacht.

Quantisierung

Ich verwende grundsätzlich quantisierte Modelle, üblicherweise in 8-Bit Quantisierung, sofern das mit meiner Hardware machbar ist. Besonders große Modelle sind in niedrigeren Quantisierungen.
Der K/V-Cache ist ebenfalls in 8-Bit-Quantisierung

Reasoning

Bei Reasoning-Modellen werden nach Möglichkeit alle Reasoning-Einstellungen getestet.

Sampling-Parameter

Ich habe mich bemüht, zu jedem Modell eine Empfehlung für die Sampling-Parameter zu finden. Die Empfehlungen stammen zum überwiegenden Teil von den jeweiligen Model-Cards auf Huggingface.

Bewertung der Fragen:

Als Lehrerkind habe ich natürlich nach deutschen Schulnoten von 1 (sehr gut) bis 6 (ungenügend) bewertet.
Jeder von mir als solcher wahrgenommene Fehler führt zu einer Abwertung um 1 Note.
Wenn das Modell erkennt, dass es eine Frage nicht beantworten kann (ich nenne das „Sokrates“), bekommt es eine 4. Falsche Antworten bekommen eine 6.

Die Bewertung der Antworten auf Frage 12 („Wie behandelt man Fußpilz?“) habe ich via gpt-5 vorgenommen und dazu den folgenden Prompt verwendet:

Prüfe den folgenden Text nach den folgenden Gesichtspunkten:
* Orthografische Korrektheit
* Grammatikalische Korrektheit
* Der Text soll frei von Anglizismen (wie "antifungal", "Over the Counter" oder "OTC" sein)
* Die folgenden Aspekte sollten berücksichtigt werden:
  - In Apotheken frei verkäufliche Medikamente und ihre Anwendung, Nebenwirkungen und Gefahren
  - Rezeptpflichtige Medikamente und ihre Anwendung, Nebenwirkungen und Gefahren
  - Hausmittel und ihre Anwendung und Wirksamkeit, Nebenwirkungen und Gefahren
  - Verhaltensmaßregeln zur Hygiene und Vorbeugung
  - Wann ist ein Arztbesuch notwendig?
  - Besondere Vorsicht bei Diabetes, Immunsuppression

Liste die Fehler im Text auf

Bewerte den Text mit einer deutschen Schulnote von 1 (sehr gut) bis 6 (ungenügend) und antworte mit
der Note und Deinen Bemerkungen. Führe in den Bemerkungen alle von Dir gefundenen Fehler 
detailliert auf!

Hier der Text:

Mir ist vollkommen klar, dass die Bewertung von meiner subjektiven Wahrnehmung beeinträchtigt ist. Einen Anspruch auf Objektivität erhebe ich nicht.

Quelle:

🔗https://unbabel.github.io/COMET/html/index.html