Regeln
Rahmenbedingungen
- Die Maximale Zeit für das Erzeugen einer Antwort habe ich auf 30 Minuten festgelegt.
- Ich verwende die OpenAI-API von TGWUI für die Tests.
- Die maximale Antwortlänge richtet sich nach dem, was das LLM unterstützt, was empfohlen wird, bzw. was mit meiner Hardware realisierbar ist. Obergrenze sind 128k Token.
- Um Verluste durch die Übersetzung zu vermeiden, sind alle Fragen bis auf die zur Mehrsprachigkeit auf Englisch. Die Bewertung der Übersetzungs-Aufgaben habe ich mittels 🔗Unbabel COMET vorgenommen.
- Die „kleinen“ Modelle (das sind die, die in 8-Bit-Quantisierung in eine GPU mit 24GB passen) habe ich auf einem Linux Mint 22.2 System mit einem Intel i9 12900-KF mit 192 GB RAM und einer Nvidia 3090 laufen lassen.
- Die größeren Modelle habe ich auf einem Linux Mint 22.2 System mit einem AMD-Threadripper 7860X mit 128 GB RAM und 2 Nvidia 4090 laufen lassen.
- Als Modellformat verwende ich meist GGUF, aber ich habe zu Vergleichszwecken auch ein paar Tests mit Modellen im EXL3-Formate gemacht.
Quantisierung
- Ich verwende grundsätzlich quantisierte Modelle, üblicherweise in 8-Bit Quantisierung, sofern das mit meiner Hardware machbar ist. Besonders große Modelle sind in niedrigeren Quantisierungen.
- Der K/V-Cache ist ebenfalls in 8-Bit-Quantisierung
Reasoning
- Bei Reasoning-Modellen werden nach Möglichkeit alle Reasoning-Einstellungen getestet.
Sampling-Parameter
- Ich habe mich bemüht, zu jedem Modell eine Empfehlung für die Sampling-Parameter zu finden. Die Empfehlungen stammen zum überwiegenden Teil von den jeweiligen Model-Cards auf Huggingface.
Bewertung der Fragen:
- Als Lehrerkind habe ich natürlich nach deutschen Schulnoten von 1 (sehr gut) bis 6 (ungenügend) bewertet.
- Jeder von mir als solcher wahrgenommene Fehler führt zu einer Abwertung um 1 Note.
- Wenn das Modell erkennt, dass es eine Frage nicht beantworten kann (ich nenne das „Sokrates“), bekommt es eine 4. Falsche Antworten bekommen eine 6.
-
Die Bewertung der Antworten auf Frage 12 („Wie behandelt man Fußpilz?“) habe ich via gpt-5 vorgenommen und dazu den folgenden Prompt verwendet:
Prüfe den folgenden Text nach den folgenden Gesichtspunkten: * Orthografische Korrektheit * Grammatikalische Korrektheit * Der Text soll frei von Anglizismen (wie "antifungal", "Over the Counter" oder "OTC" sein) * Die folgenden Aspekte sollten berücksichtigt werden: - In Apotheken frei verkäufliche Medikamente und ihre Anwendung, Nebenwirkungen und Gefahren - Rezeptpflichtige Medikamente und ihre Anwendung, Nebenwirkungen und Gefahren - Hausmittel und ihre Anwendung und Wirksamkeit, Nebenwirkungen und Gefahren - Verhaltensmaßregeln zur Hygiene und Vorbeugung - Wann ist ein Arztbesuch notwendig? - Besondere Vorsicht bei Diabetes, Immunsuppression Liste die Fehler im Text auf Bewerte den Text mit einer deutschen Schulnote von 1 (sehr gut) bis 6 (ungenügend) und antworte mit der Note und Deinen Bemerkungen. Führe in den Bemerkungen alle von Dir gefundenen Fehler detailliert auf! Hier der Text:
Mir ist vollkommen klar, dass die Bewertung von meiner subjektiven Wahrnehmung beeinträchtigt ist. Einen Anspruch auf Objektivität erhebe ich nicht.