Regeln
Rahmenbedingungen
- Die Maximale Zeit für das Erzeugen einer Antwort habe ich auf 30 Minuten limitiert.
- Ich verwende die OpenAI-API von LM-Studio für die Tests.
- Die maximale Antwortlänge sind entweder die maximale Anzahl der Token (falls diese kleiner als 32k ist) oder 32k Token.
- Um Verluste durch die Übersetzung zu vermeiden, sind alle Fragen bis auf die zur Mehrsprachigkeit auf Englisch. Die Bewertung der Übersetzungs-Aufgaben habe ich mittels 🔗Unbabel COMET vorgenommen.
- Die Modelle habe ich auf einem Linux Mint 22.3 System mit einem AMD Threadripper 7860X mit 128 GB RAM und einer Nvidia RTX 6000 Workstation (Blackwell) laufen lassen.
- Als Modellformat verwende ich GGUF.
Quantisierung
- Ich verwende grundsätzlich quantisierte Modelle, üblicherweise in 8-Bit Quantisierung _(Q80), sofern das mit meiner Hardware machbar ist. Besonders große Modelle sind in niedrigeren Quantisierungen. Die Quantisierungen sind jeweils aufgeführt.
Sampling-Parameter
- Ich habe zu jedem Modell die Default-Sampling-Parameter via dem Perplexity-Modell „Sonar-Deep-Research“ ermittelt.
Bewertung der Fragen:
- Die Ergebnisse wurden nach amerikanischen Schulnoten („A“ bis „E“) eingeordnet.
- Wenn das Modell erkennt, dass es eine Frage nicht beantworten kann (ich nenne das "Sokrates), bekommt es ein „D“. Falsche Antworten bekommen ein „E“.
- Timeout-Fehler bekommen ein „E“.
- Ich habe soweit möglich die Bewertung der Fragen durch ein LLM (magistral-small-2509 mit 24B) vorgenommen.
-
Die Bewertung der Antworten auf Frage 12 („Wie behandelt man Fußpilz?“) habe ich via OpenAI gpt-5.4 vorgenommen und dazu den folgenden Prompt verwendet:
Prüfe den folgenden Text nach den folgenden Gesichtspunkten: * Orthografische Korrektheit * Grammatikalische Korrektheit * Der Text soll frei von Anglizismen (wie "antifungal", "Over the Counter" oder "OTC" sein) * Die folgenden Aspekte sollten berücksichtigt werden: - In Apotheken frei verkäufliche Medikamente und ihre Anwendung, Nebenwirkungen und Gefahren - Rezeptpflichtige Medikamente und ihre Anwendung, Nebenwirkungen und Gefahren - Hausmittel und ihre Anwendung und Wirksamkeit, Nebenwirkungen und Gefahren - Verhaltensmaßregeln zur Hygiene und Vorbeugung - Wann ist ein Arztbesuch notwendig? - Besondere Vorsicht bei Diabetes, Immunsuppression Liste die Fehler im Text auf Bewerte den Text mit einer deutschen Schulnote von A (beste) bis E (schlechteste) und antworte mit der Note und Deinen Bemerkungen. Führe in den Bemerkungen alle von Dir gefundenen Fehler detailliert auf! Hier der Text:
Mir ist vollkommen klar, dass die Bewertung von meiner subjektiven Wahrnehmung beeinträchtigt ist. Einen Anspruch auf Objektivität erhebe ich nicht.