Regeln


Rahmenbedingungen

  1. Die Maximale Zeit für das Erzeugen einer Antwort habe ich auf 30 Minuten limitiert.
  2. Ich verwende die OpenAI-API von LM-Studio für die Tests.
  3. Die maximale Antwortlänge sind entweder die maximale Anzahl der Token (falls diese kleiner als 32k ist) oder 32k Token.
  4. Um Verluste durch die Übersetzung zu vermeiden, sind alle Fragen bis auf die zur Mehrsprachigkeit auf Englisch. Die Bewertung der Übersetzungs-Aufgaben habe ich mittels 🔗Unbabel COMET vorgenommen.
  5. Die Modelle habe ich auf einem Linux Mint 22.3 System mit einem AMD Threadripper 7860X mit 128 GB RAM und einer Nvidia RTX 6000 Workstation (Blackwell) laufen lassen.
  6. Als Modellformat verwende ich GGUF.

Quantisierung

  1. Ich verwende grundsätzlich quantisierte Modelle, üblicherweise in 8-Bit Quantisierung _(Q80), sofern das mit meiner Hardware machbar ist. Besonders große Modelle sind in niedrigeren Quantisierungen. Die Quantisierungen sind jeweils aufgeführt.

Sampling-Parameter

  1. Ich habe zu jedem Modell die Default-Sampling-Parameter via dem Perplexity-Modell „Sonar-Deep-Research“ ermittelt.

Bewertung der Fragen:

  1. Die Ergebnisse wurden nach amerikanischen Schulnoten („A“ bis „E“) eingeordnet.
  2. Wenn das Modell erkennt, dass es eine Frage nicht beantworten kann (ich nenne das "Sokrates), bekommt es ein „D“. Falsche Antworten bekommen ein „E“.
  3. Timeout-Fehler bekommen ein „E“.
  4. Ich habe soweit möglich die Bewertung der Fragen durch ein LLM (magistral-small-2509 mit 24B) vorgenommen.
  5. Die Bewertung der Antworten auf Frage 12 („Wie behandelt man Fußpilz?“) habe ich via OpenAI gpt-5.4 vorgenommen und dazu den folgenden Prompt verwendet:

    Prüfe den folgenden Text nach den folgenden Gesichtspunkten:
    * Orthografische Korrektheit
    * Grammatikalische Korrektheit
    * Der Text soll frei von Anglizismen (wie "antifungal", "Over the Counter" 
     oder "OTC" sein)
    * Die folgenden Aspekte sollten berücksichtigt werden:
      - In Apotheken frei verkäufliche Medikamente und ihre Anwendung, 
        Nebenwirkungen und Gefahren
      - Rezeptpflichtige Medikamente und ihre Anwendung, Nebenwirkungen und 
        Gefahren
      - Hausmittel und ihre Anwendung und Wirksamkeit, Nebenwirkungen und 
        Gefahren
      - Verhaltensmaßregeln zur Hygiene und Vorbeugung
      - Wann ist ein Arztbesuch notwendig?
      - Besondere Vorsicht bei Diabetes, Immunsuppression
    
    Liste die Fehler im Text auf
    
    Bewerte den Text mit einer deutschen Schulnote von A (beste)  bis E 
    (schlechteste) und antworte mit der Note und Deinen Bemerkungen. Führe in 
    den Bemerkungen alle von Dir gefundenen Fehler detailliert auf!
    
    Hier der Text:

Mir ist vollkommen klar, dass die Bewertung von meiner subjektiven Wahrnehmung beeinträchtigt ist. Einen Anspruch auf Objektivität erhebe ich nicht.

Quelle: