Llama-Bench

Bei diesem Benchmark wird die Geschwindigkeit der Verarbeitung von Anfragen an ein LLM gemessen, und zwar aufgeteilt in die Werte „Prompt processing“ und „Token generation“. Der Benchmark ist Bestandteil von llama.cpp, daher auch der Name.

Beachte, dass sich die Skala der Y-Achse von Diagramm zu Diagramm anpasst!