Eval & Tuning: Test-Cases, Rubriken, Regression

Ein Assistent ist erst dann wirklich brauchbar, wenn du weißt, wie gut er unter realen Bedingungen funktioniert – und ob er nach Änderungen stabil bleibt. Eval & Tuning heißt: mit Testfällen prüfen, nach klaren Kriterien bewerten, Versionen sichern und bei Updates Regressionen vermeiden.


1. Test-Cases: gezielt statt zufällig

Statt „einfach mal ausprobieren“ definierst du ein kleines, fixes Set an Testfällen pro Assistent.

Empfehlung: 5–10 Testfälle pro Assistent

Typen von Testfällen:

  • Standardfall: typischer, sauber formulierter Use Case.

  • Grenzfall/Lücke: Information fehlt → „Nicht in den Quellen“.

  • Formatstress: komplizierter Input, Output muss dennoch korrekt formatiert sein (z. B. Tabelle oder JSON).

  • Mehrdeutig: Frage mit Interpretationsspielraum – prüft Rückfragen-Verhalten.

  • Versionskonflikt: zwei Quellen mit unterschiedlichen Datumsständen – prüft, ob der Assistent die neueste nutzt.

Beispiel (Q&A mit Zitierpflicht):

  • TF1: „Welche radiale Toleranz hat Lager X?“ (Kerninfo vorhanden)

  • TF2: „Wie oft sollte Lager X gewartet werden?“ (nicht in den Dokumenten → „Nicht in den Quellen“)

  • TF3: Lange Freitext-Spezifikation, aus der eine Tabelle extrahiert werden soll.


2. Bewertungsrubrik (1–5) – kurz, aber klar

Für jeden Testfall vergibst du Bewertungen nach einer kleinen Rubrik. 1 = schlecht, 5 = sehr gut.

Rubrik-Vorschlag:

  • Faithfulness (Quellentreue):
    1 = erfindet Fakten; Quellen fehlen/falsch
    3 = größtenteils korrekt, einzelne unsaubere Stellen
    5 = alle Aussagen durch Quellen gedeckt oder klar als „Nicht in den Quellen“ markiert

  • Format-Treue:
    1 = Formatvorgaben ignoriert (kein JSON/Tabelle/Struktur)
    3 = kleinere Abweichungen (z. B. zusätzliche Sätze)
    5 = exakt im gewünschten Format; direkt weiterverarbeitbar

  • Klarheit & Kürze:
    1 = geschwätzig, unklar, doppelt
    3 = verständlich, aber zu lang oder etwas diffus
    5 = prägnant, eindeutig, ohne Ballast

  • Vollständigkeit:
    1 = wichtige Punkte fehlen
    3 = meiste Punkte abgedeckt, kleine Lücken
    5 = alle gefragten Punkte abgedeckt oder explizit als „Nicht in den Quellen“ markiert

Copy & Paste – Eval-Template je Testfall:

Testfall-ID: {TF1}
Beschreibung: {z. B. "Standard Q&A zu Toleranz Lager X"}
Erwartung (High-Level): {z. B. "Konkreter Wert + Quellenblock"}
 
Bewertung (1–5):
- Faithfulness: {…}
- Format-Treue: {…}
- Klarheit & Kürze: {…}
- Vollständigkeit: {…}
 
Kommentar:
- {1–3 Sätze, was gut ist / was verbessert werden muss}

3. Tuning: zielgerichtete Anpassung statt „Herumspielen“

Wenn ein Assistent in einem Kriterium schwach ist, passt du gezielt den System-Prompt oder ein Pattern an – nicht alles auf einmal.

Typische Probleme und Tuning-Hebel:

  • Halluzinationen / unbelegte Aussagen:
    Hebel: Zitierpflicht im System-Prompt verschärfen; „Keine Spekulation; Lücken = ‚Nicht in den Quellen‘“ explizit; Beispiel hinzufügen.

  • Format bricht (JSON/Tabelle):
    Hebel: Output-Format-Hinweis verstärken („Nur JSON…“, Beispielobjekt im Prompt); Zusatztext verbieten.

  • Zu lang/zu vage:
    Hebel: Wortlimit setzen („max. 150–200 Wörter“), kurze Sätze verlangen, Ziel enger definieren.

  • Unvollständige Antworten:
    Hebel: im Prompt klar auflisten, was beantwortet werden muss; „Falls etwas fehlt → ‚Nicht in den Quellen‘“ ergänzen.

Vorgehen:
1) Schwachpunkt identifizieren (Rubrik-Wert < 4).
2) 1–2 Zeilen im System-Prompt/Pattern anpassen.
3) Nur die relevanten Testfälle erneut laufen lassen.
4) Eval-Werte vergleichen.


4. System-Prompt sichern, bevor du etwas Größeres änderst

Bevor du größere Änderungen am System-Prompt machst, solltest du immer den bisherigen Zustand extern sichern. So kannst du jederzeit zurückspringen, wenn ein Tuning-Versuch nach hinten losgeht.

Empfehlung:

  • Vor jeder größeren Anpassung:

  • System-Prompt komplett per Copy & Paste in ein externes Dokument einfügen (z. B. Google Doc, Word, Notion).

  • Kurz datieren und beschriften: „Version vom 2025-11-18 – vor Änderung X“.

Mini-Template für deine Sicherung:

Assistent: {Name}
Version: {Datum, z. B. 2025-11-18}
Änderungsgrund: {z. B. "Zitierpflicht verschärfen", "Format strikt auf JSON"}
 
Gesicherter System-Prompt:
{kompletter Text}

Vorteil:

  • Du kannst schnell auf die letzte funktionierende Version zurückrollen, wenn Eval/Regression zeigt, dass die Änderung die Qualität verschlechtert.


5. Regression: nach Änderungen nichts kaputt machen

Jede Änderung am System-Prompt kann Nebenwirkungen haben. Regression bedeutet: alte Testfälle bleiben auch nach Updates stabil.

Mini-Regression-Set:

  • 3–5 repräsentative Testfälle (Standard, Lücke, Formatstress).

  • Nach jeder größeren Änderung kurz durchlaufen lassen.

  • Ergebnisse mit vorherigen Bewertungen vergleichen.

Copy & Paste – Regression-Notiz:

Assistent: {Name}
Änderung am: {Datum}
Was wurde geändert?
- {z. B. "Zitierpflicht verschärft; Wortlimit reduziert"}
 
Regression-Tests:
- TF1: {Score alt} → {Score neu} (Kommentar)
- TF2: {Score alt} → {Score neu}
- TF3: {Score alt} → {Score neu}
 
Ergebnis:
- {ok / weitere Anpassungen nötig}

6. Wie viel Eval ist „genug“?

Für einen GHH-Assistenten reicht in der Praxis:

  • 5–10 definierte Testfälle

  • 1–2 Tuning-Runden, bis die wichtigsten Kriterien stabil bei 4–5 liegen

  • Regressionstest bei jeder größeren System-Prompt-Änderung (und vorherige Prompt-Version extern gesichert)


Kurz-Check: Eval & Tuning für deinen Assistenten

  • Gibt es klar definierte Testfälle (inkl. Lücke/Formatstress)?

  • Nutzt du eine einfache 1–5-Rubrik (Faithfulness, Format, Klarheit, Vollständigkeit)?

  • Sicherst du den aktuellen System-Prompt vor größeren Änderungen extern (Copy & Paste, Datum)?

  • Prüfst du nach Änderungen ein kleines Regression-Set?


War diese Seite hilfreich?