Ziel: Mit wenigen Kennzahlen den Einsatz der KI sichtbar steuern, ohne Reporting-Mehraufwand.
Siehe Glossar: KPI, Logging/Protokollierung, Übersteuern.
1) Die 6 KPIs (Definition + Formel)
-
Trefferqualität (Precision@Einladung)
Wie oft waren Einladungen im Nachgang „richtig“?
Formel: Einladungen, die nach Gespräch/Prüfung bestätigt wurden ÷ alle Einladungen
Beispiel:18/24 = 0,75 -
Übersteuerungsquote
Wie oft musste gegen die KI-Empfehlung eingegriffen werden?
Formel: Anzahl Übersteuerungen ÷ alle Fälle
Beispiel:7/80 = 0,0875 -
Anteil Grenzfälle
Wie groß ist die Zone, in der manuell geprüft wird?
Formel: Fälle mit „Manuelle Prüfung“ ÷ alle Fälle
Beispiel:22/80 = 0,275 -
Durchlaufzeit (Median)
Wie schnell vom Eingang bis Entscheidung?
Formel: Median(Entscheidungszeit − Eingangszeit)
Hinweis: Ausreißer werden über den Median abgefedert. -
Fehler-/Rework-Rate
Wie oft musste eine getroffene Entscheidung später korrigiert werden?
Formel: Korrekturen ÷ alle Entscheidungen
Beispiel:2/80 = 0,025 -
Bias-Indikator (relativer Vergleich)
Gibt es systematische Unterschiede zwischen Gruppen?
Formel (einfach): Trefferqualität Gruppe A ÷ Gruppe B
Interpretation: Werte < 0,8 oder > 1,25 prüfen.
2) Minimal-Setup (Datenbasis)
Damit die Formeln funktionieren, braucht ihr im Log diese Felder. Eine Minimal-Vorlage steht hier: Logging im Recruiting: Quickstart + Minimal-JSON.
decision(z. B.einladen,manuelle_pruefung,ablehnen)override.applied(true/false)timestamps(Eingang/Entscheidung)- optional:
groupfür Bias-Indikator (nur wenn rechtlich zulässig und vertretbar)
Tipp: Nutzt eindeutige
REQ-*undLOG-*IDs, damit ihr später sauber auswerten könnt.
3) Zielwerte (Startvorschlag)
- Trefferqualität ≥ 0,7 (Ziel: Richtung 0,8+)
- Übersteuerungsquote 5–15 % (zu hoch: Schwellen prüfen; zu niedrig: Oversight greift eventuell nicht)
- Durchlaufzeit: Median definieren (z. B. ≤ 3 Werktage)
- Fehler-/Rework-Rate < 3 %
- Bias-Indikator zwischen 0,8–1,25
Das sind Startwerte. Nach 1–2 Zyklen mit euren Daten anpassen.
4) Mini-Checkliste (monatlich/vierteljährlich)
- [ ] Logs vollständig? (Version/ID, Score, Entscheidung, gegebenenfalls Override)
- [ ] KPIs berechnet und kurz kommentiert („Warum rauf, warum runter?“)
- [ ] Maßnahmen abgeleitet (Schwellen, SOP, Training anpassen)
- [ ] Nachweise im Audit Proof Pack abgelegt
5) Nächste Schritte
- Schwellen feinjustieren: siehe Oversight & Schwellenwerte
- Transparenz prüfen: Mustertexte
- Qualität im Blick: Accuracy/Robustness/Cybersecurity