Daten & Wissen: RAG-Anbindung, Dokumente, Zitierpflicht
Antworten werden nur so gut wie die zugrunde liegenden Informationen. Mit RAG (Retrieval-Augmented Generation) verknüpfst du deinen Assistenten mit freigegebenen internen Dokumenten, erzwingst saubere Zitierung und verhinderst Halluzinationen. Ziel: prüfbare, aktuelle, konforme Antworten.
Wie bindest du Dokumente ein? Schritt für Schritt
Quelle wählen:
Interne, freigegebene PDFs/Texte: SOPs, Spezifikationen, Zeichnungen, Qualitätsleitfäden, Prüfberichte.
Scans vorher mit OCR in durchsuchbaren Text umwandeln.
Aufbereitung:
Benenne Dateien konsistent: KurztitelVersion(YYYY-MM).pdf, z. B. PrüfhandbuchRadsatz_v2024-11.pdf.
Metadaten in der DMS/Knowledge-App pflegen: Titel, Abschnitt/ID (Kapitel), Datum/Version, intern/extern, Owner.
Indexierung/Upload in dein RAG-System:
Lade die Dokumente in den Wissensbereich des Assistenten/Tools (z. B. „Knowledge“, „Uploads“, „Datenquellen“).
Aktiviere Text-Extraktion; wähle sinnvolles Chunking: 300–800 Wörter pro Chunk mit 10–20% Overlap.
Falls möglich: Metadaten als Felder mitschreiben (title, sectionid, date, version, isinternal).
Prüfung:
Teste 3–5 Abfragen auf typische Kennwerte (Toleranz, Material, Zertifikate).
Überprüfe, ob Treffer-Texte kurz genug sind (≤ 100 Wörter pro Passage) und die Metadaten korrekt auftauchen.
Wie viele Dokumente maximal? Praktische Obergrenzen
Pro Assistent/Use Case sind derzeit max. 20 Dokumente erlaubt.
Die Antwortqualität steht und fällt mit der Kuratierung. Bei einem Limit von 20 Dokumenten pro Assistent brauchst du ein schlankes, versionsstabiles Kernset und klare Update-Regeln.
Faustregel: Qualität > Quantität. Ein kuratiertes Set aktueller Kern-Dokumente schlägt eine unkuratierte Masse.
Quellenstrategie: intern vor extern
Primär: interne, freigegebene Dokumente mit Versionsangabe.
Sekundär: offizielle Normen (DIN/EN/ISO), Herstellerdatenblätter, Behörden. Als „extern“ kennzeichnen.
Meiden: Marketingbroschüren, Blogs ohne Primärnachweis, veraltete PDFs ohne Datum/Version.
Zitierpflicht – Format und Minimalstandard
Mussfelder je Quelle: Titel, Abschnitt/Seite/ID, Datum/Version, optional Kennzeichnung intern/extern.
Beispiel:
Quellen:- [Prüfhandbuch Radsatz] (Abschnitt 4.2, Version 2024-11) – intern- [Spezifikationsblatt Lager X] (Abschnitt 3.1, 2024-05) – intern- [DIN 620-2] (Abschnitt 3.3, 2011) – extern
RAG-Policy-Block (Copy & Paste in den System-Prompt)
Lücken: „Nicht in den Quellen“ statt spekulieren.
RAG-Policy:- Beantworte ausschließlich auf Basis der bereitgestellten Retriever-Auszüge.- Keine Aussagen ohne Quelle. Fehlt etwas: "Nicht in den Quellen".- Bevorzuge interne, freigegebene Dokumente; externe als "(extern)" kennzeichnen. Output-Standard:Antwort:- präzise, neutral, ohne SpekulationQuellen:- [Titel] (Abschnitt/ID, Datum {, intern|extern}) Qualitätskriterien:- Faithfulness 100% quellenbasiert- Vollständigkeit: alle Punkte oder "Nicht in den Quellen"- Aktualität: neueste Version bevorzugen
Retriever-Tuning: gute Treffer statt Rauschen
Query-Formel: Objekt + Eigenschaft + Norm/ID + Abschnitt/Version.
Synonyme: DE/EN und Fach-/Umgangsbegriffe (Lager/Bearing, Toleranz/Tolerance).
Ausschlüsse: -Marketing, -Prospekt.
Neueste Versionen priorisieren (date/version in Ranking einbeziehen, wenn möglich).
Retriever-Prompt:
Ziel: Finde präzise Passagen (Zahlen/Definitionen/Normverweise).Gib 5–10 Passagen zurück (≤ 100 Wörter) inkl. Titel, Abschnitt/ID, Datum/Version.Bevorzuge interne, neuere Dokumente; vermeide Marketing/Prospekte.
Beispiele
Frage: „Welche radiale Toleranz gilt für Lager X?“
Antwort:
„Für Lager X gilt radiale Toleranz ±0,02 mm.“
Quellen:
[Spezifikationsblatt Lager X] (Abschnitt 3.1, 2024‑05) – intern
[Prüfhandbuch Radsatz] (Abschnitt 4.2, 2024‑11) – intern
Unbelegbare Zusatzfrage (z. B. Wartungsintervall): „Nicht in den Quellen.“
Troubleshooting
Irrelevante Treffer: Query mit Norm/Abschnitt/ID schärfen; Ausschlüsse setzen.
Widersprüchliche Quellen: beide zitieren, Datum/Version nennen; keine Spekulation.
Veraltete Dokumente: „Stand: {Datum der Quelle}“ angeben; nach neuester Version fragen.
Schlechte OCR: Dokument neu scannen oder Textquelle besorgen.
Zu viel Korpus: Themenweise Collections anlegen und nur relevante Collections dem Assistenten zuordnen.
Kurz-Check vor dem Absenden
Jede Kernaussage hat Titel, Abschnitt/ID, Datum/Version?
Neueste interne Quelle bevorzugt?
Lücken als „Nicht in den Quellen“ markiert?
Max. 3–6 Quellen im Block, klar formatiert?