Retrieval-Augmented Generation

1) Einfach erklärt

RAG verbindet ein Sprachmodell (Generator) mit einer Suche (Retriever). Vor der Antwort holt die Suche passende Dokument-Ausschnitte (z. B. aus einer Wissensdatenbank, Website oder PDF). Das Sprachmodell bezieht sich auf diese Belege, statt nur aus dem Gedächtnis („Parametern“) zu raten. Ergebnis: aktuellere, belegbare Antworten mit Quellen.

Warum nützlich? Externe Wissensspeicher sind leichter zu aktualisieren als die Modell-Parameter. RAG kann die Faktentreue steigern und liefert Provenienz (Zitate/Links) – wichtig für Nachvollziehbarkeit.

Weiterführende Basis-Einträge:
Embedding/Vektorraum ·
Semantic Search ·
Große Sprachmodelle (LLMs) ·
Prompt


2) Professionelle Definition

Retrieval-Augmented Generation (RAG) bezeichnet Architekturen, die ein generatives Sprachmodell mit einer nicht-parametrischen Wissensquelle koppeln. Typisch ist ein Dual-Encoder-Retriever (z. B. Dense Passage Retrieval) über einen Vektorindex (ANN, etwa HNSW/FAISS). Die Top-K Passagen werden vor der Generierung abgerufen und dem Generator als Kontext übergeben (Prompt-Grounding). Varianten integrieren die Passagen auch während der Decodierung (z. B. Fusion-in-Decoder) oder koppeln Retrieval schon in der Vortrainings-Phase (REALM) bzw. während der Autoregression (RETRO).


3) Typische RAG-Pipeline

  1. Vorbereitung: Inhalte in Passagen aufteilen, Embeddings erzeugen, in einem Vektorindex (z. B. FAISS/HNSW) speichern.
  2. Abfrage: Nutzerfrage einbetten → Nearest-Neighbor-Suche liefert relevante Passagen.
  3. (Optional) Hybrid: Kombination aus lexikalischer (BM25) und semantischer Suche; Ergebnisfusion (z. B. Reciprocal Rank Fusion).
  4. (Optional) Re-Ranking: Feinreihung mit Cross-Encodern oder Late-Interaction (z. B. ColBERT).
  5. Generierung: LLM erzeugt eine Antwort, die sich explizit auf die abgerufenen Passagen stützt (inkl. Zitate/Links).

4) Bekannte Architekturen & Varianten

  • RAG (Lewis et al., 2020): Grundmodell „Retriever + Generator“, Wikipedia-Index, dichte Retriever, Beleg-gestützte Generierung.
  • REALM (Guu et al., 2020): Retrieval schon im Pretraining mit differenzierbarem Zugriff auf eine große Wissensbasis.
  • FiD – Fusion-in-Decoder (Izacard & Grave, 2021): Passagen getrennt encoden, im Decoder fusionieren → starke Open-Domain-QA.
  • RETRO (Borgeaud et al., 2022): Autoregressives LM mit Nachbarschafts-Retrieval aus riesigem Textspeicher während der Generierung.
  • ATLAS (Izacard et al., 2022/23): Vortrainiertes RAG-LM mit Few-Shot-Stärken; gemeinsames Training von Retriever + Reader.

5) Einsatzfelder

  • Open-Domain-QA & Chat (faktenbasiert, mit Quellen)
  • Unternehmenssuche & Assistenz (Wikis, PDFs, Tickets, Code)
  • Fachdomänen (Recht, Medizin, Technik) mit kuratierter Wissensbasis

6) Grenzen & Risiken

  • Halluzinationen werden reduziert, aber nicht eliminiert; Qualität hängt von Retriever, Index und Daten ab.
  • Sicherheitsrisiken: z. B. Prompt-Injection über externe Quellen; braucht Härtung (Filter, Policy-Checks, Rechte-/Quellen-Kontrollen).
  • Aktualität & Governance: Pflege des Index (Versionierung, Moderation, Zugriffsrechte) ist zentral.

Verwandte interne Einträge

Semantic Search ·
Embedding/Vektorraum ·
CLIP ·
ViT


Quellen (externe Belege; kopierbare, klickbare Links)

Grundlagen & Kernarbeiten
RAG (Lewis et al., 2020) – arXiv: https://arxiv.org/abs/2005.11401 · NeurIPS PDF: https://proceedings.neurips.cc/paper/2020/file/6b493230205f780e1bc26945df7481e5-Paper.pdf
REALM (Guu et al., 2020) – arXiv: https://arxiv.org/abs/2002.08909 · PDF: https://arxiv.org/pdf/2002.08909
FiD (Izacard & Grave, 2021) – arXiv: https://arxiv.org/abs/2007.01282 · PDF: https://arxiv.org/pdf/2007.01282
RETRO (Borgeaud et al., 2022) – arXiv: https://arxiv.org/abs/2112.04426 · PDF: https://arxiv.org/pdf/2112.04426
ATLAS (Izacard et al., 2022/23) – arXiv: https://arxiv.org/abs/2208.03299 · JMLR PDF: https://www.jmlr.org/papers/volume24/23-0037/23-0037.pdf

Retriever, Re-Ranking & Indizes
DPR (Karpukhin et al., 2020) – arXiv: https://arxiv.org/abs/2004.04906 · PDF: https://arxiv.org/pdf/2004.04906
ColBERT (Khattab & Zaharia, 2020) – arXiv: https://arxiv.org/abs/2004.12832 · PDF: https://arxiv.org/pdf/2004.12832
FAISS (Douze et al., 2024) – arXiv: https://arxiv.org/abs/2401.08281 · PDF: https://arxiv.org/pdf/2401.08281 · GitHub: https://github.com/facebookresearch/faiss
HNSW (Malkov & Yashunin, 2016) – arXiv: https://arxiv.org/abs/1603.09320 · PDF: https://arxiv.org/pdf/1603.09320
Hybrid-/RRF-Fusion – Cormack et al. (SIGIR 2009) PDF: https://cormack.uwaterloo.ca/cormacksigir09-rrf.pdf · Studie zu Hybrid-Fusion (Bruch et al., 2022): https://arxiv.org/abs/2210.11934
OpenSearch Hybrid-Docs: https://docs.opensearch.org/latest/vector-search/ai-search/hybrid-search/index/ · Elastic Überblick: https://www.elastic.co/what-is/hybrid-search

Faktentreue & Halluzination
Shuster et al. (2021): Retrieval Augmentation Reduces Hallucination – arXiv: https://arxiv.org/abs/2104.07567
RAGTruth (Niu et al., 2024): Hallucination-Corpus für RAG – PDF: https://aclanthology.org/2024.acl-long.585.pdf

Sicherheit (Prompt-Injection u. a.)
OWASP Top-10 für LLM-Anwendungen – Übersicht: https://owasp.org/www-project-top-10-for-large-language-model-applications/
NIST AI RMF (GenAI-Profil, 2024) – PDF: https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf

 

Lassen Sie sich ein RAG erstellen Ihre Wissensdatenbank