CAG, RAG en handmatige hybride: architectuurkeuzes voor kleine kennisbanken
Definitie
Drie paradigma’s voor hoe een taalmodel toegang krijgt tot een kennisbank: klassieke RAG (retrieval via embeddings), CAG (alles in context laden), en handmatige hybride (agentic retrieval met bewuste curatie). Voor kleine vaults (~20-100 artikelen) zijn de keuzes anders dan voor enterprise-systemen.
Context
Bij de uitbreiding van de KennisBank (mei 2026) is bewust gekozen welk retrieval-paradigma past bij de schaal en filosofie van het systeem. Uitgangspunten: curatie boven automatisering, lokaal en pluggable, geen vendor lock-in.
Kernpunten
Klassieke RAG
Werkt via embeddings: elk document wordt omgezet in een vector, bij een query wordt gezocht naar de dichtstbijzijnde vectoren, en alleen die fragmenten worden aan het model gegeven.
Nadelen voor kleine vaults:
- Vereist een vector DB (Chroma, sqlite-vec, of cloud)
- Automatische retrieval ondermijnt bewuste curatie: relevantie wordt bepaald door cosine-similarity, niet door redactioneel oordeel
- Chunking versnippert context die als geheel begrepen moet worden
- Overhead disproportioneel voor ~40 artikelen
Wel relevant: als de vault groeit tot 200+ artikelen en keyword-search structureel faalt op terminologieverschillen, dan worden embeddings waardevol. Zie fase 4/5 van het kennisbank-uitbreidingsplan.
HyDE (Hypothetical Document Embeddings)
Optimalisatie op RAG: het model genereert eerst een hypothetisch antwoord op de query, converteert dat naar een embedding, en gebruikt die voor similarity search. Dit verbetert de match bij vage of abstracte zoekvragen.
Pas relevant als er al een vector DB is. Geen zelfstandige architectuur.
Referentie: Gao et al. (2022). Precise Zero-Shot Dense Retrieval without Relevance Labels. arXiv:2212.10496.
CAG (Cache-Augmented Generation)
Academische variant: laad het volledige corpus één keer in de KV-cache van het model, sla die cache op schijf op, herstel vóór elke query. Geen retrieval, geen chunking, geen embeddings.
Voordelen: eenvoudig, geen vector DB, werkt perfect voor statische corpora.
Beperkingen:
- Vereist lokale modellen (Llama-formaat) om de KV-cache te kunnen exporteren
- Breekt de Claude Code workflow (Anthropic API geeft geen toegang tot ruwe KV-cache)
- Academische demonstraties laten 76% token-reductie zien t.o.v. RAG
Referentie: Chan et al. (2024). Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks. arXiv:2412.15605.
Handmatige hybride (onze aanpak)
Claude beslist zelf welke vault-tools het aanroept op basis van de vraag. Curatie bepaalt wat er in de vault staat. Stabiele prefixes (afspraken, projectbriefs, recente sessies) worden automatisch geladen via SessionStart-hook.
Dit is functioneel vergelijkbaar met CAG-filosofie — stabiele context bovenaan elke sessie — zonder KV-cache export of lokale modellen.
Voordeel van Anthropic prompt caching: hergebruikte stabiele prefixes kosten 90% minder tokens binnen een cache-window van 5 minuten. Geen actie nodig om dit te activeren.
Beslisboom voor toekomstige uitbreiding
- Keyword-search faalt structureel op terminologieverschillen? Nee: stop. Ja: ga naar 2.
- Meting over 2 weken bevestigt het probleem? Nee: stop. Ja: ga naar 3.
- Kies: eigen embeddings-laag (Ollama + nomic-embed-text + sqlite-vec) of claude-mem sidecar (AGPL-3.0, snelle adoptie maar externe afhankelijkheid).
Verbanden
-
Zie ook: wiki-kennisbank-sessie-automatisering — SessionStart-hook implementatie
-
Zie ook: wiki-vault-mcp-architectuur — bredere vault-architectuur
-
Gerelateerd project: brief
-
Zie ook: index — references
Bronnen
Chan, B. J., Chen, C. T., Cheng, J. H., & Huang, H. H. (2024). Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks. arXiv:2412.15605. https://arxiv.org/abs/2412.15605
Gao, L., Ma, X., Lin, J., & Callan, J. (2022). Precise Zero-Shot Dense Retrieval without Relevance Labels. arXiv:2212.10496. https://arxiv.org/abs/2212.10496
Karpathy, A. (2026). On LLM-compiled knowledge bases [Post]. X. https://x.com/karpathy/status/2039805659525644595
Sessie-herkomst
raw-sessie-2026-05-03-kennisbank-uitbreiding-sessionstart-hook