CAG, RAG en handmatige hybride: architectuurkeuzes voor kleine kennisbanken

Definitie

Drie paradigma’s voor hoe een taalmodel toegang krijgt tot een kennisbank: klassieke RAG (retrieval via embeddings), CAG (alles in context laden), en handmatige hybride (agentic retrieval met bewuste curatie). Voor kleine vaults (~20-100 artikelen) zijn de keuzes anders dan voor enterprise-systemen.

Context

Bij de uitbreiding van de KennisBank (mei 2026) is bewust gekozen welk retrieval-paradigma past bij de schaal en filosofie van het systeem. Uitgangspunten: curatie boven automatisering, lokaal en pluggable, geen vendor lock-in.

Kernpunten

Klassieke RAG

Werkt via embeddings: elk document wordt omgezet in een vector, bij een query wordt gezocht naar de dichtstbijzijnde vectoren, en alleen die fragmenten worden aan het model gegeven.

Nadelen voor kleine vaults:

Vereist een vector DB (Chroma, sqlite-vec, of cloud)
Automatische retrieval ondermijnt bewuste curatie: relevantie wordt bepaald door cosine-similarity, niet door redactioneel oordeel
Chunking versnippert context die als geheel begrepen moet worden
Overhead disproportioneel voor ~40 artikelen

Wel relevant: als de vault groeit tot 200+ artikelen en keyword-search structureel faalt op terminologieverschillen, dan worden embeddings waardevol. Zie fase 4/5 van het kennisbank-uitbreidingsplan.

HyDE (Hypothetical Document Embeddings)

Optimalisatie op RAG: het model genereert eerst een hypothetisch antwoord op de query, converteert dat naar een embedding, en gebruikt die voor similarity search. Dit verbetert de match bij vage of abstracte zoekvragen.

Pas relevant als er al een vector DB is. Geen zelfstandige architectuur.

Referentie: Gao et al. (2022). Precise Zero-Shot Dense Retrieval without Relevance Labels. arXiv:2212.10496.

CAG (Cache-Augmented Generation)

Academische variant: laad het volledige corpus één keer in de KV-cache van het model, sla die cache op schijf op, herstel vóór elke query. Geen retrieval, geen chunking, geen embeddings.

Voordelen: eenvoudig, geen vector DB, werkt perfect voor statische corpora.

Beperkingen:

Vereist lokale modellen (Llama-formaat) om de KV-cache te kunnen exporteren
Breekt de Claude Code workflow (Anthropic API geeft geen toegang tot ruwe KV-cache)
Academische demonstraties laten 76% token-reductie zien t.o.v. RAG

Referentie: Chan et al. (2024). Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks. arXiv:2412.15605.

Handmatige hybride (onze aanpak)

Claude beslist zelf welke vault-tools het aanroept op basis van de vraag. Curatie bepaalt wat er in de vault staat. Stabiele prefixes (afspraken, projectbriefs, recente sessies) worden automatisch geladen via SessionStart-hook.

Dit is functioneel vergelijkbaar met CAG-filosofie — stabiele context bovenaan elke sessie — zonder KV-cache export of lokale modellen.

Voordeel van Anthropic prompt caching: hergebruikte stabiele prefixes kosten 90% minder tokens binnen een cache-window van 5 minuten. Geen actie nodig om dit te activeren.

Beslisboom voor toekomstige uitbreiding

Keyword-search faalt structureel op terminologieverschillen? Nee: stop. Ja: ga naar 2.
Meting over 2 weken bevestigt het probleem? Nee: stop. Ja: ga naar 3.
Kies: eigen embeddings-laag (Ollama + nomic-embed-text + sqlite-vec) of claude-mem sidecar (AGPL-3.0, snelle adoptie maar externe afhankelijkheid).

Verbanden

Zie ook: wiki-kennisbank-sessie-automatisering — SessionStart-hook implementatie
Zie ook: wiki-vault-mcp-architectuur — bredere vault-architectuur
Gerelateerd project: brief
Zie ook: index — references

Bronnen

Chan, B. J., Chen, C. T., Cheng, J. H., & Huang, H. H. (2024). Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks. arXiv:2412.15605. https://arxiv.org/abs/2412.15605

Gao, L., Ma, X., Lin, J., & Callan, J. (2022). Precise Zero-Shot Dense Retrieval without Relevance Labels. arXiv:2212.10496. https://arxiv.org/abs/2212.10496

Karpathy, A. (2026). On LLM-compiled knowledge bases [Post]. X. https://x.com/karpathy/status/2039805659525644595

Sessie-herkomst

raw-sessie-2026-05-03-kennisbank-uitbreiding-sessionstart-hook

KennisBank

Verkenner

CAG, RAG en handmatige hybride: architectuurkeuzes voor kleine kennisbanken

CAG, RAG en handmatige hybride: architectuurkeuzes voor kleine kennisbanken

Definitie

Context

Kernpunten

Klassieke RAG

HyDE (Hypothetical Document Embeddings)

CAG (Cache-Augmented Generation)

Handmatige hybride (onze aanpak)

Beslisboom voor toekomstige uitbreiding

Verbanden

Bronnen

Sessie-herkomst

Verbanden

Inhoudsopgave

Backlinks

Grafiekweergave