Karpathy LLM Wiki

Definitie

Het LLM Wiki-patroon is een door Andrej Karpathy (2026) gepubliceerde methode voor het opbouwen van persoonlijke kennisbanken met behulp van LLMs. Het kernidee: een LLM onderhoudt een groeiende verzameling Markdown-bestanden die als persistent geheugen functioneert.

Context

Traditionele LLM-interactie is stateloos: elke sessie begint blanco. RAG (Retrieval Augmented Generation) lost dit deels op maar vereist complexe infrastructuur. Het LLM Wiki-patroon is eenvoudiger: de kennisbank bestaat uit leesbare Markdown-bestanden die zowel door mens als machine te verwerken zijn.

Kernpunten

De architectuur kent drie lagen. De eerste is ingest: ruwe input (transcripts, webclippings, papers) wordt opgeslagen in een raw-directory. De tweede is compilatie: de LLM verwerkt ruwe data tot gestructureerde wiki-artikelen met onderlinge backlinks. De derde is query: de LLM leest relevante bestanden en beantwoordt vragen met verwijzingen naar bronmateriaal.

Obsidian dient als frontend vanwege de Graph View, backlinks en plugin-ecosysteem. De MCP-koppeling (Model Context Protocol) geeft Claude directe lees- en schrijftoegang tot de vault.

Implementatie in deze setup (vanaf 2026-05-09)

Het patroon is in de publieke repo LLmWiki-KennisBank (https://github.com/Jvdbreemen/LLmWiki-KennisBank, v0.2.0) geconcretiseerd als vier slash-commando’s:

  • /sessiestart: lazy-hierarchy-check bij sessie-start. Leest vault-CLAUDE.md, MEMORY.md, wiki-status, recente sessies, inbox-count. Read-only briefing.
  • /sessielog: schrijft raw-sessie-YYYY-MM-DD-slug.md aan einde van sessie + roept wiki-compilatie en cerebrum-update.
  • /wiki: compileert raw-logs van laatste 7 dagen tot wiki-artikelen met backlinks.
  • /import: backfill-pipeline voor bestaande Claude Code jsonl-history, claude.ai exports, en generieke folders (waaronder Cowork project-content). Drie importer-scripts met identieke --dry-run/--force/--vault/--json interface.

Aanvullend:

  • /intake voor inbox-processing en /stale voor verouderingsdetectie.
  • /autoresearch skill als externe-bron-laag die output naar ~/Claude/research/ schrijft (apart van vault zodat researchbestanden geen ruis zijn voor /wiki).
  • Ollama nomic-embed-text voor semantic-tiling: nieuwe wiki-artikelen worden bij schrijven vergeleken met bestaande, drempels 0.90 (mogelijk duplicaat) en 0.80 (verwant).

Deze concretisering laat zien dat het patroon werkt mits je de drie lagen scheidt: ingest schrijft naar 01-raw/, compilatie naar 02-wiki/, query leest beide. De backfill-stap (/import) is geen onderdeel van Karpathy’s oorspronkelijke beschrijving maar bleek essentieel om bestaande Claude-history retroactief in de pipeline te krijgen zonder handmatig overtikken.

Alternatieve implementatie: atomicmemory/llm-wiki-compiler

Een onafhankelijke open source implementatie van hetzelfde patroon is llm-wiki-compiler (https://github.com/atomicmemory/llm-wiki-compiler, MIT, Node 24+, npm package). Het tool levert een CLI (llmwiki) met de commando’s ingest, compile, query, watch, lint, serve (MCP), export en schema. Output is Obsidian-compatible Markdown met YAML-frontmatter, wikilinks en automatische MOC.md per tag. Multi-provider via LLMWIKI_PROVIDER (Anthropic, OpenAI, Ollama, MiniMax). Incrementele compilatie via SHA-256 in .llmwiki/state.json.

Test op Comzorg-corpus (4 PDFs, 2026-05-09) liet sterke en zwakke punten zien:

Sterk. Cross-source synthese (één concept-pagina combineert claims uit meerdere bronnen) met line-level provenance (^[file.md:start-end]). Schema-laag met typed page kinds (concept/entity/comparison/overview). compile --review candidate-queue voor mens-in-de-lus. Auto-MOC opgebouwd uit page-tags. Embeddings naast wiki-pages voor query.

Zwak. gemma4:26b faalt structureel op Nederlandse mixed-format documenten en geeft 0 concepten op transcripts, formele brieven en dense rapporten. qwen3-coder:30b + --lang nl werkt wel maar levert hallucinaties (Arts en Zorg zonder bron geclassificeerd als AHOED-praktijk, verzonnen acroniemen als alias) en Mediawiki-vervuiling ([[Categorie:...]]-tags, malformed wikilink-syntax). Provenance-precisie wisselt per bron. sources: frontmatter mist soms bronnen die in body wel geciteerd worden. Geen ingebouwde topic-filter: off-topic content uit een gemengde bron belandt zonder waarschuwing in dezelfde wiki. Ingest-truncatie op 100k chars per source. Compile-tijd voor 4 documenten ~3 uur lokaal op een 30B-model.

Verdict. Niet adopteren als dagelijkse pipeline. Wel waardevol als architectuur-inspiratie: het tweefase compile-pattern (concept-extractie eerst, page-generatie + link-resolution erna), de claim-level provenance met regel-ranges, de incrementele state via SHA-256, en de typed-page schema-laag zijn allemaal patronen die in een eigen /wiki skill bruikbaar zijn zonder de zwaktes over te nemen.

Volledige evaluatie staat in ~/.claude/projects/-Users-jvdbreemen-Claude/memory/reference_llm_wiki_compiler.md.

Verbanden

Bronnen

Karpathy, A. (2026). LLM Knowledge Bases [Gist]. GitHub. https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

van den Breemen, J. (2026). LLmWiki-KennisBank v0.2.0 [GitHub repo]. https://github.com/Jvdbreemen/LLmWiki-KennisBank/releases/tag/v0.2.0

Sessie-herkomst