Parallelle subagents voor grote databronnen
Definitie
Een verwerkingspatroon waarbij grote, ruwe datasources eerst worden voorgefilterd naar schone platte tekst, daarna worden opgesplitst in batches, en vervolgens parallel worden verwerkt door meerdere Claude Code subagents. Het resultaat is snelle, parallelle verwerking zonder dat agents zelf in ruwe JSON hoeven te navigeren.
Context
Gebruikt tijdens TASK-080.02 van de KennisBank-migratie (2026-04-13) om 66 Cowork-sessies te verwerken. De ruwe audit.jsonl bestanden bevatten naast transcriptinhoud ook grote hoeveelheden tool_use/tool_result ruis en technische metadata. Direct door agents laten verwerken zou inefficient zijn en de context-limiet snel bereiken. De pre-filter aanpak loste dit op: 2,2 GB Cowork-data werd teruggebracht naar 1,5 MB bruikbare tekst.
Kernpunten
Stap 1: voorfilteren naar platte tekst
Schrijf een Python-script dat de ruwe bron (jsonl of json) leest en per item de relevante tekst extraheert. Voor Cowork: haal alleen de menselijke en assistent-berichten op, strip tool_use en tool_result blokken. Sla elk item op als apart .txt bestand in een uitvoermap. Voorbeeld uitvoer: filtered/session-<uuid>.txt.
Voorfiltering kan in /tmp/ draaien; de gefilterde bestanden komen in de vault.
Stap 2: manifest bouwen
Genereer een manifest als JSON of CSV met per item: een identifier, relevante metadata (datum, titel, pad naar het gefilterde bestand). Dit manifest is de input voor de batch-bouwer en voor de agents zelf.
[
{
"id": "session-abc123",
"date": "2025-11-04",
"title": "Lokaal - interviewprep",
"filtered_path": "/Users/jvdbreemen/KennisBank/01-raw/import-cowork/filtered/session-abc123.txt"
}
]Stap 3: batches maken
Splits het manifest in batches van 10-20 items. Kleinere batches per agent voorkomen context-overflow. Sla elke batch op als apart JSON-bestand: batch-00.json, batch-01.json, enzovoort.
Stap 4: agents parallel dispatchen
Gebruik de Agent tool in Claude Code om meerdere subagents tegelijk te starten. Geef elke agent zijn manifest-slice mee en de absolute paden naar de gefilterde bestanden. Agents hoeven zo niet te navigeren, niet te zoeken en niet te filteren: ze krijgen schone tekst aangeleverd.
Tijdens TASK-080.02 zijn 7 Cowork-agents parallel gedraaid. Tijdens TASK-080.01 (155 chat-conversaties) zijn 8 chat-agents gedraaid, waarvan 6 volledig voltooid binnen de token-limiet.
Aandachtspunten
Gebruik absolute paden in het manifest. Relatieve paden breken als een agent een andere werkdirectory heeft. Houd batches klein genoeg dat de context-limiet nooit bereikt wordt bij de langste items in een batch. Bij onderbroken agents (token-limiet): herstart alleen de ontbrekende batches op basis van nog niet aangemaakte outputbestanden.
Het patroon werkt ook voor andere grote bronnen: chat-exports, Desktop-sessies, projectartefacten.
Verbanden
-
Zie ook: wiki-claude-data-locaties
-
Zie ook:
06-claude/fase-2-import-stappenplan.md -
Zie ook: wiki-subagent-driven-development-discipline — semantically_similar_to
Bronnen
Geen externe bronnen. Patroon gedestilleerd uit eigen sessie-praktijk.