AI Tools & PromptingGeplaatst door thijs_vd29 dagen geleden

Context window optimalisatie: zo haal je meer uit je tokens

Ik merk dat veel mensen gewoon hun hele document in de context gooien en hopen op het beste. Hier een paar technieken die ik gebruik om betere resultaten te krijgen met minder tokens. Techniek 1: chunk je input slim. In plaats van een heel 50-pagina document mee te geven, extract ik eerst de relevante secties. Ik gebruik Claude zelf daarvoor - eerst een korte samenvatting vragen van elk hoofdstuk, dan alleen de relevante hoofdstukken meegeven voor de echte vraag. Twee API calls maar betere output. Techniek 2: system prompt recyclen. Als je dezelfde system prompt steeds meestuurt kost dat elke keer tokens. Bij de API kun je system prompts cachen (prompt caching bij Anthropic). Scheelt tot 90% op herhaalde tokens. Techniek 3: output format specificeren. Als je zegt "geef een JSON object terug met alleen de velden X en Y" krijg je compactere output dan wanneer je het model vrij laat. Minder output tokens = lagere kosten en snellere responses. Techniek 4: voor lange documenten gebruik ik een twee-stap aanpak. Stap 1: laat het model een gestructureerde samenvatting maken. Stap 2: stel je eigenlijke vragen aan de samenvatting. De samenvatting past makkelijk in het context window en bevat alle kern-informatie. Concrete besparing: bij een project waar ik dagelijks ~50 API calls doe ging ik van gemiddeld 8000 tokens per call naar 3500. Dat is meer dan 50% besparing, en de kwaliteit van de antwoorden ging omhoog omdat er minder ruis in de context zat. Welke optimalisaties gebruiken jullie?
7
💬 4 reacties🔗 Delen

Reageer

daan.s29 dagen geleden

Die twee-stap aanpak met samenvatting is goed. Ik doe iets vergelijkbaars maar dan met een map-reduce patroon: splits het document in stukken, laat elk stuk samenvatten, en combineer de samenvattingen. Werkt goed voor heel lange documenten (100+ pagina's).

thijs_vd28 dagen geleden

Die map-reduce aanpak klinkt slim voor echt lange documenten. Ga ik uitproberen. Hoe ga je om met informatie die over meerdere chunks verspreid is? Soms heb je context uit hoofdstuk 2 nodig om hoofdstuk 7 te snappen.

jeroen.h29 dagen geleden

Prompt caching bij Anthropic is echt een kostenbesparenr. Ik gebruik het voor een chatbot die een vast system prompt van 2000 tokens heeft. Zonder caching was dat bij 1000 gesprekken per dag een flink bedrag. Nu betaal ik die tokens maar 1x.

sanne.k28 dagen geleden

Handige tips! Ik wist niet van die prompt caching feature. Werkt dat alleen via de API of ook in de chat interface? Ik gebruik vooral Claude Pro via de website.