21 april 2026
Voor een groot taalmodel in productie heb je een GPU-server nodig met voldoende VRAM om het model volledig in het geheugen te laden, snelle interconnects tussen GPU’s en een stabiele CPU-infrastructuur voor de rest van de verwerking. De exacte configuratie hangt af van de modelgrootte, het verwachte aantal gelijktijdige verzoeken en of je traint of alleen inferentie draait. Voor de meeste productie-LLM-omgevingen kom je al een heel eind met meerdere Nvidia H100- of A100-kaarten in een goed geconfigureerde server.
Een GPU-server is een server die naast een standaard CPU ook een of meerdere grafische processoren bevat die speciaal zijn ontworpen voor parallelle berekeningen. Voor het draaien van een groot taalmodel is zo’n server nodig omdat LLM’s enorme hoeveelheden matrixoperaties uitvoeren die een CPU simpelweg niet snel genoeg kan verwerken. GPU’s doen dit werk tientallen tot honderden keren sneller dan een traditionele processor.
Moderne LLM’s, zoals GPT-achtige modellen, bestaan uit miljarden parameters. Al die parameters moeten tijdens inferentie worden geladen en verwerkt. Een gewone server heeft daarvoor niet de rekenkracht, niet het geheugen en niet de geheugenbandbreedte die nodig zijn om binnen een acceptabele responstijd antwoorden te genereren. Voor productieomgevingen waar gebruikers of applicaties in realtime op antwoorden wachten, is een GPU-server geen luxe, maar een technische vereiste.
De hoeveelheid GPU-geheugen die je nodig hebt, hangt direct af van de grootte van het model. Als vuistregel geldt: een model met 7 miljard parameters heeft minimaal 14 GB VRAM nodig bij 16-bit precisie, een 13B-model heeft minimaal 26 GB nodig en een 70B-model vraagt al snel 140 GB of meer. In productie heb je ook extra buffer nodig voor de KV-cache en gelijktijdige verzoeken.
De berekening is vrij rechttoe rechtaan: elke miljard parameters kost bij 16-bit precisie (FP16 of BF16) ongeveer 2 GB VRAM. Bij 8-bit-quantisatie halveer je dat; bij 4-bit-quantisatie kwarteer je het. Quantisatie maakt het mogelijk om grotere modellen op minder hardware te draaien, maar dat gaat soms ten koste van de antwoordkwaliteit. In productie wil je weten welke trade-off je bereid bent te maken.
Naast het model zelf heeft de inferentie-engine ruimte nodig voor de KV-cache, die de tussenliggende berekeningen per verzoek opslaat. Hoe langer de context en hoe meer gelijktijdige verzoeken je verwerkt, hoe groter deze cache wordt. In drukke productieomgevingen kan de KV-cache een aanzienlijk deel van het beschikbare VRAM opslokken, dus houd daar ruim rekening mee.
Voor LLM-inferentie in productie zijn de Nvidia H100 en A100 momenteel de meest gebruikte keuzes. De H100 biedt 80 GB HBM3-geheugen, hoge geheugenbandbreedte en ondersteuning voor FP8-precisie, wat inferentie aanzienlijk versnelt. De A100 met 80 GB is een bewezen keuze voor stabiele productieomgevingen en is iets breder beschikbaar. Voor kleinere modellen of budgetbewuste setups is de Nvidia L40S een sterke optie.
De keuze tussen GPU-modellen hangt af van wat je wilt optimaliseren. Wil je maximale doorvoer voor veel gelijktijdige verzoeken, dan is de H100 met NVLink de sterkste optie. Wil je een goede balans tussen prestaties en kosten voor een middelgroot model, dan biedt de A100 of L40S een solide basis. Houd er rekening mee dat de markt voor high-end GPU’s sterk onder druk staat door grote inkopen van hyperscalers, wat de beschikbaarheid en prijzen beïnvloedt.
Training en inferentie stellen heel andere eisen aan je hardware. Bij training verwerk je grote batches data om modelgewichten te berekenen, wat maximale rekenkracht, hoge geheugenbandbreedte en snelle GPU-naar-GPU-communicatie vereist. Bij inferentie genereer je antwoorden op individuele verzoeken, waarbij lage latency en efficiënt geheugenbeheer centraal staan.
Voor training heb je doorgaans meer GPU’s nodig die via NVLink of InfiniBand met elkaar verbonden zijn, zodat gradiënten snel kunnen worden gesynchroniseerd. De kosten en complexiteit liggen aanzienlijk hoger. Inferentie is minder veeleisend qua rekenkracht, maar stelt strengere eisen aan de responstijd per verzoek. Veel organisaties trainen hun model eenmalig op een krachtig cluster en draaien daarna inferentie op een kleinere, kostenefficiëntere configuratie. Die twee use cases rechtvaardigen dan ook vaak verschillende serverplatforms.
Het minimale aantal GPU’s hangt af van de modelgrootte en de verwachte belasting. Een 7B-model past op één Nvidia A100 of H100 met 80 GB VRAM. Een 70B-model heeft minimaal twee tot vier van dergelijke kaarten nodig. Modellen boven de 100 miljard parameters vragen al snel acht GPU’s of meer, zeker als je ook de KV-cache en hoge doorvoer wilt accommoderen.
In productie speel je niet alleen met modelgrootte, maar ook met het aantal gelijktijdige gebruikers of API-verzoeken. Hoe meer gelijktijdige verzoeken je verwacht, hoe meer geheugen en rekenkracht je nodig hebt. Tensor parallelism, waarbij het model over meerdere GPU’s wordt verdeeld, en replica’s van het model op aparte GPU-sets zijn gangbare strategieën om de doorvoer te verhogen. Het is verstandig om je infrastructuur zo te ontwerpen dat je GPU’s kunt toevoegen naarmate de vraag groeit.
De juiste serverconfiguratie verschilt sterk per gebruikssituatie. Voor een intern chatbotproject met een 7B- of 13B-model volstaat een server met twee tot vier GPU’s. Voor een klantgerichte API die honderden verzoeken per minuut verwerkt met een 70B-model, heb je een multi-GPU-server met acht kaarten of zelfs meerdere servers in een cluster nodig.
Voor modellen tot 13B parameters en een beperkt aantal gelijktijdige verzoeken is een 2U- of 4U-server met twee tot vier Nvidia A100- of H100-kaarten een goede keuze. Zorg voor voldoende systeemgeheugen (minimaal 512 GB RAM) en snelle NVMe-opslag voor het laden van modelgewichten. Een krachtige CPU, zoals een Intel Xeon of AMD EPYC, ondersteunt de preprocessing van verzoeken.
Voor 70B-modellen of groter, of voor omgevingen met een hoge gelijktijdige belasting, heb je een server met acht GPU’s nodig die via NVLink zijn verbonden, aangevuld met InfiniBand-netwerken als je meerdere servers koppelt. Platforms als de Supermicro SYS-821GE zijn hier specifiek voor ontworpen: maximale GPU-dichtheid, hoge bandbreedte en enterprise-grade betrouwbaarheid in één chassis.
Bij de aanschaf van een GPU-server voor LLM-inferentie zijn de belangrijkste aandachtspunten: totale VRAM-capaciteit, geheugenbandbreedte, GPU-interconnectsnelheid, koeling en de mogelijkheid om later uit te breiden. Koop niet alleen voor je huidige model, maar denk ook na over welke modellen je over een jaar wilt draaien.
Houd ook rekening met de marktomstandigheden. De vraag naar high-end GPU’s is de afgelopen jaren sterk gestegen, mede doordat grote techbedrijven hele productieruns opkopen. Dit heeft directe gevolgen voor beschikbaarheid en prijsniveaus. Wie flexibel wil blijven en snel wil kunnen schakelen naar nieuwere GPU-generaties, doet er verstandig aan samen te werken met een distributeur die directe toegang heeft tot de nieuwste hardware.
Wij bij NCS International leveren al 38 jaar Supermicro-servers en zijn de eerste en grootste Supermicro-distributeur van Nederland. Omdat Supermicro als eerste nieuwe Nvidia GPU-generaties ondersteunt, kunnen wij klanten toegang geven tot de nieuwste hardware, ruim voordat andere merken die beschikbaar stellen. Of je nu een eerste GPU-server wilt bouwen voor LLM-inferentie of een bestaande omgeving wilt uitbreiden, wij configureren elk systeem volledig op maat. Bekijk onze serveroplossingen voor AI en LLM-inferentie en neem contact op om te bespreken welke configuratie past bij jouw specifieke situatie.
Ja, cloudproviders zoals AWS, Google Cloud en Azure bieden GPU-instanties aan waarmee je zonder eigen hardware een LLM kunt draaien. Dit is handig voor experimenten of tijdelijke workloads, maar voor structurele productie-inferentie zijn de kosten op de lange termijn vaak aanzienlijk hoger dan die van een eigen server. Organisaties met een stabiele, voorspelbare belasting kiezen daarom regelmatig voor on-premise hardware, omdat de totale eigendomskosten (TCO) na één tot twee jaar gunstiger uitvallen.
Quantisatie is een techniek waarbij de numerieke precisie van modelgewichten wordt verlaagd — bijvoorbeeld van 16-bit naar 8-bit of 4-bit — zodat het model minder VRAM gebruikt en sneller kan worden uitgevoerd. Het is verstandig toe te passen wanneer je een groter model wilt draaien op beschikbare hardware, of wanneer je de doorvoer wilt verhogen zonder extra GPU's aan te schaffen. Houd er rekening mee dat agressieve quantisatie (4-bit) merkbare kwaliteitsvermindering kan geven bij complexe redeneer- of schrijftaken; voor veel productietoepassingen is 8-bit een goede balans.
De meest effectieve aanpak is het combineren van een wachtrij-systeem (zoals een request queue) met automatische load balancing over meerdere model-replica's. Tools zoals vLLM en TGI (Text Generation Inference van Hugging Face) bieden ingebouwde ondersteuning voor efficiënte batch-verwerking en KV-cache-beheer, waardoor je meer gelijktijdige verzoeken kunt afhandelen zonder extra hardware. Daarnaast is het verstandig om je infrastructuur modulair te ontwerpen, zodat je bij groeiende vraag snel extra GPU-nodes kunt toevoegen aan het cluster.
De meest gebruikte basis is een Linux-server (Ubuntu of RHEL) met de Nvidia CUDA-drivers en cuDNN geïnstalleerd. Daarboven kies je een inferentie-framework: vLLM, Triton Inference Server en Text Generation Inference (TGI) zijn populaire keuzes voor productieomgevingen. Voor modelmanagement en monitoring zijn tools als Prometheus en Grafana gangbare aanvullingen. Zorg dat je softwareversies goed op elkaar zijn afgestemd, want incompatibiliteiten tussen CUDA-versies en frameworks zijn een veelvoorkomende bron van problemen bij de eerste opzet.
Tensor parallelism is een techniek waarbij de gewichten van een model worden verdeeld over meerdere GPU's, zodat een model dat niet op één GPU past toch efficiënt kan worden uitgevoerd. Je hebt het nodig zodra je modelgrootte de VRAM-capaciteit van één GPU overschrijdt — bijvoorbeeld bij een 70B-model op GPU's met 40 GB VRAM. Frameworks zoals vLLM en DeepSpeed ondersteunen tensor parallelism out-of-the-box, maar het vereist wel dat je GPU's via NVLink of een snelle interconnect zijn verbonden, anders wordt de communicatie-overhead een knelpunt.
Een veelgemaakte fout is het onderschatten van de VRAM die nodig is voor de KV-cache en gelijktijdige verzoeken: veel teams dimensioneren alleen op modelgrootte en lopen daarna vast bij hogere belasting. Een tweede veelvoorkomende fout is het kiezen van GPU's zonder rekening te houden met de interconnectsnelheid, waardoor multi-GPU-setups trager presteren dan verwacht. Tot slot wordt koeling regelmatig onderschat: high-end GPU's zoals de H100 genereren aanzienlijke warmte en vereisen een serverplatform en datacenteromgeving die dat aankunnen.
Begin met het monitoren van GPU-bezettingsgraad, VRAM-gebruik, geheugenbandbreedte en latency per verzoek via tools als Nvidia DCGM, Prometheus en Grafana. Een lage GPU-bezettingsgraad wijst vaak op een te kleine batch-grootte of inefficiënte wachtrij-instellingen, terwijl een hoge latency bij lage bezetting kan wijzen op I/O-knelpunten bij het laden van modelgewichten. Experimenteer met de batch-grootte, KV-cache-instellingen en het aantal parallelle werkprocessen in je inferentie-framework om de optimale balans te vinden tussen doorvoer en responstijd.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.