Voor real-time inferentie van een taalmodel heb je minimaal 16 GB VRAM nodig voor kleinere modellen (7B parameters in INT4), maar in de praktijk is 24 tot 80 GB VRAM realistischer voor productieomgevingen. Hoe meer parameters een model heeft en hoe hoger de precisie, hoe meer VRAM je nodig hebt. Een 70B-model in FP16 vraagt al snel meer dan 140 GB VRAM, wat meerdere GPU’s vereist. De juiste hoeveelheid hangt af van de modelgrootte, kwantisatie en de gewenste doorvoersnelheid.

Wat is VRAM en waarom is het belangrijk voor taalmodellen?

VRAM is het geheugen op een GPU dat tijdelijk data opslaat tijdens berekeningen. Voor taalmodellen betekent dit dat de gewichten van het model, de activaties tijdens inferentie en de KV-cache voor aandachtsmechanismen allemaal tegelijk in dit geheugen moeten passen. Als dat niet lukt, vertraagt het systeem drastisch of stopt het volledig.

Bij inferentie van grote taalmodellen zijn de geheugenbehoeften aanzienlijk groter dan bij traditionele machinelearningtaken. Een LLM werkt met miljarden parameters die elk een bepaalde hoeveelheid geheugen innemen, afhankelijk van de gehanteerde precisie. Daarnaast groeit de KV-cache mee met de lengte van de context, wat betekent dat langere gesprekken of documenten extra VRAM vragen. Onvoldoende VRAM leidt direct tot tragere responsen, wat bij real-time toepassingen onacceptabel is.

Het verschil met RAM in een gewone server is dat GPU-geheugen veel sneller is en direct toegankelijk is voor de rekenkern van de GPU. Zodra modelgewichten naar het CPU-RAM worden uitgewisseld, verlies je een groot deel van de prestatievoordelen van GPU-acceleratie. Voor productie-inferentie wil je daarom altijd het volledige model in VRAM houden.

Hoeveel VRAM heeft een taalmodel minimaal nodig?

De minimale VRAM-behoefte hangt direct af van het aantal parameters en de gebruikte precisie. Als vuistregel geldt: elk miljard parameters kost ongeveer 2 GB VRAM in FP16. Een model van 7B parameters heeft daarmee minimaal 14 GB VRAM nodig in FP16, en met kwantisatie naar INT4 kom je uit op ongeveer 4 tot 5 GB.

Hier is een praktisch overzicht van veelgebruikte modelgroottes:

  • 7B parameters, INT4: circa 4 tot 6 GB VRAM
  • 7B parameters, FP16: circa 14 tot 16 GB VRAM
  • 13B parameters, FP16: circa 26 tot 28 GB VRAM
  • 70B parameters, FP16: circa 140 GB VRAM of meer
  • 70B parameters, INT4: circa 35 tot 40 GB VRAM

Houd er rekening mee dat deze cijfers alleen de modelgewichten betreffen. In de praktijk komt daar nog de KV-cache bij, die afhankelijk is van de contextlengte en het aantal gelijktijdige verzoeken. Voor een productiesysteem met meerdere gebruikers reken je daarom altijd een buffer van 20 tot 30 procent boven op de theoretische minimumwaarde.

Wat is het verschil tussen FP16, INT8 en INT4 voor inferentie?

FP16, INT8 en INT4 zijn numerieke precisieniveaus voor het opslaan van modelgewichten. FP16 (16-bit floating point) biedt de hoogste nauwkeurigheid, maar vraagt het meeste geheugen. INT8 halveert het geheugengebruik ten opzichte van FP16 met minimaal kwaliteitsverlies. INT4 halveert het opnieuw, maar vraagt meer aandacht voor de impact op de modelkwaliteit.

FP16: hoge precisie, hoog geheugengebruik

FP16 is de standaardprecisie voor inferentie in productieomgevingen waar kwaliteit prioriteit heeft. Moderne GPU’s zoals de Nvidia H100 en H200 zijn specifiek geoptimaliseerd voor FP16-berekeningen via Tensor Cores. De output is nagenoeg identiek aan de originele modelkwaliteit, wat FP16 de voorkeur geeft voor kritische toepassingen zoals medische of juridische tekstgeneratie.

INT8 en INT4: minder geheugen, meer doorvoer

INT8-kwantisatie is inmiddels goed ingeburgerd en levert in de meeste gevallen vergelijkbare resultaten als FP16, met de helft van het geheugengebruik. Bibliotheken zoals bitsandbytes en GPTQ maken INT8-inferentie toegankelijk zonder complexe aanpassingen. INT4 gaat een stap verder en is interessant wanneer je een groot model op beperkte hardware wilt draaien, maar de kwaliteitsimpact varieert per model en taak. Voor eenvoudige taken is INT4 prima; voor complexe redeneervaardigheden merk je het verschil sneller.

Welke GPU’s zijn geschikt voor real-time LLM-inferentie?

De meest geschikte GPU’s voor real-time LLM-inferentie zijn de Nvidia H100, H200, A100 en, in de consumentenklasse, de RTX 4090 en RTX 6000 Ada. De keuze hangt af van de vereiste VRAM, doorvoersnelheid en het budget. Voor zakelijke productieomgevingen zijn de H-serie en A100 de standaard vanwege hun grote VRAM-capaciteit en hoge bandbreedte.

  • Nvidia H200: 141 GB HBM3e, ideaal voor de grootste modellen in FP16
  • Nvidia H100 SXM: 80 GB HBM3, de huidige standaard voor enterprise-inferentie
  • Nvidia A100: 40 of 80 GB HBM2e, betrouwbaar en breed ondersteund
  • Nvidia RTX 6000 Ada: 48 GB GDDR6, geschikt voor middelgrote modellen
  • Nvidia RTX 4090: 24 GB GDDR6X, populair voor kleinere modellen en ontwikkeling

Naast VRAM is geheugenbandbreedte een bepalende factor. Hogere bandbreedte betekent dat gewichten sneller van het GPU-geheugen naar de rekenkern stromen, wat direct de tokens-per-seconde-snelheid bepaalt. De H100 en H200 blinken hier uit dankzij HBM-geheugen, dat aanzienlijk sneller is dan GDDR6.

Wanneer is multi-GPU-inferentie de juiste keuze?

Multi-GPU-inferentie is de juiste keuze wanneer een model niet in het VRAM van één enkele GPU past, of wanneer de doorvoersnelheid van één GPU onvoldoende is voor de vereiste belasting. Bij modellen groter dan 70B parameters in FP16 is multi-GPU-inferentie nagenoeg altijd noodzakelijk.

Er zijn twee hoofdstrategieën voor het verdelen van een model over meerdere GPU’s. Tensorparallelisme verdeelt individuele lagen horizontaal over GPU’s en vereist snelle interconnects zoals NVLink om communicatievertraging te minimaliseren. Pipelineparallelisme verdeelt het model verticaal in lagen per GPU, wat minder bandbreedte vraagt maar meer latentie introduceert. Voor real-time inferentie met lage latentie is tensorparallelisme met NVLink de voorkeursmethode.

Houd bij multi-GPU-setups rekening met de communicatieoverhead tussen GPU’s. Zonder NVLink of vergelijkbare hogesnelheidsinterconnects kan de verbinding tussen GPU’s een knelpunt worden dat de voordelen van extra GPU’s gedeeltelijk tenietdoet. Systemen met een NVLink Switch, zoals de DGX H100, zijn specifiek ontworpen om dit probleem te omzeilen.

Hoe bereken je de benodigde VRAM voor jouw specifieke use case?

De benodigde VRAM bereken je door drie componenten op te tellen: de geheugenvoetafdruk van de modelgewichten, de KV-cache voor de maximale contextlengte en een buffer voor activaties en overhead. Samen bepalen deze drie factoren het minimale VRAM-vereiste voor jouw specifieke situatie.

Stap voor stap ziet de berekening er zo uit:

  1. Modelgewichten: aantal parameters × bytes per parameter (FP16 = 2 bytes, INT8 = 1 byte, INT4 = 0,5 byte)
  2. KV-cache: afhankelijk van het aantal lagen, aandachtshoofden, contextlengte en batchgrootte. Een vuistregel is 1 tot 2 GB extra per 1000 tokens contextlengte voor een 7B-model.
  3. Activaties en overhead: reken 10 tot 20 procent boven op het totaal van de vorige twee punten

Stel dat je een 13B-model wilt draaien in INT8 met een contextvenster van 4096 tokens en 8 gelijktijdige verzoeken. De gewichten kosten circa 13 GB, de KV-cache voegt afhankelijk van de architectuur 4 tot 8 GB toe, en de overhead brengt je op een totaal van 20 tot 25 GB. Een GPU met 24 GB VRAM zit dan aan zijn limiet; 48 GB geeft je comfortabele ruimte voor schaalbaarheid.

Welke serverplatforms zijn het meest geschikt voor inferentie-workloads?

Voor LLM-inferentieserverhardware zijn Supermicro GPU-servers de meest gebruikte platforms in professionele omgevingen. Systemen als de Supermicro SYS-821GE-TNHR en de X13 GPU-serie bieden ondersteuning voor meerdere Nvidia H100- of H200-GPU’s, hoge geheugenbandbreedte en NVLink-connectiviteit voor multi-GPU-configuraties.

Bij de keuze van een serverplatform voor inferentie let je op de volgende punten:

  • Aantal GPU-slots: hoeveel GPU’s kan het systeem fysiek en elektrisch ondersteunen
  • PCIe- of NVLink-connectiviteit: NVLink biedt significant hogere bandbreedte voor multi-GPU-communicatie
  • Koeling: GPU’s onder zware inferentiebelasting genereren veel warmte; directe luchtkoeling of vloeistofkoeling is bepalend voor duurzame prestaties
  • Voeding: een H100 verbruikt tot 700 watt; een systeem met acht GPU’s vraagt om een robuuste stroomvoorziening
  • Schaalbaarheid: kan het platform meegroeien als de modellen of het gebruikersvolume toeneemt

Supermicro heeft als voordeel dat het nieuwe Nvidia GPU-generaties als eerste ondersteunt, ruim voordat andere fabrikanten hun platforms hebben aangepast. Dat is relevant als je wilt werken met de nieuwste hardware zodra die beschikbaar komt. Bij ons, NCS International, configureren we Supermicro-inferentieservers volledig op maat voor jouw workload, van de GPU-selectie tot de opslagarchitectuur en koeling. Als grootste en oudste Supermicro-distributeur in Nederland helpen we je de juiste hardware te kiezen voor jouw specifieke inferentie-use case, of het nu gaat om een single-GPU-systeem of een multi-rack inferentiecluster.

Veelgestelde vragen

Kan ik LLM-inferentie ook uitvoeren op een CPU in plaats van een GPU?

Ja, CPU-inferentie is technisch mogelijk via frameworks zoals llama.cpp, maar de snelheid is aanzienlijk lager dan bij GPU-inferentie. Voor real-time toepassingen met gebruikers die directe respons verwachten, is CPU-inferentie in de meeste gevallen onpraktisch. Het kan wel zinvol zijn voor kleinere modellen in kwantisatieformaten zoals INT4 op krachtige multi-core servers, bijvoorbeeld als tijdelijke oplossing of voor lage-doorvoer batchverwerking.

Wat gebeurt er als mijn model niet volledig in VRAM past — zijn er tussenoplossingen?

Als een model niet volledig in VRAM past, kun je gebruikmaken van technieken zoals offloading, waarbij een deel van de modellagen naar CPU-RAM of zelfs NVMe-opslag wordt verplaatst. Frameworks zoals DeepSpeed en llama.cpp ondersteunen dit. Het nadeel is een significante prestatievermindering door de tragere geheugenbandbreedte van RAM en NVMe ten opzichte van VRAM. Dit is acceptabel voor ontwikkeling of experimenten, maar niet voor productie-inferentie met lage latentie.

Hoe beïnvloedt de contextlengte de VRAM-behoefte in de praktijk?

De contextlengte heeft een directe en niet-lineaire impact op de KV-cache, die meegroeit met elk extra token in de invoer en uitvoer. Bij lange documenten, uitgebreide gesprekken of RAG-toepassingen (Retrieval-Augmented Generation) kan de KV-cache snel een groot deel van de beschikbare VRAM opslokken. Als je regelmatig werkt met contextvensters van 32.000 tokens of meer, moet je dit zwaar meewegen in je VRAM-berekening — de KV-cache kan in zulke gevallen groter worden dan de modelgewichten zelf.

Welke softwarestack is het meest geschikt voor productie-LLM-inferentie?

Voor productie-inferentie zijn vLLM, TensorRT-LLM van Nvidia en Triton Inference Server de meest gebruikte en betrouwbare opties. vLLM is populair vanwege zijn efficiënte PagedAttention-mechanisme, dat de KV-cache dynamisch beheert en de doorvoer significant verhoogt. TensorRT-LLM is geoptimaliseerd voor Nvidia-hardware en biedt de hoogste tokens-per-seconde-prestaties op H100- en H200-GPU's. De keuze hangt af van je prioriteiten: flexibiliteit, maximale prestaties of eenvoud van implementatie.

Hoe weet ik of mijn inferentieserver VRAM-gebonden of compute-gebonden is?

Bij LLM-inferentie is het systeem vrijwel altijd geheugenbandbreedte-gebonden (memory-bound) in plaats van compute-gebonden, zeker bij lage batchgroottes. Dit betekent dat de snelheid waarmee gewichten van het GPU-geheugen naar de rekenkern worden geladen de beperkende factor is, niet de rekenkracht zelf. Je kunt dit meten met tools zoals Nvidia Nsight Systems of nvidia-smi: als het GPU-gebruik laag is terwijl de geheugenbandbreedte verzadigd is, zit je in het memory-bound regime. Grotere batchgroottes helpen de GPU-benutting te verbeteren.

Wat zijn de meest gemaakte fouten bij het inrichten van een inferentie-infrastructuur?

Een veelgemaakte fout is het onderschatten van de KV-cache en overhead, waardoor de server bij hogere belasting alsnog vastloopt of sterk vertraagt. Een andere valkuil is investeren in veel GPU's zonder te letten op de interconnectbandbreedte, waardoor multi-GPU-communicatie een knelpunt wordt. Tot slot zien we regelmatig dat teams kiezen voor maximale kwantisatie (INT4) zonder de kwaliteitsimpact te testen op hun specifieke taak, wat pas in productie zichtbaar wordt als een probleem.

Hoe schaal ik mijn inferentie-infrastructuur op naarmate het gebruikersvolume groeit?

Horizontale schaling — het toevoegen van extra inferentieservers achter een load balancer — is de meest flexibele aanpak voor groeiend gebruikersvolume. Hierbij draait elk knooppunt een volledige kopie van het model, wat eenvoudig te beheren is en geen NVLink vereist tussen servers. Voor modellen die al meerdere GPU's per instantie vereisen, combineer je verticale schaling (meer GPU's per server) met horizontale schaling (meer servers). Zorg dat je serverplatform voldoende GPU-slots heeft om mee te groeien zonder de hele infrastructuur te hoeven vervangen.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten

Wat is een GPU-server?

GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.


read more

Wat is een AI-server?

Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.


read more