Voor een LLM-inferenceserver heb je minimaal een krachtige GPU met voldoende VRAM nodig, aangevuld met een moderne CPU, snel geheugen, NVMe-opslag en een betrouwbaar netwerk. De exacte hardwarekeuze hangt af van de grootte van het model dat je wilt draaien: een 7B-model stelt heel andere eisen dan een 70B-model of groter. Hieronder vind je per component een concreet antwoord op wat je nodig hebt.

De interesse in on-premise LLM-inference groeit snel. Organisaties willen controle over hun data, lage latency en onafhankelijkheid van cloudproviders. Maar welke hardware je daarvoor nodig hebt, is lang niet altijd duidelijk. Dit artikel geeft je een praktisch overzicht, van GPU tot netwerk, zodat je een weloverwogen keuze kunt maken.

Wat is een LLM inference server precies?

Een LLM-inferenceserver is een systeem dat een getraind taalmodel uitvoert en op verzoek tekst genereert. Waar training het model leert, voert inference het model daadwerkelijk uit voor eindgebruikers of applicaties. De server ontvangt een prompt, verwerkt die door het model en stuurt een gegenereerde respons terug.

Inference verschilt fundamenteel van training. Bij training werk je weken of maanden aan het optimaliseren van modelgewichten, met enorme hoeveelheden data. Bij inference draait het om snelheid en beschikbaarheid: gebruikers verwachten een reactie binnen seconden. Dat stelt specifieke eisen aan de hardware, met name aan geheugenbandbreedte en GPU-capaciteit, meer dan aan ruwe rekenkracht alleen.

Een inferenceserver kan een enkele GPU-node zijn voor intern gebruik, maar ook een multi-GPU-cluster voor duizenden gelijktijdige verzoeken. De schaal bepaalt mede welke componenten je kiest.

Welke GPU heb je nodig voor LLM inference?

Voor LLM-inference heb je een GPU nodig met veel VRAM en hoge geheugenbandbreedte. De Nvidia H100, A100 en L40S zijn veelgebruikte keuzes voor professionele inference-workloads. Voor kleinere modellen of budgetvriendelijkere setups zijn de RTX 4090 of de A6000 Ada ook populair.

Datacenter-GPU’s versus consumer-GPU’s

Datacenter-GPU’s zoals de H100 en A100 bieden ECC-geheugen, hogere bandbreedte via HBM-geheugen en zijn ontworpen voor 24/7-gebruik. Consumer-GPU’s zoals de RTX 4090 zijn goedkoper en leveren sterke prestaties voor kleinere modellen, maar zijn minder geschikt voor zware productieomgevingen vanwege thermische beperkingen en beperkt VRAM.

De keuze hangt ook af van de modellen die je wilt draaien. Een 7B-model past op een enkele RTX 4090 met 24 GB VRAM. Een 70B-model vereist meerdere GPU’s of een high-end datacenter-GPU met 80 GB VRAM. Hoe groter het model, hoe meer je afhankelijk bent van professionele hardware.

Nvidia versus alternatieven

Nvidia domineert de markt voor LLM-inference dankzij het CUDA-ecosysteem. De meeste inference-frameworks, zoals vLLM, TensorRT-LLM en Triton, zijn primair geoptimaliseerd voor Nvidia-GPU’s. AMD-alternatieven zoals de MI300X winnen terrein, maar de softwareondersteuning is nog niet op hetzelfde niveau. Voor de meeste organisaties is Nvidia op dit moment de meest praktische keuze.

Hoeveel VRAM heb je nodig voor verschillende LLM-groottes?

Als vuistregel geldt: een LLM-model vereist ongeveer twee bytes VRAM per parameter bij full precision (FP16). Een model van 7 miljard parameters heeft dus minimaal 14 GB VRAM nodig. Met quantisatie (INT8 of INT4) kun je dit halveren of verder reduceren, maar dat gaat soms ten koste van kwaliteit.

Hieronder een indicatief overzicht per modelgrootte:

  • 7B parameters: 14 tot 16 GB VRAM (FP16), past op een RTX 4090 of A6000
  • 13B parameters: 26 tot 28 GB VRAM, vereist meerdere consumer-GPU’s of een professionele GPU
  • 34B parameters: 68 GB VRAM, vereist een A100 80 GB of meerdere GPU’s
  • 70B parameters: 140 GB VRAM, vereist meerdere A100’s of H100’s in een multi-GPU-setup

Quantisatie maakt het mogelijk grotere modellen op minder VRAM te draaien. Een 70B-model in INT4 past dan in circa 35 tot 40 GB VRAM. Houd er wel rekening mee dat je ook VRAM nodig hebt voor de KV-cache, die groeit met het aantal gelijktijdige verzoeken en de contextlengte. Plan dus altijd ruimer dan het model zelf vereist.

Welke rol speelt de CPU bij LLM inference?

De CPU speelt bij LLM-inference een ondersteunende rol. De GPU doet het zware rekenwerk, maar de CPU beheert de datastromen, verwerkt inkomende verzoeken, regelt de communicatie tussen componenten en handelt preprocessing en tokenisatie af. Een trage of overbelaste CPU vormt een bottleneck, ook als je GPU’s krachtig genoeg zijn.

Voor inferenceservers kies je bij voorkeur een moderne server-CPU met veel PCIe-lanes, zoals AMD EPYC of Intel Xeon Scalable. Meer PCIe-lanes zijn belangrijk omdat elke GPU bandbreedte vraagt voor communicatie met het systeem. Bij multi-GPU-setups is dit nog relevanter.

Het werkgeheugen (RAM) van de CPU speelt ook een rol bij het laden van modelgewichten en het bufferen van data. Zorg voor voldoende DDR5-geheugen met hoge bandbreedte, zeker als je meerdere modellen tegelijk wilt laden of regelmatig van model wisselt.

Wat zijn de netwerk- en opslagvereisten voor een inference server?

Voor opslag geldt: gebruik NVMe-SSD’s voor het laden van modelgewichten. Een groot LLM kan tientallen gigabytes groot zijn, en het laden van een model vanaf langzame opslag kost onnodig veel tijd bij het opstarten of wisselen van modellen. Snelle NVMe-opslag verkort die laadtijd aanzienlijk.

Voor het netwerk hangt de vereiste bandbreedte af van het gebruik. Een interne inferenceserver voor een klein team heeft genoeg aan 10 GbE. Bij hoge aantallen gelijktijdige verzoeken of bij multi-node-setups met meerdere GPU’s is 25 GbE of 100 GbE relevanter. Voor multi-GPU-communicatie binnen een server gebruik je bij voorkeur NVLink of NVSwitch, wat de GPU-tot-GPU-bandbreedte sterk verbetert ten opzichte van PCIe.

Bij gedistribueerde inference over meerdere nodes is een low-latency-netwerk zoals InfiniBand sterk aan te raden, omdat de communicatie tussen GPU’s dan over het netwerk loopt en elke milliseconde telt.

Wat is het verschil tussen on-premise en cloud inference?

Bij cloud-inference draai je het model op hardware van een cloudprovider en betaal je per gebruik. Bij on-premise inference draai je het model op je eigen hardware, met volledige controle over data, latency en kosten op de lange termijn. De keuze hangt af van je gebruik, databehoefte en budget.

Voordelen van cloud inference

Cloud-inference is snel op te zetten en vraagt geen initiële hardware-investering. Je schaalt eenvoudig op en neer op basis van de vraag. Voor experimenteren of lage volumes is dit vaak de meest praktische optie. Nadeel is dat de kosten bij intensief gebruik snel oplopen en dat je data de organisatie verlaat.

Voordelen van on-premise inference

On-premise inference geeft je volledige controle over je data, wat voor sectoren als zorg, overheid en finance vaak een harde eis is. Daarnaast zijn de kosten bij hoog en structureel gebruik voorspelbaar en op termijn lager dan in de cloud. Latency is doorgaans lager omdat verzoeken het interne netwerk niet verlaten. Het vereist wel een initiële investering in hardware en kennis.

Hoe kies je de juiste inference server voor jouw situatie?

De juiste inferenceserver kies je op basis van vier factoren: het model dat je wilt draaien, het verwachte aantal gelijktijdige verzoeken, je databeveiligings- en compliancevereisten, en je budget voor zowel aanschaf als beheer. Begin met het model en werk van daaruit terug naar de hardware.

Stel jezelf de volgende vragen:

  1. Welk model of welke modellen wil je draaien, en hoe groot zijn die in parameters?
  2. Hoeveel gelijktijdige gebruikers of verzoeken verwacht je op piekmomenten?
  3. Welke latency is acceptabel voor jouw toepassing?
  4. Mag data de organisatie verlaten, of vereist compliance on-premise verwerking?
  5. Hoe snel moet de server operationeel zijn, en heb je intern de kennis om hem te beheren?

Op basis van die antwoorden kun je een configuratie samenstellen. Voor kleinere modellen en beperkte volumes volstaat een single-GPU-server. Voor grotere modellen of hoge doorvoer kijk je naar multi-GPU-systemen met NVLink, voldoende NVMe-opslag en een krachtige CPU met veel PCIe-lanes.

Bij NCS International helpen wij organisaties dagelijks bij het samenstellen van de juiste inferenceserver voor hun specifieke situatie. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij systemen die volledig op maat geconfigureerd zijn, van single-GPU-setups tot complete multi-rack GPU-clusters. Supermicro ondersteunt nieuwe Nvidia-GPU-generaties als eerste, wat betekent dat je bij ons toegang hebt tot de nieuwste hardware ruim voordat andere merken die beschikbaar stellen. Wil je weten welke configuratie bij jouw workload past? Bekijk dan onze oplossingen of neem direct contact op met ons team.

Veelgestelde vragen

Kan ik quantisatie gebruiken zonder merkbare kwaliteitsvermindering?

Dat hangt sterk af van het model en de toepassing. INT8-quantisatie leidt in de meeste gevallen tot minimaal kwaliteitsverlies en is voor veel productietoepassingen prima bruikbaar. INT4-quantisatie geeft een grotere reductie in VRAM-gebruik, maar kan bij complexe redeneer- of taalkundige taken merkbaar minder nauwkeurig zijn. Het is verstandig om je specifieke use case te benchmarken met en zonder quantisatie voordat je een definitieve keuze maakt.

Welke inference-software of frameworks zijn het meest geschikt voor een on-premise setup?

De meest gebruikte en volwassen opties zijn vLLM, TensorRT-LLM en Ollama. vLLM is populair vanwege zijn efficiënte geheugenbenutting via PagedAttention en brede modelondersteuning. TensorRT-LLM van Nvidia biedt de hoogste prestaties op Nvidia-hardware, maar vraagt meer configuratie-expertise. Ollama is eenvoudiger op te zetten en ideaal voor kleinere deployments of intern gebruik. Kies op basis van je schaal, technische kennis en prestatievereisten.

Hoe bereken ik hoeveel gelijktijdige verzoeken mijn server aankan?

De maximale concurrency wordt grotendeels bepaald door de beschikbare VRAM voor de KV-cache: hoe meer VRAM er overblijft na het laden van het model, hoe meer parallelle verzoeken je kunt verwerken. Een praktische aanpak is om te starten met een load-test waarbij je het aantal gelijktijdige verzoeken stapsgewijs verhoogt en de latency en throughput monitort. Tools zoals Locust of k6 in combinatie met de metrics-endpoint van vLLM geven je snel inzicht in de grenzen van je configuratie.

Wat zijn de meest gemaakte fouten bij het samenstellen van een inference server?

Een veelgemaakte fout is het onderschatten van de VRAM die de KV-cache nodig heeft, waardoor de server bij meerdere gelijktijdige gebruikers vastloopt. Daarnaast kiezen organisaties soms voor te weinig PCIe-lanes bij een multi-GPU-setup, wat leidt tot een communicatiebottleneck. Ook wordt opslag vaak onderschat: trage opslag verlengt de opstarttijd bij het laden van grote modellen aanzienlijk. Plan altijd met ruimte voor groei, zowel in VRAM als in opslagcapaciteit.

Is het mogelijk om meerdere modellen tegelijk te draaien op dezelfde server?

Ja, dat is mogelijk, maar het vereist zorgvuldig geheugenbeheer. Elk model dat tegelijk in VRAM geladen is, verbruikt capaciteit die anders voor de KV-cache beschikbaar zou zijn. Sommige inference-frameworks zoals vLLM ondersteunen multi-model serving, waarbij modellen dynamisch geladen en ontladen worden op basis van vraag. Voor structureel gebruik van meerdere modellen is het verstandig om te kiezen voor een server met meer GPU's of GPU's met hogere VRAM-capaciteit.

Hoe zorg ik voor hoge beschikbaarheid van mijn inference server in productie?

Voor hoge beschikbaarheid zet je minimaal een redundante setup op met een load balancer die verzoeken verdeelt over meerdere inference-nodes. Zorg ook voor monitoring van GPU-temperatuur, geheugengebruik en responstijden, zodat je proactief kunt ingrijpen. Hardware-redundantie, zoals redundante voedingen en netwerkinterfaces, is bij 24/7-productieomgevingen geen luxe maar een vereiste. Definieer vooraf duidelijke SLA's voor latency en uptime om de juiste architectuurkeuzes te onderbouwen.

Wanneer is het zinvol om over te stappen van cloud inference naar on-premise?

De overstap naar on-premise wordt financieel aantrekkelijk zodra je structureel en intensief gebruikmaakt van inference, doorgaans vanaf een paar duizend euro aan maandelijkse cloudkosten. Naast kosten spelen ook compliance en dataprivacy een rol: als je data de organisatie niet mag verlaten, is on-premise vaak de enige optie. Een goede manier om de drempel te verlagen is beginnen met een kleinere on-premise configuratie naast een bestaande cloudsetup, zodat je ervaring opbouwt voordat je volledig migreert.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten