Wat is een LLM inference server?

Een LLM-inferenceserver is een server waarop een groot taalmodel (zoals GPT, LLaMA of Mistral) draait om vragen van gebruikers te beantwoorden. Je traint het model niet op deze server; je gebruikt het. De server ontvangt een prompt, verwerkt die met het model en stuurt een antwoord terug. Voor iedereen die AI-toepassingen wil inzetten binnen de eigen infrastructuur, is het begrijpen van de hardware van een LLM-inferenceserver een logisch startpunt.

In dit artikel leggen we stap voor stap uit wat een LLM-inferenceserver is, hoe hij werkt, welke hardware je nodig hebt en wanneer het slim is om er een te gebruiken. Geen marketingpraat, gewoon heldere informatie.

Wat is een LLM-inferenceserver precies?

Een LLM-inferenceserver is een server die speciaal is ingericht om een getraind groot taalmodel te draaien en in real time antwoorden te genereren op basis van gebruikersinput. ‘Inference’ betekent letterlijk het uitvoeren van voorspellingen met een al getraind model. De server verwerkt de invoer, rekent door het neurale netwerk en produceert een uitvoer.

Het woord ‘server’ kan hier zowel verwijzen naar een fysiek systeem als naar een softwareproces. In de praktijk gaat het bijna altijd om krachtige hardware met meerdere GPU’s, voldoende geheugen en snelle opslag. Hoe groter het taalmodel, hoe zwaarder de eisen aan die hardware worden. Een model met 70 miljard parameters heeft simpelweg andere middelen nodig dan een model met 7 miljard parameters.

Hoe werkt een LLM-inferenceserver?

Een LLM-inferenceserver werkt door een inkomende prompt te tokeniseren, die tokens door de lagen van het neurale netwerk te sturen en vervolgens token voor token een antwoord te genereren. Dit proces heet autoregressieve generatie: elk nieuw token wordt berekend op basis van alle voorgaande tokens in de context.

Wat dit rekenintensief maakt, is de omvang van de modelgewichten. Die gewichten moeten volledig in het GPU-geheugen (VRAM) geladen worden voordat de server überhaupt een antwoord kan geven. Bij grote modellen kan dat tientallen gigabytes aan VRAM vereisen. Vervolgens telt ook de snelheid waarmee de server tokens genereert: dit noemen we de throughput, gemeten in tokens per seconde. Hoe hoger die throughput, hoe sneller gebruikers een antwoord krijgen.

Moderne inferenceservers gebruiken technieken zoals batching (meerdere verzoeken tegelijk verwerken), kwantisatie (modelgewichten comprimeren om geheugen te besparen) en KV-cache (tussenresultaten bewaren om herberekening te voorkomen). Deze optimalisaties maken het mogelijk om meer verzoeken per seconde te verwerken zonder de kwaliteit van de output te verminderen.

Wat zijn de hardwarevereisten voor LLM-inferentie?

De hardwarevereisten voor LLM-inferentie hangen direct af van de modelgrootte. De drie belangrijkste componenten zijn GPU-geheugen (VRAM), geheugenbandbreedte en CPU-kracht. Voor de meeste productieomgevingen zijn meerdere krachtige GPU’s met hoge VRAM-capaciteit de basis van goede hardware voor een LLM-inferenceserver.

GPU en VRAM

De GPU is het hart van elke inferenceserver. VRAM bepaalt welke modellen je kunt laden: een model van 7 miljard parameters in 16-bit-precisie heeft ruwweg 14 GB VRAM nodig. Een model van 70 miljard parameters vraagt al snel 140 GB of meer. Nvidia-GPU’s zoals de H100, A100 en de nieuwere B200 zijn populair voor inferentie vanwege hun hoge VRAM-capaciteit en geheugenbandbreedte.

CPU, RAM en opslag

Naast de GPU speelt de CPU een ondersteunende, maar relevante rol bij het verwerken van verzoeken, het beheren van batches en het aansturen van de I/O. Voldoende systeemgeheugen (RAM) zorgt ervoor dat modelgewichten snel geladen kunnen worden. Snelle NVMe-opslag helpt bij het laden van modellen bij het opstarten en bij het werken met grote contextvensters die tijdelijk naar schijf worden geschreven.

Netwerk en interconnect

Bij multi-GPU-set-ups is de verbindingssnelheid tussen GPU’s ook een factor. NVLink of InfiniBand zorgen voor snelle communicatie tussen GPU’s, wat de latency bij grote modellen aanzienlijk verlaagt. In een datacenter- of cloudinfrastructuur telt ook de netwerkbandbreedte mee, zeker als de inferenceserver veel gelijktijdige verzoeken afhandelt.

Wat is het verschil tussen LLM-training en inferentie?

Training en inferentie zijn twee fundamenteel verschillende processen. Bij training leer je het model door het bloot te stellen aan enorme hoeveelheden data en de modelgewichten iteratief bij te sturen. Bij inferentie gebruik je een al getraind model om antwoorden te genereren. Training is zwaarder, duurder en duurt langer. Inferentie is sneller en goedkoper, maar stelt andere eisen aan de hardware.

Tijdens training worden de gewichten van het model voortdurend bijgewerkt, wat grote hoeveelheden GPU-geheugen en rekenkracht vraagt over langere periodes. Inferentie is een eenmalige doorgang door het netwerk per verzoek, maar moet wel snel en betrouwbaar zijn, zeker in productieomgevingen met veel gebruikers. Een trainingscluster is geoptimaliseerd voor throughput over langere tijd; een inferenceserver is geoptimaliseerd voor lage latency en hoge beschikbaarheid.

Wanneer heb je een dedicated inferenceserver nodig?

Je hebt een dedicated inferenceserver nodig zodra je een taalmodel structureel inzet binnen je eigen infrastructuur en afhankelijkheid van externe API’s wilt vermijden. Dit geldt voor organisaties die werken met gevoelige data, die hoge volumes verzoeken verwerken of die volledige controle willen over hun AI-omgeving.

Concrete situaties waarin een eigen inferenceserver relevant is: je verwerkt medische of juridische data die de organisatie niet verlaat, je hebt een interne chatbot of zoekfunctie die honderden medewerkers dagelijks gebruiken, of je wilt een specifiek open-sourcemodel draaien dat niet via een publieke API beschikbaar is. Ook kostenbeheersing speelt mee: bij hoge volumes kunnen de kosten van externe API-aanroepen snel oplopen, terwijl een eigen server een voorspelbare, eenmalige investering is.

Welke LLM-inferencesoftware wordt het meest gebruikt?

De meest gebruikte software voor LLM-inferentie is vLLM, Ollama, TGI (Text Generation Inference van Hugging Face), llama.cpp en NVIDIA Triton Inference Server. Elk van deze tools heeft een eigen focus en past bij andere gebruikssituaties.

vLLM: populair voor productieomgevingen vanwege efficiënte batching en hoge throughput.
Ollama: laagdrempelig en geschikt voor lokaal gebruik of kleinere deployments.
TGI: goed geïntegreerd met het Hugging Face-ecosysteem, breed ingezet in zakelijke omgevingen.
llama.cpp: lichtgewicht en geschikt voor CPU-inferentie of systemen met beperkte GPU-capaciteit.
NVIDIA Triton: krachtig platform voor enterprise-omgevingen met ondersteuning voor meerdere modelformaten en GPU-optimalisatie.

De keuze hangt af van je modeltype, de schaal van je deployment en de hardware die je inzet. Voor productieomgevingen met hoge concurrency is vLLM of Triton doorgaans de betere keuze. Voor interne tools of experimenten is Ollama of llama.cpp vaak sneller op te zetten.

Hoe kies je de juiste LLM-inferenceserver voor jouw situatie?

De juiste LLM-inferenceserver kies je op basis van vier factoren: de grootte van het model dat je wilt draaien, het aantal gelijktijdige gebruikers, je latency-eisen en je budget. Begin met de modelgrootte, want die bepaalt de minimale VRAM-vereisten en daarmee welke GPU-configuraties in aanmerking komen.

Stel jezelf de volgende vragen: hoeveel gebruikers sturen tegelijk verzoeken? Wat is de maximale acceptabele responstijd? Moet het systeem 24/7 beschikbaar zijn? Hoe groot is het model dat je wilt inzetten? Op basis van die antwoorden kun je een configuratie samenstellen die past bij je situatie, zonder te betalen voor overkill of te bezuinigen op capaciteit die je later toch nodig hebt.

Wij helpen organisaties bij precies dit soort keuzes. Als de grootste en oudste Supermicro-distributeur van Nederland leveren wij GPU-servers die speciaal zijn geconfigureerd voor LLM-inferentie, van de hardwareselectie tot de uiteindelijke implementatie. Supermicro ondersteunt nieuwe Nvidia-GPU-generaties als eerste, wat betekent dat je bij ons toegang hebt tot de nieuwste hardware voor LLM-inferenceservers, ruim voordat andere merken die mogelijkheid bieden. Bekijk onze oplossingen en ontdek welke configuratie het beste aansluit bij jouw infrastructuur.

Veelgestelde vragen

Kan ik een LLM-inferenceserver ook draaien zonder GPU, alleen op CPU?

Ja, dat is mogelijk met tools zoals llama.cpp, die specifiek zijn geoptimaliseerd voor CPU-inferentie. De prestaties zijn echter aanzienlijk lager dan met een GPU: de throughput (tokens per seconde) is veel kleiner, waardoor CPU-inferentie alleen praktisch is voor kleinere modellen, lage gebruikersaantallen of experimentele omgevingen. Voor productieomgevingen met meerdere gelijktijdige gebruikers is een GPU-gebaseerde setup vrijwel altijd noodzakelijk.

Wat is kwantisatie en moet ik het gebruiken op mijn inferenceserver?

Kwantisatie is een techniek waarbij de precisie van modelgewichten wordt verlaagd (bijvoorbeeld van 16-bit naar 8-bit of 4-bit) om het geheugengebruik te verminderen. Dit maakt het mogelijk om grotere modellen te draaien op hardware met minder VRAM, of om meer verzoeken tegelijk te verwerken. Het nadeel is een lichte afname in modelkwaliteit, maar in de praktijk is dat verschil bij 8-bit kwantisatie vaak minimaal. Of je het moet gebruiken hangt af van je VRAM-capaciteit en de kwaliteitseisen van je toepassing.

Hoe weet ik hoeveel VRAM ik nodig heb voor mijn specifieke model?

Een vuistregel is: vermenigvuldig het aantal parameters van het model met het aantal bytes per parameter op basis van de gekozen precisie. Bij 16-bit precisie is dat 2 bytes per parameter, dus een model van 13 miljard parameters heeft ruwweg 26 GB VRAM nodig. Houd daarnaast rekening met extra geheugen voor de KV-cache, die groeit naarmate de contextlengte en het aantal gelijktijdige verzoeken toenemen. Reken altijd een buffer van 10-20% in om stabiel te kunnen draaien.

Wat is de beste manier om te beginnen met het testen van een eigen inferenceserver?

Begin met een kleinere setup: installeer Ollama of llama.cpp op een machine met een consumentenGPU (zoals een Nvidia RTX 4090) en draai een compact model zoals LLaMA 3 8B of Mistral 7B. Zo kun je de werking van inferentie begrijpen, je software-stack uitproberen en je latency-eisen valideren voordat je investeert in enterprise-hardware. Zodra je weet welke modellen en volumes je nodig hebt, kun je opschalen naar een dedicated productieserver.

Hoe houd ik de kosten van een eigen inferenceserver onder controle?

De grootste kostenposten zijn hardware-aanschaf, stroomverbruik en beheer. Kies hardware die past bij je werkelijke workload en vermijd overprovisioning: een te grote GPU-setup die grotendeels stil staat is duur in aanschaf én energieverbruik. Kwantisatie kan helpen om met minder GPU's toe te komen. Overweeg ook of een hybride aanpak zinvol is: basisverkeer op eigen hardware en piekverkeer via een cloud-API, zodat je de vaste kosten laag houdt.

Wat zijn veelgemaakte fouten bij het opzetten van een LLM-inferenceserver?

Een veelgemaakte fout is het onderschatten van de VRAM-behoefte, waarbij men vergeet rekening te houden met de KV-cache naast de modelgewichten zelf. Een andere valkuil is het kiezen van inferencesoftware die niet past bij de schaal: Ollama is prima voor intern gebruik, maar niet ontworpen voor hoge concurrency in productie. Tot slot onderschatten organisaties vaak het belang van monitoring: zonder inzicht in throughput, latency en geheugengebruik is het lastig om problemen vroegtijdig te signaleren.

Is het mogelijk om meerdere LLM-modellen tegelijk te draaien op één inferenceserver?

Ja, dat is mogelijk, maar het vereist zorgvuldig geheugenbeheer. Elk model dat actief in VRAM geladen is, neemt een deel van de beschikbare GPU-capaciteit in beslag. Tools zoals NVIDIA Triton Inference Server ondersteunen multi-model deployments en kunnen modellen dynamisch laden en ontladen op basis van vraag. Als je meerdere modellen wilt draaien, is het verstandig om te kiezen voor een server met ruime VRAM-capaciteit of meerdere GPU's, zodat elk model voldoende ruimte heeft.

Wat is een LLM inference server?