Voor on-premise LLM-deployment zijn de Supermicro SYS-821GE-TNHR en de SYS-420GP-TNR populaire keuzes voor middelgrote tot grote taalmodellen. Wil je werken met de allernieuwste generatie, dan zijn Supermicro-systemen met Nvidia B200 GPU’s de krachtigste optie die momenteel beschikbaar is. De juiste keuze hangt af van je modelgrootte, of je inference of fine-tuning doet, en hoeveel VRAM je nodig hebt. Dit artikel helpt je die keuze te maken op basis van concrete technische criteria.

Wat is on-premise LLM-deployment en waarom kiezen organisaties hiervoor?

On-premise LLM-deployment betekent dat je een groot taalmodel draait op je eigen hardware, binnen je eigen infrastructuur, in plaats van via een cloudprovider. Je hebt volledige controle over de data, de latency en de kosten. Organisaties kiezen hiervoor als privacy, compliance of voorspelbare operationele kosten zwaarder wegen dan de flexibiliteit van de cloud.

Denk aan ziekenhuizen die patiëntdata niet buiten hun eigen netwerk mogen verwerken, of financiële instellingen met strenge regelgeving rondom dataopslag. Voor hen is on-premise geen voorkeur, maar een vereiste. Maar ook organisaties zonder harde compliance-eisen kiezen steeds vaker voor eigen hardware, simpelweg omdat de cloudkosten bij intensief gebruik snel oplopen. Een goed geconfigureerde GPU-server heeft na verloop van tijd een aanzienlijk lagere total cost of ownership dan maandelijkse cloudfacturen voor zware inference-workloads.

Welke hardware-eisen stelt een LLM aan een GPU-server?

Een LLM stelt hoge eisen aan GPU-geheugen (VRAM), geheugenbandbreedte, CPU-prestaties en snelle interconnects tussen GPU’s. VRAM is de meest beperkende factor: een model met 70 miljard parameters heeft in FP16-precisie minimaal 140 GB VRAM nodig, verdeeld over meerdere GPU’s.

Naast VRAM is geheugenbandbreedte belangrijk voor de snelheid waarmee tokens worden gegenereerd. Hoe hoger de bandbreedte, hoe sneller de inference. GPU-interconnects zoals NVLink bepalen hoe efficiënt meerdere GPU’s samenwerken. Een trage verbinding tussen GPU’s vormt een bottleneck, zeker bij grote modellen die over meerdere kaarten verdeeld worden. Verder heb je voldoende systeemgeheugen (RAM) nodig voor dataverwerking en snelle NVMe-opslag voor het laden van modelgewichten.

Welke Supermicro GPU-servers zijn geschikt voor LLM-workloads?

Supermicro biedt meerdere serverplatforms die geschikt zijn voor LLM-workloads, afhankelijk van schaal en budget. De meest gebruikte systemen voor serieuze LLM-deployment zijn de SYS-821GE-TNHR (8x GPU), de SYS-420GP-TNR (4x GPU) en de nieuwere systemen met Nvidia H100- of B200-GPU’s voor de zwaarste workloads.

Supermicro met Nvidia H100

De Nvidia H100 SXM5 met 80 GB HBM3-geheugen per kaart is momenteel de meest gebruikte GPU voor LLM-inference en fine-tuning in productieomgevingen. In een 8-GPU-configuratie heb je 640 GB VRAM beschikbaar, wat voldoende is voor modellen tot 70B parameters in FP16 en zelfs grotere modellen in gecomprimeerde formaten. Supermicro biedt meerdere chassis die deze configuratie ondersteunen met NVLink-connectiviteit tussen de GPU’s.

Supermicro met Nvidia B200

De Supermicro Nvidia B200-server is de nieuwste generatie en levert een significante sprong in VRAM en bandbreedte. De B200 beschikt over 192 GB HBM3e per GPU, waardoor je met minder kaarten grotere modellen kunt draaien. Dit maakt de B200 bijzonder interessant voor organisaties die werken met modellen boven de 70B parameters of die meerdere modellen tegelijk willen hosten. Supermicro bracht als eerste fabrikant systemen op de markt die de B200 ondersteunen, ruim voordat merken als HP en Dell die mogelijkheid konden bieden.

Wat is het verschil tussen inference en fine-tuning als het gaat om GPU-keuze?

Bij inference draai je een al getraind model om antwoorden te genereren. Bij fine-tuning pas je de gewichten van een model aan op basis van eigen data. Fine-tuning vraagt aanzienlijk meer GPU-geheugen en rekenkracht dan inference, omdat je naast de modelgewichten ook gradiënten en optimizer states in VRAM moet houden.

Voor pure inference kun je in veel gevallen toe met minder VRAM door gebruik te maken van kwantisatie, waarbij je modelgewichten comprimeert van FP16 naar INT8 of INT4. Dit verlaagt de geheugenbehoefte met een factor twee tot vier, ten koste van een kleine kwaliteitsvermindering. Voor fine-tuning is kwantisatie minder geschikt en heb je doorgaans meer GPU’s of krachtigere kaarten nodig. Als je beide workloads wilt combineren, is het verstandig om te dimensioneren op de zwaarste taak: fine-tuning.

Hoeveel GPU’s zijn nodig voor het draaien van een 70B-parametermodel?

Een 70B-parametermodel heeft in FP16-precisie minimaal 140 GB VRAM nodig. Met Nvidia H100-kaarten van 80 GB heb je minimaal 2 GPU’s nodig, maar in de praktijk kies je voor 4 of 8 GPU’s voor een comfortabele marge en betere inference-snelheid. Met B200-kaarten van 192 GB kun je een 70B-model op één enkele GPU draaien.

In de praktijk speelt niet alleen VRAM een rol. Meer GPU’s verbeteren ook de doorvoersnelheid, wat relevant is als je meerdere gebruikers of requests tegelijk bedient. Voor een productieomgeving met hoge concurrency is een 4- of 8-GPU-setup aan te raden, zelfs als de VRAM-behoefte technisch gezien lager is. Kwantisatie naar INT8 kan de VRAM-behoefte halveren, maar vraagt wel om zorgvuldige evaluatie van de kwaliteitsimpact voor jouw specifieke use case.

Wat zijn de belangrijkste fouten bij het kiezen van een GPU-server voor LLM’s?

De meest gemaakte fouten bij het kiezen van een GPU-server voor LLM-deployment zijn: te weinig VRAM inplannen, de interconnectsnelheid negeren, geen rekening houden met toekomstige modelgroei, en de koeling en stroomvereisten onderschatten.

  • Te weinig VRAM: Modellen groeien snel. Wat vandaag voldoende is, kan over een jaar te krap zijn als je wilt upgraden naar een groter model.
  • Trage interconnects: Zonder NVLink of vergelijkbare technologie worden GPU’s een bottleneck bij grote modellen die over meerdere kaarten verdeeld worden.
  • Geen rekening met stroomverbruik: Een 8x H100-systeem verbruikt gemakkelijk 10 kilowatt of meer. Controleer of je datacenter of serverruimte dit aankan.
  • Alleen kijken naar aanschafprijs: GPU-hardware is schaars en de prijzen fluctueren sterk door grote inkopers en hoge marktvraag. Reken altijd de total cost of ownership over meerdere jaren door.
  • Geen testfase voor kwantisatie: Kwantisatie bespaart VRAM, maar de kwaliteitsimpact verschilt per model en use case. Test dit altijd voordat je een definitieve hardwarekeuze maakt.

Wanneer is een Supermicro GPU-server de betere keuze dan een cloudoplossing?

Een Supermicro GPU-server is de betere keuze dan een cloudoplossing wanneer je werkt met gevoelige data, hoge en voorspelbare workloads hebt, of de cloudkosten bij intensief gebruik te hoog worden. On-premise hardware biedt lagere latency, volledig databeheer en na verloop van tijd een aantrekkelijkere kostenstructuur.

De cloud is handig voor variabele of tijdelijke workloads, omdat je alleen betaalt voor wat je gebruikt. Maar bij continue inference of regelmatige fine-tuning van grote modellen lopen de kosten snel op. Een eigen GPU-server verdient zichzelf terug naarmate de gebruiksintensiteit toeneemt. Daarnaast biedt on-premise hardware volledige controle over de softwarestack, updates en beveiliging, wat in gereguleerde sectoren vaak geen keuze, maar een verplichting is.

Wil je weten welke Supermicro GPU-server het beste aansluit bij jouw LLM-workload? Wij helpen je graag bij het samenstellen van de juiste configuratie, van modelgrootte en VRAM-behoefte tot koeling en schaalbaarheid. Bekijk onze Supermicro GPU-serveroplossingen of neem direct contact op met onze specialisten voor een configuratie op maat.

Veelgestelde vragen

Kan ik een bestaande server upgraden met GPU's voor LLM-gebruik, of heb ik een volledig nieuw systeem nodig?

In de meeste gevallen is een dedicated GPU-server zoals een Supermicro SYS-821GE-TNHR sterk aan te raden boven een upgrade van bestaande hardware. Bestaande servers missen vaak de juiste PCIe-bandbreedte, NVLink-ondersteuning, voedingscapaciteit en koeling die nodig zijn voor zware LLM-workloads. Een systeem dat van de grond af aan is ontworpen voor GPU-compute voorkomt bottlenecks en biedt een stabielere basis voor productie-inzet.

Welke software-stack heb ik nodig om een LLM op een Supermicro GPU-server te draaien?

Voor LLM-inference op Supermicro GPU-hardware gebruik je doorgaans een combinatie van NVIDIA CUDA-drivers, een inference-framework zoals vLLM, TGI (Text Generation Inference van Hugging Face) of Ollama, en een containerplatform zoals Docker of Kubernetes. Voor fine-tuning zijn frameworks als DeepSpeed, FSDP of Hugging Face Transformers met PEFT/LoRA gangbare keuzes. Het is verstandig om de softwarestack al vroeg in het selectieproces mee te nemen, omdat sommige frameworks specifieke GPU-generaties of driver-versies vereisen.

Hoe bepaal ik hoeveel VRAM ik nodig heb als ik meerdere modellen tegelijk wil hosten?

Bij het hosten van meerdere modellen tegelijk tel je de VRAM-behoefte van elk model op. Een 13B-model in FP16 vraagt circa 26 GB, een 70B-model circa 140 GB. Houd daarnaast rekening met overhead voor de KV-cache, die bij hoge concurrency snel oploopt. Een praktische vuistregel is om 20–30% extra VRAM te reserveren bovenop de theoretische modelgrootte, en kwantisatie te overwegen om meerdere modellen efficiënt naast elkaar te draaien.

Wat moet ik regelen op het gebied van koeling en stroomvoorziening voordat ik een GPU-server installeer?

Een 8x H100- of B200-systeem kan een TDP hebben van 10 kilowatt of meer. Controleer vooraf of je serverruimte of datacenter voldoende stroomcapaciteit heeft, inclusief redundante voeding (bijv. dubbele PDU's). Voor koeling heb je bij dit vermogensniveau doorgaans gespecialiseerde luchtkoeling met hoge luchtstroom of liquid cooling nodig. Schakel een facilitair specialist in om de thermische en elektrische infrastructuur te beoordelen voordat je hardware bestelt.

Hoe zit het met schaalbaarheid? Kan ik later eenvoudig extra GPU's of servers toevoegen?

Supermicro-systemen zijn modulair opgezet, maar uitbreiding binnen één server is beperkt tot het maximale aantal GPU-slots van het chassis. Wil je verder schalen, dan kun je meerdere servers clusteren via een high-speed netwerk (bijv. InfiniBand of 400GbE) en distributed inference-frameworks inzetten zoals Ray Serve of TensorRT-LLM. Plan schaalbaarheid daarom al mee bij de initiële keuze van het chassis en de netwerkinfrastructuur, zodat je later zonder grote architectuurwijzigingen kunt uitbreiden.

Is het mogelijk om LLM-inference en fine-tuning op dezelfde server te combineren, of heb ik aparte systemen nodig?

Technisch gezien is het mogelijk om inference en fine-tuning op dezelfde server te draaien, maar in productieomgevingen is dit zelden verstandig. Fine-tuning legt een zware, langdurige belasting op de GPU's, wat de beschikbaarheid voor inference-verzoeken direct beïnvloedt. Een veelgebruikte aanpak is het inplannen van fine-tuning buiten piekuren, of het reserveren van een deel van de GPU's exclusief voor fine-tuning. Bij hoge eisen aan uptime en doorvoer zijn aparte systemen of een duidelijke resource-partitionering aan te raden.

Hoe lang duurt het gemiddeld voordat een GPU-server voor LLM-deployment operationeel is na bestelling?

De levertijd van Supermicro GPU-servers varieert afhankelijk van de configuratie en beschikbaarheid van GPU's, maar reken doorgaans op enkele weken tot een paar maanden voor systemen met H100- of B200-GPU's vanwege de hoge marktvraag. Na levering kost de initiële installatie, configuratie van de software-stack en het testen van het model doorgaans nog enkele dagen tot een week. Bespreek levertijden en voorraadbeschikbaarheid altijd vooraf met je leverancier, zodat je de planning van je project hierop kunt afstemmen.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten

Wat is een GPU-server?

GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.


read more

Wat is een AI-server?

Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.


read more