19 april 2026
Voor on-premise LLM-deployment zijn de Supermicro SYS-821GE-TNHR en de SYS-420GP-TNR populaire keuzes voor middelgrote tot grote taalmodellen. Wil je werken met de allernieuwste generatie, dan zijn Supermicro-systemen met Nvidia B200 GPU’s de krachtigste optie die momenteel beschikbaar is. De juiste keuze hangt af van je modelgrootte, of je inference of fine-tuning doet, en hoeveel VRAM je nodig hebt. Dit artikel helpt je die keuze te maken op basis van concrete technische criteria.
On-premise LLM-deployment betekent dat je een groot taalmodel draait op je eigen hardware, binnen je eigen infrastructuur, in plaats van via een cloudprovider. Je hebt volledige controle over de data, de latency en de kosten. Organisaties kiezen hiervoor als privacy, compliance of voorspelbare operationele kosten zwaarder wegen dan de flexibiliteit van de cloud.
Denk aan ziekenhuizen die patiëntdata niet buiten hun eigen netwerk mogen verwerken, of financiële instellingen met strenge regelgeving rondom dataopslag. Voor hen is on-premise geen voorkeur, maar een vereiste. Maar ook organisaties zonder harde compliance-eisen kiezen steeds vaker voor eigen hardware, simpelweg omdat de cloudkosten bij intensief gebruik snel oplopen. Een goed geconfigureerde GPU-server heeft na verloop van tijd een aanzienlijk lagere total cost of ownership dan maandelijkse cloudfacturen voor zware inference-workloads.
Een LLM stelt hoge eisen aan GPU-geheugen (VRAM), geheugenbandbreedte, CPU-prestaties en snelle interconnects tussen GPU’s. VRAM is de meest beperkende factor: een model met 70 miljard parameters heeft in FP16-precisie minimaal 140 GB VRAM nodig, verdeeld over meerdere GPU’s.
Naast VRAM is geheugenbandbreedte belangrijk voor de snelheid waarmee tokens worden gegenereerd. Hoe hoger de bandbreedte, hoe sneller de inference. GPU-interconnects zoals NVLink bepalen hoe efficiënt meerdere GPU’s samenwerken. Een trage verbinding tussen GPU’s vormt een bottleneck, zeker bij grote modellen die over meerdere kaarten verdeeld worden. Verder heb je voldoende systeemgeheugen (RAM) nodig voor dataverwerking en snelle NVMe-opslag voor het laden van modelgewichten.
Supermicro biedt meerdere serverplatforms die geschikt zijn voor LLM-workloads, afhankelijk van schaal en budget. De meest gebruikte systemen voor serieuze LLM-deployment zijn de SYS-821GE-TNHR (8x GPU), de SYS-420GP-TNR (4x GPU) en de nieuwere systemen met Nvidia H100- of B200-GPU’s voor de zwaarste workloads.
De Nvidia H100 SXM5 met 80 GB HBM3-geheugen per kaart is momenteel de meest gebruikte GPU voor LLM-inference en fine-tuning in productieomgevingen. In een 8-GPU-configuratie heb je 640 GB VRAM beschikbaar, wat voldoende is voor modellen tot 70B parameters in FP16 en zelfs grotere modellen in gecomprimeerde formaten. Supermicro biedt meerdere chassis die deze configuratie ondersteunen met NVLink-connectiviteit tussen de GPU’s.
De Supermicro Nvidia B200-server is de nieuwste generatie en levert een significante sprong in VRAM en bandbreedte. De B200 beschikt over 192 GB HBM3e per GPU, waardoor je met minder kaarten grotere modellen kunt draaien. Dit maakt de B200 bijzonder interessant voor organisaties die werken met modellen boven de 70B parameters of die meerdere modellen tegelijk willen hosten. Supermicro bracht als eerste fabrikant systemen op de markt die de B200 ondersteunen, ruim voordat merken als HP en Dell die mogelijkheid konden bieden.
Bij inference draai je een al getraind model om antwoorden te genereren. Bij fine-tuning pas je de gewichten van een model aan op basis van eigen data. Fine-tuning vraagt aanzienlijk meer GPU-geheugen en rekenkracht dan inference, omdat je naast de modelgewichten ook gradiënten en optimizer states in VRAM moet houden.
Voor pure inference kun je in veel gevallen toe met minder VRAM door gebruik te maken van kwantisatie, waarbij je modelgewichten comprimeert van FP16 naar INT8 of INT4. Dit verlaagt de geheugenbehoefte met een factor twee tot vier, ten koste van een kleine kwaliteitsvermindering. Voor fine-tuning is kwantisatie minder geschikt en heb je doorgaans meer GPU’s of krachtigere kaarten nodig. Als je beide workloads wilt combineren, is het verstandig om te dimensioneren op de zwaarste taak: fine-tuning.
Een 70B-parametermodel heeft in FP16-precisie minimaal 140 GB VRAM nodig. Met Nvidia H100-kaarten van 80 GB heb je minimaal 2 GPU’s nodig, maar in de praktijk kies je voor 4 of 8 GPU’s voor een comfortabele marge en betere inference-snelheid. Met B200-kaarten van 192 GB kun je een 70B-model op één enkele GPU draaien.
In de praktijk speelt niet alleen VRAM een rol. Meer GPU’s verbeteren ook de doorvoersnelheid, wat relevant is als je meerdere gebruikers of requests tegelijk bedient. Voor een productieomgeving met hoge concurrency is een 4- of 8-GPU-setup aan te raden, zelfs als de VRAM-behoefte technisch gezien lager is. Kwantisatie naar INT8 kan de VRAM-behoefte halveren, maar vraagt wel om zorgvuldige evaluatie van de kwaliteitsimpact voor jouw specifieke use case.
De meest gemaakte fouten bij het kiezen van een GPU-server voor LLM-deployment zijn: te weinig VRAM inplannen, de interconnectsnelheid negeren, geen rekening houden met toekomstige modelgroei, en de koeling en stroomvereisten onderschatten.
Een Supermicro GPU-server is de betere keuze dan een cloudoplossing wanneer je werkt met gevoelige data, hoge en voorspelbare workloads hebt, of de cloudkosten bij intensief gebruik te hoog worden. On-premise hardware biedt lagere latency, volledig databeheer en na verloop van tijd een aantrekkelijkere kostenstructuur.
De cloud is handig voor variabele of tijdelijke workloads, omdat je alleen betaalt voor wat je gebruikt. Maar bij continue inference of regelmatige fine-tuning van grote modellen lopen de kosten snel op. Een eigen GPU-server verdient zichzelf terug naarmate de gebruiksintensiteit toeneemt. Daarnaast biedt on-premise hardware volledige controle over de softwarestack, updates en beveiliging, wat in gereguleerde sectoren vaak geen keuze, maar een verplichting is.
Wil je weten welke Supermicro GPU-server het beste aansluit bij jouw LLM-workload? Wij helpen je graag bij het samenstellen van de juiste configuratie, van modelgrootte en VRAM-behoefte tot koeling en schaalbaarheid. Bekijk onze Supermicro GPU-serveroplossingen of neem direct contact op met onze specialisten voor een configuratie op maat.
In de meeste gevallen is een dedicated GPU-server zoals een Supermicro SYS-821GE-TNHR sterk aan te raden boven een upgrade van bestaande hardware. Bestaande servers missen vaak de juiste PCIe-bandbreedte, NVLink-ondersteuning, voedingscapaciteit en koeling die nodig zijn voor zware LLM-workloads. Een systeem dat van de grond af aan is ontworpen voor GPU-compute voorkomt bottlenecks en biedt een stabielere basis voor productie-inzet.
Voor LLM-inference op Supermicro GPU-hardware gebruik je doorgaans een combinatie van NVIDIA CUDA-drivers, een inference-framework zoals vLLM, TGI (Text Generation Inference van Hugging Face) of Ollama, en een containerplatform zoals Docker of Kubernetes. Voor fine-tuning zijn frameworks als DeepSpeed, FSDP of Hugging Face Transformers met PEFT/LoRA gangbare keuzes. Het is verstandig om de softwarestack al vroeg in het selectieproces mee te nemen, omdat sommige frameworks specifieke GPU-generaties of driver-versies vereisen.
Bij het hosten van meerdere modellen tegelijk tel je de VRAM-behoefte van elk model op. Een 13B-model in FP16 vraagt circa 26 GB, een 70B-model circa 140 GB. Houd daarnaast rekening met overhead voor de KV-cache, die bij hoge concurrency snel oploopt. Een praktische vuistregel is om 20–30% extra VRAM te reserveren bovenop de theoretische modelgrootte, en kwantisatie te overwegen om meerdere modellen efficiënt naast elkaar te draaien.
Een 8x H100- of B200-systeem kan een TDP hebben van 10 kilowatt of meer. Controleer vooraf of je serverruimte of datacenter voldoende stroomcapaciteit heeft, inclusief redundante voeding (bijv. dubbele PDU's). Voor koeling heb je bij dit vermogensniveau doorgaans gespecialiseerde luchtkoeling met hoge luchtstroom of liquid cooling nodig. Schakel een facilitair specialist in om de thermische en elektrische infrastructuur te beoordelen voordat je hardware bestelt.
Supermicro-systemen zijn modulair opgezet, maar uitbreiding binnen één server is beperkt tot het maximale aantal GPU-slots van het chassis. Wil je verder schalen, dan kun je meerdere servers clusteren via een high-speed netwerk (bijv. InfiniBand of 400GbE) en distributed inference-frameworks inzetten zoals Ray Serve of TensorRT-LLM. Plan schaalbaarheid daarom al mee bij de initiële keuze van het chassis en de netwerkinfrastructuur, zodat je later zonder grote architectuurwijzigingen kunt uitbreiden.
Technisch gezien is het mogelijk om inference en fine-tuning op dezelfde server te draaien, maar in productieomgevingen is dit zelden verstandig. Fine-tuning legt een zware, langdurige belasting op de GPU's, wat de beschikbaarheid voor inference-verzoeken direct beïnvloedt. Een veelgebruikte aanpak is het inplannen van fine-tuning buiten piekuren, of het reserveren van een deel van de GPU's exclusief voor fine-tuning. Bij hoge eisen aan uptime en doorvoer zijn aparte systemen of een duidelijke resource-partitionering aan te raden.
De levertijd van Supermicro GPU-servers varieert afhankelijk van de configuratie en beschikbaarheid van GPU's, maar reken doorgaans op enkele weken tot een paar maanden voor systemen met H100- of B200-GPU's vanwege de hoge marktvraag. Na levering kost de initiële installatie, configuratie van de software-stack en het testen van het model doorgaans nog enkele dagen tot een week. Bespreek levertijden en voorraadbeschikbaarheid altijd vooraf met je leverancier, zodat je de planning van je project hierop kunt afstemmen.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.