Een GPU-server correct specificeren voor een inkooptraject is iets waar veel IT-teams tegenaan lopen. De kern: begin met je workload, niet met je budget. Bepaal eerst welk type berekeningen je wilt uitvoeren, hoeveel GPU-geheugen je daarvoor nodig hebt en welke schaalbaarheid je op termijn verwacht. Pas daarna kijk je naar formfactor, koeling en voeding. Met die volgorde voorkom je dat je een server koopt die op papier indrukwekkend lijkt, maar in de praktijk tekortschiet.

Wat is een GPU-server en wanneer heb je er een nodig?

Een GPU-server is een server die is uitgerust met een of meerdere grafische processors die speciaal zijn ontworpen voor parallelle berekeningen. In tegenstelling tot een gewone CPU-server, die taken sequentieel verwerkt, kan een GPU duizenden berekeningen tegelijkertijd uitvoeren. Dit maakt GPU-servers de aangewezen keuze voor AI-training, inferentie, simulaties, rendering en wetenschappelijk onderzoek.

Je hebt een GPU-server nodig zodra je workload de grenzen van CPU-gebaseerde verwerking overschrijdt. Denk aan het trainen van machinelearningmodellen, het draaien van grote taalmodellen op een on-premise AI server, het verwerken van grote hoeveelheden beelddata of het uitvoeren van complexe simulaties. Ook organisaties die werken met VDI-omgevingen of cloudgaming hebben baat bij GPU-acceleratie.

Een veelgemaakte misvatting is dat GPU-servers alleen relevant zijn voor grote techbedrijven. In de praktijk zien we dat ziekenhuizen GPU-servers inzetten voor medische beeldanalyse, universiteiten voor wetenschappelijke modellen en payment providers voor fraudedetectie op basis van AI. De toepassingen zijn breed en groeien snel.

Welke specificaties zijn belangrijk voor een GPU-server?

De belangrijkste specificaties voor een GPU-server zijn: het type en aantal GPU’s, de hoeveelheid GPU-geheugen (VRAM), de CPU-configuratie, het systeemgeheugen (RAM), de opslagcapaciteit en het type interconnect tussen GPU’s. Elk van deze onderdelen heeft directe invloed op de prestaties van je workload.

GPU-geheugen en bandbreedte

VRAM is vaak de beperkende factor bij AI-workloads. Een groot taalmodel vereist dat het volledige model tijdens inferentie in het GPU-geheugen past. Heb je te weinig VRAM, dan moet je het model opsplitsen over meerdere GPU’s, wat de complexiteit vergroot. Voor serieuze AI-toepassingen wil je minimaal 48 GB VRAM per GPU, bij voorkeur meer.

Interconnect tussen GPU’s

Wanneer je meerdere GPU’s in één server combineert, bepaalt de verbindingssnelheid tussen die GPU’s hoe efficiënt ze samenwerken. Nvidia NVLink biedt aanzienlijk hogere bandbreedte dan een standaard PCIe-verbinding. Voor gedistribueerde trainingstaken is dit verschil merkbaar in doorlooptijd en efficiëntie.

CPU, RAM en opslag

De CPU fungeert als orkestrator: hij stuurt data naar de GPU’s en verwerkt de output. Kies een processor met voldoende PCIe-lanes om alle GPU’s optimaal te voeden. Het systeemgeheugen moet ruim genoeg zijn om datasets te bufferen zonder dat de GPU’s op data hoeven te wachten. Voor opslag geldt: NVMe-SSD’s zijn sterk aan te raden voor snelle data-inlading.

Hoe kies je de juiste GPU voor jouw workload?

De juiste GPU kies je op basis van drie factoren: het type workload (training of inferentie), de omvang van de modellen of datasets die je gebruikt en de precisie die je berekeningen vereisen. Training vraagt doorgaans om meer rekenkracht en geheugen dan inferentie.

Voor AI-training zijn GPU’s met hoge FP16- of BF16-prestaties en een grote VRAM-capaciteit de beste keuze. Voor inferentie kun je soms volstaan met een iets minder zware GPU, afhankelijk van de modelgrootte en het gewenste aantal verzoeken per seconde. Heb je een mix van beide, dan is het verstandig om te kiezen voor een GPU die beide scenario’s aankan.

Overweeg ook de softwarecompatibiliteit. Niet elke GPU werkt even goed met elk framework. Nvidia-GPU’s worden breed ondersteund door populaire AI-frameworks zoals PyTorch en TensorFlow. Als je organisatie al een voorkeur heeft voor bepaalde tools, controleer dan of de GPU die je overweegt daarmee volledig compatibel is.

Wat is het verschil tussen een 1U, 2U en 4U GPU-server?

Het verschil tussen 1U-, 2U- en 4U-GPU-servers zit in de hoogte van de serverbehuizing, uitgedrukt in rackunits. Een 1U-server is het laagst en neemt de minste ruimte in, maar biedt ook de minste ruimte voor GPU’s en koeling. Een 4U-server biedt de meeste ruimte en ondersteunt doorgaans de meeste en krachtigste GPU’s.

Een 1U-GPU-server is geschikt voor lichte inferentietaken of omgevingen waar ruimte een grote rol speelt. Een 2U-server biedt een goede balans tussen compactheid en capaciteit en ondersteunt vaak twee tot vier GPU’s. Een 4U-server is de standaard voor zware AI-trainingstaken, waarbij je acht of meer high-end GPU’s wilt plaatsen.

Houd ook rekening met koeling. Krachtige GPU’s produceren veel warmte. In een 1U-behuizing is de ruimte voor koeling beperkt, wat de maximale TDP van de GPU’s die je kunt gebruiken begrenst. In een 4U-behuizing is er meer ruimte voor krachtige koeloplossingen, wat hogere GPU-vermogens mogelijk maakt.

Welke fouten worden het vaakst gemaakt bij het specificeren van een GPU-server?

De meest voorkomende fouten bij het specificeren van een GPU-server zijn: te weinig VRAM inplannen, de voedingscapaciteit onderschatten, geen rekening houden met schaalbaarheid en de netwerkvereisten vergeten. Elk van deze fouten kan leiden tot een server die snel zijn limieten bereikt.

  • Te weinig VRAM: Modellen groeien snel. Wat vandaag voldoende is, kan over een jaar te krap zijn. Plan altijd ruimer dan je huidige behoefte.
  • Voeding onderschatten: Meerdere high-end GPU’s verbruiken samen honderden tot duizenden watt. Zorg dat je voedingseenheden en datacenteraansluiting dit aankunnen.
  • Geen schaalbaarheid inbouwen: Koop een server die uitbreidbaar is, ook al gebruik je die capaciteit nu nog niet volledig.
  • Netwerk vergeten: Voor gedistribueerde workloads heb je snelle netwerkverbindingen nodig, zoals 100GbE of InfiniBand. Een trage netwerkverbinding vormt een bottleneck die alle GPU-prestaties teniet kan doen.
  • Formfactor niet afstemmen op datacenter: Controleer altijd of de server past binnen de beschikbare rackruimte, koelcapaciteit en stroomaansluiting van je datacenter.

Hoe stel je een correcte offerteaanvraag op voor een GPU-server?

Een goede offerteaanvraag voor een GPU-server bevat minimaal: een beschrijving van de workload, het gewenste aantal en type GPU’s, het vereiste VRAM, de CPU-configuratie, het geheugen, de opslag, de formfactor en eventuele garantie- en servicevereisten. Hoe specifieker je bent, hoe nauwkeuriger de offerte.

Begin je aanvraag altijd met een beschrijving van wat je wilt bereiken, niet alleen met een lijst onderdelen. Een leverancier die begrijpt waarvoor je de server gebruikt, kan je beter adviseren over alternatieven of verbeteringen die je misschien zelf niet had overwogen.

Vermeld ook je tijdlijn en eventuele beperkingen, zoals maximale afmetingen, stroomverbruik of budgetbandbreedte. Prijzen voor GPU-hardware fluctueren sterk door marktvraag en schaarste, dus vraag altijd naar de geldigheidsduur van een offerte. Geef ook aan of je een systeem wilt dat kant-en-klaar wordt geleverd, of dat je na levering zelf nog configuraties wilt aanpassen.

Waarom levert Supermicro nieuwe GPU-generaties eerder dan HP of Dell?

Supermicro levert nieuwe GPU-generaties eerder dan HP of Dell omdat het bedrijf als onafhankelijke hardwarefabrikant sneller kan schakelen in productontwikkeling. Supermicro werkt nauw samen met Nvidia en brengt nieuwe serverplatforms op de markt zodra een nieuwe GPU-generatie beschikbaar komt, zonder te wachten op de langere interne goedkeuringscycli die grote merken als HP en Dell kenmerken.

HP en Dell hebben brede productportfolio’s en grote organisaties die elke nieuwe release door meerdere lagen van validatie, certificering en marktintroductie moeten sturen. Supermicro focust op technische innovatie en heeft kortere lijnen naar de markt. Dit betekent dat organisaties die de nieuwste Nvidia-GPU-generaties nodig hebben, bij Supermicro terechtkunnen ruim voordat andere merken die hardware aanbieden.

Voor organisaties die werken aan AI-ontwikkeling of HPC-onderzoek kan dit verschil van maanden uitmaken. De nieuwste GPU-generatie biedt niet alleen betere prestaties, maar ook verbeterde energie-efficiëntie en nieuwe functionaliteiten die oudere generaties simpelweg niet hebben. Wie als eerste toegang heeft tot die hardware, heeft een voorsprong op de concurrentie of kan onderzoeksresultaten sneller behalen.

Wij bij NCS International zijn de grootste, eerste en oudste Supermicro-distributeur van Nederland, met 38 jaar ervaring in technologiedistributie. Als je op zoek bent naar een on-premise AI server of een volledig geconfigureerde GPU-serveroplossing die aansluit bij jouw specifieke workload, dan denken wij graag met je mee. Van het eerste gesprek over specificaties tot levering en doorlopend beheer, inclusief 24/7 on-site garantieservice als enige Supermicro-distributeur in Nederland. Neem contact op en vertel ons wat je wilt bereiken.

Veelgestelde vragen

Hoe weet ik hoeveel VRAM ik nodig heb voor mijn specifieke AI-model?

Een vuistregel is dat je de modelgrootte in parameters vermenigvuldigt met het aantal bytes per parameter (bij FP16 zijn dat 2 bytes, bij FP32 zijn dat 4 bytes). Een model van 70 miljard parameters in FP16 vereist dus minimaal 140 GB VRAM. Houd daarnaast rekening met extra geheugen voor activaties, gradiënten en de KV-cache tijdens inferentie. Plan altijd 20–30% extra buffer in bovenop de theoretische minimumvereiste.

Wat is het verschil tussen AI-training en inferentie, en heeft dat invloed op mijn serverkeuze?

Bij training leer je een model op grote datasets, wat enorm veel rekenkracht, VRAM en tijd vergt. Bij inferentie gebruik je een al getraind model om voorspellingen te doen, wat minder intensief is maar wel hoge doorvoersnelheid vereist bij veel gelijktijdige verzoeken. Voor training kies je bij voorkeur GPU's met maximale FP16/BF16-prestaties en grote VRAM, zoals de Nvidia H100. Voor inferentie kun je soms volstaan met efficiëntere, goedkopere GPU's, tenzij de modellen zeer groot zijn of de latentievereisten extreem laag zijn.

Kan ik een GPU-server later uitbreiden als mijn workload groeit?

Dat hangt sterk af van het serverplatform dat je kiest. Sommige GPU-servers bieden vrije PCIe-slots of ondersteunen extra GPU's na aankoop, mits de voeding en koeling dit aankunnen. Het is daarom verstandig om bij aankoop al te kiezen voor een platform met uitbreidingsruimte, ook als je die nu nog niet nodig hebt. Bespreek dit expliciet met je leverancier en vraag naar het maximale aantal ondersteunde GPU's per platform.

Wat zijn de stroomvereisten voor een GPU-server met meerdere high-end GPU's, en hoe bereid ik mijn datacenter daarop voor?

Een server met acht Nvidia H100-GPU's kan gemakkelijk 10 kilowatt of meer verbruiken onder volledige belasting. Controleer of je datacenter of serverruimte beschikt over voldoende stroomaansluitingen (bij voorkeur redundant), de juiste zekeringen en PDU's, en voldoende koelcapaciteit per rack. Neem bij twijfel contact op met je datacenteroperator voordat je hardware bestelt, zodat je geen verrassingen krijgt bij installatie.

Welke softwarestack heb ik nodig om aan de slag te gaan met een GPU-server voor AI?

Voor de meeste AI-workloads heb je minimaal de Nvidia-drivers, CUDA en een framework zoals PyTorch of TensorFlow nodig. Daarbovenop zijn tools als Docker en Nvidia Container Toolkit sterk aanbevolen, zodat je workloads geïsoleerd en reproduceerbaar kunt draaien. Voor modelserving kun je denken aan oplossingen zoals Triton Inference Server of vLLM. Zorg dat je softwareversies compatibel zijn met de GPU-generatie die je aanschaft.

Wat is het verschil tussen een on-premise GPU-server en een cloudoplossing, en wanneer kies ik voor welke?

Een cloudoplossing biedt flexibiliteit en lage instapkosten, maar bij intensief en langdurig gebruik worden de kosten snel hoger dan die van eigen hardware. Een on-premise GPU-server geeft je volledige controle over data, beveiliging en beschikbaarheid, wat voor sectoren als healthcare en finance vaak een vereiste is. De vuistregel: als je GPU-capaciteit meer dan 50–60% van de tijd benut, is on-premise doorgaans financieel voordeliger op de middellange termijn.

Hoe lang duurt het gemiddeld voordat een GPU-server na bestelling geleverd wordt, en waar moet ik rekening mee houden?

Levertijden voor GPU-servers variëren sterk afhankelijk van de beschikbaarheid van de GPU's, de configuratiecomplexiteit en de marktomstandigheden. In periodes van hoge vraag naar Nvidia-hardware kunnen levertijden oplopen van enkele weken tot meerdere maanden. Vraag bij je offerteaanvraag altijd expliciet naar de verwachte levertijd en de geldigheidsduur van de prijs. Bij tijdkritische projecten is het verstandig om vroeg in het traject al een reservering te plaatsen.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten

Wat is een GPU-server?

GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.


read more

Wat is een AI-server?

Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.


read more