29 maart 2026
Als je een LLM op eigen hardware wilt draaien, is de keuze tussen een NVIDIA H100- en H200-GPU een van de eerste vragen die op tafel komt. Het korte antwoord: de H200 wint op vrijwel elk vlak dat telt voor inferentie, maar de H100 blijft voor veel organisaties een uitstekende en kostenefficiëntere keuze. Welke GPU de juiste is voor jouw situatie, hangt af van de modelgrootte die je draait, je budget en hoe snel je wilt opschalen. In dit artikel zetten we alles overzichtelijk op een rij.
Het grootste verschil tussen de H100 en H200 zit in het geheugen. De H100 heeft 80 GB HBM2e-geheugen met een bandbreedte van ongeveer 3,35 TB/s. De H200 gebruikt HBM3e-geheugen en biedt 141 GB met een bandbreedte van 4,8 TB/s. Dat is bijna twee keer zoveel geheugen en aanzienlijk meer doorvoersnelheid, terwijl de rekenkracht (FLOPS) nagenoeg gelijk blijft.
Beide GPU’s zijn gebouwd op dezelfde Hopper-architectuur en delen dezelfde rekenkern. Het verschil zit dus niet in hoe snel de GPU rekent, maar in hoeveel data hij tegelijk in het geheugen kan houden en hoe snel die data beschikbaar is. Voor veel AI-workloads is dat onderscheid bepalend voor de prestaties in de praktijk.
Grotere taalmodellen passen simpelweg niet volledig in het geheugen van een H100. Een model met 70 miljard parameters heeft al gauw meer dan 140 GB nodig bij volledige precisie. Met een H200 kun je zulke modellen op één GPU laden, terwijl je met een H100 meerdere GPU’s nodig hebt of quantisatie moet toepassen. Dat heeft directe gevolgen voor latency, complexiteit en kosten.
LLM-inferentie is het proces waarbij een getraind taalmodel daadwerkelijk antwoorden genereert op basis van input. Denk aan een gebruiker die een vraag stelt en het model dat token voor token een antwoord produceert. Dit is iets anders dan training: bij inferentie gebruik je een bestaand model; je traint het niet opnieuw.
De GPU-keuze is bij inferentie belangrijk omdat de snelheid waarmee tokens worden gegenereerd direct afhankelijk is van de geheugenbandbreedte. Hoe sneller de GPU de modelgewichten uit het geheugen kan lezen, hoe meer tokens per seconde je produceert. Dit bepaalt de gebruikerservaring bij realtime toepassingen en de kosten per query bij grootschalige deployments.
Daarnaast bepaalt de totale geheugencapaciteit van je GPU welke modellen je überhaupt kunt draaien zonder ze op te splitsen over meerdere kaarten. Meer geheugen betekent minder modelparallelisme, minder communicatie-overhead en een eenvoudigere infrastructuur.
De H200 levert betere inferentieprestaties dan de H100, voornamelijk dankzij de hogere geheugenbandbreedte en de grotere geheugencapaciteit. Bij grote modellen die volledig in het geheugen van de H200 passen, maar op een H100 gesplitst moeten worden, is het verschil in doorvoer en latency aanzienlijk.
Voor modellen die wel binnen de 80 GB van een H100 passen, is het prestatieverschil kleiner. De hogere bandbreedte van de H200 levert ook dan een voordeel op, maar dat voordeel is minder spectaculair dan bij grotere modellen. Bij kleinere modellen, zoals 7B- of 13B-parameters, merk je het verschil minder dan bij modellen van 70B of groter.
Bij inferentie zijn twee dingen belangrijk: latency (hoe snel het eerste token verschijnt) en throughput (hoeveel tokens per seconde je in totaal verwerkt). De H200 scoort op beide punten beter bij grote modellen, omdat de geheugenbandbreedte direct de snelheid van de tokengeneratie bepaalt. Voor toepassingen waarbij meerdere gebruikers tegelijk het model bevragen, maakt dat een merkbaar verschil in schaalbaarheid.
De H100 is nog steeds een uitstekende keuze voor LLM-inferentie als je modellen draait die binnen 80 GB passen, zoals modellen tot ongeveer 34B parameters bij volledige precisie of grotere modellen met quantisatie. In die gevallen biedt de H100 sterke prestaties tegen een lagere aanschafprijs.
Ook als je meerdere kleinere modellen tegelijk wilt draaien op aparte GPU’s, kan een cluster van H100-servers kostenefficiënter zijn dan een kleiner aantal H200-systemen. De H100 is bovendien beter beschikbaar op de markt, wat levertijden kan verkorten. Voor organisaties die nu willen starten met on-premise inferentie zonder te wachten op H200-beschikbaarheid, is de H100 een solide keuze.
Een H200-server kost aanzienlijk meer dan een vergelijkbaar H100-systeem. De exacte prijzen noemen we bewust niet, omdat de markt voor high-end GPU-servers sterk fluctueert door schaarste, grote inkooporders van hyperscalers en wisselende beschikbaarheid. Wat je wel kunt verwachten: het prijsverschil tussen een H100- en H200-systeem is substantieel en loopt al snel op tot tienduizenden euro’s per server.
De hogere prijs van de H200 is deels te rechtvaardigen als je daarmee modelopsplitsing over meerdere GPU’s voorkomt. Een H200-server die een groot model op één GPU draait, kan goedkoper uitvallen dan twee H100-servers die hetzelfde model gesplitst verwerken. Reken dus niet alleen met de aanschafprijs, maar ook met de totale infrastructuurkosten en operationele complexiteit.
Houd er ook rekening mee dat de GPU-markt de afgelopen jaren sterk is beïnvloed door de enorme vraag vanuit AI-bedrijven en cloudproviders, die soms hele productielijnen opkopen. Dat drijft prijzen op en maakt beschikbaarheid onvoorspelbaar. Vraag altijd naar de actuele situatie bij je leverancier.
Supermicro biedt meerdere serverplatformen die zowel de H100 als de H200 ondersteunen. De bekendste zijn de systemen uit de SYS-421GE- en SYS-821GE-serie, ontworpen voor GPU-intensieve workloads. Deze systemen bieden ruimte voor meerdere GPU’s in SXM- of PCIe-uitvoering en zijn beschikbaar in configuraties van 1 tot 8 GPU’s per server.
Supermicro onderscheidt zich doordat het nieuwe NVIDIA-GPU-generaties eerder ondersteunt dan merken als HP en Dell. Dat geldt ook voor de H200 en de opvolgende Blackwell-generatie. Wie de nieuwste hardware nodig heeft, hoeft bij Supermicro niet te wachten totdat andere fabrikanten hun modellen hebben bijgewerkt.
De H100 en H200 zijn beschikbaar in twee uitvoeringen: SXM en PCIe. De SXM-variant biedt hogere geheugenbandbreedte en ondersteunt NVLink voor snelle GPU-to-GPU-communicatie, wat belangrijk is bij multi-GPU-inferentie. De PCIe-variant is goedkoper en eenvoudiger te integreren, maar heeft iets lagere specificaties. Voor grootschalige inferentie met grote modellen is SXM doorgaans de betere keuze.
De juiste GPU-server kies je op basis van de modelgrootte die je wilt draaien, het aantal gelijktijdige gebruikers, je latency-eisen en je budget. Begin met de vraag welk model je wilt inzetten en hoeveel geheugen dat vereist. Dat bepaalt of een H100 volstaat of dat je de H200 nodig hebt.
Doorloop daarna deze afwegingen:
Wil je hulp bij het kiezen van de juiste configuratie voor jouw situatie? Bij ons, NCS International, configureren we elk systeem volledig op maat. We kijken samen naar jouw workload, je schaalbaarheidsplannen en je budget, en adviseren je welk Supermicro-platform het beste past. Neem een kijkje op onze oplossingenpagina om te zien wat we voor je kunnen betekenen, of neem direct contact op voor een gesprek zonder verplichtingen.
In de meeste gevallen is een directe upgrade van H100 naar H200 niet mogelijk, omdat de GPU's fysiek worden vervangen en niet geüpgraded. Bij SXM-systemen is de GPU gemonteerd op een speciaal moederbord (het HGX-board), wat vervanging technisch complex maakt. Praktisch gezien betekent dit dat je bij een overstap naar H200 doorgaans een nieuw serverchassis of een nieuw HGX-board nodig hebt. Het is verstandig om dit al bij de initiële aanschaf mee te nemen in je beslissing.
Quantisatie is een techniek waarbij de modelgewichten worden opgeslagen in een lager precisieformaat, bijvoorbeeld INT8 of INT4 in plaats van FP16. Dit kan de geheugenvoetafdruk van een model aanzienlijk verkleinen, waardoor een 70B-model wél op één of twee H100-GPU's past. Het nadeel is dat quantisatie gepaard kan gaan met een lichte afname in modelkwaliteit, afhankelijk van de gebruikte methode. Voor veel productietoepassingen is dit een acceptabele afweging, maar voor kwaliteitskritische use cases verdient de H200 de voorkeur.
Een vuistregel is dat je voor elk miljard parameters bij FP16-precisie ongeveer 2 GB GPU-geheugen nodig hebt. Een model van 70B parameters vereist dus circa 140 GB, exclusief de KV-cache die tijdens inferentie wordt opgebouwd. De KV-cache groeit mee met de context-lengte en het aantal gelijktijdige requests, dus reken altijd een buffer in. Tools zoals Hugging Face's model cards en rekenmogelijkheden van frameworks als vLLM of TGI geven je een nauwkeuriger beeld van het geheugengebruik voor jouw specifieke configuratie.
Cloud GPU-instanties bieden flexibiliteit en lage instapdrempel: je betaalt per uur en schaalt eenvoudig op of af. On-premise servers hebben hogere aanloopkosten, maar zijn op de lange termijn kostenefficiënter bij een voorspelbare, continue workload. Daarnaast geven on-premise oplossingen volledige controle over data en beveiliging, wat voor veel organisaties in sectoren zoals zorg, finance of overheid een harde eis is. Als je een stabiele, hoge gebruiksgraad verwacht én datasoevereiniteit belangrijk is, verdient on-premise serieuze overweging.
De meest gebruikte en goed geoptimaliseerde frameworks voor productie-inferentie op NVIDIA-hardware zijn vLLM, TGI (Text Generation Inference van Hugging Face) en NVIDIA TensorRT-LLM. vLLM staat bekend om zijn efficiënte geheugenbenutting via PagedAttention, wat de throughput bij meerdere gelijktijdige gebruikers sterk verbetert. TensorRT-LLM is NVIDIA's eigen oplossing en haalt het maximale uit de Hopper-architectuur, maar vergt meer configuratie-expertise. De keuze hangt af van je modeltype, gewenste flexibiliteit en de technische capaciteit van je team.
GPU-servers hebben doorgaans een operationele levensduur van vijf tot zeven jaar, maar de technologische relevantie kan sneller verschuiven in een markt die zo snel beweegt als AI-hardware. NVIDIA's Blackwell-generatie (B100/B200) is inmiddels aangekondigd en biedt opnieuw een significante sprong in geheugenbandbreedte en capaciteit. Voor organisaties die nu willen starten, blijven de H100 en H200 uitstekende keuzes voor de komende jaren. Supermicro ondersteunt de Blackwell-generatie vroeg, wat een toekomstige uitbreiding of vervanging eenvoudiger maakt als je al op een Supermicro-platform draait.
Een veelgemaakte fout is het onderschatten van de geheugenbehoeften: organisaties kopen GPU's op basis van modelgrootte alleen, zonder rekening te houden met de KV-cache en het gelijktijdig verwerken van meerdere requests. Een andere valkuil is het negeren van de netwerkinfrastructuur: voor multi-GPU-setups is snelle interconnectiviteit (NVLink of InfiniBand) essentieel voor goede prestaties. Tot slot onderschatten veel teams de operationele complexiteit van het beheren van GPU-drivers, CUDA-versies en framework-updates in productie. Een goed doordacht architectuurontwerp en begeleiding bij de initiële configuratie bespaart veel problemen achteraf.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl