Als je een LLM op eigen hardware wilt draaien, is de keuze tussen een NVIDIA H100- en H200-GPU een van de eerste vragen die op tafel komt. Het korte antwoord: de H200 wint op vrijwel elk vlak dat telt voor inferentie, maar de H100 blijft voor veel organisaties een uitstekende en kostenefficiëntere keuze. Welke GPU de juiste is voor jouw situatie, hangt af van de modelgrootte die je draait, je budget en hoe snel je wilt opschalen. In dit artikel zetten we alles overzichtelijk op een rij.

Wat is het verschil tussen de H100 en H200 GPU?

Het grootste verschil tussen de H100 en H200 zit in het geheugen. De H100 heeft 80 GB HBM2e-geheugen met een bandbreedte van ongeveer 3,35 TB/s. De H200 gebruikt HBM3e-geheugen en biedt 141 GB met een bandbreedte van 4,8 TB/s. Dat is bijna twee keer zoveel geheugen en aanzienlijk meer doorvoersnelheid, terwijl de rekenkracht (FLOPS) nagenoeg gelijk blijft.

Beide GPU’s zijn gebouwd op dezelfde Hopper-architectuur en delen dezelfde rekenkern. Het verschil zit dus niet in hoe snel de GPU rekent, maar in hoeveel data hij tegelijk in het geheugen kan houden en hoe snel die data beschikbaar is. Voor veel AI-workloads is dat onderscheid bepalend voor de prestaties in de praktijk.

Wat betekent dat voor de praktijk?

Grotere taalmodellen passen simpelweg niet volledig in het geheugen van een H100. Een model met 70 miljard parameters heeft al gauw meer dan 140 GB nodig bij volledige precisie. Met een H200 kun je zulke modellen op één GPU laden, terwijl je met een H100 meerdere GPU’s nodig hebt of quantisatie moet toepassen. Dat heeft directe gevolgen voor latency, complexiteit en kosten.

Wat is LLM-inferentie en waarom is GPU-keuze belangrijk?

LLM-inferentie is het proces waarbij een getraind taalmodel daadwerkelijk antwoorden genereert op basis van input. Denk aan een gebruiker die een vraag stelt en het model dat token voor token een antwoord produceert. Dit is iets anders dan training: bij inferentie gebruik je een bestaand model; je traint het niet opnieuw.

De GPU-keuze is bij inferentie belangrijk omdat de snelheid waarmee tokens worden gegenereerd direct afhankelijk is van de geheugenbandbreedte. Hoe sneller de GPU de modelgewichten uit het geheugen kan lezen, hoe meer tokens per seconde je produceert. Dit bepaalt de gebruikerservaring bij realtime toepassingen en de kosten per query bij grootschalige deployments.

Daarnaast bepaalt de totale geheugencapaciteit van je GPU welke modellen je überhaupt kunt draaien zonder ze op te splitsen over meerdere kaarten. Meer geheugen betekent minder modelparallelisme, minder communicatie-overhead en een eenvoudigere infrastructuur.

Welke GPU levert betere inferentieprestaties: H100 of H200?

De H200 levert betere inferentieprestaties dan de H100, voornamelijk dankzij de hogere geheugenbandbreedte en de grotere geheugencapaciteit. Bij grote modellen die volledig in het geheugen van de H200 passen, maar op een H100 gesplitst moeten worden, is het verschil in doorvoer en latency aanzienlijk.

Voor modellen die wel binnen de 80 GB van een H100 passen, is het prestatieverschil kleiner. De hogere bandbreedte van de H200 levert ook dan een voordeel op, maar dat voordeel is minder spectaculair dan bij grotere modellen. Bij kleinere modellen, zoals 7B- of 13B-parameters, merk je het verschil minder dan bij modellen van 70B of groter.

Wat is het effect op latency en doorvoer?

Bij inferentie zijn twee dingen belangrijk: latency (hoe snel het eerste token verschijnt) en throughput (hoeveel tokens per seconde je in totaal verwerkt). De H200 scoort op beide punten beter bij grote modellen, omdat de geheugenbandbreedte direct de snelheid van de tokengeneratie bepaalt. Voor toepassingen waarbij meerdere gebruikers tegelijk het model bevragen, maakt dat een merkbaar verschil in schaalbaarheid.

Wanneer is de H100 nog steeds de juiste keuze voor inferentie?

De H100 is nog steeds een uitstekende keuze voor LLM-inferentie als je modellen draait die binnen 80 GB passen, zoals modellen tot ongeveer 34B parameters bij volledige precisie of grotere modellen met quantisatie. In die gevallen biedt de H100 sterke prestaties tegen een lagere aanschafprijs.

Ook als je meerdere kleinere modellen tegelijk wilt draaien op aparte GPU’s, kan een cluster van H100-servers kostenefficiënter zijn dan een kleiner aantal H200-systemen. De H100 is bovendien beter beschikbaar op de markt, wat levertijden kan verkorten. Voor organisaties die nu willen starten met on-premise inferentie zonder te wachten op H200-beschikbaarheid, is de H100 een solide keuze.

Hoeveel meer kost een H200-server ten opzichte van een H100-server?

Een H200-server kost aanzienlijk meer dan een vergelijkbaar H100-systeem. De exacte prijzen noemen we bewust niet, omdat de markt voor high-end GPU-servers sterk fluctueert door schaarste, grote inkooporders van hyperscalers en wisselende beschikbaarheid. Wat je wel kunt verwachten: het prijsverschil tussen een H100- en H200-systeem is substantieel en loopt al snel op tot tienduizenden euro’s per server.

De hogere prijs van de H200 is deels te rechtvaardigen als je daarmee modelopsplitsing over meerdere GPU’s voorkomt. Een H200-server die een groot model op één GPU draait, kan goedkoper uitvallen dan twee H100-servers die hetzelfde model gesplitst verwerken. Reken dus niet alleen met de aanschafprijs, maar ook met de totale infrastructuurkosten en operationele complexiteit.

Houd er ook rekening mee dat de GPU-markt de afgelopen jaren sterk is beïnvloed door de enorme vraag vanuit AI-bedrijven en cloudproviders, die soms hele productielijnen opkopen. Dat drijft prijzen op en maakt beschikbaarheid onvoorspelbaar. Vraag altijd naar de actuele situatie bij je leverancier.

Welke Supermicro-servers ondersteunen de H100 en H200?

Supermicro biedt meerdere serverplatformen die zowel de H100 als de H200 ondersteunen. De bekendste zijn de systemen uit de SYS-421GE- en SYS-821GE-serie, ontworpen voor GPU-intensieve workloads. Deze systemen bieden ruimte voor meerdere GPU’s in SXM- of PCIe-uitvoering en zijn beschikbaar in configuraties van 1 tot 8 GPU’s per server.

Supermicro onderscheidt zich doordat het nieuwe NVIDIA-GPU-generaties eerder ondersteunt dan merken als HP en Dell. Dat geldt ook voor de H200 en de opvolgende Blackwell-generatie. Wie de nieuwste hardware nodig heeft, hoeft bij Supermicro niet te wachten totdat andere fabrikanten hun modellen hebben bijgewerkt.

SXM versus PCIe: wat is het verschil?

De H100 en H200 zijn beschikbaar in twee uitvoeringen: SXM en PCIe. De SXM-variant biedt hogere geheugenbandbreedte en ondersteunt NVLink voor snelle GPU-to-GPU-communicatie, wat belangrijk is bij multi-GPU-inferentie. De PCIe-variant is goedkoper en eenvoudiger te integreren, maar heeft iets lagere specificaties. Voor grootschalige inferentie met grote modellen is SXM doorgaans de betere keuze.

Hoe kies je de juiste GPU-server voor jouw LLM-workload?

De juiste GPU-server kies je op basis van de modelgrootte die je wilt draaien, het aantal gelijktijdige gebruikers, je latency-eisen en je budget. Begin met de vraag welk model je wilt inzetten en hoeveel geheugen dat vereist. Dat bepaalt of een H100 volstaat of dat je de H200 nodig hebt.

Doorloop daarna deze afwegingen:

  • Modelgrootte: Past het model binnen 80 GB? Dan kan een H100 volstaan. Groter dan dat? Dan is de H200 nodig, of modelparallelisme over meerdere H100’s.
  • Doorvoer: Hoeveel tokens per seconde heb je nodig? Bij hoge throughput-eisen profiteer je meer van de hogere bandbreedte van de H200.
  • Latency: Voor realtime toepassingen waarbij elke milliseconde telt, biedt de H200 een voordeel bij grote modellen.
  • Budget: De H100 biedt een betere prijs-prestatieratio voor kleinere modellen. De H200 is de betere investering als je grote modellen wilt draaien zonder complexe multi-GPU-set-ups.
  • Schaalbaarheid: Denk vooruit. Als je verwacht dat je modelgrootte de komende jaren toeneemt, kan de H200 op de lange termijn de slimmere keuze zijn.

Wil je hulp bij het kiezen van de juiste configuratie voor jouw situatie? Bij ons, NCS International, configureren we elk systeem volledig op maat. We kijken samen naar jouw workload, je schaalbaarheidsplannen en je budget, en adviseren je welk Supermicro-platform het beste past. Neem een kijkje op onze oplossingenpagina om te zien wat we voor je kunnen betekenen, of neem direct contact op voor een gesprek zonder verplichtingen.

Veelgestelde vragen

Kan ik een H100 later upgraden naar een H200, of moet ik een volledig nieuw systeem aanschaffen?

In de meeste gevallen is een directe upgrade van H100 naar H200 niet mogelijk, omdat de GPU's fysiek worden vervangen en niet geüpgraded. Bij SXM-systemen is de GPU gemonteerd op een speciaal moederbord (het HGX-board), wat vervanging technisch complex maakt. Praktisch gezien betekent dit dat je bij een overstap naar H200 doorgaans een nieuw serverchassis of een nieuw HGX-board nodig hebt. Het is verstandig om dit al bij de initiële aanschaf mee te nemen in je beslissing.

Wat is quantisatie en lost het het geheugenprobleem van de H100 op voor grote modellen?

Quantisatie is een techniek waarbij de modelgewichten worden opgeslagen in een lager precisieformaat, bijvoorbeeld INT8 of INT4 in plaats van FP16. Dit kan de geheugenvoetafdruk van een model aanzienlijk verkleinen, waardoor een 70B-model wél op één of twee H100-GPU's past. Het nadeel is dat quantisatie gepaard kan gaan met een lichte afname in modelkwaliteit, afhankelijk van de gebruikte methode. Voor veel productietoepassingen is dit een acceptabele afweging, maar voor kwaliteitskritische use cases verdient de H200 de voorkeur.

Hoe weet ik hoeveel GPU-geheugen mijn specifieke LLM-model nodig heeft?

Een vuistregel is dat je voor elk miljard parameters bij FP16-precisie ongeveer 2 GB GPU-geheugen nodig hebt. Een model van 70B parameters vereist dus circa 140 GB, exclusief de KV-cache die tijdens inferentie wordt opgebouwd. De KV-cache groeit mee met de context-lengte en het aantal gelijktijdige requests, dus reken altijd een buffer in. Tools zoals Hugging Face's model cards en rekenmogelijkheden van frameworks als vLLM of TGI geven je een nauwkeuriger beeld van het geheugengebruik voor jouw specifieke configuratie.

Wat is het verschil tussen on-premise GPU-servers en cloud GPU-instanties voor LLM-inferentie, en wanneer kies je voor welke?

Cloud GPU-instanties bieden flexibiliteit en lage instapdrempel: je betaalt per uur en schaalt eenvoudig op of af. On-premise servers hebben hogere aanloopkosten, maar zijn op de lange termijn kostenefficiënter bij een voorspelbare, continue workload. Daarnaast geven on-premise oplossingen volledige controle over data en beveiliging, wat voor veel organisaties in sectoren zoals zorg, finance of overheid een harde eis is. Als je een stabiele, hoge gebruiksgraad verwacht én datasoevereiniteit belangrijk is, verdient on-premise serieuze overweging.

Welke inferentie-frameworks zijn het meest geschikt voor het draaien van grote LLM's op H100- of H200-hardware?

De meest gebruikte en goed geoptimaliseerde frameworks voor productie-inferentie op NVIDIA-hardware zijn vLLM, TGI (Text Generation Inference van Hugging Face) en NVIDIA TensorRT-LLM. vLLM staat bekend om zijn efficiënte geheugenbenutting via PagedAttention, wat de throughput bij meerdere gelijktijdige gebruikers sterk verbetert. TensorRT-LLM is NVIDIA's eigen oplossing en haalt het maximale uit de Hopper-architectuur, maar vergt meer configuratie-expertise. De keuze hangt af van je modeltype, gewenste flexibiliteit en de technische capaciteit van je team.

Wat is de verwachte levensduur van een H100- of H200-server, en wanneer wordt de Blackwell-generatie relevant?

GPU-servers hebben doorgaans een operationele levensduur van vijf tot zeven jaar, maar de technologische relevantie kan sneller verschuiven in een markt die zo snel beweegt als AI-hardware. NVIDIA's Blackwell-generatie (B100/B200) is inmiddels aangekondigd en biedt opnieuw een significante sprong in geheugenbandbreedte en capaciteit. Voor organisaties die nu willen starten, blijven de H100 en H200 uitstekende keuzes voor de komende jaren. Supermicro ondersteunt de Blackwell-generatie vroeg, wat een toekomstige uitbreiding of vervanging eenvoudiger maakt als je al op een Supermicro-platform draait.

Wat zijn de meest voorkomende fouten bij het opzetten van een on-premise LLM-inferentie-omgeving?

Een veelgemaakte fout is het onderschatten van de geheugenbehoeften: organisaties kopen GPU's op basis van modelgrootte alleen, zonder rekening te houden met de KV-cache en het gelijktijdig verwerken van meerdere requests. Een andere valkuil is het negeren van de netwerkinfrastructuur: voor multi-GPU-setups is snelle interconnectiviteit (NVLink of InfiniBand) essentieel voor goede prestaties. Tot slot onderschatten veel teams de operationele complexiteit van het beheren van GPU-drivers, CUDA-versies en framework-updates in productie. Een goed doordacht architectuurontwerp en begeleiding bij de initiële configuratie bespaart veel problemen achteraf.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten