Hoeveel VRAM heb je nodig voor het trainen van een LLM?

Voor het trainen van een LLM heb je al snel tientallen gigabytes aan VRAM nodig. Een klein model van 7 miljard parameters vraagt bij full fine-tuning in FP32 al gauw 100+ GB aan GPU-geheugen. Met technieken zoals LoRA en lagere precisie (BF16 of INT8) breng je dat terug naar 10 tot 24 GB, afhankelijk van het model en de aanpak. Grote modellen van 70B parameters of meer vereisen vrijwel altijd meerdere GPU’s. De keuzes die je maakt op het gebied van precisie, fine-tuningmethode en hardware bepalen samen hoeveel VRAM je daadwerkelijk nodig hebt.

Wat is VRAM en waarom is het cruciaal voor LLM-training?

VRAM staat voor Video Random Access Memory en is het geheugen op een GPU. Bij het trainen van een LLM sla je hierin de modelgewichten, activaties, gradiënten en optimizerstatussen op. Hoe meer VRAM je GPU heeft, hoe groter het model dat je kunt laden en trainen zonder dat je naar omslachtige workarounds hoeft te grijpen.

Tijdens training staat er veel meer in het geheugen dan alleen het model zelf. Voor elke parameter in het model heb je bij full training ook gradiënten en optimizerstatussen nodig, wat het totale geheugengebruik gemakkelijk verdrievoudigt of verviervoudigt ten opzichte van alleen de modelgrootte. Een model van 7 miljard parameters heeft in FP32 al zo’n 28 GB aan gewichten, maar met alles erbij loop je snel op naar 80 tot 120 GB. Dat maakt VRAM de beperkende factor bij vrijwel elk LLM-trainingsproject.

Hoeveel VRAM heb je nodig om een LLM te trainen?

Als vuistregel geldt: een parameter in FP32 kost 4 bytes aan geheugen. Een model van 7B parameters heeft dus minimaal 28 GB nodig voor alleen de gewichten. Tel je de gradiënten en Adam-optimizerstatussen mee, dan kom je al snel op 80 tot 120 GB. In BF16 halveer je de geheugenvoetafdruk van de gewichten, maar de overige componenten blijven zwaar.

Hier is een praktisch overzicht van veelgebruikte modelgroottes en hun minimale VRAM-vereisten bij full fine-tuning in FP16/BF16:

7B parameters: minimaal 40 tot 60 GB VRAM
13B parameters: minimaal 80 GB VRAM
30B parameters: 160 GB of meer
70B parameters: 320 GB of meer; vrijwel altijd zijn meerdere GPU’s vereist

Bij parameter-efficiënte methoden zoals LoRA dalen deze getallen aanzienlijk. Voor een 7B-model kom je dan uit met 10 tot 24 GB, afhankelijk van de rank-instelling en de gebruikte precisie. Dit maakt training op één high-end GPU realistisch voor veel toepassingen.

Wat is het verschil tussen full fine-tuning en parameter-efficient fine-tuning?

Bij full fine-tuning pas je alle parameters van het model aan tijdens training. Dit geeft de beste resultaten, maar vraagt ook het meeste geheugen. Bij parameter-efficient fine-tuning (PEFT) pas je slechts een klein deel van de parameters aan, of voeg je extra trainbare lagen toe, waardoor het VRAM-gebruik drastisch daalt.

De bekendste PEFT-methode is LoRA (Low-Rank Adaptation). Hierbij vries je de originele modelgewichten in en voeg je kleine, trainbare matrices toe aan specifieke lagen. Omdat je alleen die matrices traint, hoef je geen gradiënten en optimizerstatussen op te slaan voor alle modelparameters. QLoRA gaat nog een stap verder door het basismodel te kwantiseren naar 4-bit, waardoor je zelfs een 70B-model op een beperkt aantal GPU’s kunt fine-tunen.

Wanneer kies je voor welke methode?

Full fine-tuning heeft de voorkeur wanneer je het model fundamenteel wilt hertrainen op een groot, domeinspecifiek corpus. PEFT-methoden zoals LoRA zijn ideaal voor taakaanpassing, instructie-tuning of wanneer je budget en hardware beperkt zijn. In de praktijk levert LoRA voor veel downstreamtaken vergelijkbare resultaten als full fine-tuning, met een fractie van het VRAM-gebruik.

Welke precisie (FP32, FP16, BF16, INT8) heeft invloed op VRAM-gebruik?

De numerieke precisie bepaalt hoeveel bytes elke parameter inneemt. FP32 gebruikt 4 bytes per parameter, FP16 en BF16 gebruiken elk 2 bytes, en INT8 gebruikt 1 byte. Door te trainen in lagere precisie halveer of kwarteer je het geheugengebruik van de modelgewichten, wat direct ruimte vrijmaakt voor grotere batches of grotere modellen.

In de praktijk is BF16 de standaard geworden voor LLM-training op moderne GPU’s. Het heeft een groter dynamisch bereik dan FP16, wat numerieke instabiliteit tijdens training vermindert. FP32 gebruik je tegenwoordig zelden meer als primaire trainingsprecisie, maar wel voor bepaalde onderdelen, zoals loss-berekeningen, in mixed-precision training. INT8 en INT4 zijn vooral nuttig voor inferentie en voor QLoRA-achtige trainingsopstellingen waarbij het basismodel gekwantiseerd wordt geladen.

Zijn meerdere GPU’s nodig voor het trainen van grote modellen?

Voor modellen groter dan 13B parameters is het in de meeste gevallen noodzakelijk om meerdere GPU’s te gebruiken, tenzij je zwaar inzet op kwantisatie. Zelfs met BF16 en LoRA overschrijdt een 70B-model de capaciteit van één GPU. Data parallelism, tensor parallelism en pipeline parallelism zijn de drie belangrijkste strategieën om training te verdelen over meerdere GPU’s.

Bij data parallelism verwerk je verschillende batches tegelijk op meerdere GPU’s die elk een kopie van het model bevatten. Dit werkt alleen als het model op één GPU past. Tensor parallelism verdeelt de modellagen zelf over meerdere GPU’s, wat nodig is voor modellen die niet op één kaart passen. Pipeline parallelism verdeelt het model in opeenvolgende segmenten per GPU. Voor serieuze LLM-training op grote modellen combineer je deze strategieën vaak, ondersteund door frameworks zoals DeepSpeed of Megatron-LM.

Welke GPU’s zijn het meest geschikt voor LLM-training?

De Nvidia H100 en H200 zijn momenteel de toonaangevende GPU’s voor LLM-training. Ze bieden respectievelijk 80 GB en 141 GB HBM3-geheugen, hoge geheugenbandbreedte en ondersteuning voor BF16- en FP8-training. Voor kleinere modellen of budgetbewuste setups zijn de A100 (40 of 80 GB) en de RTX 4090 (24 GB) veelgebruikte alternatieven.

Naast VRAM-capaciteit spelen geheugenbandbreedte, NVLink-connectiviteit tussen GPU’s en ondersteuning voor specifieke precisietypes een grote rol. De H100 heeft met NVLink een verbindingsbandbreedte van 900 GB/s tussen GPU’s, wat multi-GPU-training aanzienlijk versnelt ten opzichte van PCIe-gebaseerde setups. Voor organisaties die serieus willen investeren in AI-training is de keuze van het GPU-platform dan ook een beslissing die verder gaat dan alleen VRAM-capaciteit.

Wat kost het om GPU-servers voor AI-training aan te schaffen?

De markt voor AI-hardware kent momenteel sterke prijsschommelingen door hoge vraag en beperkte beschikbaarheid. Grote techbedrijven kopen complete productieruns op, wat leidt tot schaarste en oplopende prijzen voor losse systemen. Het is verstandig om prijzen niet als vast gegeven te beschouwen en tijdig te schakelen met een leverancier die directe toegang heeft tot de nieuwste generaties hardware.

Wat zijn veelgemaakte fouten bij het inschatten van VRAM-behoeften?

De meest voorkomende fout is dat men bij het berekenen van de VRAM-behoefte alleen de modelgrootte meeneemt, zonder rekening te houden met gradiënten, optimizerstatussen en activaties. Bij full training in FP32 met een Adam-optimizer verbruik je in totaal tot 16 bytes per parameter, niet de 4 bytes die alleen de gewichten vragen.

Een tweede veelgemaakte fout is het onderschatten van de invloed van batchgrootte op het geheugengebruik. Grotere batches verhogen het activatiegeheugen fors, en veel teams ontdekken dit pas op het moment dat de training crasht. Gradient checkpointing is een techniek die activaties op bepaalde punten herberekent in plaats van ze op te slaan, wat geheugen bespaart ten koste van rekentijd. Dit is een nuttige instelling die je bij geheugenkrapte standaard kunt activeren.

Een derde fout is plannen voor de huidige modellen zonder rekening te houden met schaalbaarheid. Wie vandaag een 7B-model traint, wil morgen misschien een 13B- of 30B-model uitproberen. Hardware die nu net voldoende is, kan snel een knelpunt worden. Investeer daarom in systemen met voldoende uitbreidingsruimte, zowel qua VRAM als qua interconnectiviteit tussen GPU’s.

Bij NCS International helpen wij organisaties bij het samenstellen van een GPU-server voor AI-training die precies aansluit bij hun workloads, nu en in de toekomst. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij als eerste de nieuwste Nvidia GPU-generaties, inclusief systemen die de B300 ondersteunen, ruim voordat andere merken die mogelijkheid bieden. Of je nu begint met een enkel GPU-systeem of een multi-rack AI-cluster nodig hebt: wij configureren het op maat en staan klaar met 24/7 on-site garantieservice. Neem gerust contact met ons op om te bespreken wat jouw specifieke situatie vraagt.

Veelgestelde vragen

Kan ik een LLM trainen op een consumentenkaart zoals de RTX 4090?

Ja, dat is mogelijk, maar wel met beperkingen. Met 24 GB VRAM en technieken zoals QLoRA kun je kleinere modellen (7B parameters) fine-tunen op een RTX 4090. Voor serieuze productietraining of grotere modellen loop je echter snel tegen de grenzen aan, en is een professionele GPU zoals de A100 of H100 een verstandigere investering op de lange termijn.

Wat is gradient checkpointing en wanneer moet ik het inschakelen?

Gradient checkpointing is een techniek waarbij activaties tijdens de forward pass niet volledig worden opgeslagen, maar op bepaalde controlepunten opnieuw worden berekend tijdens de backward pass. Dit kan het activatiegeheugen met 30 tot 60% verminderen, ten koste van ongeveer 20 tot 30% extra rekentijd. Schakel het standaard in zodra je te maken krijgt met out-of-memory fouten, of wanneer je met grotere batchgroottes wilt werken.

Hoe kies ik de juiste LoRA rank-instelling voor mijn use case?

Een hogere rank geeft het model meer expressieve kracht, maar verhoogt ook het VRAM-gebruik en de kans op overfitting. Voor taakaanpassing en instructie-tuning is een rank tussen 8 en 64 doorgaans een goed startpunt. Begin laag (rank 8 of 16), evalueer de modelprestaties op een validatieset, en verhoog de rank alleen als de resultaten onvoldoende zijn.

Wat is het verschil tussen tensor parallelism en pipeline parallelism, en welke kies ik?

Bij tensor parallelism worden individuele modellagen verdeeld over meerdere GPU's, wat lage latency vereist tussen de kaarten (ideaal met NVLink). Pipeline parallelism verdeelt het model in opeenvolgende blokken per GPU, wat beter werkt bij hogere communicatievertraging maar pipeline-bubbles introduceert. Voor de meeste multi-GPU-setups met NVLink-verbinding is tensor parallelism efficiënter; pipeline parallelism is beter geschikt voor gedistribueerde setups over meerdere nodes.

Wat is mixed-precision training en waarom is het de standaard geworden?

Bij mixed-precision training worden bepaalde berekeningen in lagere precisie (BF16 of FP16) uitgevoerd voor snelheid en geheugenefficiëntie, terwijl kritieke onderdelen zoals de loss-berekening en de master weights in FP32 worden bijgehouden voor numerieke stabiliteit. Dit geeft je het beste van beide werelden: minder VRAM-gebruik en snellere training, zonder significant in te leveren op convergentie of modelkwaliteit.

Hoe weet ik of mijn training vastloopt door VRAM-tekort of door een ander probleem?

Een CUDA out-of-memory (OOM) fout is de meest directe indicator: de training crasht met een melding als 'CUDA out of memory'. Minder duidelijke symptomen zijn extreem trage training of instabiele loss-curves, die soms wijzen op geheugendruk die leidt tot inefficiënte geheugenswapping. Gebruik tools zoals nvidia-smi of PyTorch's torch.cuda.memory_summary() om realtime VRAM-gebruik te monitoren en de bottleneck te identificeren.

Is het voordeliger om GPU-servers te huren via de cloud of zelf hardware aan te schaffen?

Voor kortdurende experimenten of onregelmatige workloads is cloudgebruik (AWS, GCP, Azure) vaak flexibeler en goedkoper. Voor organisaties die structureel en intensief LLM-modellen trainen, is eigen hardware op de lange termijn aanzienlijk kostenefficiënter, met volledige controle over data, configuratie en beschikbaarheid. Een hybride aanpak, waarbij je basistraining on-premise uitvoert en piekbelasting naar de cloud offloadt, biedt voor veel organisaties het beste evenwicht.

Hoeveel VRAM heb je nodig voor het trainen van een LLM?

Wat is VRAM en waarom is het cruciaal voor LLM-training?

Hoeveel VRAM heb je nodig om een LLM te trainen?

Wat is het verschil tussen full fine-tuning en parameter-efficient fine-tuning?

Wanneer kies je voor welke methode?

Welke precisie (FP32, FP16, BF16, INT8) heeft invloed op VRAM-gebruik?

Zijn meerdere GPU’s nodig voor het trainen van grote modellen?

Welke GPU’s zijn het meest geschikt voor LLM-training?

Wat kost het om GPU-servers voor AI-training aan te schaffen?

Wat zijn veelgemaakte fouten bij het inschatten van VRAM-behoeften?

Veelgestelde vragen

Kan ik een LLM trainen op een consumentenkaart zoals de RTX 4090?

Wat is gradient checkpointing en wanneer moet ik het inschakelen?

Hoe kies ik de juiste LoRA rank-instelling voor mijn use case?

Wat is het verschil tussen tensor parallelism en pipeline parallelism, en welke kies ik?

Wat is mixed-precision training en waarom is het de standaard geworden?

Hoe weet ik of mijn training vastloopt door VRAM-tekort of door een ander probleem?

Is het voordeliger om GPU-servers te huren via de cloud of zelf hardware aan te schaffen?

Gerelateerde artikelen

NCS International

Meer berichten

Wat is een GPU-server?

Wat is een AI-server?

Neem contact op
Vraag een offerte aan of laat u adviseren door onze specialisten

NCS International

AI / GPU workloads

High Performance Computing (HPC)

Hosting, Cloud & Datacenter oplossingen

Telecom Oplossingen

Oplossingen voor Beveiliging / Opslag / Bewaking

Media Entertainment

Edge AI

Industriële pc’s

Hoeveel VRAM heb je nodig voor het trainen van een LLM?

Wat is VRAM en waarom is het cruciaal voor LLM-training?

Hoeveel VRAM heb je nodig om een LLM te trainen?

Wat is het verschil tussen full fine-tuning en parameter-efficient fine-tuning?

Wanneer kies je voor welke methode?

Welke precisie (FP32, FP16, BF16, INT8) heeft invloed op VRAM-gebruik?

Zijn meerdere GPU’s nodig voor het trainen van grote modellen?

Welke GPU’s zijn het meest geschikt voor LLM-training?

Wat kost het om GPU-servers voor AI-training aan te schaffen?

Wat zijn veelgemaakte fouten bij het inschatten van VRAM-behoeften?

Veelgestelde vragen

Kan ik een LLM trainen op een consumentenkaart zoals de RTX 4090?

Wat is gradient checkpointing en wanneer moet ik het inschakelen?

Hoe kies ik de juiste LoRA rank-instelling voor mijn use case?

Wat is het verschil tussen tensor parallelism en pipeline parallelism, en welke kies ik?

Wat is mixed-precision training en waarom is het de standaard geworden?

Hoe weet ik of mijn training vastloopt door VRAM-tekort of door een ander probleem?

Is het voordeliger om GPU-servers te huren via de cloud of zelf hardware aan te schaffen?

Gerelateerde artikelen

NCS International

Meer berichten

Wat is een GPU-server?

Wat is een AI-server?

Neem contact op Vraag een offerte aan of laat u adviseren door onze specialisten

NCS International

AI / GPU workloads

High Performance Computing (HPC)

Hosting, Cloud & Datacenter oplossingen

Telecom Oplossingen

Oplossingen voor Beveiliging / Opslag / Bewaking

Media Entertainment

Edge AI

Industriële pc’s

Neem contact op
Vraag een offerte aan of laat u adviseren door onze specialisten