Revolutionaire doorbraak: Wetenschappers ontwikkelen een manier om grote taalmodellen te trainen tegen de helft van de kosten en twee keer zo snel

Een team van de Universiteit van Stanford heeft een nieuwe aanpak ontwikkeld, Sophia genaamd, om de pretraining van grote taalmodellen (LLM’s) te optimaliseren [1]. Deze aanpak is twee keer zo snel als de huidige methoden, met als doel om LLM’s toegankelijker te maken voor kleinere organisaties en academische groepen. De details van de Sophia-aanpak zijn te vinden op de arXiv preprint server[2].

De belangrijkste kenmerken van Sophia zijn:

  1. Sophia Optimizer**: Sophia is een tweede-orde clipped stochastisch optimalisatiealgoritme dat een goedkope stochastische schatting van de diagonaal van de Hessiaan gebruikt als preconditioner voor de optimizer.
  2. Efficiëntie**: Sophia halveert de pretrainingstijd vergeleken met huidige benaderingen, waardoor het een meer kosteneffectieve oplossing is voor het trainen van LLM’s.
  3. Schaalbaarheid**: Sophia is ontworpen om schaalbaar te zijn en kan worden geïmplementeerd met PyTorch, waardoor het eenvoudig te gebruiken is.
  4. Toekomstige ontwikkeling**: De Sophia optimizer heeft een roadmap voor toekomstige ontwikkeling, inclusief doelen als prestatieverbeteringen, het onderzoeken van varianten voor specifieke taken, het implementeren van ondersteuning voor gedistribueerde training en het aanpassen van de optimizer voor andere domeinen.

Over het geheel genomen biedt Sophia een veelbelovende oplossing om de pre-training van grote taalmodellen te optimaliseren, waardoor ze toegankelijker worden en de kosten en tijd die nodig zijn voor training verminderen[1].

Optimalisatie

Om de LLM-voortraining beter te optimaliseren, gebruikten Liu en zijn collega’s, waaronder Stanford-postdoc Zhiyuan Li, Stanford-onderzoeksingenieur David Hall, assistent-professor Computerwetenschappen Tengyu Ma en universitair docent Percy Liang, twee trucs. De eerste, bekend als kromming schatten, is niet nieuw, maar het Stanford-team vond een manier om het efficiënter te maken.

Om hun aanpak te begrijpen, kun je denken aan een assemblagelijn in een fabriek. Om efficiënt te functioneren, moet de fabrieksmanager het aantal stappen optimaliseren dat nodig is om grondstoffen om te zetten in een eindproduct en moet hij de werklast bij elke stap van de lijn begrijpen en op de juiste manier bemannen.

Hetzelfde geldt voor het vooraf trainen van een LLM. Deze modellen hebben miljoenen of zelfs miljarden parameters die Liu vergelijkt met fabrieksarbeiders die dezelfde doelen nastreven. Een eigenschap van deze parameters is hun kromming, die Liu beschouwt als de maximaal haalbare snelheid die ze bereiken als ze op weg zijn naar het einddoel van een voorgetrainde LLM. In de fabrieksmetafoor is kromming verwant aan de werklast van een fabrieksarbeider.

Als een optimalisatieprogramma die kromming (werklast) kan inschatten, kan het LLM voortrainen efficiënter maken. Het probleem is het volgende: Het schatten van de kromming met bestaande methoden is opmerkelijk moeilijk en duur. “In feite is het duurder dan het eigenlijke werk doen zonder krommingsvoorspellingen te doen,” zegt Liu. Dat is deels de reden waarom de huidige geavanceerde benaderingen voor het optimaliseren van LLM pretraining (Adam en zijn varianten) de krommingsschattingsstap overslaan.

Toch zagen Liu en zijn collega’s een mogelijke inefficiëntie in de eerdere methoden die parametrische krommingsschattingen gebruikten: Eerdere onderzoekers werkten hun schattingen van de kromming bij elke stap van de optimalisatie bij. Het Stanford-team vroeg zich af of ze het proces efficiënter konden maken door het aantal updates te verminderen.

Om dat idee te testen, ontwierp het Stanford-team Sophia om de kromming van de parameters slechts ongeveer elke 10 stappen te schatten. “Dat bleek een enorme winst te zijn,” zegt Liu.

De tweede optimalisatietruc van het team, clippen genaamd, pakt een verwant probleem aan: Het probleem van een onnauwkeurige schatting van de kromming. “Als de schatting verkeerd is, is het alsof je mensen met moeilijke banen nog meer werk geeft. Het maakt de dingen erger dan wanneer er helemaal geen schatting zou zijn.”

Clipping voorkomt dat door een drempelwaarde in te stellen, of een maximale schatting van de kromming. “In onze fabrieksmetafoor is het alsof je een werklastbeperking instelt voor alle werknemers,” zegt Liu. Een andere metafoor die vaak wordt toegepast op optimalisatie is een landschap van heuvels en dalen waarbij het doel is om in het laagste dal te eindigen. Zonder te knippen, zegt Liu, is het mogelijk om op een zadel tussen twee bergen terecht te komen. “In optimalisatie is dat niet waar je wilt zijn,” zegt hij.

Sophia testen en opschalen

Liu en zijn collega’s gebruikten Sophia om een relatief kleine LLM voor te trainen met dezelfde modelgrootte en configuratie die gebruikt werden om OpenAI’s GPT-2 te maken.

Sophia’s combinatie van krommingsschatting en clipping zorgde ervoor dat de LLM pretraining optimalisatie soepel verliep naar de laagste vallei in de helft van het aantal stappen en de helft van de tijd die Adam nodig had.

“Sophia’s aanpassingsvermogen onderscheidt het van Adam,” zegt Liu. “Het is moeilijker voor Adam om om te gaan met parameters met heterogene krommingen omdat het deze niet van tevoren kan voorspellen.”

Het is ook de eerste keer in negen jaar dat iemand een substantiële verbetering ten opzichte van Adam heeft laten zien op het gebied van taalmodel pretraining, zegt Liu. “Dit zou een enorme verlaging kunnen betekenen van de kosten voor het trainen van grote modellen in de echte wereld.” En naarmate de modellen groter worden, zullen de voordelen van Sophia alleen maar toenemen, zegt hij.

Liu en zijn collega’s hopen vervolgens een grotere LLM te ontwikkelen met Sophia. Hij hoopt ook dat Sophia wordt toegepast op andere gebieden van machinaal leren, zoals computervisiemodellen of multimodale modellen. “Het zou enkele tijd en middelen kosten om Sophia naar een nieuw domein te verplaatsen, maar omdat het open source is, zou de gemeenschap dit zeker kunnen doen.”

Please follow and like us:

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *