Große Sprachmodelle in der Cloud

3 Tipps für bessere LLM-Deployments

24.04.2024
Von 

David Linthicum ist ein US-amerikanischer Technologieexperte und Buchautor. Zu seinen Schwerpunktthemen gehören unter anderem Cloud Computing, SOA, Enterprise Application Integration und Enterprise Architecture.

Große Sprachmodelle in der Public Cloud bereitzustellen, geht auch kostengünstig(er) und weniger risikointensiv. Lesen Sie, wie.
Wiederholen Sie mit Blick auf das LLM Deployment möglichst nicht die Fehler der frühen Cloud-Computing-Ära.
Wiederholen Sie mit Blick auf das LLM Deployment möglichst nicht die Fehler der frühen Cloud-Computing-Ära.
Foto: C. Fish Images | shutterstock.com

Im Zuge der weiter rollenden Generative-AI-Welle setzen diverse Unternehmen Large Language Models (LLMs) auf Cloud-Plattformen ein. Dieser Weg wird in erster Linie gewählt, weil ein Public-Cloud-Ökosystem bereits existiert und das den Weg des geringsten Widerstands darstellt. Ihn zu beschreiten, ist dafür in der Regel nicht günstig.

Weil sich einige Firmen dabei blindlings in den Hype stürzen, kommt es jedoch immer öfter zu folgenreichen Fehlern. Insbesondere mit Blick auf den Deployment-Prozess großer Sprachmodelle in Public-Cloud-Umgebungen entscheiden einige Aspekte über Erfolg oder Misserfolg, die bislang wenig Beachtung finden.

1. Kosteneffizienz und Skalierbarkeit

Ein wesentlicher Beweggrund, LLMs über Cloud-Plattformen bereitzustellen, besteht darin, die Ressourcen nach Bedarf skalieren zu können. Das macht eine Kapazitätsplanung überflüssig - Cloud-Ressourcen lassen sich per Mausklick, respektive automatisiert allokieren.

Effektiv Kosten zu managen und parallel zu skalieren, ist jedoch kein Standard-Skill und erfordert in den meisten Fällen eine Hilfestellung. Je mehr Cloud Services sie nutzen, desto mehr bezahlen sie. Das ist angesichts der höheren Grund- und Stromkosten, die für den Einsatz von GPUs anfallen, ein zentrales Problem, wenn es um große Sprachmodelle geht, die bei Public-Cloud-Anbietern laufen.

Tipp: Nutzen Sie Kostenmanagement-Tools. Und zwar sowohl diejenigen, die die Cloud-Anbieter zur Verfügung stellen, als auch solide Lösungen von Drittanbietern im Bereich Cost Governance und -Monitoring. Beispiele hierfür wären etwa:

  • Auto-Scaling und -Scheduling zu implementieren,

  • geeignete Instanztypen zu wählen oder

  • Preemptible-Instanzen zu nutzen, um Kosten zu optimieren.

Zudem empfiehlt es sich, Deployments kontinuierlich zu überwachen, um den Ressourcenverbrauch an die Nutzung anzuspassen - und nicht einfach den Forecast Load zu nutzen. Im Klartext: Vermeiden Sie Overprovisioning um jeden Preis.

2. Datenschutz in Multitenant-Umgebungen

Large Language Models bereitzustellen, bedeutet auch, große Datenmengen zu verarbeiten, die sensible oder proprietäre Daten beinhalten können. Wenn dabei eine Public Cloud zum Einsatz kommt, besteht ein grundsätzliches Risiko, weil es "Nachbarn" in Form von verarbeitenden Instanzen gibt. Das kann dazu führen, dass virtuelle Maschinen, die auf derselben physischen Hardware operieren, auf die Daten zugreifen.

Wenn Sie Public-Cloud-Anbieter auf dieses Problem ansprechen, werden diese es eher kleinreden - womit sie auch ein bisschen Recht haben, schließlich ist die Wahrscheinlichkeit verschwindend gering. Aber es ist nun mal ein Fakt, dass allen mandantenfähigen Systemen dieses Risiko anhaftet.

Tipp: Um es möglichst zu minimieren, sollten Sie einen Cloud-Anbieter auswählen, der nachweislich strengen Sicherheitsstandards genügt. Das signalisieren beispielweise:

  • Daten, die sowohl im Ruhezustand als auch während der Übertragung verschlüsselt werden,

  • Identity and Access Management und

  • Isolationsrichtlinien.

Eine noch bessere Idee wäre es allerdings, Ihre eigene Security-Strategie und Ihren eigenen Technologie-Stack zu implementieren.

3. Stateful Model Deployment

Große Sprachmodelle sind meistens "stateful" - behalten also Informationen von einer Interaktion zur nächsten. Das bringt den Vorteil, die Effizienz in Continuous-Learning-Szenarien steigern zu können. Diese LLM-"Statefulness" in Cloud-Umgebungen zu managen, wo Instanzen ephemer oder "stateless by design" sein können, ist diffizil.

Tipp: Hilfreich sind an dieser Stelle vor allem Orchestrierungs-Tools, die Stateful Deployments unterstützen - beispielsweise Kubernetes. Sie ermöglichen persistente Storage-Optionen für die LLMs und können so konfiguriert werden, dass deren State Session-übergreifend bewahrt wird. Um die Continuity und die Performance der großen Sprachmodelle zu gewährleisten, ist das essenziell. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.