Large Language Models
Large Language Models

Deployment eines eigenen Sprachmodells

Large Language Models (LLMs) haben die Art und Weise revolutioniert, wie wir mit Texten umgehen und maschinelles Lernen anwenden. Sie bieten eine beeindruckende Fähigkeit zur Textgenerierung und ein tieferes Verständnis von Sprache im Vergleich zu kleineren Modellen des Natural Language Processing (NLP). Welche Unterschiede es gibt, welche Herausforderungen es beim Deployment von LLMs zu meistern gilt und wann es sinnvoll ist, auf kleinere Modelle zurückzugreifen, erläutert dieser Artikel. Außerdem werden wir die Vor- und Nachteile des selbst gehosteten LLMs diskutieren und die Kriterien für die Entscheidung zwischen On-Premises und Cloud erläutern.

Was unterscheidet Large Language Models von kleineren NLP-Modellen?

Wie trainiert man ein LLM auf eigene Daten?

Training eines LLMs

Warum oder wann braucht Ihr Unternehmen ein fein abgestimmtes Large Language Model?

Deployment von Large Language Models

Vor- und Nachteile für ein selbst gehostetes Large Language Model

Vorteile und Nachteile LLM-Hosting

Kriterien für die Entscheidung zwischen On-Premises und Cloud

Rechenbeispiel für das Deployment eines LLMs

Angenommen, ein Unternehmen plant das Deployment eines LLMs in der Lambda Cloud. Das Modell soll 1.000 Anfragen pro Stunde verarbeiten, wobei jede Anfrage drei Sekunden Rechenzeit benötigt. Diese Anforderungen können je nach Modellgröße schon von einer 80 vRAM und NVIDIA H100 GPU Instanz erfüllt werden. Der Cloud-Anbieter berechnet 0,0373€ pro Sekunde Rechenzeit und 0,0001€ pro Anfrage für Datenübertragungskosten.

Rechenbeispiel für das Deployment eines LLMs

Angenommen, ein Unternehmen plant das Deployment eines LLMs in der Lambda Cloud. Das Modell soll 1.000 Anfragen pro Stunde verarbeiten, wobei jede Anfrage drei Sekunden Rechenzeit benötigt. Diese Anforderungen können je nach Modellgröße schon von einer 80 vRAM und NVIDIA H100 GPU Instanz erfüllt werden. Der Cloud-Anbieter berechnet 0,0373€ pro Sekunde Rechenzeit und 0,0001€ pro Anfrage für Datenübertragungskosten.[1]
Die Kosten pro Stunde berechnen sich wie folgt:

  • Rechenzeit: 100 Anfragen/Stunde * 3 Sekunden/ Anfrage * 0,0373€/Sekunde = 11,19€/Stunde 
  • Datenübertragungskosten: 100 Anfragen/ Stunde * 0,0001€ /Anfrage = 0,1€/Stunde
  • Gesamtkosten: 0,1€/Stunde + 11,19€/ Stunde = 11,20€/Stunde

Bei der Annahme von 250 Arbeitstagen im Jahr, an denen das Modell zur Verfügung stehen soll, wären das bei einer Bereitstellungsdauer von ca. 12 Stunden am Tag 33.600€. 
Dabei sind noch keine Arbeitsstunden für die Wartung bzw. das Anpassen des Modells berücksichtigt. Darüber hinaus gehen wir hier von einer bedarfsorientierten Bereitstellung aus, sodass der Service nicht dauerhaft läuft, sondern nur bei Bedarf hochgefahren wird.

Lohnt sich das? Das kommt auf den Use-Case an. Ein klassisches Szenario ist die Unterstützung des First Level Support mit Sprachmodellen. Die Sprachmodelle können viele eher weniger Komplexe Probleme von Kunden lösen, sodass die Mitarbeitenden im Support sich um die wichtigen Fälle kümmern. Das entlastet Ihre Mitarbeiter und spart deutlich Überstunden. 

[1] Ungefähre Schätzung basierend auf https://lambdalabs.com/service/gpu-cloud/pricing

Unterschiede zwischen On-Premises und Cloud

Fazit

Wir unterstützen Sie gerne bei Ihrem Projekt!

Maxim Perl, Cassini Consulting, Spezialist für Künstliche Intelligenz
Maxim Perl

Management Consultant

+49 211 - 92323552