Angenommen, ein Unternehmen plant das Deployment eines LLMs in der Lambda Cloud. Das Modell soll 1.000 Anfragen pro Stunde verarbeiten, wobei jede Anfrage drei Sekunden Rechenzeit benötigt. Diese Anforderungen können je nach Modellgröße schon von einer 80 vRAM und NVIDIA H100 GPU Instanz erfüllt werden. Der Cloud-Anbieter berechnet 0,0373€ pro Sekunde Rechenzeit und 0,0001€ pro Anfrage für Datenübertragungskosten.
Angenommen, ein Unternehmen plant das Deployment eines LLMs in der Lambda Cloud. Das Modell soll 1.000 Anfragen pro Stunde verarbeiten, wobei jede Anfrage drei Sekunden Rechenzeit benötigt. Diese Anforderungen können je nach Modellgröße schon von einer 80 vRAM und NVIDIA H100 GPU Instanz erfüllt werden. Der Cloud-Anbieter berechnet 0,0373€ pro Sekunde Rechenzeit und 0,0001€ pro Anfrage für Datenübertragungskosten.[1]
Die Kosten pro Stunde berechnen sich wie folgt:
Bei der Annahme von 250 Arbeitstagen im Jahr, an denen das Modell zur Verfügung stehen soll, wären das bei einer Bereitstellungsdauer von ca. 12 Stunden am Tag 33.600€.
Dabei sind noch keine Arbeitsstunden für die Wartung bzw. das Anpassen des Modells berücksichtigt. Darüber hinaus gehen wir hier von einer bedarfsorientierten Bereitstellung aus, sodass der Service nicht dauerhaft läuft, sondern nur bei Bedarf hochgefahren wird.
Lohnt sich das? Das kommt auf den Use-Case an. Ein klassisches Szenario ist die Unterstützung des First Level Support mit Sprachmodellen. Die Sprachmodelle können viele eher weniger Komplexe Probleme von Kunden lösen, sodass die Mitarbeitenden im Support sich um die wichtigen Fälle kümmern. Das entlastet Ihre Mitarbeiter und spart deutlich Überstunden.
[1] Ungefähre Schätzung basierend auf https://lambdalabs.com/service/gpu-cloud/pricing