Large Language Models on-premises hosten

GenAI-Tech-Talk

Was ist für mein Unternehmen besser: Generative KI als As-a-Service-Lösung einführen, ein Large Language Model (LLM) selbst hosten oder in der Cloud? Und welche Aufwände und Kosten sind damit verbunden? Solche Fragen beschäftigen CDOs und CIOs heute. Gerade im regulierten Bereich geht die Tendenz aktuell zu Open Source-basierten On-premises-LLMs. Doch auch hier bestehen noch viele Unsicherheiten. Wir haben die zehn häufigsten Fragen gesammelt und sie unseren GenAI-Experten Dr. Lars Flöer und Michael Tannenbaum gestellt. So viel vorab: Es gibt On-premises-LLM-Lösungen, die sowohl sicher als auch performant und finanzierbar sind.

1. As-a-Service oder on-premises?

Lars, Michael, ihr entwickelt bei Comma Soft mit euren Kolleg:innen eine LLM-Lösung, die auf Open Source-Komponenten basiert. Ihr bindet aber auch As-a-Service-LLMs in Unternehmen ein. Welche Variante ist die bessere?

Lars: Das kommt darauf an, welche Anforderungen man hat. Viele Unternehmen wollen ein Tool wie ChatGPT nutzen und meinen daher, dass sie auf OpenAI angewiesen sind. Allerdings kommt ein US-Anbieter für viele europäische Unternehmen nicht infrage: Unternehmen aus regulierten Branchen wie dem Banken-, Versicherungs- oder Gesundheitswesen, Behörden oder Unternehmen aus Pharma & Life Science dürfen aus regulatorischen und Compliance-Gründen oft keine Lösung nutzen, bei der sie nicht die volle Kontrolle über ihre Daten sicherstellen können.

Michael: Ganz genau. In solchen Fällen kann ein As-a-Service-LLM nie 100-prozentige Sicherheit liefern. Dann ist es besser, ein LLM in einer Cloud im eigenen Umfeld zu hosten oder noch besser on-premises. Es gibt ja aktuell in Deutschland auch Start-ups, die hier gehostete As-a-Service-Lösungen anbieten. Allerdings sehe ich bei diesen Anbietern das Risiko, dass sie weder gegen die Geschwindigkeit der großen US-Anbieter noch die der Open Source-Community eine Chance haben. Für die meisten Unternehmen wird deshalb die effizientere und zukunftsfähigere Lösung sein, auf Open Source-LLMs aufzubauen. Zudem erreichen die besten Open Source-Modelle inzwischen die Qualität von ChatGPT – zumindest im Englischen. Daher setzen auch wir bei unserem LLM auf Open Source, aktuell auf das Modell Llama 2.

Sichere GenAI-as-a-Service-Lösung für europäische Unternehmen​

Mit dem LLM von Comma Soft, das in Deutschland gehostet werden kann und derzeit auf Llama 2 basiert, erhalten Konzerne und große Mittelständler eine datenschutz- und regulatorik-konforme Technologie, mit der sie GenAI für ihre spezifischen Business-Zwecke einsetzen können.

Comma Soft LLM / GenAI

2. Was bringt Open Source?

Wie unterscheidet sich ein Open Source-basiertes LLM wie eures von Ansätzen, die z. B. deutsche Start-ups verfolgen?

Michael: Viele der relevanten Innovationen der letzten zehn Monate im Bereich LLM werden aus der Open Source-Community heraus befeuert. Das geballte Schwarmwissen, die Qualität und das Tempo, in dem neue Modelle und Methoden veröffentlicht werden, sind extrem hoch. Das stellt mittlerweile selbst für OpenAI eine Konkurrenz dar. Man darf auch nicht vergessen, dass im Bereich Open Source nicht nur einzelne Entwickler:innen beteiligt sind, sondern auch große Konzerne wie Meta, die ihrerseits große Mengen von Daten und Ressourcen beisteuern. Zudem wird bei Open Source die Weiterentwicklung durch die Community kontinuierlich vorangetrieben, wogegen man bei einzelnen Anbietern immer das Risiko hat, dass sie nur langsam oder irgendwann vielleicht gar nicht mehr updaten. Schließlich sind gerade Start-ups von Investoren abhängig und können die Entwicklung nicht wie inhabergeführte Unternehmen selbst finanzieren.

Unser LLM von Comma Soft basiert aktuell wie gesagt auf Llama 2 von Meta AI. In unserer Architektur achten wir aber darauf, uns nicht unnötig an ein bestimmtes Modell als Basis zu binden. Sobald die Open Source-Community ein neues, besseres Basismodell entwickelt hat, können wir das bisherige Modell dagegen austauschen und das LLM damit trainieren. Das ist für die meisten Modelle ein rein technischer Aufwand und unkompliziert umsetzbar. Gerade im Open Source-Bereich wird zudem viel Wert auf Effizienz gelegt. Große LLMs lassen sich so auf vergleichsweise günstiger Hardware betreiben. Das verspricht auf lange Sicht Kostenvorteile beim Selbsthosting.

3. Wie sieht die On-premises-Architektur aus?

Angenommen ein Unternehmen möchte ein LLM on-premises hosten. Welche Anforderungen an die Architektur gibt es dabei?

Lars: Das Selbsthosting on-premises ist alles in allem mit vertretbarem Aufwand machbar. Fangen wir mit dem Backend an: Hier ist die Frage nach der Skalierbarkeit und der Performance entscheidend – und natürlich die Frage nach den damit verbundenen Kosten. Das ist eine Frage, die vielen Unternehmen Kopfzerbrechen bereitet. Unsere Lösung ist dafür optimiert, auch on-premises eine Nutzung (Inferenz) zu ermöglichen, die so schnell ist, wie Nutzer:innen es von ChatGPT gewohnt sind. Dafür kann ein GPU-Server mit ein bis zwei A100-Grafikkarten bereits ausreichen. Sollte es mit der Zeit mehr gleichzeitige Nutzer:innen geben, weil das Unternehmen wächst oder die Lösung in weitere Bereiche ausgerollt wird, können optimierte Inferenzverfahren verwendet werden und die Lösung skaliert horizontal. Durch Quantisierung der Modelle lässt sich zusätzlich noch auf der gleichen Hardware mehr Durchsatz ermöglichen. Da die benötigte Hardware jedoch stark vom Use Case und der geplanten Nutzung abhängig ist, beraten wir Unternehmen vor der LLM-Einführung zur optimalen Hardwareausstattung für ihren spezifischen Fall.

Der nächste wichtige Punkt sind die Schnittstellen. Unser LLM hat APIs, mit denen Unternehmensdatenbanken und andere Systeme angebunden werden können. Durch den On-premises-Betrieb lassen sich sogar Daten und Systeme einbinden, die bei anderen SaaS-Lösungen nicht einfach verfügbar sind oder es aus Intellectual Property- oder regulatorischen Gründen nicht sein dürfen. Gerade die Anbindung interner Datenbanken oder APIs an das LLM ist ja ein wichtiger Mehrwert für das Wissensmanagement im Unternehmen.

Und schließlich haben wir das Frontend: Ein Anwendungsfall ist das klassische Chat-Fenster, das man von ChatGPT kennt. Das ist aber nur eine von vielen Möglichkeiten. Mit unserer Lösung können wir auch schnell eigene, anwendungsfallbezogene Frontends entwickeln, z. B. für den Einsatz im Kundencenter als Assistenzsystem für die Sachbearbeiter:innen. Viele Fälle benötigen aber auch gar kein eigenes Frontend, z. B. wenn große Textmengen automatisch verarbeitet werden sollen oder bei der Integration mit SharePoint, dem Intranet oder einem Microsoft Teams-Bot – auch das kann ein LLM alles unterstützen. Bei unserem eigenen LLM haben wir verschiedene Cases vorgesehen und können mit unseren Kunden zusammen weitere einrichten.

Insgesamt gibt es für Unternehmen also praktikable technische Lösungen für das Selbsthosting eines LLMs. Und all jenen, die stattdessen auf die Cloud setzen wollen, ermöglicht unsere LLM-Lösung das Hosten bei einem deutschen oder europäischen Cloud-Provider.

Dr. Lars Flöer

Dr. Lars Flöer

Lars verantwortet bei Comma Soft den Schwerpunktbereich KI. Als Principal Data Science Consultant liegt sein Fokus auf der Entwicklung, Umsetzung und Operationalisierung von Machine Learning Lösungen (MLOps) auf Basis modernster Technologien und Algorithmen.

4. Wann besteht Privacy-Konformität?

Wie kann man mit einem LLM on-premises konkret kontrollieren, was mit den Daten passiert, damit Datenschutz-Anforderungen sicher und nachweisbar eingehalten werden?

Michael: Im Gegensatz zu As-a-Service-LLMs oder zum Cloud-Hosting hat ein Unternehmen mit einem selbst gehosteten LLM komplett in der Hand, was mit den Daten passiert und wer sie bekommt. Das umfasst die Daten, die für das Training verwendet werden, aber auch Logging und Monitoring. Das Logging passiert auf der Hardware des Unternehmens – und kann entsprechend geschützt werden. Gleichzeitig legt das Unternehmen selbst fest, welche Daten in den Logs gespeichert werden, und hat sie im Fall eines Audits direkt parat. Die Kontrollmöglichkeiten sind also viel besser als bei einem Fremdanbieter.

Lars: Interessant wird es auch, wenn es um interne Rechte und Rollen geht. Nur weil ich mein LLM nach außen hin sicher abschotte, will ich ja noch nicht unbedingt, dass alle Mitarbeiter:innen alle Informationen darüber abfragen können. Personaldaten oder vertrauliche Daten aus der Software- oder Produktentwicklung dürfen z. B. nicht alle Mitarbeiter:innen sehen. Trotzdem möchten Personalabteilung und F&E auch das LLM nutzen. Wir stellen also sicher, dass die Daten auch beispielsweise zwischen Abteilungen geschützt werden. Das lösen wir bei unserem LLM so, dass es nicht auf die Daten selbst zugreift und damit trainiert wird, sondern sie mit einer spezialisierten Routine abruft, die z. B. die Rollen abbildet, die in SharePoint oder im Active Directory hinterlegt sind. Somit kann man nicht per Prompt an geschützte Informationen gelangen.

Michael Tannenbaum

Michael leitet bei Comma Soft die Produkt­ent­wicklung im Bereich GenAI, insbesondere für LLMs.
Er entwickelt u. a. Lösungen, die auf Open Source-Komponenten basieren und sowohl europäischen Datenschutz­be­stim­mungen als auch Business-Anforderungen bezüglich Performanz und Skalierbarkeit gerecht werden.

Michael Tannenbaum

5. Wie gelingt die LLM-Nutzung in Europa?

Neben dem Sicherheitsthema sehen viele Unternehmen aus Deutschland und anderen europäischen Ländern eine Herausforderung darin, dass die bisherigen LLMs nicht für ihre Sprachen lokalisiert sind. Lässt sich dies mit einem Open Source-Basismodell lösen?

Michael: Die Sprache ist tatsächlich ein Punkt, an dem viele Lösungen noch hängen. Ein LLM, das in Deutschland für Use Cases mit Chat-Funktion genutzt wird, muss natürlich auch Deutsch können, damit die Mitarbeiter:innen eine echte Arbeitserleichterung erhalten. Und auch beim Auslesen von Informationen, wo kein Chat-Interface benötigt wird, muss das LLM die Informationen „verstehen“.

Lars: Die meisten Open Source-LLMs sind nicht ausreichend gut darin, mit deutschen oder anderen nicht-englischen Texten umzugehen. Da diese LLMs aber so vortrainiert sind, dass sie abstrakte Konzepte verarbeiten und auf neue Informationen anwenden können, müssen sie auch bei Deutsch nicht bei null anfangen. Wir haben das in unserem LLM gelöst und Llama 2 bereits mit deutschen Daten trainiert. Weitere Sprachen setzen wir aktuell um.

Für Unternehmen ist natürlich auch der Kontext wichtig: Das LLM muss sich in verschiedenen Anwendungsfällen zurechtfinden, z. B. bei juristischen, regulatorischen oder branchenspezifischen Themen. Hier arbeiten wir mit Unternehmen und Entwicklungspartnern zusammen. Das Ziel ist es, branchenspezifische LLMs zu entwickeln, die out-of-the-box einsetzbar sind und das spezifische Wissen mitbringen. Sie können ebenfalls weiter angepasst werden, z. B. an die Anwendungsfälle verschiedener Kundengruppen oder Abteilungen. Das geht alles auf Basis des gleichen LLMs, bei dem nur die Unterschiede nachtrainiert werden. Es reichen dafür oft wenige Tausend Beispiele.

GenAI-Lösungen für Unternehmen

Viele unserer Kunden fragen sich, wie sie ChatGPT und andere Generative KI-Lösungen in ihrem Unternehmen nutzen können – und zwar ohne Verstöße gegen Datenschutz, Compliance- oder regulatorische Vorgaben und mit überschaubarem Aufwand. Es gibt Formate & Lösungen, die sich hierfür in der Praxis bewährt haben.

6. Welche Daten braucht es für das Feintuning?

Was für Daten – und wie viele – benötigen Unternehmen für das Feintuning ihres On-premises-LLMs?

Lars: Das kommt drauf an, welche Cases abgebildet werden sollen. Feintuning wird z. B. verwendet, um die Form des generierten Textes anzupassen, der in einem Chat-Frontend ausgegeben wird. Das können bestimmte Redewendungen, Fachbegriffe oder Formulierungen sein, die berücksichtigt werden sollen. Für ein solches Feintuning braucht man Daten, die bereits die gewünschte Form haben: Soll mein LLM E-Mail-Antworten vorgenerieren, brauche ich für das Feintuning Beispiel-E-Mails, die die gewünschte Form wiedergeben.

Will ich in meinem generierten Text aktuelle Informationen berücksichtigen, wie z. B. die aktuell gültigen AGB oder die Liste der Ansprechpartner:innen einer Abteilung, kann ich diese Informationen über Konnektoren aus SharePoint erhalten und dem LLM bei einer Anfrage als Kontext mitgeben. Dieses Verfahren ist auch als Retrieval Augmented Generation (RAG) bekannt. Die Daten werden dabei nicht zum Training verwendet, sondern während der Inferenz entweder aus Vektordatenbanken oder aus anderen Quellsystemen ad hoc abgerufen. Prinzipiell können alle Unternehmensdaten dafür genutzt werden. Über APIs oder spezielle Konnektoren, die wir einrichten, lässt sich jedes System einbinden.

Tatsächlich werden für das Feintuning meistens gar nicht so viele Daten benötigt, wie oft angenommen wird. Es ist sogar umgekehrt: Eine tolle Eigenschaft von LLMs ist, dass sie schon ein sehr großes allgemeines Verständnis von vielen Konzepten haben. Deshalb reichen oft sehr wenige gut validierte Beispiele, Stichwort „Few Shot Learning“. Die Sorge, dass die LLM-Nutzung an zu wenig Daten scheitert, können wir hier also nehmen. Es zählt hier eher die Qualität.

7. Wie bleibt das LLM aktuell?

„Ein LLM braucht die ganze Welt zum Lernen, damit es aktuell bleibt“, heißt es oft. Muss also ständig nachtrainiert werden?

Michael: Wenn wir Open Source nutzen, können wir zunächst einmal davon ausgehen, dass unser LLM bereits so gut wie „die ganze Welt“ kennt. Und ein Nachtrainieren ist natürlich jederzeit möglich. Die interessantere Frage ist aber, ob das überhaupt nötig ist. Im Business-Kontext ist die Frequenz gar nicht so hoch. Denn neue Informationen pflegen die Mitarbeiter:innen sowieso in den Systemen und Datenbanken ein, an die das LLM dann per Schnittstelle kommt, das ist das eben beschriebene RAG-Verfahren. Das Nachtrainieren wird erst relevant, wenn das LLM für neue Cases genutzt werden soll, sagen wir z. B. wenn ein deutsches Unternehmen nach Spanien expandiert und Informationen in dieser Sprache verarbeiten will. Ansonsten bleibt die Business-Logik in der Regel gleich. Wichtiger ist die Frage nach der Data Literacy, also ob alle Mitarbeiter:innen sich der Bedeutung der Datenqualität in ihren Anwendungen bewusst sind, die Daten korrekt pflegen und aktuell halten. Oft ist die vorhandene Datenqualität aber besser, als die Unternehmen selbst annehmen. Das überprüfen wir natürlich vor einer LLM-Einführung gemeinsam und helfen ggf. bei der Validierung.

8. Geht auch Internet-Anbindung?

Und wenn ein Unternehmen sein LLM doch an das Internet anbinden will? Ist das möglich?

Michael: Technisch geht das natürlich. Ein LLM kann lernen, selbstständig Informationen über Suchmaschinen abzurufen. Aber es dürfen dabei keine Interna nach außen gelangen. Wenn ich einem LLM erlaube, Suchanfragen gegen eine externe Suchmaschine zu formulieren, kann ich nicht mit absoluter Sicherheit verhindern, dass diese vom LLM generierte Suchanfrage Interna enthält. Das Risiko lässt sich durch entsprechende Reglementierungen in den Such-Routinen minimieren. Es werden dann nur naive, unspezifische Fragen zugelassen, sodass möglichst keine Ergebnisse oder Verdichtungen von internen Informationen herausgehen. Ein Restrisiko bleibt dennoch. Wer ganz sicher gehen will, sollte von einer LLM-Internet-Kopplung also besser Abstand nehmen.

Daneben gibt es auch den Fall, dass eine Kopplung an das Internet möglich sein soll, um Kunden die direkte Nutzung des LLMs zu erlauben, z. B. über Chatbots. Diese sind aber in der Regel schwierig zu kontrollieren. Aktuell sehen wir noch keine erfolgreichen Implementationen, die nicht mit einem „Beta-Version“-Disclaimer ausgestattet sind. Realistischer sind in diesem Anwendungsfall LLMs, die nur sehr spezifische Aufgaben für den Nutzer lösen und keinen freien Chat-Prompt erlauben.

ChatGPT & Co unter der Lupe

Was kann GenAI? Welche Möglichkeiten eröffnen LLMs, wie sie in ChatGPT, Microsoft Copilot und anderen Anwendungen zum Einsatz kommen? Wie verändert Generative KI unseren (Arbeits-)Alltag? Diese und weitere Aspekte beleuchten unsere Kolleg:innen.

ChatGPT & Co unter der Lupe

9. Wie hoch ist der Kostenfaktor?

As-a-Service-LLMs bieten mittlerweile Enterprise-Pakete an. Welche Kosten kommen im Vergleich dazu auf Unternehmen zu, wenn sie auf ein sicheres, selbst gehostetes Open Source-LLM setzen?

Lars: Bei den As-a-Service-Anbietern wird pro Token abgerechnet. Je nach GPT-Version und Kontext-Umfang sind das zwar nur wenige Cent. Wenn man sich aber vorstellt, dass Hunderte oder sogar Tausende User im Unternehmen jeden Tag längere Anfragen erstellen, summiert sich das schnell. Hinzu kommen hochvolumige Prozesse wie die Extraktion von Daten aus E-Mails. Und das ist der Stand von heute. Wir können davon ausgehen, dass die Preise in Zukunft weiter steigen werden. Beim Betrieb on-premises entstehen diese Kosten nicht. Man investiert als Unternehmen lediglich initial in die Hardware. Die einmaligen Anschaffungskosten für die Hardware hängen vom Server und den Grafikkarten ab. Hier ist entscheidend, welcher Grad an Genauigkeit und welche Performance gewünscht sind. Eine gute Standardausstattung ist aktuell in vielen Fällen ein Server mit ein oder zwei A100-GPUs. Dieses Setup lässt sich bei Bedarf fast beliebig horizontal skalieren.

Sollen Modelle nachtrainiert werden, ohne dass die Trainingsdaten das Unternehmensnetzwerk verlassen, ist dafür ein weiterer Server mit dieser Ausstattung notwendig. Im Betrieb gelten dann die üblichen Regeln für die Redundanz von Servern: Für hohe Verfügbarkeit möchte man in vielen Fällen mindestens einen Fallback-Server betreiben, als Best Practice für hohe Verfügbarkeit gelten sogar mindestens drei Rechner im Cluster. Diese Überlegungen können die Kosten deutlich beeinflussen, sind aber nicht spezifisch für das Hosting von LLMs.

Hinzu kommen Lizenzkosten sowie die laufenden Kosten für Strom, IT und Wartung und ggf. für das Feintuning. Je nach Infrastruktur, User-Zahl und Anforderungen an das LLM sollten Unternehmen die tatsächlichen Kosten im Einzelfall kalkulieren. Wir haben hier Erfahrungswerte, mit denen wir bei der Auswahl der Hardware und der Kostenschätzung unterstützen.

10. Wie lange dauert die Umsetzung?

Wie viel Zeit müssen Unternehmen einplanen, wenn sie ein LLM on-premises einführen möchten?

Michael: Unser LLM ist ja schon einsatzbereit und muss nur auf den Server gespielt werden. Damit ist der initiale Zeitaufwand äußerst gering: Durch unsere Architektur kann die technische Umsetzung in zwei bis drei Tagen erfolgen, vor allem wenn man als Unternehmen mit einer schlanken Variante einsteigt – was auch sinnvoll ist, um Erfahrungswerte zu sammeln und das LLM dann Schritt für Schritt auf die eigenen Anforderungen zu optimieren. Für die wichtigsten Szenarien bringt unsere Architektur alles mit.

Sollen von Anfang an andere User Interfaces oder Systeme angebunden werden, lässt sich das in ca. zwei Wochen realisieren, das hängt natürlich vom jeweiligen Use Case ab. Was also vorab geschehen sollte, ist eine Klärung der gewünschten Use Cases, der zu berücksichtigenden Rollen-Konzepte und der unternehmensspezifischen Besonderheiten. Das checken wir zusammen mit unseren Kunden vorab in einem Ideation-Workshop, damit es später bei Umsetzung und Betrieb keine Verzögerungen gibt.

 

Haben Sie weitere Fragen zum Hosting und Feintuning von LLM? Wenden Sie sich gerne an Dr. Lars Flöer und Michael Tannenbaum: Hier können Sie Kontakt aufnehmen.

Lead Generative AI Products
M.Sc. Artificial Intelligence

Kontakt aufnehmen »

Michael leitet bei Comma Soft die Produktentwicklung im Bereich Generative KI, insbesondere im Bereich Large Language Models (LLM). Er entwickelt hierbei u. a. Lösungen für Unternehmen, die auf Open Source-Komponenten basieren und sowohl den europäischen Datenschutzbestimmungen als auch den Business-Anforderungen bezüglich Performanz und Skalierbarkeit gerecht werden. Zudem berät Michael Unternehmen bei der Frage, wie LLM-Lösungen on-premises oder in sicheren Cloud-Umgebungen gehostet werden können und unterstützt sie bei der Umsetzung.

Kontakt aufnehmen »

Michael leitet bei Comma Soft die Produktentwicklung im Bereich Generative KI, insbesondere im Bereich Large Language Models (LLM). Er entwickelt hierbei u. a. Lösungen für Unternehmen, die auf Open Source-Komponenten basieren und sowohl den europäischen Datenschutzbestimmungen als auch den Business-Anforderungen bezüglich Performanz und Skalierbarkeit gerecht werden. Zudem berät Michael Unternehmen bei der Frage, wie LLM-Lösungen on-premises oder in sicheren Cloud-Umgebungen gehostet werden können und unterstützt sie bei der Umsetzung.