zum Seiteninhalt springen
designed to enable

Llama, Deepseek & Co — ein praktischer Einstieg für Unternehmen

Profilbild des Autors Thomas Ebenstein

Llama, Phi, ChatGPT, Claude, Grok sind einige der Namen und Modelle die wir ständig in Medien und Social Media sehen. Als Unternehmer bekommt man hier ständig das Gefühl etwas zu verpassen - der Einstieg in die Thematik ist aber schwer.

Der folgende Artikel soll einen kurzen Einstieg in die Materie bieten, die wichtigsten Begriffe erklären und den Start in die Nutzung eigener Modelle erleichtern.

Was sind generative AI-Modelle?

Was AI-Modelle sind und was damit in Medien oft gemeint ist, liegt weit auseinander. AI-Modelle können dabei generell einen Input wie Text, Zahlenreihen etc. in ein Ergebnis umwandeln. Das kann alles mögliche sein - ein Text, Zahlen oder auch WAHR/FALSCH-Einschätzungen. Ein Beispiel, dass jeder kennt ist der Spam-Filter im E-Mail-Postfach. Auf Basis einer E-Mail wird die Wahrscheinlichkeit vorhergesagt, dass es sich um Spam handelt.

Dasselbe Prinzip gilt bei fast allen Modellen. Auf Basis eines Inputs wird ein Output generiert. Die Regeln, warum aus Input A Output B wird ist dabei nicht ersichtlich. Die ganze Idee von Machine Learning und dem Training von AI-Modellen basiert darauf, dass wir nicht mehr sehen und nachvollziehen können, wie es zu einem Output kommt. Mithilfe von großen Trainingsmengen (z.B. Millionen an Spam-E-Mails) werden Muster erkannt und abgeleitet. Diese Muster bilden das Modell und werden für Vorhersagen genutzt.

Allgemein wird immer von generativen AI-Modellen gesprochen, mit denen man Text “generieren” kann, um diese Modelle geht es auch folgend. Das Prinzip bleibt aber gleich und muss im Hinterkopf behalten werden. AI-Modelle sind am Ende des Tages komplexe Muster, die aus Trainingsdaten abgeleitet sind. Sie sagen nicht die Wahrheit, sondern geben die Wahrscheinlichste Antwort auf den Eingabetext oder Chat-Verlauf. Die “Korrektheit” kann mit Techniken wie RAG-Systemen optimiert werden, sie ist aber nicht garantiert.

Wichtiger Grundsatz:

Generative AI-Modelle geben die wahrscheinlichste Antwort - nicht die korrekteste.

Wo sollten generative AI-Modelle nicht eingesetzt werden?

Ein großes Problem bei der Nutzung von AI-Modellen ist die Verlässlichkeit der Antworten. AI-Modelle basieren auf Statistik und können nicht denken. Sie haben kein “Modell” der Welt, sondern berechnen nur, welches Wort am wahrscheinlichsten als nächstes kommt.

Das führt dazu, dass AI-Modelle ungenaue oder schlichtweg falsche Antworten geben können. Sie können Zahlen oder Referenzen schlicht erfinden, wenn es in die Berechnung passt. Man versucht mit besseren Trainingstechniken, Reasoning-Ansätzen, dem Beifügen von Quellen usw. die Genauigkeit zu erhöhen, jedoch bleibt das grundsätzliche Problem bestehen.

In den letzten Jahren gab es genug Beispiele, wo versucht wurde z.B. den Kundensupport mit einem Chatbot zu ersetzen und es zu einem Desaster geführt hat. Chatbots wurden beleidigend, gaben falsche Informationen oder haben sogar Rabatte gewährt, die es gar nicht gab. Im schlimmsten Fall, gab es keine Möglichkeit mehr, den Bot zu umgehen und mit einem Menschen zu sprechen. Falls es dann ein Problem gibt, haben Kunden keine Chance mehr auf Hilfe.

Negative Anwendungsfälle:

KI-Modelle sind grundsätzlich eine gute Überbrückung zwischen vager menschlicher Sprache und der Applikation - sie ersetzen aber die Applikation nicht.

  • Angebotserstellung: Ein AI-Modell sollte nur die Textteile aber nicht das komplette Angebot generieren. Berechnungen gehören in die Business-Logik. Alles was fixiert und berechnet werden kann, sollte nicht dem generativen Modell überlassen werden.

  • Automatische E-Mails: Ein AI-Modell sollte Entwürfe für E-Mails, Angebote oder Termine erstellen — aber nie automatisch versenden. Eine falsche Deadline oder ein falscher Preis sind verbindlich und schwer rückgängig zu machen.

  • Freie Editierung: Ein AI-Modell kann Fehler machen. Es frei an Code, E-Mails, Dokumenten oder Datenbanken arbeiten zu lassen kann zu katastrophalen Fehlern führen. Die AI ist kein Mensch, sondern agiert als Modell nicht immer nachvollziehbar - es gibt keinen “gesunden Menschenverstand” der es bei z.B. Komplettlöschungen der Datenbank stoppt.

Wo sollten generative AI-Modelle eingesetzt werden?

Bei AI-Modellen muss man sich immer die Frage stellen, was die schlimmste Konsequenz von einer Antwort mit falschen Informationen ist. AI-Modelle sollten generell für die Optimierung von Tätigkeiten genutzt werden und nicht grundsätzlich für den kompletten Ersatz von Menschen.

Ein gutes Beispiel ist die Generierung von internen Texten. AI-Modelle können sehr gut dabei helfen, Texte zu schreiben, die dann von Menschen weiter bearbeitet werden. Ein Analyst kann z.B. einen Report schreiben, indem er die einzelnen Abschnitte von einem AI-Modell generieren lässt und dann die Abschnitte weiter bearbeitet. Das spart Zeit und erhöht die Produktivität, ohne dass die Qualität leidet.

Ein anderer interner Use-Case sind Zusammenfassungen von Newsdaten mit Quellenangaben. AI-Modelle können täglich die wichtigsten Informationen aus den gestrigen News-Artikeln extrahieren und zusammenfassen. Selbst wenn Details fehlen, kann die Zusammenfassung als Grundlage für weitere Recherchen in den genannten Quellen dienen.

Die Verwendung eines internen Chatbots zur Befragung von internen Dokumenten, Handbüchern und Referenzdokumenten kann ebenfalls gut funktionieren, solange die Quellen angegeben sind und die Informationen überprüft werden können.

Im Kundensupport wird es schwieriger. AI-Modelle haben den Vorteil, dass sie Kundenfragen besser verstehen können und passend antworten können. Die Grenzziehung ist hier nur wichtig. Der Chatbot darf nur auf öffentlich-verfügbare Seiten referenzieren und verweisen, damit Informationen geprüft werden können. Zusätzlich muss es eine einfache Möglichkeit geben, den Bot zu umgehen und direkt mit einem Menschen zu sprechen, falls etwas nicht klappt.

In allen Fällen gilt die Frage - was ist das schlimmste, dass bei falschen Antworten passieren kann?

Positive Anwendungsfälle:

KI-Modelle sind grundsätzlich eine gute Überbrückung zwischen vager menschlicher Sprache und der Applikation - sie ersetzen aber die Applikation nicht.

  • Dokumentation: Anmerkungen von Monteuren auf einer Baustelle werden in der eigenen Landessprache diktiert und abgespeichert. Das AI-Modell übersetzt und fasst die Punkte zusammen. Es bringt die dynamische menschliche Sprache in ein einheitlicheres Format.

  • Kunden-Support: Der Chatbot agiert als begleitete Suchmaschine und gibt auf eine Anfrage Vorschläge für Unterseiten oder FAQ-Abschnitte. Der Kunde hat aber die Möglichkeit alle Angaben zu kontrollieren und jederzeit mit einer realen Person zu sprechen.

  • Angebotserstellung: Alle Positionen und Zahlen eines Angebots werden aus einer Datenbank zusammengeführt und berechnet. Das AI-Modell generiert nur den Angebots- und E-Mail-Text auf Basis dieser Daten.

Modelle nutzen - lokal vs. als Service

Es gibt eine Vielzahl an Anbietern und Services über die man auch sehr große AI-Modelle online nutzen kann. Die größten Modelle wie ChatGPT können nicht ohne immense Kosten auf einem eigenen Server betrieben werden. Die Nutzung von Anbietern wie OpenAI oder Claude ist daher der beste Weg, um große Modelle günstig nutzen zu können.

Man kann kleinere Modelle aber mittlerweile bereits gut lokal auf einem eigenen Laptop oder Server laufen lassen. Diese erreichen zwar nicht dasselbe Niveau von Online-Anbietern - für viele Anwendungsfälle reicht das aber bereits.

Die Nachteile von Online-Anbietern für AI-Modelle

Die Online-Services haben aber eine Reihe von Nachteilen:

  • Datenschutz: Die hochgeladenen Daten werden in den USA verarbeitet und je nach Anbieter sogar für das weitere Training der Modelle genutzt. Damit sind sensitive Daten (Telefonnummern) plötzlich Teil des Modells. Selbst ohne Vorgaben der DSGVO ist das rechtlich nicht tragbar.

  • Modell-Abhängigkeit: Externe Anbieter haben die vollständige Kontrolle über die AI-Modelle, die verfügbar sind. Sie können jederzeit die Modelle aktualisieren und dabei auch verschlechtern. Systeme und Prompts können daher häufige Nachbesserung erfordern.

  • Kosten: Die Preise und Bedingungen der Anbieter ändern sich laufend. Jedes neue Modell kann zu einer substanziellen Preiserhöhung führen. Durch den hohen Konkurrenzdruck sind die Preise aktuell noch subventioniert, um viele Nutzer zu gewinnen - das ist aber nicht ewig tragbar und die Preise werden bald in die Höhe steigen.

Vorteile von lokalen AI-Modellen

Wenn der eigene Anwendungsfall nicht das größte Modell erfordert können lokale Modelle genutzt werden. Das bringt eine Reihe an Vorteilen:

  • Freie Modell-Wahl: Man ist nicht an die Modelle eines Online-Anbieters gebunden. Es können frei Modelle von Mistral, Meta oder DeepSeek gewählt werden. Aktualisierungen und Änderungen erfolgen geplant.

  • Datenschutz: Alle Daten verbleiben auf dem eigenen Server / Gerät.

  • Kosten: Die Kosten bleiben stabil und planbar.

Alleine aus diesen Gründen zahlt es sich daher aus, selbst mit lokalen Modellen zu experimentieren und sie laufend zu testen. Oft ist die Nutzung von Online-Anbietern wie das “mit Kanonen auf Spatzen schießen”.

Lokale Modelle werden jedes Monat besser und können mehr und mehr Anwendungsfälle abdecken, wenn der Prozess gut definiert und die AI gezielt eingesetzt wird.

Welche Arten von Modellen gibt es?

Bevor man nun ein lokales Modell aussucht, um es zu testen gibt es noch zwei wesentliche Konzepte, die bei der Orientierung helfen.

Was ist der Unterschied zwischen Instruct und Chat-Modellen?

Der Unterschied liegt in den genutzten Trainingsdaten und Zielsetzung im Training. Chat-Modelle, sind auf die Interaktion mit Nutzern trainiert und sollen möglichst menschenähnliche Antworten generieren. Sie sind damit auch auf Rückfragen und einen generellen Nachrichtenaustausch ausgelegt.

Instruct-Modelle hingegen, sind auf die Ausführung von Anweisungen trainiert und sollen möglichst genau die Anweisungen befolgen. Wenn kein Chat benötigt wird und z.B. nur die Generierung einer Zusammenfassung oder Erstellung eines Reports benötigt wird, kann es besser sein ein Instruct-Modell zu verwenden, da die Optimierung auf Chats nicht benötigt wird.

Was bedeutet Quantisierung / Quantization bei AI-Modellen?

Quantisierung ist ein Prozess, bei dem die Genauigkeit von Gewichtungen in einem AI-Modell reduziert wird, um die Größe des Modells zu reduzieren.

Generative AI-Modelle sind Netzwerke aus Knotenpunkten (Parameter) die zueinander in Verbindung stehen, wobei die Stärke der Verbindung als Gewichtung bezeichnet wird. Je mehr Knotenpunkte es gibt und je genauer die Gewichtung zwischen diesen Knotenpunkte im Netzwerk ist, desto präziser ist das Modell.

Eine Gewichtung ist dabei eine Zahl, die in einer bestimmten Genauigkeit im Modell abgespeichert wird. Eine einfache Möglichkeit, um die Größe eines Modells zu verringern, ist damit die Reduktion der Dezimalstellen je Gewichtung im Modell.

Eine Gewichtung von z.B. 0.34912091823 benötigt mehr Speicherplatz als 0.3491. Zusätzlich führt eine höhere Genauigkeit auch zu komplexeren Berechnungen in der Generierung der Antworten. Die Reduktion der Genauigkeit von Gewichtungen führt daher zu kleineren und schnelleren Modellen. Auf der anderen Seite führt eine Reduktion der Genauigkeit auch zu einem Qualitätsverlust der Antworten.

Es ist damit immer ein Balance-Akt, ob die Reduktion der Genauigkeit die Antwortqualität nicht zu sehr beeinträchtigt und kann vom Anwendungsfall abhängen. Aus diesem Grund werden Modelle meistens mit mehreren Genauigkeitsniveaus in den Gewichtungen veröffentlicht.

Bei Modellen ist die Quantisierung / Quantization von Gewichtungen über das Kürzel “Q4” oder “Q8” angegeben. Die Zahl nach dem Q gibt die Anzahl an Bits, die eine Gewichtung hat, an. Je niedriger die Zahl, desto niedriger die Genauigkeit der Gewichtungen.

Wo finde ich passende AI-Modelle?

Hugging Face

Zugegeben - der Name Hugging Face und das Logo wirken nicht unbedingt seriös oder vertrauenserweckend.

Dahinter versteckt sich aber in Wirklichkeit tatsächlich die größte Plattform an öffentlich verfügbaren Modellen weltweit. Hugging Face ist DER Ort an dem Firmen wie Meta oder Microsoft ihre Modelle veröffentlichen und sich die Community austauscht.

Es gibt detaillierte Informationen je Modell, wie es trainiert wurde, welche Daten verwendet wurden und wie gut es in verschiedenen Benchmarks abgeschnitten hat sowie die Lizenzbedingungen für die Nutzung. Das ist z.B. die Hugging-Face-Seite des neuen Deepseek-R1 Modells.

Screenshot der Hugging-Face-Seite von Deepseek-R1
Hugging-Face-Seite von Deepseek-R1

Hugging Face bietet eine große Auswahl an Modellen für viele Anwendungsfälle. Der Nachteil dabei ist aber, dass die Auswahl sehr groß und verwirrend ist. Jeder kann Modelle veröffentlichen und es ist schwer zu erkennen, welches Modell wirklich gut ist. Der beste grobe Anhaltspunkt ist Anfangs die Anzahl an Downloads und Likes.

Die Filter und Kategorisierungen von Modellen helfen am Anfang ebenfalls nicht wirklich und man fühlt sich verloren. Die Webseite ist eindeutig an spezialiserte Entwickler gerichtet und nicht sehr einsteigerfreundlich.

Am Anfang ist es daher besser, Hugging Face nur dafür zu nutzen, Detail-Informationen zu bestimmten Modellen zu finden, und neue Modelle eher über andere Quellen, Blog-Artikel etc. zu finden statt sich frei durch die Suche zu klicken.

Modelle können direkt über die Transformers Python-Library von Hugging Face in Python geladen und genutzt werden. Die Library ist sehr gut dokumentiert und es gibt viele Beispiel-Codes, die einem den Einstieg erleichtern.

Ollama

Ollama ist eine Software zum Download und Betrieb von AI-Modellen auf dem eigenen Server oder Laptop. Über Ollama können Modelle direkt heruntergeladen und betrieben werden.

Grundsätzlich ist Ollama keine Plattform, wie Hugging Face, sondern ein Tool, um Modelle laufen zu lassen. Da es aber ein gutes Verzeichnis an wichtigen Modellen hat, ist es ein guter Startpunkt, um relevante Modelle zu finden und zu nutzen.

Screenshot von Ollama
Ollamas Model-Verzeichnis

Nach der Installation von ollama kann ein Chat mit z.B. dem besonders kleinen llama3.2 Modell mit folgendem Command gestartet werden:

ollama run llama3.2

Mit diesem Command wird das Modell heruntergeladen und ein Chat im Terminal gestartet.

Wie kann ich AI-Modelle auf meinem eigenen Server betreiben?

Es gibt mehrere Möglichkeiten, AI-Modelle auf dem eigenen Server zu betreiben. Eine der einfachsten ist die Installation und Nutzung von Ollama. Ollama bietet einige Standard-APIs, über die man Anfragen an das AI-Modell senden kann. Der folgende API-Call stellt eine Frage an das Modell und gibt die Antwort zurück:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "What is Docker?",
}'

Alternativ kann man auch das Python-Package von Ollama nutzen und eine Anfrage an das Modell senden:

from ollama import chat

messages = [
  {
    'role': 'user',
    'content': 'What is Docker?',
  },
]

response = chat('llama3.2', messages=messages)
print(response['message']['content'])

Gefühlt gibt es aber jedes Monat fünf neue Frameworks und Tools, mit denen man AI-Modelle betreiben kann und jedes bietet mehr Features als das letzte. Es gibt einen klaren Hype um das Thema und jeder versucht sich einen Namen zu machen. Hier muss man aber aufpassen - eine Software, die alles können möchte, kann meistens am Ende nichts richtig.

Software muss stabil laufen, Updates müssen regelmäßig veröffentlicht werden und die Dokumentation muss vollständig und verständlich sein. Viele neue Frameworks haben zwar tolle Features, wie Text-to-Speech, Calling-Functions, User-Management etc. aber wenn die drei Punkte, Stabilität, Updates und Dokumentation nicht passen, wird das beim Aufsetzen des Tools und laufenden Betrieb eine Katastrophe.

Viele Tools sind neu und versuchen sich einen Namen zu machen. Die Zeit wird zeigen, wer sich am Ende durchsetzt. Ein spannendes umfangreiches Frameworks mit viel Potential ist z.B.: Open-Webui.

Welchen Server benötige ich zur Nutzung eines AI-Modells?

AI-Modelle werden als gesamtes in den RAM geladen und dann werden basierend auf den Eingaben des Nutzers die Antwort mithilfe des Modells berechnet.

AI-Modelle benötigen daher:

  1. Genug RAM, um das gesamte Modell in den Speicher zu laden
  2. Einen starken CPU oder idealerweise eine gute Grafikkarte

Ein wichtiger Faktor sind hierbei die Anforderungen des Use Cases. Wenn man ChatGPT replizieren möchte, benötigt man hunderte GB RAM und eine sehr gute Grafikkarte! Ein äquivalentes Open Source Modell von Llama hat z.B. 400b (billion) Parameter und würde damit über 400 GB RAM benötigen. Beides ist sehr teuer und meistens nicht notwendig.

Der Schlüssel ist daher, dass Modell zu wählen, welches die Aufgabe noch erledigen kann. Gerade wenn es darum geht, nur kurzen Text als Vorschlag für z.B. einen Abschnitt in einem Report zu generieren, können auch 3b Modelle ausreichend sein. Diese benötigen dann nur 3 GB RAM und sind damit auch auf einem normalen Server lauffähig.

Mit einem kleineren Modell, ist auch weniger Rechenleistung notwendig. Die Berechnungen eines AI-Modells sind über einen GPU / Grafikkarte am schnellsten, jedoch sind Server mit Grafikkarten äußerst teuer. Mit einem kleineren Modell kann auch ein CPU ausreichen. Es zahlt sich also auch aus dieser Perspektive aus, ein möglichst kleines Modell zu wählen, welches die Aufgabe noch erfüllt.

Woher weiß ich, wie viel RAM ein Modell benötigt?

Grundsätzlich muss das ganze Modell in den RAM passen. Entscheidend ist daher die File-Größe des Modells.

Für die schnelle Einschätzung kann aber die Anzahl an Parametern, die ein Modell hat, herangezogen werden. Diese Zahl gibt an, wie viele Gewichtungen das Modell hat. Je höher die Anzahl an Parametern, desto genauer ist das Modell aber benötigt gleichzeitig auch mehr RAM.

Die Anzahl an Milliarden (Englisch: Billions) Parametern ist daher ca. der RAM-Bedarf in GB. Ein 7B Modell benötigt also mindestens 7GB verfügbaren RAM. Das stimmt zwar nicht exakt - aber wenn man weiß, dass man nur 15 GB RAM für das Modell zur Verfügung hat, kann man Modelle auslassen, die mehr 14b Parameter haben.

Achtung: Der Server benötigt auch RAM für das Betriebssystem und andere Prozesse. Daher muss diese Menge zusätzlich verfügbar sein.

Wie wähle ich das passende Modell aus?

Nehmen wir an, wir bauen ein Tool, mit dem ein Analyst Reports über den aktuellen Stand der Aktienmärkte schreiben kann. Das Tool soll dabei je Report-Abschnitt einen Textvorschlag auf Basis seiner Eingaben und aktuellen Finanzdaten aus der Firmendatenbank generieren, die der Analyst dann weiter bearbeiten kann. Das ist eine relativ einfach umsetzbare Aufgabe, die aber bereits viel Zeit sparen kann.

Dieser Ausgangspunkt schränkt unsere Anforderungen ein. Wir benötigen kein Modell, dass die neuesten News-Daten bereits kennt (aus dem Trainingsdaten). Wir benötigen nur begrenzte Chat-Fähigkeiten, da der Analyst die Vorschläge weiter bearbeiten wird.

Es gibt hier folgende Aspekte zu beachten:

  1. Genauigkeit
  2. Spezialisierung / Trainingsziel
  3. Sprache des Modells

Genauigkeit

Die Qualität eines Modells steigt mit der Anzahl an Parametern. Ein 14B Modell ist also genauer als ein 3B Modell.

Die Qualität steigt dabei aber nicht linear. Ein 14b Modell ist nicht doppelt so gut wie ein 7b Modell und es muss getestet werden, ob die zusätzliche Genauigkeit auch das gewünschte Ergebnis bringt.

Bei der vorliegenden Aufgabenstellung, könnte ein 7b oder sogar ein kleines 3b Modell ausreichend sein, da der Analyst die Vorschläge weiter bearbeiten wird. Die Generierung eines Rohentwurfs ist hier das Ziel und nicht die finale Version.

Achtung: Ein kleineres Modell hat auch den Vorteil der schnelleren Antwortzeit. Ein 3b Modell kann in wenigen Sekunden eine Antwort generieren, während ein 14b Modell dafür Minuten benötigen kann. Auch wenn die Antwort vom 14b Modell qualitativ besser ist, kann die Wartezeit auf die Antwort die Zeitersparnis beim Analysten wieder zunichte machen.

Spezialisierung / Trainingsziel

Wir kennen meistens nur die großen LLM-Modelle, wie ChatGPT oder Llama, die für eine möglichst breite Anwendung trainiert wurden. Es gibt aber auch spezialisierte Modelle, die für bestimmte Aufgaben trainiert wurden. Diese Modelle sind z.B. im schreiben von Code sehr gut oder im generieren von Texten zu Finanzthemen, jedoch nicht für andere Bereiche.

Im Moment sind spezialisierte Modelle noch nicht so weit verbreitet, jedoch wird sich das in Zukunft ändern. Es lohnt sich daher, immer wieder nach spezialisierten Modellen zu suchen, die für die eigene Aufgabe besser geeignet sind.

Sprache des Modells

Das Internet spricht Englisch. Die meisten Modelle sind daher primär auf Englisch trainiert. Die großen Modelle wurden auch mit Texten in anderen Sprachen trainiert, das ist jedoch nicht immer der Fall. Gerade wenn es um deutsche Text geht, muss man hier genau aufpassen.

Bei anderen Anwendungsfällen, kann es sich daher auszahlen, die Texte im Hintergrund auf englisch bzw. dann die Antwort von englisch auf Deutsch zu übersetzen. Die Übersetzungen von Services wie , oder sind hierbei sehr gut (und haben jeweils auch einen sehr großzügigen kostenlosen Plan). Im vorliegenden Fall würde es aber die Antwortzeit zu sehr erhöhen.

Was sind die bekanntesten open-source AI-Modelle?

Die folgenden Modelle sind die bekanntesten und am meisten verbreiten open-source AI-Modelle. Sie sind alle auf Hugging Face und Ollama verfügbar und können direkt heruntergeladen und genutzt werden.

Meta - Llama

Meta, das Unternehmen hinter Facebook, hat mit Llama eines der größten und genauesten Modelle veröffentlicht. Llama ist ein Chat-Modell, das auf der GPT-Architektur basiert und damit als Ersatz für das ChatGPT Modell von OpenAI gedacht. Llama Modelle werden zudem in verschiedenen Größen von 3b bis sogar 405b zur Verfügung gestellt.

Eine Besonderheit der Llama Modelle ist die damit verbundenen Lizenzbedingungen. Die Modelle können nur auf Anfrage heruntergeladen werden und die Nutzung ist an bestimmte Bedingungen geknüpft. Es ist z.B. eine eigene Lizenz mit Meta notwendig, wenn das Modell in einer App verwendet wird, die mehr als 700 Millionen aktive Nutzer pro Monat hat. Auch wenn diese Bedingungen im Moment wie eine Formalität wirken, kann es sein, dass dies in zukünftigen Modellen strenger gehandhabt wird. Man muss die Bedingungen daher auf jeden Fall genau lesen und verstehen.

Microsoft - Phi

Microsoft hat ebenfalls eigene Modelle unter dem Namen “Phi” herausgebracht. Anders als Meta fokussiert sich Microsoft dabei auf die Entwicklung von möglichst kleinen leistungsstarken Modellen. Die neueste Version Phi-4 hat 14b Parameter. Die Vorgängerversion Phi-3 existiert aber auch in einer kleinen 3.8b Parameter Version.

Ein Nachteil von Phi-Modellen liegt in der sprachlichen Limitierung. Phi-Modelle wurden primär mit englischen Texten trainiert und sind daher für andere Sprachen nicht so gut geeignet. Eine Lösung ist die Übersetzung von Prompts in Englisch. Das erhöht aber die Antwortzeit und kann die Ergebnisse ungenau machen.

Deepseek R1

Das chinesische Unternehmen Deepseek AI hat bereits mehrere Modelle veröffentlicht - Deepseek R1 ist jedoch das neueste Modell und es wird aktuell in allen Medien erwähnt. Ich habe selten erlebt, dass so viele Nicht-Techniker über ein konkretes AI-Modell sprechen.

Aufgrund eines hybriden Ansatzes im Training ist das Modell besonders gut in der Beantwortung von Fragen, da es einen “Think”-Prozess vor jeder Antwort durchführt und diesen anzeigt. Dadurch kann die generierte Antwort besser nachvollzogen werden und die Genauigkeit wird auch bei kleineren Modellen verbessert. Es wird daher auch als “Reasoning”-Modell bezeichnet und ist daher speziell für Problemlösungen gedacht. Es existiert in verschiedenen Größen von 1.5b bis 70b Parametern.

Ein weiterer Grund, warum das Modell so hohe Wellen geschlagen hat, liegt im günstigen Preis der API-Nutzung des Modells. Die Kosten sind aktuell über 90 % günstiger als bei OpenAI. Im Moment ist aber unklar, ob dieser Preis haltbar ist und in Zukunft nicht doch steigen könnte. Zusätzlich ist fraglich, wie sicher die Daten sind, die über die API an Deepseek gesendet werden. Beides sind gute Gründe für eine lokale Nutzung des Modells auf dem eigenen Server.

Mistral

Während ständig von chinesischen und amerikanischen Modellen die Rede ist, gibt es doch auch europäische KI-Unternehmen die global mithalten können. Die französische Firma Mistral AI und deren gleichnamigen Open-Source-Modelle sind seit Jahren in der AI-Community etabliert und gute Alternativen. Mistral fokussiert sich dabei auf die Entwicklung von besonders kompakten Modellen, die auch auf schwächeren Servern laufen können.

Mistral Modelle sind ebenfalls in verschiedenen Größen wie 3b oder 7b oder sogar bis zu 124b verfügbar und haben eine gute Genauigkeit. Viele der kleineren Modelle wurden zudem unter der Apache 2.0 Lizenz veröffentlicht und sind damit besonders frei in der Nutzung. Die größten Modelle wie Mistral Large benötigen allerdings eine gesonderte Lizenz für die kommerzielle Nutzung.

Fazit

KI-Modelle sind eine Übersetzungsschicht — keine Applikation

Der häufigste Fehler beim Einsatz von AI-Modellen liegt darin, sie als eigenständige Lösung zu betrachten. AI-Modelle übersetzen vage menschliche Sprache in das, was eine Applikation oder Datenbank verarbeiten kann — sie ersetzen aber die Applikation nicht.

Ein gut eingeschränktes Modell, das nur auf drei definierte Funktionen zugreifen darf, kann auch nur innerhalb dieser drei Funktionen Fehler machen. Ein Modell ohne Grenzen — das selbst Rabatte erteilen, E-Mails versenden oder Datenbankeinträge anlegen kann — ist ein unkontrollierbares Risiko. Die Verantwortung für das, was ein Modell tun darf, liegt immer in der Applikationslogik.

Lokale Modelle sind eine echte Alternative

Man ist nicht immer auf große Online-Anbieter angewiesen. Kleine lokale Modelle wie Llama, Mistral oder Deepseek werden jeden Monat besser und können für viele interne Anwendungsfälle bereits heute eingesetzt werden — auf einem normalen Server, ohne teure API-Kosten.

Daten bleiben dabei auf dem eigenen Server, die Kosten sind planbar und man ist nicht von den Entscheidungen eines externen Anbieters abhängig. Wer heute mit einem kleinen, kontrollierten Use Case beginnt, baut nachhaltig bessere Prozesse auf als jemand der immer mit dem teuersten Online-Anbieter quasi “mit Kanonen auf Spatzen schießt”.


KI in Ihrem Unternehmen einsetzen Sie haben einen Use Case im Kopf — wir helfen Ihnen bei der Auswahl des richtigen Modells und der Umsetzung. Kostenlose Erstberatung