Hintergrund
KI-Modelle im Überblick — LLM, Reasoning, Multimodal und mehr
Was Large Language Models sind, welche Typen es gibt und was das für die Praxis bedeutet
Was ist ein LLM? Welche Typen von KI-Modellen gibt es — Standard, Reasoning, Multimodal, Code, Embedding? Ein Überblick für Praktiker.
Was ist ein LLM?
Ein Large Language Model (LLM) ist ein Sprachmodell das auf Milliarden von Textdokumenten trainiert wurde. Es erkennt Muster in Sprache und kann daraus neue Texte erzeugen — Antworten auf Fragen, Zusammenfassungen, Übersetzungen, Code, kreative Texte. Die bekanntesten Beispiele sind ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google) und Mistral.
Ein LLM versteht Text nicht im menschlichen Sinn. Es berechnet Wahrscheinlichkeiten: Welches Wort kommt als nächstes, gegeben alles was vorher steht? Die Qualität dieser Vorhersage ist inzwischen so hoch, daß die Ergebnisse oft nicht von menschlich geschriebenem Text zu unterscheiden sind.
Nicht jedes Modell ist gleich
LLM ist der Oberbegriff. Darunter gibt es verschiedene Architekturen und Spezialisierungen die sich in ihren Fähigkeiten deutlich unterscheiden.
Standard-LLMs — Konversation und Textgenerierung
Die Basisklasse. Eingabe: Text. Ausgabe: Text. Gut für Konversation, Zusammenfassungen, Analyse, kreatives Schreiben, Übersetzungen.
Beispiele: Claude Sonnet 4.6 und Haiku 4.5 (Anthropic), GPT-5.4 und GPT-5.4 Mini (OpenAI), Gemini 3 Flash (Google), Mistral Large, Llama (Meta, Open Source).
Kontextfenster bestimmt, wieviel Text das Modell gleichzeitig verarbeiten kann. Claude Opus 4.6 und Sonnet 4.6 verarbeiten bis zu 1 Million Tokens — das entspricht mehreren Büchern in einer einzigen Sitzung. GPT-5.4 arbeitet ebenfalls mit bis zu 1 Million Tokens (im Codex/API-Modus, Standard: 272.000), Gemini 3 Pro mit bis zu 2 Millionen.
Reasoning-Modelle — Denken vor dem Antworten
Erweiterte LLMs mit einer zusätzlichen Denkphase. Bevor das Modell antwortet, zerlegt es das Problem in Schritte, prüft Zwischenergebnisse und korrigiert sich selbst. Das dauert länger, liefert aber bei komplexen Aufgaben bessere Ergebnisse.
Beispiele: Claude Opus 4.6 (Adaptive Thinking), OpenAI o3 und o4-mini, DeepSeek R1.
Wann relevant: Mathematische Probleme, logische Schlussfolgerungen, mehrstufige Analysen, Programmierung mit komplexer Logik. Für einfache Konversation ist ein Standard-LLM schneller und günstiger.
Multimodale Modelle — mehr als nur Text
Modelle die neben Text auch Bilder, Audio oder Video verarbeiten können. Man kann ein Foto hochladen und fragen was darauf zu sehen ist, ein PDF analysieren lassen oder ein Diagramm beschreiben lassen.
Beispiele: GPT-5.4 (Text + Bild + Audio + Computer Use), Gemini 3 (Text + Bild + Audio + Video), Claude Opus 4.6 (Text + Bild + PDF).
Wichtig: Die meisten modernen LLMs sind inzwischen multimodal — die Grenzen zwischen den Kategorien verschwimmen.
Code-Modelle — spezialisiert auf Programmierung
LLMs die auf Programmiercode feinabgestimmt sind. Sie schreiben, analysieren und debuggen Code in dutzenden Programmiersprachen.
Beispiele: Claude Code (Anthropic), GitHub Copilot, Cursor, OpenAI Codex (integriert in GPT-5.4), Codestral (Mistral).
In der Praxis: Die meisten aktuellen Standard-LLMs können ebenfalls programmieren. Spezialisierte Code-Modelle sind schneller und präziser bei reinen Programmieraufgaben.
Embedding-Modelle — Text in Zahlen verwandeln
Eine andere Klasse: Diese Modelle erzeugen keine Texte, sondern rechnen Text in numerische Vektoren um. Zwei ähnliche Texte ergeben ähnliche Zahlenreihen — damit kann man semantische Suche bauen, Dokumente vergleichen oder Wissensdatenbanken durchsuchbar machen.
Beispiele: OpenAI text-embedding-3, Cohere Embed, Voyage AI.
Anwendung: Die unsichtbare Infrastruktur hinter RAG-Systemen (Retrieval-Augmented Generation), semantischer Suche und Wissensdatenbanken. Kein Chatbot, aber oft die Grundlage dafür daß ein Chatbot die richtigen Dokumente findet.
Small Language Models (SLMs) — klein aber gezielt
Kompaktere Modelle für spezifische Aufgaben. Laufen auf dem eigenen Rechner, ohne Cloud-Anbindung — relevant für Datenschutz und Offline-Nutzung.
Beispiele: Phi (Microsoft), Gemma (Google), Llama 3.2 (Meta, kleine Varianten).
Typischer Einsatz: Lokale Textverarbeitung, Zusammenfassungen, einfache Analyse — überall wo Daten das Gerät nicht verlassen sollen.
Was bedeutet das für die Praxis?
Für die meisten Anwendungen braucht man genau ein Modell: Ein aktuelles Standard-LLM mit multimodalen Fähigkeiten. Claude, GPT-5.4 oder Gemini 3 decken 90% der typischen Aufgaben ab.
Die Wahl des Modells ist weniger entscheidend als die Art wie man es einsetzt. Ein mittelmäßiges Modell mit einem guten Prompt liefert bessere Ergebnisse als ein Spitzenmodell mit einem schlechten Prompt.
Der Prompt macht die Musik — nicht das Modell.
Glossar
| Begriff | Erklärung |
|---|---|
| LLM | Large Language Model — Oberbegriff für grosse Sprachmodelle |
| Token | Texteinheit die das Modell verarbeitet. Faustregel: 1 Token ≈ 0.75 Wörter |
| Kontextfenster | Maximale Textmenge die ein Modell gleichzeitig verarbeiten kann |
| Reasoning | Erweiterung die das Modell nachdenken lässt bevor es antwortet |
| Multimodal | Fähigkeit, neben Text auch Bilder, Audio oder Video zu verarbeiten |
| Embedding | Umwandlung von Text in numerische Vektoren für Ähnlichkeitsvergleiche |
| RAG | Retrieval-Augmented Generation — Kombination aus Suche und Textgenerierung |
| SLM | Small Language Model — kompaktes Modell für lokale oder spezialisierte Nutzung |
| Prompt | Die Eingabe an das Modell — Frage, Anweisung oder Kontext |
| Fine-Tuning | Nachtraining eines Modells auf spezifische Daten oder Aufgaben |
| Open Source | Modelle deren Gewichte öffentlich verfügbar sind (z.B. Llama, Mistral) |
| Inference | Der Vorgang der Textgenerierung — das Modell rechnet eine Antwort |
| Halluzination | Wenn ein Modell plausibel klingende aber falsche Informationen erzeugt |
| Temperature | Parameter der die Kreativität der Ausgabe steuert (niedrig = vorhersagbar, hoch = kreativ) |
| System Prompt | Versteckte Anweisung die das Verhalten des Modells grundlegend konfiguriert |
Stand: April 2026 — KI-Modelle entwickeln sich schnell. Angaben zu Kontextfenstern und Modellnamen können sich ändern.