Whisper: Wenn die API halluziniert und das lokale Modell liefert

Eine Podcast-Transkription mit Claude Code — und warum lokal besser sein kann als Cloud

Eine Stunde Podcast transkribieren: Whisper lokal gegen die OpenAI API. Die API war schneller — aber erfand ZDF-Untertitel und übersetzte englische Musik ins Deutsche. Ein Praxisvergleich.

Eine Radiosendung, ein Podcast und eine Idee

Gestern hatte ich eine interessante Radiosendung gehört — einen Podcast, den es auch zum Download gab. Das Problem beim Hören: Man kann nicht nachlesen. Wenn bestimmte Stellen interessant waren, wenn man Hintergründe recherchieren will, Namen nachschlagen, Zusammenhänge prüfen — dann ist Text das bessere Medium. Das Wort nachlesen sagt es ja schon.

Das ist nicht nur ein persönliches Komfortproblem. Wer beruflich mit gesprochenen Quellen arbeitet — Journalisten, Rechercheure, Wissenschaftler — braucht verlässliche Transkripte. Ein Podcast-Interview, das als Quelle dienen soll, muß wortgenau vorliegen. Eine Halluzination im Transkript ist kein Formatierungsfehler — das ist ein falsches Zitat.

Also dachte ich mir: Probier’s mal mit Claude Code, der lokalen KI auf meinem Rechner. Die Frage war simpel: Hier ist eine MP3-Datei. Kannst du daraus ein Transkript erstellen?

Die Antwort: Ja klar, das geht.

Also: Leg los.

Claude Code installiert, was er braucht

Claude Code hat dann zuerst einmal die notwendigen Werkzeuge heruntergeladen und installiert — darunter Whisper, das Spracherkennungsmodell von OpenAI, und ffmpeg für die Audio-Verarbeitung. Kein Zutun meinerseits, kein manuelles Konfigurieren. Ich habe gesagt was ich will, und er hat sich organisiert.

Danach startete die Transkription. Und die dauerte. Auf dem MacBook Pro Max war ordentlich Last drauf — die CPU ging auf 40 bis fast 50 Prozent, was bei dieser Hardware eine Menge Rechenleistung ist. Whisper nutzte das medium-Modell, das Deutsch gut beherrscht und einen brauchbaren Kompromiss zwischen Qualität und Geschwindigkeit bietet.

Nach gut zwanzig Minuten lag das Ergebnis vor: eine TXT-Datei, sauber transkribiert, ein Satz pro Zeile. Ordentlich, aber nicht formatiert. Also gleich der nächste Auftrag: Mach ein ordentlich formatiertes PDF daraus. Das ging dann deutlich schneller — die nötigen Tools waren schon von früheren Aufgaben installiert und in Claude Code verfügbar.

Und jetzt mal über die Cloud

Nachdem das erledigt war, dachte ich mir: Wäre eine gute Idee, mal zu testen wie die OpenAI API im Vergleich abschneidet. Die soll ja deutlich schneller sein. Also habe ich einen API-Key eingerichtet — Claude Code hat den direkt als Umgebungsvariable gespeichert — und die gleiche Transkription nochmal über diesen Weg laufen lassen.

Kleine Hürde: Die MP3-Datei war mit 76 MB über dem 25-MB-Limit der API. Claude Code hat sie kurzerhand auf 19 MB komprimiert — Mono, 48 kbps — und hochgeschickt.

Das Ergebnis lag nach etwa drei Minuten vor. Im Vergleich zu zwanzig Minuten lokal.

Dann habe ich Claude Code den Auftrag gegeben, die beiden Versionen zu vergleichen. Und hier wurde es interessant.

Das Ergebnis: Schneller ist nicht besser

Der Vergleich war überraschend deutlich — und nicht zugunsten der Cloud.

Geschwindigkeit: Die API war klar schneller. Drei Minuten gegen zwanzig. Kein Wettbewerb.

Halluzinationen: Die API-Version enthielt neunmal den Satz “Untertitel im Auftrag des ZDF, 2021”. Frei erfunden. In der Sendung kam weder das ZDF vor noch irgendwelche Untertitel. Das lokale Modell: null Halluzinationen.

Englische Musik: Im Podcast lief an einer Stelle englischsprachige Musik. Das lokale Modell erkannte sie korrekt als Englisch. Die API übersetzte den englischen Text ins Deutsche — mit dem Ergebnis eines sinnlosen Textfragments.

Formatierung: Die lokale Version lieferte sauber formatierten Text, ein Satz pro Zeile. Die API-Version: Fließtext ohne Absätze, ohne Struktur.

Deutsch-Qualität: Hier nahmen sich beide nichts. Beide Versionen transkribierten das gesprochene Deutsch auf hohem Niveau.

Vergleichstabelle: Whisper lokal vs. OpenAI API

Aspekt	Lokal (medium)	API (whisper-1)
Dauer	~20 Min.	~3 Min.
CPU-Last	Hoch (40–50%)	Keine
Kosten	Gratis	~$0.36
Halluzinationen	Keine	9× erfundene ZDF-Untertitel
Englische Musik	Korrekt als Englisch erkannt	Ins Deutsche übersetzt (Unsinn)
Formatierung	Sauber, ein Satz pro Zeile	Fließtext ohne Absätze
Deutsch-Qualität	Sehr gut	Sehr gut

Whisper Modellgrößen im Überblick:

Modell	Parameter	RAM-Bedarf	Geschwindigkeit
tiny	39M	~1 GB	Sehr schnell
base	74M	~1 GB	Schnell
small	244M	~2 GB	Mittel
medium	769M	~5 GB	Benutzt
large-v3	1.55B	~10 GB	Langsam, beste Qualität

Das large-v3-Modell wäre nochmal besser bei Eigennamen, Fachbegriffen und Dialekt — dauert dafür 40 bis 60 Minuten für eine Stunde Audio.

Was man daraus lernt

Qualität schlägt Geschwindigkeit. Die API lieferte in drei Minuten ein Ergebnis, das ich hätte nachbearbeiten müssen — erfundene Textpassagen finden und entfernen, fehlende Absätze einfügen, unsinnige Übersetzungen korrigieren. Das lokale Modell brauchte zwanzig Minuten, lieferte aber ein Ergebnis, das direkt verwendbar war.

Das ist ein Muster, das sich durch die KI-Praxis zieht: Die schnellere, bequemere Option ist nicht automatisch die bessere. Manchmal lohnt es sich, dem eigenen Rechner zwanzig Minuten Rechenzeit zu gönnen — und dafür ein sauberes Ergebnis zu bekommen.

Und nebenbei: Claude Code kann mehr als Code schreiben. Er installiert Software, transkribiert Podcasts, formatiert PDFs, richtet API-Keys ein und vergleicht Ergebnisse. Die eigentliche Leistung war nicht die Transkription selbst — die macht Whisper. Die Leistung war, den gesamten Workflow von der Frage bis zum fertigen PDF in einem einzigen Gespräch zu erledigen. Ohne eine Zeile Code selbst zu schreiben, ohne ein Terminal zu öffnen, ohne eine Anleitung zu lesen.

Kenne deine Werkzeuge. Und kenne ihre Grenzen.

Was sich nebenbei ergeben hat

Beim Durchlesen dieses Artikels fiel auf, daß der Accordion-Block — also genau dieses aufklappbare Element — nach dem Öffnen visuell nicht mehr vom umgebenden Text zu unterscheiden war. Sobald der Accordion-Header aus dem sichtbaren Bereich scrollte, fehlte jede Abgrenzung.

Die Lösung: Ein dezenter Hintergrund und eine farbige Akzentlinie links, umgesetzt als Custom-CSS in einer Minute — während der gleichen Chat-Session, in der auch dieser Artikel entstanden ist.

Das ist ein Muster, das sich durch die Arbeit mit diesem System zieht: Ideen entstehen beim Tun, nicht bei der Planung. Der MCP-Server macht es möglich, solche Einfälle sofort umzusetzen — vom Gedanken über den Chat-Auftrag bis zur fertigen Änderung auf dem Server, ohne den Arbeitsfluss zu unterbrechen. Wie dieses KI-gestützte Autoren-System insgesamt funktioniert, zeigt der Beitrag zum KI-gestützten Autoren-System.

Dieser Beitrag basiert auf einer Claude Code Session vom 25. März 2026.