Kurzfassung zu KI-Tools für Besprechungen zur deutschen Transkription

Die besten KI-Tools für deutsche Meetings im Jahr 2026 sind tl;dv, Sembly und HappyScribe, die in einem kontrollierten Test von zehn Tools mit demselben deutschen Video gemeinsam den 48. von 50 Plätzen belegten.

Jeder hatte seine eigenen Stärken: tl;dv durchgehend Transkripte und Zusammenfassungen auf Deutsch, Sembly erzielte die höchste Rohgenauigkeit und HappyScribe erstellte die ausführlichsten schriftlichen Aufzeichnungen.
Ein deutscher Muttersprachler, der alle Transkripte blind und ohne Angabe der Tool-Namen bewertete, setzte dieselben drei an die Spitze und stufte Spinach allein aufgrund der Rohtranskription gleichauf mit ihnen ein.

Der Abstand zwischen dem besten und dem schlechtesten Ergebnis betrug bei demselben neunminütigen Audioausschnitt 42 Punkte. Grain 6 Punkte und lieferte statt Deutsch phonetisches Englisch-Kauderwelsch. Otter 30 Punkte und ließ die Sprache bei einem Durchlauf ohne Vorwarnung komplett weg. Jedes der getesteten Tools gibt auf seiner Website an, Deutsch zu unterstützen; daher sind „unterstützt Deutsch“ und „beherrscht Deutsch gut“ offensichtlich nicht dasselbe Versprechen.

Ich habe jedes Transkript von zwei LLMs und einem deutschen Muttersprachler überprüfen lassen, dem die Namen der Tools nicht bekannt waren.

Fazit: Für Deutsch von Anfang bis Ende nutze tl;dv. 

Inhaltsübersicht

KI-Tools für deutsche Meetings sollten die deutsche Sprache genauso gut beherrschen wie die englische. Unabhängig von der Sprache versprechen die meisten KI-Meeting-Assistenten, dass sie heutzutage eine Vielzahl von Aufgaben übernehmen können – von der Aufzeichnung von Live-Meetings über die Erstellung von KI-Übersichten bis hin zum Vertriebscoaching. Durch die MCP-Integration sind die Möglichkeiten zur Nutzung dieser Inhalte nahezu unbegrenzt. Doch all dies hängt von einer einzigen Sache ab.

Genauigkeit.

Bevor wir loslegen, möchte ich darauf hinweisen, dass ich englischer Muttersprachler bin. Ich spreche zwar recht gut Französisch, aber im Gegensatz zu vielen anderen im tl;dv bin ich kein Polyglott. Und das ist wichtig, denn ich muss zugeben, dass damit ein gewisses Privileg als englischer Muttersprachler einhergeht. Wenn ich Software benutze, „funktioniert“ einfach alles. Alles ist auf meine Sprache ausgerichtet, und ich bin dafür bekannt, dass ich mich ärgere, wenn etwas falsch geschrieben ist oder eine Übersetzung leicht daneben liegt.

Ich kann mir nur ansatzweise vorstellen, wie es ist, wenn Englisch nicht die Muttersprache ist und das, was man vor sich hat, einfach falsch ist. Ganz zu schweigen davon, dass im Geschäftsleben die Kosten für eine fehlerhafte Erfassung oder eine verpfuschte Übersetzung sehr real sind.

Also habe ich mit einer gewissen Neugier, ein wenig Nervosität und dem Wunsch nach Fairness ein Experiment gestartet. Die überwiegende Mehrheit der KI-Tools, die wir hier bei tl;dv testen, tl;dv , über ausgezeichnete Sprachkenntnisse zu verfügen. Manche geben sogar an, mehr als 100 Sprachen zu beherrschen. Eine wahrhaft globalisierte Welt. Aber ist das wirklich so?

Zwei unserer Gründer sind Deutsche, unser Hauptsitz befindet sich in Deutschland, und Deutschland ist ein bedeutendes Zentrum für Wirtschaft, Handel und KI. Deshalb habe ich tl;dv seinen Mitbewerbern eine Aufgabe gestellt: Wie genau sind KI-Notiztools eigentlich bei Deutsch?

Das Ergebnis? Nun, es ist überraschend.

Und wie immer schreibe ich für tl;dv sie bezahlen mich dafür. Aber alles, was ihr danach lest, habe ich mit mehreren großen Sprachmodellen (LLMs) auf Herz und Nieren geprüft und sogar einen deutschen Muttersprachler hinzugezogen, der in keiner tl;dv steht.

Wie ich die KI-Besprechungsassistenten im Jahr 2026 auf ihre Genauigkeit bei der deutschen Transkription getestet habe

Ich habe zehn KI-Tools für Besprechungen jeweils dreimal mit demselben neunminütigen deutschen Video getestet und jedes erzeugte Transkript anhand einer festen 50-Punkte-Bewertungsskala bewertet, die Genauigkeit, deutschsprachige Qualität, Output und Zuverlässigkeit misst.

Ich glaube, wir sind uns alle einig, ganz gleich, welche Sprache wir sprechen, dass „korrekte“ Sprache ein Mythos ist. Menschen sprechen und schreiben auf unterschiedliche Weise. Der Sprachunterricht, den man in der Schule hatte, entspricht NICHT der Sprache, die man im Alltag spricht. Meine mündliche GCSE-Prüfung in Französisch war der Beweis dafür; ich bekam Punktabzug, weil ich zu viel Slang verwendet hatte.

Wie auch immer: Der metaphorische weiße Kittel war angezogen, die Kontrolle hergestellt – es war Zeit, das Experiment durchzuführen.

Die Quelle, die ich ausgewählt habe, musste anspruchsvoll sein. Es durfte kein „einfaches Deutsch lernen“ sein, denn das war a) zu einfach und b) geriet in die Falle, „korrektes“ Deutsch zu vermitteln, das nicht dem entspricht, wie die Leute tatsächlich sprechen.

Ich habe mich für ein „Kurzgesagt“-Video entschieden: neun Minuten und dreiundvierzig Sekunden rasante, fachliche Erzählung, gespickt mit jenen zusammengesetzten Wörtern, für die die deutsche Sprache bekannt ist. Schon der Name selbst ist eine eingebaute Falle. „Kurzgesagt“ ist zwar ein Wort, aber es setzt sich aus „kurz gesagt“ zusammen; daher verrät sich jedes Tool, das es wieder in zwei Teile zerlegt, schon, bevor man eine weitere Zeile gelesen hat.

Damit ist dies der schnellste Test des gesamten Experiments. Behält man „Kurzgesagt“ als ein Wort bei, hat man mit einem einzigen Wort gezeigt, dass man Deutsch verarbeitet, anstatt nur zu raten. Teilt man es in „kurz gesagt“ auf, hat man das Gegenteil bewiesen. Ein einziges Wort – und schon weiß man sofort, ob ein Tool die Sprache tatsächlich versteht oder sich ihr nur annähert.

Ein zusätzlicher Pluspunkt? Es gab auch eine englische Version desselben Videos, was mir bei Bedarf einen klaren Vergleichsmaßstab bot.

Die KI-Tools für Besprechungen, die ich getestet habe

Zehn Tools, in keiner bestimmten Reihenfolge:

  1. tl;dv
  2. Fathom
  3. Fireflies
  4. Versammlung
  5. Jamie
  6. HappyScribe
  7. Otter
  8. MeetGeek
  9. Grain
  10. Spinat

Über einige davon haben wir an anderer Stelle bereits ausführlicher berichtet oder geschrieben; sofern es einen weiterführenden Artikel gibt, finden Sie den Link dazu oben.

Warum drei Durchgänge?

Je drei Durchläufe, insgesamt dreißig Aufnahmen. Und kurz dazu, warum drei: Ich könnte sagen, weil ich gründlich vorgehen wollte – und das tat ich auch –, aber auch, weil der erste Durchlauf eine Lernphase war.

Für Durchgang 1 habe ich alle Besprechungsassistenten gleichzeitig aufgezeichnet, die gemeinsam an derselben Besprechung teilnahmen.

Das war eine schlechte Idee.

Testlauf 1: Alle Bots auf Deutsch
Das reinste Chaos

Die Bots gerieten sich gegenseitig in die Quere, stritten sich um den Ton, und einige der Aufnahmen waren unordentlich und uneinheitlich. Nicht alle, aber darauf werde ich bei den Ergebnissen noch eingehen. Also habe ich diesen Ansatz für die nächsten beiden Durchläufe verworfen.

Infolgedessen wurde Durchlauf 2 zum maßgeblichen Durchlauf für die Bewertung, wobei jedes Tool in einer eigenen Sitzung erfasst wurde und sich keine anderen Bots im Raum befanden. Durchlauf 3 diente der Konsistenzprüfung. Wenn ein Tool einmal alles richtig gemacht und zweimal versagt hat, sagt das mehr aus, als es eine einzelne glückliche Erfassung jemals könnte.

Dieser erste gescheiterte Versuch ist übrigens an sich schon eine Überlegung wert. Wer schon einmal versucht hat, drei Protokollführer in einer Sitzung unterzubringen, weiß, dass sie nicht immer gut miteinander auskommen.

Ein paar Worte zu den Grenzen dieses Tests

Ich habe das in gutem Glauben gemacht und versucht, das zu kontrollieren, was ich kontrollieren konnte.

Dasselbe Video, dieselbe Ausgangsbasis; jedes Tool wurde für die primäre Bewertung in einer eigenen Sitzung aufgezeichnet.

Aber ich möchte ganz offen mit dir darüber sprechen, was ein solcher Test dir sagen kann und was nicht.

Diese Tools arbeiten mit Live-Audio unter realen Bedingungen, und diese Bedingungen ändern sich ständig. Netzwerkausfälle, ein leicht abweichender Audiopfad, ein Modell, das vom Anbieter unbemerkt aktualisiert wurde, die Serverauslastung zu der Tageszeit, zu der ich das Tool gerade ausgeführt habe – all das kann das Ergebnis beeinflussen. Ein Tool, das bei meinen Tests Probleme hatte, könnte bei Ihnen genau ins Schwarze treffen, und ein Tool, das bei mir hervorragend abgeschnitten hat, könnte bei Ihnen einen schlechten Tag haben. Das ist die Natur der Sprach-zu-Text-Technologie im Jahr 2026. Die Ausgabe ist probabilistisch und unterliegt Schwankungen.

Betrachten Sie das Folgende also als ein starkes Indiz, nicht als Garantie. Der Grund, warum ich drei Durchläufe statt nur einem durchgeführt habe, war genau dieser: Auf ein Muster, das sich in jedem Durchlauf wiederholt, würde ich mich verlassen, während ich einen einzelnen guten oder schlechten Wert weniger stark gewichten würde. Ich habe die Einzelfälle dort markiert, wo sie auftraten, damit Sie die konsistenten Ergebnisse von den glücklichen oder unglücklichen unterscheiden können.

Das Wichtigste ist nicht irgendein einzelner Wert. Es geht vielmehr darum: Testen Sie es selbst an Ihren eigenen deutschen Audioaufnahmen, bevor Sie es für etwas Wichtiges einsetzen. Meine neun Minuten sind ein nützlicher Anhaltspunkt. Ihr Meeting ist der eigentliche Test.

Die Ergebnisse: Wie die zehn Tools bei der deutschen Transkription abgeschnitten haben

Ich habe die Tests durchgeführt, und hier sind die Ergebnisse der LLM-Bewertung. Drei Tools lagen mit 48 von 50 Punkten gleichauf an erster Stelle: tl;dv, Sembly und HappyScribe. Grain mit 6 Punkten auf dem letzten Platz.

Die vollständige Aufschlüsselung finden Sie unten.

RangToolGenauigkeit /20Deutsch /15Ausgabe /9Zuverlässigkeit /6Insgesamt /50Fazit
1tl;dv18159648Spitzenklasse
1Versammlung19158648Spitzenklasse
1HappyScribe18159648Spitzenklasse
4Fathom17129644Stark
5Jamie17118642Stark
6Spinat15118640Massiv
7Fireflies1598335Uneinheitlich
7MeetGeek14108335Uneinheitlich
9Otter1198230Unzuverlässig
10Grain00066Fehlgeschlagen

So sehr ich auch gehofft hatte, dass tl;dv die gesamte Konkurrenz in den Schatten stellen und klar gewinnen tl;dv , so ist es doch nicht gekommen.

An der Spitze gab es jedoch ein Unentschieden. Die drei Programme schnitten jeweils in leicht unterschiedlichen Bereichen am besten ab. Sembly war mit 19 von 20 Punkten das „beste“ Programm in Bezug auf die reine Genauigkeit, während tl;dv HappyScribe bei der deutschspezifischen Handhabung, auf deren Messung der gesamte Test ausgelegt war, problemlos mithalten konnten.

Es folgte ein deutlicher Rückgang um vier Punkte auf Fathom, ein wirklich leistungsstarkes Tool, das bei deutschen zusammengesetzten Wörtern und Eigennamen einfach nicht mithalten konnte.

Hinter den ersten vier geht es steil bergab. Aber hier kommt der Clou: 42 Punkte trennten das beste Tool vom schlechtesten – bei demselben neunminütigen Video und in derselben Sprache. „Unterstützt Deutsch“ und „beherrscht Deutsch gut“ sind also doch zwei ganz unterschiedliche Aussagen.

Bevor ich auch nur einen einzigen Test durchführte, vergewisserte ich mich, dass ich tatsächlich Tools testete, die dies belegen konnten. Im Folgenden ist aufgeführt, was jedes dieser Tools auf seiner eigenen Website über Deutsch angibt.

ToolBehauptet er, deutsche Unterstützung zu erhalten?
tl;dvJa. Deutsch ist eine von über 40 Sprachen, in die transkribiert werden kann, und die Plattform selbst ist auf Deutsch verfügbar.
FathomJa. Deutsch ist unter den 38 Sprachen aufgeführt, mit automatisch übersetzten Zusammenfassungen auf Deutsch.
FirefliesJa. Es gibt eine eigene Seite für deutsche Transkriptionen, die eine Genauigkeit von über 90 % verspricht.
VersammlungJa. Deutsch ist auf allen Sprachseiten aufgeführt.
JamieJa. In Deutschland gegründet, an einer deutschen Börse notiert, bietet über 100 Sprachen an.
HappyScribeJa. Spezielle Seiten für die Transkription von Deutsch und Schweizerdeutsch.
OtterJa. Im Hilfe-Center wird Deutsch als unterstützte Sprache für die Transkription aufgeführt.
MeetGeekJa. Deutsch ist im Hilfe-Center, in den Apps und in der API verfügbar.
GrainJa. Deutsch wird in der höchsten Genauigkeitsstufe „Common“ aufgeführt.
SpinatJa. In Deutschland gelistet; gibt an, über 100 Sprachen zu unterstützen.

Jedes einzelne der ausgewählten Tools gibt auf seiner Website ausdrücklich an, dass es Transkriptionen ins Deutsche anbietet.

Ich möchte nur, dass du dir das vor Augen hältst.

Wir haben die KI gefragt, dann haben wir einen Menschen gefragt

Das sind ziemlich interessante Daten, da sind Sie sicher meiner Meinung, aber ich wette, Sie fragen sich:

„Aber Dani, du sprichst doch kein Deutsch? Wie hast du dann herausgefunden, was stimmt und was nicht?“

Ich bin froh, dass du fragst. Und um ehrlich zu sein, hatte es durchaus seine Einschränkungen, kein Deutsch zu sprechen. Ich konnte nicht einfach zuhören, den Text lesen und sagen: „Oh, das ist falsch.“ Aber dadurch konnte ich die Sache auch mit einer gewissen nützlichen Distanz betrachten. Ich hatte kein Gehör, auf das ich mich verlassen konnte, und keinen Instinkt, dem ich schmeicheln musste, also musste ich stattdessen eine Methode entwickeln.

Ich persönlich finde Deutsch übrigens wirklich schwierig. Meine Mutter war eine Polyglottin. Französisch, Arabisch, sogar Griechisch, zusätzlich zu Englisch. Deutsch war die Sprache, an der sie sich die Zähne ausbiss, gerade weil regionale Unterschiede und Dialekte alles verändern konnten. Das ist heutzutage weniger der Fall, in einer Welt, die so vernetzt ist, dass viele regionale Nuancen geglättet werden, aber es gibt immer noch Unterschiede.

Da ich das Deutsche also nicht selbst beurteilen konnte, brauchte ich Richter, die dazu in der Lage waren. Ich habe drei eingesetzt.

Zunächst habe ich die KI-Systeme befragt. Ich habe jedes Transkript mithilfe von Claude anhand meiner Bewertungsrubrik bewertet und anschließend eine zweite Durchsicht mit ChatGPT durchgeführt. Ich habe versucht, die Transkripte isoliert zu betrachten und sicherzustellen, dass sie unvoreingenommen sind; wie unvoreingenommen sie tatsächlich sind, lässt sich heutzutage kaum sagen, aber ich habe ausdrücklich um eine neutrale, unvoreingenommene Ausgabe gebeten. Das Interessante daran ist, dass sie sich nicht vollständig einig waren.

Claude führte die erste gründliche Bewertung durch, wobei er sich streng an die 50-Punkte-Bewertungsskala hielt und die Testtexte vor der Bewertung festlegte. Das reichte nicht für tl;dv klaren Sieg. Damit lag tl;dv mit Sembly und HappyScribe an der Spitze. Ein Unentschieden, kein Sieg.

ChatGPT hatte tatsächlich ein bisschen zu kämpfen, wahrscheinlich, weil ich kürzlich mein ChatGPT-Abonnement gekündigt habe und es sauer auf mich war. Als ich es endlich dazu gebracht hatte, den gesamten Rohtext zu lesen, erklärte es tl;dv klaren Sieger. Ich war etwas misstrauisch und habe nachgehakt und es gebeten, völlig neutral und unvoreingenommen zu sein und meine Gefühle nicht zu schonen, aber es war ziemlich überzeugt. Ich meine, wir nehmen das mal so hin, aber es war viel weniger gründlich als Claude.

Dann habe ich einen Menschen gefragt. Zwei KI-Systeme, die auf der Grundlage meiner Vorgaben arbeiten, sind immer noch nicht in der Lage, die Hausaufgaben meines Kunden zu benoten. Deshalb habe ich einen deutschen Muttersprachler hinzugezogen, der keinerlei tl;dv hat, bei dem die einzelnen Transkripte nicht mit Tags versehen waren und dem es völlig egal war, wie das Ergebnis ausfallen würde.

Nachdem sie mir erzählt hatte, dass ihr„die Augen zu bluten begannen“, nachdem sie alle Ergebnisse gelesen hatte, äußerte sie sich recht pointiert und gab zu einigen der anonymisierten Ergebnisse vernichtendes Feedback. Ihr Feedback deckte sich im Großen und Ganzen mit den LLM-Bewertungen, mit einer auffälligen Ausnahme, auf die ich noch zu sprechen komme.

Was sie tatsächlich entdeckt hat, welche konkreten deutschen Sprachfehler und was mich besonders überrascht hat, darauf werde ich weiter unten eingehen.

Tool für Tool: Wie sich die einzelnen Tools beim deutschen LLM-Test geschlagen haben

Ich werde euch nicht einfach nur die Zahlen nennen und es dabei belassen. Hier ist eine detailliertere Aufschlüsselung dessen, was mir jeder LLM-Prüfer für jedes Tool gegeben hat. Das Gute, das Schlechte und das, bei dem man sich fragt: „Was um alles in der Welt soll das denn?“

Ein kurzer Hinweis zum Lesen dieses Beitrags. Ich habe die wichtigsten Punkte für jeden einzelnen herausgearbeitet, und besonders interessant war dabei nicht nur, wie gut das Tool die Transkription selbst bewältigte, sondern auch, wie es die Ergebnisse präsentierte. Es gab einige bemerkenswerte Ausnahmen, bei denen das Tool die Transkription recht ordentlich erledigte, dann aber eine Zusammenfassung auf Englisch oder eine E-Mail auf Englisch erstellte.

1) tl;dv Transkription

tl;dv das einzige Tool, das von Anfang bis Ende alles auf Deutsch beibehielt. Das Transkript, das Dashboard und die zusammenfassende E-Mail wurden alle in der Sprache ausgegeben, in der das Meeting tatsächlich stattfand. Es gab keinen stillen Wechsel ins Englische in der Zusammenfassungsphase, was, wie Sie sehen werden, bei einigen anderen Tools nicht gelang.

Die Transkription selbst war sauber und gut interpunktiert, und sie kam mit den zusammengesetzten Wörtern und dem Begriff „Kurzgesagt“ ohne Probleme zurecht. Die Zusammenfassung war übersichtlich gegliedert und nicht als Textwand aufbereitet, was wichtig ist, wenn man eine Zusammenfassung nur überfliegt, anstatt das Transkript Zeile für Zeile zu lesen.

Der einzige durchgängige Fehler: „AI-Slop“, der zentrale Ausdruck des Videos, wurde bei jedem einzelnen Durchlauf als „AI-Slog“ wiedergegeben. Kein spezifisch deutschsprachiger Fehler, eher ein Stolperstein bei einem englischen Lehnwort, aber er war in drei von drei Fällen zuverlässig falsch.

Ich möchte hier noch einen kleinen Vorbehalt anbringen. Da tl;dv für tl;dv arbeite, kann tl;dv die Business-Version des Kontos nutzen. Was bedeutet das? Es bedeutet, dass ich bei der Transkription keine Einschränkungen habe und auf alle Funktionen zugreifen kann, die nicht hinter einer Bezahlschranke liegen. Viele der unten aufgeführten Tools habe ich im Rahmen der kostenlosen Testversion ausprobiert, die denselben Funktionsumfang bot. Für den zweiten Testlauf mit tl;dv also tatsächlich ein kostenloses Konto verwendet, das nicht mit meinem tl;dv verknüpft war. Das habe ich absichtlich so gemacht, damit mein Zugriffslevel mir kein besseres Ergebnis liefern konnte. Das Ergebnis? Ich erhielt eine kürzere Transkription, die aber auf Deutsch immer noch korrekt war, was deutlich zeigt, dass die Qualität der Transkription auch in der kostenlosen Version gut war.

Das Ergebnis? Ein leistungsstarkes, zuverlässiges Tool – und das einzige, bei dem ich nicht die Sprache hätte wechseln müssen, um meine eigenen Ergebnisse zu lesen.

2) Sembly – Deutsche Transkription

Sembly erzielte mit 19 von 20 Punkten das beste Transkriptionsergebnis im gesamten Test. Wort für Wort war es laut den LLMs die genaueste Wiedergabe des deutschen Textes und lag damit sogar knapp vor den beiden Erstplatzierten, mit denen es in der Gesamtwertung gleichauf lag.

Zwei Pannen verhinderten, dass es ein voller Erfolg wurde. Erstens kam die zusammenfassende E-Mail auf Englisch, obwohl das Meeting auf Deutsch stattfand – genau die Macke, die ich oben erwähnt habe: die Lieferung in der falschen Sprache. Zweitens, und noch seltsamer, wurde in Durchgang 2 das Wort „Mist“ zensiert. Für Deutschsprachige ist das ein harmloses Wort, etwa so wie „Quatsch“ oder „Verdammt“. Sembly hat es trotzdem mit Sternchen versehen, „****“, was bedeutet, dass ein Schimpfwortfilter bei einem Wort anspringt, das dies wahrscheinlich gar nicht rechtfertigt.

Fazit? Wenn die Genauigkeit der Transkription für Sie oberste Priorität hat, ist Sembly wohl die richtige Wahl. Seien Sie sich jedoch bewusst, dass die Zusammenfassung möglicherweise in einer anderen Sprache verfasst ist als Ihr Meeting.

3) HappyScribe – Deutsche Transkription

HappyScribe war das Tool, das nicht ein einziges Mal auf die eingebaute Falle hereingefallen ist. „Kurzgesagt“ wurde in allen drei Durchläufen als ein Wort wiedergegeben, während die meisten anderen Tools es mindestens einmal in „kurz gesagt“ aufteilten. Außerdem lieferte es eine der fundiertesten und detailliertesten Zusammenfassungen aller getesteten Tools, mit durchgängig klaren Zeitstempeln und Sprecherangaben.

Dafür gibt es einen Grund: HappyScribe hat mit einem Produkt begonnen, bei dem die Transkription im Vordergrund stand. Die Funktion als Meeting-Assistent baut auf einem Kerngeschäft auf, das darauf ausgerichtet ist, Audioaufnahmen in präzisen Text umzuwandeln – einschließlich eines speziellen deutschen Transkriptionsdienstes und sogar eines für Schweizerdeutsch. Die hervorragende Beherrschung der deutschen Sprache ist also kein glücklicher Zufall, sondern genau das, wofür das Unternehmen gegründet wurde.

Fazit? Wenn Ihnen die schriftliche Aufzeichnung selbst, also das Protokoll und eine ausführliche Zusammenfassung, wichtiger sind als der ganze Schnickschnack eines Live-Meetings, ist HappyScribe kaum zu übertreffen.

4) Fathom Transkription

Fathom ein wirklich leistungsstarkes Tool, das mit 44 Punkten und vier Punkten Rückstand knapp außerhalb der Top 3 landete. Die Transkription war gut, aber nicht erstklassig; seine größte Stärke lag jedoch in der Ausgabe. Bei der Qualität der Zusammenfassung erzielte es die volle Punktzahl von 9 von 9 und verwandelte eine etwas schwächere Eingabe in eine klare, nützliche Zusammenfassung.

Schwächen zeigte es jedoch beim deutschspezifischen Sprachgebrauch. Es teilte das Wort „Kurzgesagt“ in der Schlussformel und hatte Schwierigkeiten mit einigen zusammengesetzten Wörtern und Eigennamen, die die drei Spitzenreiter problemlos bewältigten.

Fazit? Ein solider Allrounder und der Beweis dafür, dass eine hervorragende Zusammenfassung ein lediglich gutes Zeugnis kaschieren kann – allerdings noch kein deutscher Spezialist.

5) Jamie – Deutsche Transkription

Jamie war eigentlich das Tool, von dem ich dachte, dass es uns am meisten Konkurrenz machen könnte. Es ist ein in Deutschland ansässiges Unternehmen mit Hauptsitz in Deutschland … Es ist sehr deutsch.

Im Großen und Ganzen hat es seine Aufgabe erfüllt und landete mit Platz 42 solide im Mittelfeld. Es hat die kniffligeren Passagen gut gemeistert, darunter auch den im Video versteckten Text aus dem Juli 2025, an dem schwächere Tools gescheitert sind.

Zwei Fehler. Es gab Zahlen als ausgeschriebene Wörter statt als Ziffern wieder, also „zweitausendfünfundzwanzig“ statt 2025, was zwar technisch gesehen nicht falsch ist, aber beim Scannen sehr mühsam ist. Und im Durchlauf 1 verursachte es den seltsamsten Zahlenfehler des gesamten Tests, indem es die „72 %“ im Video in „270 %“ umwandelte.

Das Ergebnis? Eine solide Lösung, bei der der Datenschutz an erster Stelle steht und die ihrem Heimvorteil größtenteils gerecht wird. Die Fehlerquote ist jedoch ein großes Problem. 

6) Spinat – deutsche Transkription

Spinach hat das Deutsche recht sauber erfasst, wenn auch laut den LLMs nicht so gut wie andere (das solltet ihr euch merken!), und landete bei 40, mit durchgehend korrekten Zeitstempeln pro Zeile. Aber bei jedem einzelnen Durchlauf kam die Zusammenfassung auf Englisch zurück. Ein deutsches Eingabe-Text, eine englische Zusammenfassung als Ausgabe – dreimal von dreimal.

Wie einige andere stieß auch diese Übersetzung auf das englische Lehnwort „AI-Slop“ und gab es im Laufe der verschiedenen Durchgänge mal als „AI-Slob“, mal als „AI-Slot“ wieder. Das ist kein deutscher Fehler im eigentlichen Sinne, sondern eher eine Unsicherheit im Umgang mit dem aus dem Englischen entlehnten Begriff innerhalb des Deutschen.

Das Ergebnis? Die Rohaufnahmen sind in Ordnung, aber die englischen Zusammenfassungen erschweren den Verkauf an deutschsprachige Teams, die ihre Zusammenfassung in ihrer eigenen Sprache wünschen.

7) Fireflies Transkription

Fireflies der eindeutigste Beweis dafür, warum ich davon abgekommen bin, alles auf einmal aufzunehmen. Bei Durchgang 1, als alle Bots in einer einzigen Sitzung zusammengepfercht waren, kam das Deutsche stark verzerrt zurück. Durchgang 2, der separat aufgenommen wurde, war deutlich klarer und bei weitem das beste Ergebnis. Bei Durchgang 3 kam es dann wieder zu Verzerrungen.

Genau diese Schwankungen sind der Grund für die schlechte Bewertung bei der Zuverlässigkeit. Auf ein Tool, das für seine Funktion einen vollkommen ruhigen Raum benötigt, in dem nur ein einziger Bot tätig ist, kann man sich kaum verlassen, da echte Besprechungen selten so ablaufen. Außerdem hat es in einer Zusammenfassung „Bots“ in „Sport“ umgewandelt, was viel über die Audioquelle aussagt, auf der es basierte.

Das Ergebnis? Bei perfekten Bedingungen überzeugt er, bei ungünstigen Bedingungen ist er jedoch unsicher.

8) MeetGeek – Deutsche Transkription

Das Hauptproblem von MeetGeek war Lauf 1, bei dem das gesamte deutsche Video als Englisch wiedergegeben wurde. Nicht übersetzt, sondern phonetisch transkribiert als englische Annäherungen an das, was es gehört hatte – was eine ganz eigene Art von Fehler darstellt. „AI.S.Mob, overfluted the net“ war in etwa das Ergebnis.

Meetgeek: Fehler bei der deutschen Transkription
MeetGeeks Fehler bei der deutschen Transkription

Die Durchläufe 2 und 3 lieferten wieder echtes, brauchbares Deutsch, doch bei beiden war der erste Abschnitt abgeschnitten, sodass der allererste Teil des Videos fehlte.

Das Ergebnis? Zwei ordentliche Durchläufe von drei, getrübt durch einen völligen sprachlichen Zusammenbruch beim ersten und verkürzte Einleitungen bei den übrigen.

9) Otter Transkription

Nach dem ersten Durchlauf habe ich tatsächlich noch einmal nachgesehen, ob Otter Deutsch unterstützt. Die Ausgabe war so völlig daneben – phonetischer englischer Kauderwelsch, wo eigentlich Deutsch hätte stehen sollen, mit einer Zeile wie „We’re a ice lot to again height“ –, dass ich ernsthaft annahm, ich hätte einen Fehler gemacht und ein rein englischsprachiges Tool ausgewählt. Das war jedoch nicht der Fall. Im Hilfezentrum Otterist Deutsch eindeutig aufgeführt, und ich hatte es korrekt ausgewählt. Das Tool hat einfach so sehr versagt.

Otter bei der deutschen Transkription
Bei Otter erstem Durchlauf bin ich nur wegen all der Bots auf Englisch in Panik geraten

Die anderen Durchläufe lieferten zwar Deutsch, zwar durcheinandergewürfelt, aber dennoch als Deutsch erkennbar, was die Sache irgendwie noch schlimmer macht. Ein Tool, das die von dir gewählte Sprache ohne Vorwarnung, ohne Fehlermeldung und ohne Hinweis einfach fallen lässt, ist schwerer zu vertrauen als eines, das ehrlich gesagt schlecht ist, denn du würdest es nicht bemerken, es sei denn, du sprichst die Sprache und beobachtest das Geschehen genau. Es hat auch die wichtigste Zahl des Videos verunstaltet und „über 1.200“ als unleserliches „eins 200“ dargestellt.

Das Ergebnis? Es verspricht deutschen Support, bietet ihn manchmal an und stellt ihn dann ohne Vorwarnung ein. Man kann dem also nicht wirklich trauen.

10) Grain Transkription

Einfach nur: Wow! Grain mir von vornherein Grain einmal ein ordentliches Transkript geliefert. Während die anderen Tools zumindest etwas auf Deutsch ausgegeben haben – ob gut, schlecht oder wirr –, Grain so wenig brauchbaren Text, dass es mir bei einem Durchlauf mitteilte, es gebe „keinen Inhalt, aus dem Notizen generiert werden könnten“. Es konnte das Meeting nicht zusammenfassen, weil es nicht gelungen war, es zu transkribieren.

Was dabei herauskam – über alle drei Durchläufe hinweg – war weder Deutsch noch gar schlechtes Deutsch. Es war phonetisches Englisch-Kauderwelsch. „Google AI fast website Suzanne“ ist ein echter Satz, den das Programm aus dem deutschen Audiomaterial generiert hat. Es benannte seine eigenen Aufnahmesitzungen nach diesem Kauderwelsch, sodass sich der Unsinn auch in den Dateinamen niederschlug.

Auf der Support-Seite Grainwird Deutsch nicht nur als unterstützte Sprache aufgeführt, sondern auch in der obersten Genauigkeitsstufe „Common“ eingestuft, die laut Beschreibung bei der Worterkennung, der Zeichensetzung und bei Eigennamen eine extrem hohe Genauigkeit aufweist.

Das Ergebnis? Die Diskrepanz zwischen dieser Behauptung und dem, was mir tatsächlich präsentiert wurde, ist die größte im gesamten Test. Bei dieser Audioaufnahme Grain kein Deutsch transkribiert. Es hat sich englische Wörter eingebildet und dann aufgegeben.

Zusammenfassungen der GetGrain ideprüfungssitzungen
Was Grain als Namen für das Treffen Grain
Zusammenfassung Grain
„Zusammenfassung“ Grain

Wie hat unser deutschsprachiger Referent die Ergebnisse bewertet?

Die LLMs lieferten also eine ziemlich detaillierte Aufschlüsselung darüber, wie sich die einzelnen Tools im Vergleich zur Bewertungsrubrik geschlagen haben. Doch hier gibt es Nuancen. Das Video wurde so ausgewählt, dass es eine echte Besprechung nachahmt: Hintergrundgeräusche, schnell sprechende Teilnehmer, Bedingungen, die nie ganz perfekt sind. Eine Punktzahl von maximal fünfzig ist eine Sache.

Wie jemand, der die Sprache tatsächlich beherrscht, das Ergebnis bewertet, ist eine andere Frage.

Für diesen Teil des Tests habe ich unserer deutschsprachigen Testerin also ein Rohdokument mit den Transkriptionsergebnissen geschickt, aus dem alle Tool-Namen entfernt worden waren. Keine Beschriftungen, keine Bewertungen, keine Ahnung, welches Ergebnis tl;dv stammte tl;dv welches fehlgeschlagen war. Ich bat sie, jedes Ergebnis auf einer Skala von eins bis zehn hinsichtlich seiner Genauigkeit zu bewerten und mir ihre ungefilterten Kommentare mitzuteilen.

Die Ergebnisse waren ziemlich lustig. Sie waren auch aufschlussreicher als jede Zahl, die ich ihnen zugewiesen hatte. So sah Deutsch tatsächlich aus, als es am anderen Ende herauskam.

Vier Tools schnitten hervorragend ab. HappyScribe, tl;dv, Sembly und Spinach landeten alle in ihrer besten Bewertungsgruppe, meist mit 9ern und 10ern; Satz für Satz wurde als korrekt markiert, kaum eine Anmerkung am Rand. Bei drei dieser vier hatte ich das erwartet. Es waren dieselben Namen, die auch in meiner 50-Punkte-Bewertungsskala ganz oben standen. Aber Spinach? Das war das interessanteste Ergebnis dieses gesamten Tests.

Im Mittelteil war es ziemlich ähnlich: Jamie hielt gut mit, mit 8ern und 9ern, und verlor Punkte vor allem dafür, dass er aus „72 Prozent“ „zweihundsiebzig Prozent“ machte.

Fathom chaotischer. Ihre Bewertungen schwankten je nach Satz zwischen 3 und 10, und der Rand füllte sich mit Anmerkungen: „Das ist kein Wort“, „Wer ist ‚sie‘?“, „Der letzte Satz ist seltsam.“ An einer Stelle Fathom seinen eigenen Namen in das Transkript: „Der Fathom Menschen für Menschen gemacht“, was ein verwirrtes „Ist ‚kurz gesagt‘ die Software? Oder was soll das bedeuten?“ hervorrief.

Und dann der Boden. Grain Otter, MeetGeek, Fireflies Grain ging ihr die Geduld sichtlich aus, und man kann in den Notizen mitverfolgen, wie es dazu kam. Otter ein knallhartes „zu viele Fehler und halb englische Wörter“, dann eine 1/10 beim nächsten Durchlauf mit „außerdem ist das nur zusammengewürfeltes Kauderwelsch“, gefolgt von einem dritten Durchlauf, bei dem das Deutsche komplett aufgegeben wurde und stattdessen gebrochenes Englisch zum Einsatz kam. Fireflies die Bewertung „Das meiste davon ist einfach nur Kauderwelsch.“ MeetGeek versank in einer Endlosschleife aus „Es tut mir leid, es tut mir leid, es tut mir leid.“ Grain produzierte Grain Deutsch. Es erzeugte etwas Phonetisches, das wie Englisch aussah und das man wirklich kaum laut vorlesen konnte, ohne zu lachen.

Sie hat tl;dv nicht tl;dv gesetzt. Sie hat HappyScribe und Spinach gleichberechtigt daneben gestellt. Das Tool, für das ich schreibe, hat den Blindtest mit Bravour bestanden und in den einzelnen Durchläufen die Noten 9, 8 und 9 erhalten, ohne dass es in den Randbemerkungen Kritik gab – aber es ging nicht als klarer Sieger hervor. Genau das war mein Ziel bei diesem Teil des Tests. Ein Juror, der die Logos nicht sehen kann, kann mir keinen Gefallen tun.

Nun zum Spinat.

In meiner 50-Punkte-Bewertungsskala landete „Spinach“ im Mittelfeld. Bei ihrer Blindbewertung gehörte der Film jedoch zu den Gewinnern. Dieser Unterschied ist kein Fehler, aber es lohnt sich, ihn genauer zu erklären.

Spinach transkribiert echtes Deutsch wunderbar, macht danach aber so gut wie nichts Sinnvolles damit. Bei jedem Durchlauf hat es den Ton sauber aufgezeichnet und dann eine Zusammenfassung auf Englisch ausgegeben. Meine Bewertungsrubrik bewertete das gesamte Produkt – das Transkript, die Zusammenfassung und die Präsentation –, wie es ein deutsches Team an einem Montagmorgen tatsächlich vorfinden würde; daher verlor Spinach in allen Spalten Punkte, die sie nie zu Gesicht bekam. Sie hat sich immer nur den Rohtext angesehen. Und der Rohtext war ausgezeichnet.

Man erhält also zwei unterschiedliche Bewertungen für dasselbe Tool. Betrachtet man nur das Transkript, ist Spinach nahezu makellos. Beurteilt man es jedoch als Lösung, die man tatsächlich für seine deutschen Besprechungen einsetzen würde, rutscht es ins Mittelfeld ab. Dieselbe Software, zwei unterschiedliche Ergebnisse – ganz davon abhängig, worauf man den Fokus legt.

Grain es von der einen Seite: Wenn man beim Transkript versagt, versagt man bei allem, was danach kommt. „Spinach“ beweist es von der anderen Seite: Selbst wenn man das Transkript perfekt hinbekommt, kann man als Deutschlerner immer noch zu kurz kommen.

Unten seht ihr einige der witzigen spontanen Kommentare, die unser Deutschsprecher zu den Transkripten abgegeben hat. 

„Das ist mir echt zuwider“
„Meinst du das ernst?“
„Na ja, das ist alles Englisch“
„Das meiste davon ist Unsinn“
„einfach deutsche Wörter, die fälschlicherweise für Englisch gehalten werden“

Warum der Deutsche so viele davon gebrochen hat

Hier ist also die Frage, die sich angesichts dieser Ergebnisse stellt: Wenn alle zehn Tools Deutsch als Sprache angeben und Deutsch keine obskure Sprache ist, sondern eine der am häufigsten gesprochenen Muttersprachen in Europa, wie kommt es dann zu einer Abweichung von 42 Punkten bei demselben neunminütigen Video? Ein Teil der Antwort liegt in der Engine, auf der die einzelnen Tools basieren.
Tool Transkriptions-Engine Angegebene Genauigkeit für Deutsch
tl;dv Standardmäßig proprietäres Modell, mit „Whisper“ in den Tarifen „Business“ und „Enterprise“ Es gibt keine spezifischen Zahlen für Deutschland. tl;dv insgesamt eine Genauigkeit von 96 % tl;dv , ohne Aufschlüsselung nach Sprachen.
Versammlung Deepgram Es wurden keine spezifischen Zahlen für Deutschland veröffentlicht.
HappyScribe Eigenentwickeltes Modell ~85 % bei der maschinellen Übersetzung ins Deutsche, bis zu 99 % bei menschlicher Überprüfung. So lautet die eigene Angabe auf der deutschen Seite.
Fathom Nicht öffentlich bekannt gegeben Keine spezifischen Zahlen für Deutschland. Im Allgemeinen wird von etwa 95 % ausgegangen.
Jamie ElevenLabs Scribe Keine spezifischen Zahlen für Deutschland. Die Märkte sind in über 100 Sprachen „äußerst genau“.
Spinat Nicht öffentlich bekannt gegeben Es wurden keine Genauigkeitsangaben veröffentlicht.
Fireflies AssemblyAI Es wurden keine spezifischen Zahlen für Deutschland veröffentlicht.
MeetGeek Eigenentwicklung (kürzlich aktualisierte Engine) Es wurden keine spezifischen Zahlen für Deutschland veröffentlicht.
Otter Eigenentwickeltes Modell (AISense) Keine spezifischen Zahlen für Deutschland. Die Märkte sind in erster Linie auf Englisch ausgerichtet, und der deutsche Support ist begrenzt.
Grain AssemblyAI Es wurden keine Genauigkeitsangaben veröffentlicht.
Aber bevor man zu viel in diesen Artikel hineininterpretiert, sollte man eines verstehen: Die Engine ist das Rohmaterial, nicht das Endprodukt. Jedes dieser Tools nutzt das zugrunde liegende Sprachmodell und konfiguriert es intern: wie es die Spracherkennung handhabt, wie es auf Akzente abgestimmt ist, welche Nachbearbeitung die Ausgabe bereinigt, ob es auf Breite oder vorrangig auf Englisch kalibriert ist. So können zwei Tools auf derselben Engine laufen und dennoch Welten voneinander entfernt sein. Schauen Sie sich Grain Fireflies an. Beide laufen auf AssemblyAI. Grain eine 6 und produzierte englisches Kauderwelsch. Fireflies eine 35. Gleiche Roh-Engine, 29 Punkte Unterschied. Der Mechanismus war identisch. Was jedes Unternehmen damit gemacht hat, war es nicht.

Handelt es sich hierbei um eine standortbezogene Verzerrung?

An dieser Stelle habe ich kurz innegehalten, um zu überlegen, ob der Standort der Unternehmen dabei eine Rolle spielte. Wieder einmal habe ich mich auf dieses „Privileg der englischen Sprache“ verlassen und mich gefragt, ob die Tools mit der besten Leistung alle aus Europa stammten und diejenigen mit der schlechtesten Leistung ihren Sitz in den USA hatten. Datenschutz und Sicherheit Es gibt sicherlich Bereiche, in denen wir häufig Unterschiede zwischen US-amerikanischen und europäischen Tools feststellen, aber das war hier nicht der Fall. Zwei der drei führenden Tools stammen aus Europa: tl;dv HappyScribe, und beide in Deutschland entwickelten Tools, tl;dv Jamie, kamen gut an. Auf den ersten Blick schien die Theorie also zuzutreffen. Doch sie brach schnell zusammen. Sembly ist ein amerikanisches Unternehmenmit Sitz in New York, das im gesamten Test die mit Abstand höchste Genauigkeitsbewertung erzielte. MeetGeek ist ein europäisches Unternehmen, das in Rumänien gegründet wurde, und es lag ganz unten in der Tabelle. Einer meiner besten Anbieter hatte seinen Sitz in den USA, einer der schlechtesten stammte aus Europa – das Argument, „europäische Tools seien besser auf Deutsch“, trifft also einfach nicht zu. Es geht also nicht darum, woher ein Unternehmen stammt. Es geht darum, ob das Tool wirklich mit Blick auf Nicht-Englischsprachige entwickelt wurde. Ein europäischer Hintergrund ist ein Weg dorthin. Ein weiterer ist, wie Sembly für globale Unternehmen entwickelt zu sein. Die Tools, die von Englisch ausgingen und alles andere als Zusatzfunktion betrachteten, waren diejenigen, die scheiterten – ganz gleich, wo sich ihr Firmensitz befand.
Tool Hauptsitz Region
tl;dv Deutschland Europa
Versammlung New York, USA USA
HappyScribe Barcelona, Spanien Europa
Fathom San Francisco, USA USA
Jamie Deutschland Europa
Spinat Nashville, USA USA
Fireflies San Francisco, USA USA
MeetGeek Bukarest, Rumänien Europa
Otter Mountain View, USA USA
Grain San Francisco, USA USA
Es lag also nicht an German, dass diese Tools versagten. Ausschlaggebend für das Ergebnis waren die Entscheidungen, die auf Basis der Engine getroffen wurden.

Welche deutschen Transkriptionstools sind DSGVO-konform?

Jedes deutsche Transkriptionstool, das ich getestet habe, behauptet, DSGVO-konform zu sein – was so gut wie nichts aussagt. Das ist sozusagen die „Teilnahmetrophäe“ des Datenschutzes. Die beiden Fragen, die tatsächlich darüber entscheiden, ob ein Tool für ein deutsches Team sicher ist, sind die weniger offensichtlichen: Wo werden Ihre Daten verarbeitet, und nutzt das Tool Ihre Besprechungen, um seine KI zu trainieren?
Die meisten US-Tools beantworten die erste Frage mit „Amerika“ und hoffen, dass Sie die zweite nie stellen.

ToolWo Daten verarbeitet werdenTrainiert die KI mit Ihren Daten?Zertifizierungen
tl;dvEU (deutsches Unternehmen, Rechenzentren in der EU)NeinDSGVO; SOC 2 / ISO 27001
VersammlungMöglichkeit eines Wohnsitzes in der EU (US-Unternehmen)Enterprise-Version ausgenommen; niedrigere Stufen können sich abmeldenSOC 2 Typ II, DSGVO (keine ISO 27001)
HappyScribeNur EU (Barcelona, EU-Rechenzentrum)Nicht öffentlich bekannt gegebenSOC 2 Typ II, DSGVO; ISO 27001-zertifiziertes Rechenzentrum
FathomUSAJa, anonymisiert (Opt-out möglich)SOC 2 Typ II, DSGVO, HIPAA (keine ISO 27001)
JamieNur EU (Frankfurt, Deutschland)NeinISO 27001, DSGVO, DORA (kein öffentliches SOC 2)
SpinatNicht öffentlich bestätigtNicht öffentlich bestätigtKonnte öffentlich nicht überprüft werden
FirefliesStandardmäßig USA (privater Speicher in der EU bei Enterprise)Nein (keine Aufbewahrungsfrist bei Lieferanten)SOC 2 Typ II, DSGVO, HIPAA
MeetGeekUSA oder EU (Wohnsitzoption)NeinSOC 2 Typ II, DSGVO
Otter.aiUSAJa, anonymisiertSOC 2 Typ II, DSGVO
GrainUSA (AWS)Nicht öffentlich bestätigtSOC 2 Typ II, DSGVO

Zwei Zeilen verdienen einen genaueren Blick. Fathom Otter Fathom trainieren ihre Modelle anhand von Kundendaten. Sie anonymisieren diese zunächst, und Fathom man sich zwar abmelden, doch standardmäßig tragen Ihre Besprechungen zur Verbesserung ihrer Modelle bei. Bei einem deutschen Gespräch, das alles enthält, was ein Konkurrent nur gerne lesen würde, ist das genau die Art von Formulierung, die ein Datenschutzbeauftragter rot markieren würde.


tl;dv, Jamie, Fireflies und MeetGeek vertreten den gegenteiligen Standpunkt und trainieren nicht mit deinen Inhalten. Jamie und tl;dv am weitesten, indem sie die Verarbeitung innerhalb der EU belassen – Jamie in Frankfurt und tl;dv deutsches Unternehmen auf EU-Infrastruktur. Fireflies Ihre Daten auf US-Servern, es sei denn, Sie zahlen für den privaten Enterprise-Speicher. Wenn Ihre Kriterien „EU-Daten, kein KI-Training, geprüft“ lauten, bleiben tl;dv, Jamie und HappyScribe übrig .

Dann ist da noch die Einwilligung, die in Deutschland nicht als reine Formalität betrachtet wird. Das Aufzeichnen von gesprochenen Äußerungen ohne Zustimmung der betroffenen Person kann nach deutschem Recht strafbar sein, daher ist „der Bot macht einfach mit“ keine Strategie. Die meisten dieser Tools kündigen sich an oder bieten eine Einwilligungsabfrage an. Nur wenige integrieren die Einholung der Einwilligung als eigentliche Funktion, anstatt sie als etwas zu belassen, das man vergessen hat zu tun.

Eine wichtige Anmerkung, um es ganz klar zu sagen: Die Angaben zu „DSGVO-Konformität“ und „Sitz in der EU“ ändern sich je nach Preisstufe und werden stillschweigend aktualisiert. Betrachten Sie diese Tabelle daher als Momentaufnahme und überprüfen Sie das Trust Center des Anbieters, bevor Sie sich festlegen. Das habe ich getan.

Spezifische Erkenntnisse für Deutschland: Die Muster, auf die man achten sollte

Falls du selbst einen solchen Test durchführst (ich persönlich würde das nicht tun, es war unglaublich stressig!) oder einfach nur deine eigenen deutschen Transkripte mit kritischem Blick durchliest, findest du hier die konkreten Fehlermuster, die den Unterschied zwischen den Besten und den Schlechtesten ausmachten. Jedes dieser Muster tauchte bei mehr als einem Tool auf, daher solltest du sie als erste Prüfpunkte betrachten.

Das zusammengesetzte Wort „tell“

Deutsch verbindet Wörter miteinander, und „Kurzgesagt“ ist der eindeutigste Einzeltest in diesem Experiment. Es handelt sich um „kurz gesagt“, das zu einem Wort verschmolzen wurde; jedes Tool, das es als zwei Wörter ausgibt, hat damit gezeigt, wo seine Deutschkenntnisse an ihre Grenzen stoßen. Die drei besten Tools haben es intakt gelassen. Der Großteil der Teilnehmer hat es mindestens einmal getrennt. Die gleiche Schwachstelle zeigt sich auch bei alltäglichen Zusammensetzungen: Ein Tool hat das „Pro-Accounts“ (Profi-Konten) aus dem Skript in „pro Account“ (pro Konto) umgewandelt, was kein Rechtschreibfehler ist, sondern eine völlig andere Bedeutung hat. Suchen Sie sich ein zusammengesetztes Wort und prüfen Sie, ob es erhalten bleibt. Das ist ein 30-Sekunden-Test für das Deutsch eines Tools.

Umlaute und das Eszett

Die Punkte und das ß sind das erste Anzeichen dafür, ob ein Tool Deutsch verarbeitet oder sich nur daran anlehnt. Ein fehlender Umlaut ist kein rein kosmetisches Problem; er kann die Bedeutung des Wortes verändern, und Ersetzungen durch ae/oe/ue oder ss verraten, dass die Engine auf eine englische Tastatur zurückgreift. Die leistungsstarken Tools haben sie durchgehend beibehalten. Die schwächeren haben sie als optional behandelt.

Der Fehlalarm des Schimpfwortfilters

Ein Tool hat das Wort „Mist“ zu „****“ zensiert. Für einen Deutschsprachigen ist das harmlos, eher „Quatsch“ als etwas, das man normalerweise piepen würde. Ein auf Englisch abgestimmter Filter, der bei einem harmlosen deutschen Wort anspringt, zeigt, dass das Tool von Regeln gesteuert wird, die nie deaktiviert wurden. Achte auf Sternchen, die kein Deutschsprachiger erwarten würde.

Zahlen in Worten und die Umkehrung

Ein Tool schrieb Zahlen in Wortform aus, „zweitausendfünfundzwanzig“ statt 2025 – zwar korrekt, aber beim Scannen eine Qual. Schlimmer war der Fehler, der aus den „72 Prozent“ im Skript „270 Prozent“ machte, und der, der „über 1200“ in „eins 200“ verzerrte. Das sind sachliche Fehler, keine Übertragungsfehler, und sie finden ihren Weg in Zusammenfassungen und schließlich in Entscheidungen. Überprüfen Sie jede Zahl von Hand.

Die eigentliche Ursache: Suchmaschinen, die auf Englisch ausgerichtet sind, wurden auf Deutsch verwendet

Fast jedes der oben genannten Muster lässt sich auf eine einzige Ursache zurückführen. Eine Engine, die standardmäßig von Englisch ausgeht, greift immer wieder auf englische Gewohnheiten zurück: den Schimpfwortfilter, die Vermutung von Lehnwörtern, den phonetischen Fallback, wenn sie den Faden verliert. Deshalb tauchte „AI-Slop“ in verschiedenen Tools als „Slog“, „Slob“ und „Slot“ wieder auf. Der deutsche Kontext drumherum war in Ordnung. Der darunterliegende englische Instinkt kam jedoch immer wieder zum Vorschein.

So wählen Sie ein KI-Tool für Meetings auf Deutsch aus

Dieser Test ist besonders wichtig, wenn Sie Meetings auf Deutsch abhalten und die Aufzeichnung verlässlich sein muss: deutschsprachige Teams, EU-Unternehmen, die in ihrer eigenen Sprache arbeiten, alle, die Transkripte oder Zusammenfassungen an deutschsprachige Kunden liefern, sowie DSGVO-bewusste Käufer, denen es bereits wichtig ist, wohin ihre Daten gelangen. Am wenigsten wichtig ist er für eine Gruppe: diejenigen, die davon ausgegangen sind, dass jedes Tool Deutsch beherrscht, nur weil es Englisch beherrscht. Genau diese Annahme wird am Ende der Tabelle bestraft.

Für alle anderen hängt die Wahl davon ab, was für euch am wichtigsten ist, denn die vier Gewinner haben die Höchstpunktzahl jeweils auf unterschiedliche Weise erreicht.

Brauchst du alles auf Deutsch? tl;dv die erste Wahl. Es war das einzige Tool, das durchgehend auf Deutsch blieb – Transkript, Zusammenfassung und Dashboard –, ohne dass es in der Zusammenfassungsphase still und leise auf Englisch umgeschaltet wurde. Das ist das Tool, mit dem ich mein Geld verdiene, und dennoch musste es sich mit einem Unentschieden begnügen, statt zu gewinnen. Nimm die Empfehlung also mit der nötigen Vorsicht.

Sie benötigen eine möglichst genaue wortgetreue Aufzeichnung? Sembly erzielte im Test die höchste Punktzahl bei der wortgetreuen Wiedergabe.** Beachten Sie jedoch, dass die Zusammenfassungs-E-Mail möglicherweise auf Englisch versendet wird, auch wenn das Meeting nicht auf Englisch stattfand.

Sie benötigen die ausführlichste schriftliche Aufzeichnung? Dann ist HappyScribe kaum zu übertreffen. Das Tool hat seinen Ursprung im Bereich der Transkription und liefert die detailliertesten und am besten strukturierten Zusammenfassungen aller getesteten Lösungen – genau das, was Sie brauchen, wenn der Text selbst das Endergebnis ist.

Du suchst die authentischste natürliche Form der deutschen Sprache? Dann ist „Spinach“ nach unseren Tests die richtige Wahl für dich; das einzige Problem ist, dass es nur im Transkript vorkommt. Möglicherweise habe ich bei der Anmeldung „Englisch“ ausgewählt; ich glaube das aber nicht, da ich bei der Registrierung ausdrücklich Deutsch gewählt habe (Deutsch für diejenigen, die wirklich darüber nachgedacht haben – wir sehen euch!), aber offenbar wollte die Benutzeroberfläche unbedingt, dass ich alles auf Englisch sehe. 

Drei gleiche Punktestände und ein Urteil eines Muttersprachlers: vier verschiedene Aufgaben. Finde das passende Tool für deine Anforderungen.

Die besten KI-Tools für Meetings auf Deutsch: Das Fazit

Vier Tools haben sich in unseren Tests als die besten erwiesen, und das Entscheidende dabei ist, dass sie sich nicht durch Gleichwertigkeit auszeichneten. tl;dv Deutsch von Anfang bis Ende, Sembly für die genaueste Rohaufzeichnung, HappyScribe für die ausführlichste schriftliche Mitschrift und Spinach erhielt den Zuschlag von unserem Deutschsprecher. Es gibt kein einziges bestes KI-Meeting-Tool für deutsche Besprechungen. Es gibt das richtige Tool für die jeweilige Aufgabe und ein klares Schlusslicht, das man vermeiden sollte.

Ich schreibe für tl;dv, werde dafür bezahlt und ging davon aus, dass sie klar gewinnen würden. Das taten sie nicht. Der strengste Juror des gesamten Tests, ein deutscher Muttersprachler, der kein einziges Logo erkennen konnte, hat sie nicht auf den ersten Platz gesetzt. Ein Test, der den Auftraggeber nicht in Verlegenheit bringen kann, ist kein Test, sondern Werbung. Dieser hier hat seine Schärfe bewahrt, und das ist der einzige Grund, warum das Ergebnis für Sie von Wert ist.

Wenn du eine Lösung suchst, bei der überall Deutsch gesprochen wird, dann ist tl;dvgenau das Richtige für dich. Mit dem kostenlosen Tarif kannst du den Dienst in einem echten Meeting testen, bevor du dich festlegst. Probier ihn bei deinem nächsten Telefonat auf Deutsch aus und schau, ob die Zusammenfassung in der richtigen Sprache zurückkommt. Neun Minuten echtes Audio sagen mehr als jede Funktionsbeschreibung.

FAQ: KI-Tools für Besprechungen zur deutschen Transkription

Die besten KI-Tools für deutsche Besprechungen sind tl;dv, Sembly und HappyScribe, die in einem kontrollierten Test mit zehn Tools anhand desselben deutschen Videos alle 48 von 50 Punkten erzielten.

tl;dv das einzige Tool, das das Transkript und die Zusammenfassung durchgehend auf Deutsch bereitstellte.

Unser Experiment hat gezeigt, dass nicht alle Tools gleichbleibende Ergebnisse lieferten. Bei diesem Test wiesen zehn Tools, die alle mit deutscher Sprachunterstützung werben, bei demselben neunminütigen deutschen Video eine Streuung von 42 Punkten auf einer Skala von 50 auf. Einige erfassten Deutsch nahezu fehlerfrei. Andere lieferten phonetischen englischen Kauderwelsch oder wechselten komplett die Sprache. Deutsche Sprachunterstützung und Genauigkeit bei der deutschen Übersetzung sind nicht dasselbe, und der Ruf eines Tools im Englischen sagt nur wenig darüber aus, wie es mit Deutsch umgeht.

Grain Otter bei den Tests am schlechtesten Otter . Grain 6 von 50 Punkten, gab statt Deutsch phonetischen englischen Unsinn aus und meldete bei einem Durchlauf, es gebe keinen Inhalt zum Zusammenfassen. Otter 30 Punkte und verzichtete bei einem Durchlauf gänzlich auf Deutsch, wobei es gebrochenes Englisch ohne Fehlermeldung oder Warnung ausgab. Beide führen Deutsch als unterstützte Sprache auf.

Die leistungsstärksten Tools können das zwar, viele andere jedoch nicht zuverlässig. Im Deutschen werden Wörter zu langen Zusammensetzungen verschmolzen, und der Markenname „Kurzgesagt“ erwies sich als eindeutiger Test: Schwächere Tools zerlegten ihn in „kurz gesagt“ und entlarvten damit ein oberflächliches Deutschmodell. Umlaute (ä, ö, ü) und das Eszett (ß) sind ein zweites Indiz, da Tools, die ae, oe, ue oder ss ersetzen, Deutsch eher approximieren als verarbeiten.

Die Tools schalteten auf Englisch um, da ihre zugrunde liegende Sprachverarbeitungs-Engine standardmäßig auf Englisch eingestellt ist und andere Sprachen als zusätzliche Einstellung behandelt. Wenn die Engine bei den deutschen Audioaufnahmen an Sicherheit verlor, griff sie auf englische Gewohnheiten zurück, transkribierte phonetisch, wandte englische Schimpfwortfilter an oder erstellte die Zusammenfassung auf Englisch, selbst wenn das Transkript auf Deutsch war. Dieses „Englisch-zuerst“-Design, und nicht die Schwierigkeit der deutschen Sprache an sich, erklärt den Großteil der Fehler bei den Tests.

Ja. In diesem Test tl;dv mit 48 von 50 Punkten tl;dv ersten Platz und war das einzige der zehn Tools, das das Transkript, die Zusammenfassung und das Dashboard von Anfang bis Ende auf Deutsch beibehielt, ohne in der Zusammenfassungsphase auf Englisch umzuschalten.

Eine deutsche Muttersprachlerin, die die Transkripte blind bewertete, ohne dass die Namen der Tools sichtbar waren, stufte das Programm in ihrer höchsten Bewertungsstufe ein, zusammen mit HappyScribe und Spinach.

Nicht unbedingt.

Als tl;dv mit einem kostenlosen statt einem kostenpflichtigen Konto getestet tl;dv , fiel das Transkript zwar kürzer aus, war aber auf Deutsch dennoch korrekt, sodass die Qualität der Kern-Transkription auch ohne Abonnement gut war. Mehrere andere Tools in diesem Test wurden ebenfalls mit kostenlosen Testversionen durchgeführt, die denselben Funktionsumfang boten. Der Tarif wirkte sich stärker auf die Länge und die Funktionen aus als auf die reine Genauigkeit im Deutschen; da sich das Angebot jedoch häufig ändert, sollten Sie den aktuellen kostenlosen Tarif prüfen, bevor Sie sich darauf verlassen.

Ja. Die meisten der von mir getesteten Tools nehmen Deutsch im kostenlosen Tarif auf und transkribieren es, aber der Haken liegt in den Begrenzungen. Der kostenlose Tarif tl;dvnimmt Deutsch auf und transkribiert es. Fathom am großzügigsten bei der Rohaufnahme – kostenlos und unbegrenzt –, allerdings werden Ihre Daten standardmäßig in den USA gespeichert und tragen zum Training der Modelle bei. Die kostenlosen Tarife von Fireflies 800 Minuten Speicherplatz), MeetGeek (drei Stunden pro Monat) und Otter schneller ausgeschöpft, als dir lieb ist. Für ein deutsches Team, das einen kostenlosen, EU-basierten Dienst ohne KI-Training an einem Ort sucht, tl;dv der einzige kostenlose Tarif, der alle drei Kriterien erfüllt.

Die Zeitstempel stimmten bei allen Tools überein, die brauchbare deutsche Ergebnisse lieferten; dieser Teil ist also zuverlässig. Die drei Tools, die Deutsch einwandfrei verarbeiteten – tl;dv, Sembly und HappyScribe – lieferten deutsche Transkripte mit korrekten Zeitstempeln und ohne Formatierungsabweichungen. Wenn eine genaue Sprecherunterscheidung im Deutschen zwingend erforderlich ist, testen Sie das Tool zunächst an einem eigenen Gespräch mit mehreren Sprechern.

Nicht so zuverlässig wie bei Hochdeutsch, und gerade bei Schweizerdeutsch fangen die meisten Tools an zu raten. Mein Test basierte auf einer Erzählung in Hochdeutsch, daher habe ich Dialekte nicht direkt bewertet. Veröffentlichte Vergleichstests beziffern die Genauigkeit für Österreichisches Deutsch auf etwa 91 bis 93 Prozent und für Schweizerdeutsch auf nur 80 bis 87 Prozent – das ist in etwa der Punkt, ab dem man dem Transkript nicht mehr trauen sollte. HappyScribe ist das einzige der zehn Tools, das spezielle Unterstützung für Schweizerdeutsch als namentlich genannte Funktion vermarktet – allerdings ist das deren Behauptung, nicht mein Testergebnis. 

Es kommt darauf an, was du kaufst. tl;dv, Sembly und HappyScribe lagen in meinem Test bei der Genauigkeit gleichauf, sodass du rein in Bezug auf die Qualität der deutschen Übersetzung keinen Unterschied zwischen ihnen bezahlst. Die Entscheidung hängt von deinen Prioritäten ab: Entscheide dich für tl;dv dir eine gute deutsche Übersetzung, ein brauchbarer Gratis-Tarif, die Datenverarbeitung in der EU und der Verzicht auf KI-Training wichtig sind. Entscheide dich für Fathom dir die kostenlose, unbegrenzte Aufzeichnung wichtiger ist als der Speicherort deiner Daten. Entscheide dich für HappyScribe, wenn du die breiteste Sprach- und Dialektabdeckung benötigst. Es gibt hier keinen einzigen Gewinner mit dem besten Preis-Leistungs-Verhältnis, sondern nur den Anbieter, der am besten zu deinen Prioritäten passt.