In diesem Artikel möchte ich von den Möglichkeiten berichten, wie sich die Grenzen künstlicher Intelligenz in handelsüblichen Sprachgeneratoren mit ein paar einfachen Tricks erweitern lassen. Ich arbeite seit einigen Jahren sehr zufrieden mit dem Sprachgenerator von Speechelo. Dieser Anbieter hat leider nur eine einzige deutsche Stimme, die von KI-Algoritmen gesteuert wird, weshalb Speechelo mit zu den günstigsten Anbietern des gesamten Marktes gehört. Andere Sprachgeneratoren besitzen längst mehr KI-gesteuerte Stimmen, doch Speechelo ist der einzige Anbieter, der in seiner PRO-Version keine zeitliche Beschränkung vorschreibt. Das heißt im vierteljährlich zu entrichtenden Beitrag (von derzeit 37 Euro) sind theoretisch unendlich viele Sprachgenerierungen und Downloads enthalten. Und das kann, wie Sie in diesem Artikel lesen werden, eine nicht unerhebliche Rolle spielen.
Es ist interessant, dass die weibliche Stimme, die ich in Speechelo zur Sprachausgabe meiner virtuellen Reiseführungen verwende, in nahezu allen Sprachgeneratoren enthalten ist. In Speechelo heißt sie Lina, bei D-ID Katja, anderswo Christina, aber die Stimme ist immer die gleiche. Stimmen, die nicht von KI-Algoritmen gesteuert werden, kann man vergessen. Die hören sich im besten Fall an wie die automatischen Durchsagen der Deutschen Bahn und das will man ja niemandem zumuten. Aber selbst die KI-gesteuerten Stimmen haben so ihre Tücken und Macken, an denen sich ungefähr abschätzen lässt, wie schwer es sein muss, unsere deutsche Sprache zu erlernen.
Zum Einen kommen die KI-gesteuerten Stimmen fast alle bei denglischen Begriffen ins Scheudern. Denn dass man eingedeutschte Wörter wie Smartphone, PC oder auch kommerzielle Internetadressen durchaus deutsch aussprechen kann, verstehen die KI-Algoritmen nicht. Das gleiche gilt für lateinische oder griechische Fachtermini sowie für ausländische Ortsnamen, die dann wiederum deutsch ausgesprochen werden, was sich zum Teil wirklich grotesk anhört. Zum Anderen haben KI-gesteuerte Stimmen immer wieder Probleme mit der korrekten Betonung, was sich vor allem bei Doppel- und Fremdwörtern bemerkbar macht. Hier mal ein einfaches Beispiel. Der vorzulesende Text lautet: „Einer der interessantesten Räume in der Rekonstruktion der Grotte di Catullo ist das zentrale Peristyl.“
Keine Frage, es ist schwer zu verstehen, warum das STR in Straße mit SCH ausgesprochen wird, das STR in Rekonstruktion aber nicht. In der Mitte des Satzes können Sie hören, wie aus dem italienischen Genitiv „di“ ein „di-i“ wird und beim Fremdwort „Peristyl“ fliegt die Sprachsoftware endgültig aus der Bahn. Das ist natürlich blöd, zumal wenn man für diesen Sprachgenerator Geld zahlt. Aber es ist auch kein Beinbruch, denn das SCH-Problem lässt sich durch Einfügen eines N und eines SZETT beheben, die sonderbare Erweiterung des italienischen Genitivs durch Einfügen eines E und die Buchstabierung des Fremdwortes durch eine deutsche Umschrift. Der korrigierte Satz liest sich dann folgendermaßen: „Einer der interessantesten Räume in der Rekonnßtruktion der Grotte die Catullo ist das zentrale Perris Tühl.“ Das sieht zwar total bescheuert aus, hört sich dann vorgelesen aber so an:
Ein weiteres Beispiel zeigt, wie sich falsche Betonungen und Internetadressen durch einfache Umschriften beheben lassen. Der vorzulesende Text lautet: „Von hier aus blickt man weit über die Bucht von Desenzano. Weitere Informationen finden Sie auf der interaktiven Webseite grotte-di-catullo.com.“
Das abschließende „komm!“ ist zwar lustig, aber natürlich nicht sonderlich hilfreich. Und der Ort Desenzano hört sich fast an wie Besenzano, wobei die Dehnung des hinteren A’s gar nicht schlecht ist. Aber die (deutsche) Betonung auf dem ersten E ist natürlich falsch. Mit der Umschrift „Von hier aus blickt man weit über die Bucht von Desän-Zahno.“ lässt sich das Problem relativ gut beheben. Die Internetadresse muss man ebenfalls ausschreiben in „Grotte die Catullo dott komm“. Und wenn man das macht, passiert etwas sehr merkwürdiges: Die Stimme wechselt bei der Webadresse plötzlich in die englische Aussprache:
Diese englische Aussprache lässt sich durch Änderung eines einzigen Buchstabens rückgängig machen. Mit Änderung der Schreibweise von „Grotte die Catullo“ zu „Grotte die Katullo“ nämlich wechselt die Aussprache wieder zu deutsch:
Mit ein bisschen Übung hat man das schnell raus. Und mit der Zeit lernt man auch, wie sich durch Setzen oder Weglassen von Kommata zusätzliche Pausen einfügen oder vermeiden lassen. Natürlich lässt sich das auch über die Stimmregler des Programms steuern, aber die dort vorgenommenen Einstellungen gelten immer für den ganzen Text, während man mit den Kommata unabhängig bleibt. Allerdings bedeutet jede Änderung eine neue Bearbeitung, eine neue Online-Zeit und einen neuen Download. Die rechts stehende Abbildung zeigt einen guten Durchschnitt aller notwendigen Änderungen an einem anderthalbminütigen Vorlesetext. Und genau das ist der Trick, mit dem die meisten anderen Sprachgeneratoren ihr Geld verdienen. Denn bei so vielen notwendigen Änderungen ist das Ende des zur Verfügung stehenden Download und Zeitfensters ganz schnell erreicht. Abgerundet mit einer unaufdringlichen Musik und ein paar Hintergrundgeräuschen lassen sich solche Texte wie Mosaiksteine zu einem kunstvollen Gesamtbild zusammenbauen: