KI - Text zu gesprochenen Worten

What do you think?

Send us feedback!


Hinweis: Mit AF markierte LInks sind affiliate Links. dadurch erhalte ich bei Bestellungen einen Bonus, das hat für den Besteller keinen Einfluss, keine Zusatzkosten usw.


Es kann mehrere Gründe geben, warum man Inhalte nicht mit der eigenen Sprache aufnimmt, um sie z.B. in Videos zu verwenden, obwohl das viel einfacher sein kann:

z.B. Die eigene Aussprache ist nicht so klar oder unregelmässig in der Tonlage. Manchmal sollte es aber vielleicht eine weibliche Stimme sein und anderes.

Ich habe deshalb auch angefangen mit einem KI-Text zu Sprache Programm zu arbeiten. Mir gefällt das Programm Eventlaps (AF-dir) sehr gut.
Es muss jeweils eingestellt werden in welcher Sprache man arbeitet, auch der Sprecher/die Sprecherin kann gewählt werden. Die Stimmen unterscheiden sich nicht nur in der Tonlage, sondern ich empfinde die eine auch strenger und andere lockerer. Vergisst man bei einem deutschen Text auf "German" umzustellen, klingt es Deutsch mit amerikanischem Akzent.
Erste Tests kann man kostenlos machen (Stand 10.05.24). Unterdessen habe ich ein Abo für 5 $/Monat, mit dem ich 30'000 Zeichen sprechen lassen kann (ich habe es noch nicht genau kontrolliert, aber ich glaube, die Leerzeichen zählen auch).

Das klingt nach viel, aber ich habe zuerst Mal viel für Tests verwendet. Für das Video unten habe ich rund 1400 Wörter mit 11'034 Zeichen (inkl. Leerzeichen) aufgebraucht, aber vorher schon den Rest zum es zu Testen und zu korrigieren. Die Zeichenanzahl des Textes kann man ja im Word auslesen.
Probleme sind teilweise Abkürzungen wie "z.B.", "usw." aber auch Zeichen wie "/". Diese habe ich dann ausgeschrieben. Aber trotz aller Mühe habe ich im Video noch wenige Fehler, die waren zum Teil im Text (Schreibfehler, die ich übersehen hatte).
Ein Word wurde falsch ausgesprochen, da habe ich dann einfach einen Buchstaben verdoppelt. Aus dem englischen "Aninal" (Tier) wurde Änimal, noch besser wäre Änimäl gewesen.

Man kann ich diesem Programm maximal 5'000 Zeichen miteinander umwandeln, ich werde die Texte in Zukunft aber mehr unterteilen, um bei Korrekturen nicht mit unnötigen Text, der in Ordnung ist, Zeichenguthaben aufbrauchen.

Das Muster habe ich mit Power Point erstellt und auch im Video erwähnt ist, dass ich alle Bilder mit KI erstellt habe (auch die Grafiken, Figuren).

Die Reihenfolge der Erstellung war:

  1. PowerPoint erstellen, (Animation auf Klick gestellt)
  2. Text erstellt (Word)
  3. Text in Sprache umgewandelt mit Eventlaps (AF-dir)
  4. Die PowerPoint-Vorlage aufgenommen, indem ich den Sprachtext laufen lassen habe, um möglichst genau die Länge der Übergänge zu haben.
  5. Das PowerPoint –Video und die Sprachdatei in einem Videoprogramm kombiniert, korrigiert und das Video erstellt (selber gesprochenes via Mikrofon geht im PowerPoint direkt, für meine Kombination habe ich keine andere Lösung gefunden).

Muster:

 

7.05.2024 Erklärvideo zum "Thema Asperger":

Eigendlich sollte es ein Avatar Video ergeben, aber ich teste das Programm noch (noch kostenlos, erstellt mit synthesia.io AF-dir), deshalb ist die zu geringe Auswahl eines Avatars nicht passend und ich habe mich auf den Text konzentriert. Das Problem ist auch hier, die Abkürzung "z.B." besser ausschreiben und manchmal muss man ein Wort leicht ändern, damit es besser klingt, trotzdem ist es nicht so einfach und es hat noch klein Fehler.

Das Thema betrifft mich selber, mehr dazu hier: 4infos.ch/...anders-sein/asperger-syndrom