Auto-regenerate is live in Projects
Our long form text editor now lets you regenerate faulty fragments, adjust playback speed, and provide quality feedback
London, Großbritannien – ElevenLabs, der weltweit führende Anbieter von Software für künstliche Spracherkennung, hat heute ein neues mehrsprachiges Modell zur Sprachgenerierung auf den Markt gebracht, das in der Lage ist, „emotionsreiche“ KI-Audiosignale in 30 Sprachen zu erzeugen.
Die Entwicklung, die vollständig auf unternehmenseigener Forschung basiert, wird es den Entwicklern ermöglichen, lokalisierte Audioinhalte für internationale Märkte in Europa, Asien und dem Nahen Osten zu produzieren. ElevenLabs hat in den letzten 18 Monaten Marker der menschlichen Sprache analysiert, neue Mechanismen für das Verstehen von Kontext und den Ausdruck von Emotionen bei der Spracherzeugung entwickelt und neue, einzigartige Stimmen synthetisiert.
Mit Eleven Multilingual v2 kann das neue Modell bei der Eingabe von Text in die Text-to-Speech-Plattform von ElevenLabs fast 30 Schriftsprachen automatisch erkennen und Sprache in diesen Sprachen mit einem bisher unerreichten Grad an Authentizität erzeugen.
Unabhängig davon, ob eine synthetische oder eine geklonte Stimme verwendet wird, bleiben die einzigartigen Stimmmerkmale der Sprecher in allen Sprachen erhalten, einschließlich des ursprünglichen Akzents. Das bedeutet, dass mit ein und derselben Stimme Inhalte in 30 verschiedenen Sprachen zum Leben erweckt werden können.
Diese Einführung folgt der öffentlichen Freigabe von Professional Voice Cloning für alle Kreativen auf der Plattform. Mit diesem Produktupdate, das zusammen mit zusätzlichen Sicherheitsfunktionen veröffentlicht wurde, können Nutzer eine perfekte digitale Kopie ihrer eigenen Stimme erstellen, die
vom Original praktisch nicht zu unterscheiden ist. Mit der heutigen Veröffentlichung kann Ihre Stimme in fast 30 Sprachen sprechen, die im Rahmen des mehrsprachigen Modells zur Verfügung stehen.
Zu den unterstützten Sprachen gehören: Koreanisch, Niederländisch, Türkisch, Schwedisch, Indonesisch, Vietnamesisch, Filipino, Ukrainisch, Griechisch, Tschechisch, Finnisch, Rumänisch, Dänisch, Bulgarisch, Malaiisch, Ungarisch, Norwegisch, Slowakisch, Kroatisch, Hocharabisch und Tamilisch. Diese Sprachen ergänzen die bereits verfügbaren Sprachen Englisch, Polnisch, Deutsch, Spanisch, Französisch, Italienisch, Hindi und Portugiesisch.
Nach der Einführung neuer Funktionen und der kontinuierlichen Verbesserung der Plattform hat ElevenLabs heute auch bestätigt, dass die Plattform die Beta-Phase offiziell verlassen hat. Dieser Übergang markiert einen entscheidenden Moment im Engagement des Unternehmens, seinen mehr als 1 Million Nutzern weltweit zuverlässige und hochmoderne Werkzeuge zur Verfügung zu stellen.
Für die Zukunft plant ElevenLabs die Einführung eines Mechanismus, der es den Nutzern ermöglicht, ihre Stimmen auf der Plattform zu teilen und von der Entwicklung neuer Audiodaten zu profitieren, um die Zusammenarbeit zwischen Mensch und KI zu fördern.
Mati Staniszewski, CEO und Gründer von ElevenLabs, sagte dazu:
„ElevenLabs wurde mit dem Traum gegründet, alle Inhalte in jeder Sprache und mit jeder Stimme universell zugänglich zu machen. Mit der Veröffentlichung von Eleven Multilingual v2 sind wir der Verwirklichung dieses Traums einen Schritt näher gekommen und machen KI-Stimmen in menschlicher Qualität in jedem Dialekt verfügbar.
Unsere Sprachsynthese-Tools ebnen den Weg für alle Kreativen und bieten ihnen hochwertige Sprachsynthese-Optionen. Diese Vorteile erstrecken sich nun auf mehrsprachige Anwendungen in fast 30 Sprachen. Schließlich hoffen wir, mit Hilfe von KI noch mehr Sprachen und Stimmen abdecken zu können und Sprachbarrieren für Inhalte zu beseitigen. Wir bei ElevenLabs glauben, dass diese Sprünge in der Zugänglichkeit letztendlich zu mehr Kreativität, Innovation und Vielfalt führen werden.“
ElevenLabs reduziert die Kosten und Ressourcen, die für die Erstellung hochwertiger Audioinhalte in mehreren Sprachen erforderlich sind. Unternehmen und Kreative können so einfallsreichere und leichter zugängliche Inhalte produzieren, die über kulturelle und sprachliche Grenzen hinweg Anklang finden.
Unabhängigen Spieleentwicklern und -verlegern bietet das mehrsprachige Spracherzeugungstool neue Möglichkeiten, Spielerlebnisse und Audioinhalte für ein internationales Publikum zu übersetzen und mit Spielern und Zuhörern in ihrer eigenen Sprache zu kommunizieren, ohne Kompromisse bei der Qualität oder Genauigkeit der Sprachausgabe eingehen zu müssen.
In ähnlicher Weise haben auch Bildungseinrichtungen nun die Möglichkeit, den Lernenden sofort präzise Audioinhalte in der Zielsprache zur Verfügung zu stellen, um das Sprachverständnis und die Aussprache zu verbessern und den unterschiedlichen Unterrichtsstilen und Lernbedürfnissen internationaler Studierender gerecht zu werden.
Kreative aller Art können das Tool von ElevenLabs nutzen, um die Zugänglichkeit ihrer Inhalte für Menschen mit Sehbehinderungen oder zusätzlichen Lernbedürfnissen zu verbessern, indem sie visuelle Inhalte mit Sprache in mehreren Sprachen anreichern.
Die erste Suite von KI-Sprachtools, die im Januar 2023 vorgestellt wurde, bietet die Möglichkeit, jeden Text in Sprache umzuwandeln, und zwar mit Hilfe einer Auswahl vordefinierter synthetischer Stimmen und der Möglichkeit, einen Klon der eigenen Stimme zu erstellen. Das mehrsprachige Sprachsynthese-Tool ist ein weiterer Schritt in der Mission von ElevenLabs, alle Inhalte in jeder Sprache und mit jeder Stimme universell zugänglich zu machen.
Die Technologie wird bereits in einer Vielzahl kreativer Branchen und Sektoren eingesetzt. Sie ermöglicht es unabhängigen Autoren, Hörbücher zu schreiben, Nebencharaktere in Videospielen zu vertonen, sehbehinderten Menschen den Zugang zu schriftlichen Online-Inhalten zu erleichtern und den weltweit ersten KI-Radiosender zu betreiben. ElevenLabs hat auch Partnerschaften mit einer Reihe von führenden Content-Erstellern und Studios geschlossen, darunter der KI-Video-Generator D-ID, Storytel, einer der weltweit größten Hörbuchverlage, die Open-Access-Videoplattform ScienceCast, deren Videogenerierungstool wissenschaftliche Forschungsarbeiten aggregiert, die auf arXiv veröffentlicht wurden, die weltweit führende Content-Erstellungsplattform TheSoul Publishing, unglaubliche Spieleentwickler wie Embark Studios und Paradox Interactive und die Medienplattform MNTN.
Our long form text editor now lets you regenerate faulty fragments, adjust playback speed, and provide quality feedback
Developers brought ideas to life using AI, from real time voice commands to custom storytelling