Common Voice
Common Voice | |
„Maschinen beibringen, wie echte Menschen sprechen“ | |
Sammlung von gesprochenen Sätzen für eine Spracherkennungs-Datenbank | |
Sprachen | multilingual (Liste der Sprachen) |
---|---|
Betreiber | Mozilla Foundation |
Registrierung | Optional |
Online | 19. Juni 2017[1] |
https://commonvoice.mozilla.org/ |
Common Voice ist ein von Mozilla gestartetes Crowdsourcing-Projekt zur Sammlung von Tonaufnahmen in vielen Sprachen.
Freiwillige sprechen dazu entweder Beispielsätze aus der Wikipedia ein und verifizieren die Aufnahmen anderer Nutzer. Die gesamten Daten sind gemeinfrei („CC0“). Common Voice erschien als Antwort auf die Sprachassistenten der großen Unternehmen, wie Amazon Echo, Siri oder Google Assistant.[2][3]
Namensgebung
[Bearbeiten | Quelltext bearbeiten]Der Name „Common Voice“ stammt aus dem Englischen und bedeutet übersetzt etwa „gemeinsame Stimme“. Mozilla hat den Namen in Anlehnung an Creative Commons gewählt, was auf den gemeinsamen Grundgedanken des Allgemeinguts zurückzuführen ist.[4]
Geschichte
[Bearbeiten | Quelltext bearbeiten]Seit dem 6. Juni 2018 können auch deutsche Sätze eingesprochen und überprüft werden.[5] Es existiert eine inoffizielle Android-App.[6]
Seit 2021 unterstützen Nvidia, die Bill & Melinda Gates Foundation, die Deutsche Gesellschaft für Internationale Zusammenarbeit und das britische Foreign and Commonwealth Office das Projekt.[7][8][9]
Statistik
[Bearbeiten | Quelltext bearbeiten]Die englische Datenbank von Common Voice ist mittlerweile die größte frei zugängliche Sprachdatenbank.[7] Der Digitalisierungsfortschritt in den meisten Sprachen ebbte nach kurzer Zeit ab, nur in wenigen Fällen kam eine kritische Masse zustande:[10]
Sprache | h validiert 2019-12-10 (4.0) |
h validiert 2022-07-04 (10.0) |
h validiert 2022-09-21 (11.0) |
h validiert 2023-03-09 (13.0) |
14.0 | Organisator |
---|---|---|---|---|---|---|
Englisch | 1118 | 2275 | 2319 | 2428 | 2484 | / |
Katalanisch | 246 | 1390 | 1700 | 2014 | 2400 | AINA[11] |
Kinyarwanda | 2001 | 2001 | 2001 | 2001 | Digital Umuganda[12] | |
Weißrussisch | 1089 | 1159 | 1341 | 1511 | ? | |
Esperanto (keine Standardaussprache) | 1872[13] | 1414 | 1431 | 1430 | [14] | |
Deutsch | 483 | 1136 | 1157 | 1257 | 1290 | / |
Französisch | 350 | 868 | 906 | 941 | 958 | / |
Kabylisch | 263 | 553 | 564 | 565 | 565 | Universität Tizi Ouzou etc.[15] |
Spanisch | 168 | 411 | 413 | 482 | 503 | / |
Luganda | 407 | 408 | 437 | 437 | [16] | |
Persisch | 212 | 327 | 344 | 355 | 357 | |
Suaheli | / | 326 | 338 | 348 | bezahlt von Mozilla[17] | |
Italienisch | 85 | 321 | 326 | 342 | 346 | |
Baschkirisch | 256 | 256 | 257 | 257 | [18] | |
Chinesisch | 64 | 130 | 227 | 231 | ||
Tamil | 224 | 225 | 229 | 229 | ||
Olyk-Mari | 114 | 133 | 148 | 175 | ? |
Verwandte Projekte
[Bearbeiten | Quelltext bearbeiten]- LibriSpeech: Sprachkorpus von ungefähr 1000 Stunden englischsprachiger Hörbücher aus LibriVox (CC BY 4.0).
- TED-LIUM: Sprachkorpus von ungefähr 118 Stunden aus englischsprachigen TED-Talks (CC BY-NC-ND 3.0).
- Tatoeba: Sammlung von (gesprochenen) Beispielsätzen in verschiedenen Sprachen mit Übersetzungen (Texte CC BY 2.0, Audio größtenteils CC BY-NC-ND 3.0).
- VoxForge: Sprachkorpus in verschiedenen Sprachen, um freie Spracherkennungs-Engines, wie Julius zu unterstützen (GPL 3).
- Thorsten (Stimme) deutscher Sprachkorpus einer Person für TTS-Sprachmodelle (CC0-Lizenz)
Weblinks
[Bearbeiten | Quelltext bearbeiten]- Common Voice – Offizielle Website
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Daniel Kessler: Raising Our Common Voice For The Web. In: The Mozilla Blog. 19. Juni 2017, abgerufen am 26. Januar 2018 (amerikanisches Englisch).
- ↑ Frequently Asked Questions. In: Common Voice. Abgerufen am 26. Januar 2018 (amerikanisches Englisch).
- ↑ Wolfgang Reszel: Mozilla sammelt Stimmaufzeichnungen für offene Spracherkennungs-Software. In: heise online. 23. Juli 2017, abgerufen am 26. Januar 2018.
- ↑ Sebastian Grüner: Mozilla bringt freie Spracherkennung für alle (Seite 2). In: Golem.de. 30. November 2017, abgerufen am 26. Januar 2018.
- ↑ Sebastian Grüner: Common Voice: Mozillas freie Sprachdatenbank wird mehrsprachig. In: Golem.de. 7. Juni 2018, abgerufen am 7. Juni 2018.
- ↑ Spende deine Stimme: CV Project – Apps bei Google Play. Abgerufen am 10. März 2021.
- ↑ a b Ulrich Bantle/Linux Magazin/Sebastian Grüner: Mozilla erweitert freien Sprachdatensatz massiv. In: Golem.de. 6. August 2021, abgerufen am 6. August 2021.
- ↑ Mozilla Common Voice Receives $3.4 Million Investment to Democratize and Diversify Voice Tech in East Africa. In: mozilla.org. 25. März 2021, abgerufen am 6. August 2021 (englisch).
- ↑ Mozilla partners with NVIDIA to democratize and diversify voice technology. In: mozilla.org. 12. April 2021, abgerufen am 6. August 2021 (englisch).
- ↑ https://github.com/common-voice/cv-dataset/tree/main/datasets
- ↑ https://www.projecteaina.cat/
- ↑ https://foundation.mozilla.org/en/blog/lessons-from-building-for-kinyarwanda-on-common-voice/
- ↑ muss ein Fehler sein validHrs: 1872.42 > totalHrs: 1430.21
- ↑ https://telegra.ph/Miriado-kaj-Komuna-Vo%C4%89o-01-24
- ↑ https://discourse.mozilla.org/t/kab-team-program-about-mozillas-projects-session-01-common-voice-and-sentence-collector/41244
- ↑ Archivierte Kopie ( des vom 15. August 2022 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.
- ↑ Chenai Chair: Maendeleo: Mozilla’s Kiswahili Common Voice Work Continues, 23. September 2021
- ↑ Башҡорт телмәрен цифрлаштырыу