„Common Voice“ heißt das Projekt, dass 10.000 Stunden Sprachaufnahmen sammeln möchte, um das Entwickeln von Open-Source Spracherkennungen zu erleichtern. Auf voice.mozilla.org kann jeder kurze Sprachaufnahmen erstellen und so zum Projekt beitragen.

Auf voice.mozilla.org sammelt Mozilla im Rahmen des Projektes „Common Voice“ aktuell 10.000 Stunden Sprachaufnahmen, um eine große Datenbank an Stimmproben zum Trainieren von Spracherkennungssystem zu erschaffen. Diese Daten sollen später jedem Entwickler zur freien Verfügung stehen. Jeder mit einem Mikrofon, der Englisch sprechen kann, kann auf der Projektseite  unter „speak“ vorgegebene Sätze einsprechen oder unter „listen“ die Sprachaufnahmen anderer überprüfen.

 

Projekt Common Voice

Der vorgegebene Satz soll nun eingesprochen werden.

Mit klick auf den schwarzen Record-Button startet die Aufnahme, nun soll der vorgegebene Satz eingesprochen werden. Nach insgesamt drei eingesprochenen Sätzen hat man die Möglichkeit, sich alle drei Aufnahmen noch einmal anzuhören und diese ggf. erneut einzusprechen.

 

Das Projekt Common Voice - Die eingesprochenen Aufnahmen können überprüft werden.

Hier können die aufgenommenen Sprachdateien noch einmal überprüft und ggf. erneut aufgenommen werden.

Hintergrund

Spracherkennungssysteme basieren auf neuronalen Netzwerken, also tausenden künstlichen „Neuronen“, die bei bestimmten Eingangssignalen entweder kein oder ein entsprechend starkes/schwaches Ausgangssignal erzeugen und an weitere Neuronen weitergeben. Nach Aufbau eines neuronalen Netzwerkes muss dieses mit Datensätzen trainiert werden. In unserem Beispiel bedeutet dies, dass das neuronale Netz eine Sprachdatei erhält und am Ende den gesprochenen Text identifizieren soll. Stimmt der identifizierte Text nicht mit der gespeicherten Lösung überein, wird das neuronale Netz durch bestimmte Verfahren abgeändert, um den Text beim nächsten mal besser zu identifizieren.

Damit ein neuronales Netz so zuverlässig wie möglich wird, werden Millionen Datensätze inklusive Lösung benötigt.

Firefox

Auf der FAQ Seite zum Projekt hat Microsoft angedeutet, auf Basis der gewonnenen Sprachdaten könnte eine Spracherkennungssoftware in Mozillas Webbrowser Firefox denkbar werden.