Digitale Stille Post. Oder: Wenn Google sich selbst zuhört.

photo credit: lyk3_0n3_tym3 via photopin cc

photo credit: lyk3_0n3_tym3 via photopin cc

Spracherkennung und Sprachsynthese sind faszinierende und komplexe Elemente der modernen digitalen Welt. Einen digitalen Text in für Menschen verständliche, hörbare Worte zu verwandeln ist eine ebenso große Herausforderung wie der umgekehrte Weg, also die menschliche Sprache in einen verständlichen, lesbaren (digitalen) Text zu verwandeln. Was kommt wohl dabei heraus, wenn man eine Maschine einen Text vorlesen lässt, deren Worte wiederum von einer Maschine gehört und mitgeschrieben werden, deren Text ein weiteres Mal Vorlage für eine maschinelle Lesung ist? Ich habe diesen Vorgang ein paar Mal wiederholt.

Eine Chrome-Erweiterung liest einen Textausschnitt aus der Wikipedia vor, das der Spracherkennungs-Client meines Android-Telefons hört und in Echtzeit in ein Google-Doc transkribiert. Das Transkript ist dann wiederum die Vorlage für das SpeakIt-Plugin. So entsteht ein text-to-speech-to-text-Kreislauf oder besser gesagt, eine Digitale Stille Post.

Original aus der Wikipedia:

Die Forschung an Spracherkennungssystemen begann in den 1960er Jahren, verlief damals allerdings weitestgehend erfolglos: Die von privaten Firmen entwickelten Systeme ermöglichten unter Laborbedingungen die Erkennung von einigen Dutzend Einzelwörtern. Dies lag einerseits an dem begrenzten Wissen in diesem neuen Forschungsgebiet, aber auch an den zur damaligen Zeit begrenzten technischen Möglichkeiten.

Während SpeakIt den Text korrekt vorgelesen hat, kam bei Google schon eine etwas abgewandelte Version an.

Die Forschung ein Spracherkennung System begann in den 1960er Jahren verlief damals allerdings weitestgehend erfolglos evang privaten Firmen in Melk Labor Bedingungen die Erkennung von einigen einziger Tag ich lag einerseits angenehm mein Forschungsgebiet aber auch an den damaligen Zeit begrenzt technischen Möglichkeiten.

Runde 2: Google schmeißt einige Worte heraus, knüpft dafür neue Verbindungen.

Die Forschung ein Spracherkennung System begann in den 1960er Jahren verlief damals allerdings weitestgehend erfolglos privat Firmen in Metabo Erkennung von einigen einziger Tag ich lag einerseits angenehm ein Forschungsgebiet den damaligen wegen technischen Möglichkeiten.

Runde 3: Bis auf ein Wort wurde alles korrekt verstanden, auch wenn der Inhalt des Textes keinen Sinn ergibt.

Die Forschung ein Spracherkennung System begann in den 1960er Jahren verließ damals allerdings weitestgehend Erfolg privat Firmen in Metabo Erkennung von einigen einziger Tag ich lag einerseits angenehm ein Forschungsgebiet den damaligen wegen technischen Möglichkeiten.

Runde 4: Aus Forschung wurde Fahrschule. Ansonsten alles korrekt.

Die Fahrschule ein Spracherkennung System dann in den 1960er Jahren verließ damals allerdings weitestgehend Erfolg privat Firmen in Metabo Erkennung von einigen einziger Tag ich lag einerseits angenehm ein Forschungsgebiet den damaligen wegen technischen Möglichkeiten.

Runde 5: Perfekt verstanden. Trotzdem ergibt der Satz keinen Sinn.

Die Fahrschule ein Spracherkennung System dann in den 1960er Jahren verließ damals allerdings weitestgehend Erfolg privat Firmen in Metabo Erkennung von einigen einziger Tag ich lag einerseits angenehm ein Forschungsgebiet den damaligen wegen technischen Möglichkeiten.

Runde 6: Wieder kleine Änderungen.

Die Fahrschule ein Spracherkennung System dann in den 1960er Jahren verließ damals allerdings weitestgehend Erfolg privat Metabo Erkennung von einigen einziger Tag ich lag einerseits angenehm ein Forschungsgebiet den damaligen wegen technischen Möglichkeiten.

Runde 7: Perfekt verstanden.

Die Fahrschule ein Spracherkennung System dann in den 1960er Jahren verließ damals allerdings weitestgehend Erfolg privat Metabo Erkennung von einigen einziger Tag ich lag einerseits angenehm ein Forschungsgebiet den damaligen wegen technischen Möglichkeiten.

Hörbeispiel: Das Original und die letzte Version nach Runde 7.
[display_podcast]

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.


16 + sieben =