Eingang zum Volltext in SciDok
Lizenz
Dissertation zugänglich unter
Observations on the dynamic control of an articulatory synthesizer using speech production data
Betrachtungen zur dynamischen Steuerung eines artikulatorischen Synthesizers mit Hilfe von Sprachproduktionsdaten
URN: urn:nbn:de:bsz:291-scidok-32243
URL: http://scidok.sulb.uni-saarland.de/volltexte/2010/3224/
pdf-Format:
Dokument 1.pdf (18.677 KB)
![]()
![]()
![]()
![]()
![]()
SWD-Schlagwörter:
Sprachsynthese , Sprachproduktion , Elektromagnetische Artikulographie , Dynamische Optimierung
Freie Schlagwörter (Deutsch):
Artikulatorische Sprachsynthese , Vokaltrakt
Freie Schlagwörter (Englisch):
articulatory speech synthesis , speech production , electromagnetic articulography , dynamic optimization , vocal tract , gestural score
Institut:
Fakultät:
Fakultät 4 - Philosophische Fakultät II
DDC-Sachgruppe:
Sprache, Linguistik
Dokumentart:
Dissertation
Hauptberichter:
Barry, William (Prof. Dr.)
Sprache:
Englisch
Tag der mündlichen Prüfung:
19.05.2010
Erstellungsjahr:
2010
Publikationsdatum:
10.08.2010
Kurzfassung auf Englisch:
This dissertation explores the automatic generation of gestural score based control structures for a three-dimensional articulatory speech synthesizer. The gestural scores are optimized in an articulatory resynthesis paradigm using a dynamic programming algorithm and a cost function which measures the deviation from a gold standard in the form of natural speech production data. This data had been recorded using electromagnetic articulography, from the same speaker to which the synthesizer's vocal tract model had previously been adapted. Future work to create an English voice for the synthesizer and integrate it into a text-to-speech platform is outlined.
Kurzfassung auf Deutsch:
Die vorliegende Dissertation untersucht die automatische Erzeugung von gesturalpartiturbasierten Steuerdaten für ein dreidimensionales artikulatorisches Sprachsynthesesystem. Die gesturalen Partituren werden in einem artikulatorischen Resynthese-Paradigma mittels dynamischer Programmierung optimiert, unter Zuhilfenahme einer Kostenfunktion, die den Abstand zu einem "Gold Standard" in Form natürlicher Sprachproduktionsdaten mißt. Diese Daten waren mit elektromagnetischer Artikulographie am selben Sprecher aufgenommen worden, an den zuvor das Vokaltraktmodell des Synthesesystems angepaßt worden war. Weiterführende Forschung, eine englische Stimme für das Synthesesystem zu erzeugen und sie in eine Text-to-Speech-Plattform einzubetten, wird umrissen.
Lizenz:
Veröffentlichungsvertrag für Dissertationen und Habilitationen