Statistical signal processing techniques for robust speech recognition

Faubel, Friedrich

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-23128

Titel:	Statistical signal processing techniques for robust speech recognition
Alternativtitel:	Statistische Signalverarbeitungsmethoden für Robuste Spracherkennung
VerfasserIn:	Faubel, Friedrich
Sprache:	Englisch
Erscheinungsjahr:	2013
Kontrollierte Schlagwörter:	Signalverarbeitung Statistik Sprachverarbeitung Geräuschminderung Objektverfolgung Rekonstruktion
Freie Schlagwörter:	statistical signal processing speech recognition speech feature enhancement missing feature reconstruction
DDC-Sachgruppe:	620 Ingenieurwissenschaften und Maschinenbau
Dokumenttyp:	Dissertation
Abstract:	Automatic speech recognition is becoming increasingly more important, with commercial applications such as call steering, dictation or voice-enabled personal assistance systems. Although successful in many respects, the performance of such systems can significantly degrade in noisy environment such as a crowded restaurant. This is due to the fact that noise introduces a mismatch between the clean speech features, which the ASR system has been trained with, and the noisy speech features that are encountered in the operational environment. This dissertation tries to mitigate the degradation in performance using two principally different approaches: speech feature enhancement (SFE) techniques, which minimize the mismatch between clean and noisy features, and missing feature reconstruction (MFR) techniques, which infer the values of noise-corrupted frequency bins from non-corrupted ones. Particular contributions include (1) a phase-averaged model of how noise corrupts clean speech features, (2) better noise estimation with a Monte Carlo variant of the expectation maximization algorithm, (3) an adaptive level of detail transform that allows for more accurate transformations of Gaussian random variables, and (4) a bounded conditional mean imputation technique. In addition to the above, it is shown that both SFE and MFR techniques can be derived within the same mathematical framework, just using different models of how noise corrupts clean speech features. Automatische Spracherkennung nimmt einen zusehends wichtigeren Stellenwert ein. Kommerzielle Anwendungen beinhalten Call Steering, Diktieren und sprachgesteuerte Assistenzsysteme. Obwohl derartige Anwendungen durchaus erfolgreich sein können, so leiden sie doch an der Tatsache, dass sich die Spracherkennungsgenauigkeit in geräuschbehafteten Umgebungen verschlechtert. Das rührt daher, dass Hintergrundgeräusche eine Unstimmigkeit zwischen klaren Sprachmerkmalen im Training und geräsuchbehafteten Merkmalen im Einsatz verursachen. Diese Dissertation untersucht zwei verschiedene Herangehensweisen an dieses Problem: Methoden zur Sprachmerkmalsverstärkung (SMV), welche Unstimmigkeiten zwischen Merkmalen minimieren, und Methoden zur Vervollständigung fehlender Merkmale (VFM), welche stark geräuschgestörte Frequenzen mittels weniger gestörter Frequenzen restaurieren. Spezifische Beiträge umfassen: (1) ein phasengemitteltes Modell dafür, wie Geräusche klare Sprachmerkmale korrumpieren, (2) verbesserte Geräuschschätzung durch einen Monte Carlo Expectation Maximization Algorithmus, (3) genauere Transformationen gaußscher Zufallsvariablen durch einen adaptiven Detailgrad, (4) eine Vervollständigungstechnik, die auf dem beschränkten, bedingten Mittelwert beruht. Zusätzlich zu obigem wird gezeigt, dass SMV und VFM Methoden sich im gleichen mathematischen Rahmenwerk herleiten lassen, nur eben unter Verwendung verschiedener Modelle für die Korrumpierung von Sprachmerkmalen.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-64375 hdl:20.500.11880/23184 http://dx.doi.org/10.22028/D291-23128
Erstgutachter:	Klakow, Dietrich
Tag der mündlichen Prüfung:	19-Jun-2015
Datum des Eintrags:	8-Mär-2016
Fakultät:	NT - Naturwissenschaftlich- Technische Fakultät
Fachrichtung:	NT - Systems Engineering
Ehemalige Fachrichtung:	bis SS 2016: Fachrichtung 7.4 - Mechatronik
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
Dissertation_Faubel_2013.pdf		12,72 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.