Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen:
doi:10.22028/D291-26791
Dateien zu diesem Datensatz:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
thesis.pdf | 904,15 kB | Adobe PDF | Öffnen/Anzeigen |
Titel: | Handling long-term dependencies and rare words in low-resource language modelling |
Alternativtitel: | Umgang mit Langzeitabhängigkeiten und seltenen Worten im Low-Resource Language Modelling. |
VerfasserIn: | Singh, Mittul |
Sprache: | Englisch |
Erscheinungsjahr: | 2017 |
Kontrollierte Schlagwörter: | Entwurfssprache Automatische Spracherkennung Zulu-Sprache |
Freie Schlagwörter: | Spracherkennungsaufgaben Sprachmodelle langreichweitige Abhängigkeiten long-term dependencies rare words language modelling low-resource |
DDC-Sachgruppe: | 004 Informatik |
Dokumenttyp: | Dissertation |
Abstract: | For low resource NLP tasks like Keyword Search and domain adaptation with small amounts of in-domain data, having well-trained language models is essential. Two major challenges faced while building these language models for such tasks are 1) how the models handle the long-term dependencies, and 2) how to represent the words which occur with a low frequency (rare words) in the text. To handle long-term dependencies in the text, we compare existing techniques and extend these techniques for domain adaptation for small corpora in Speech Recognition, leading to improvements in word error rates. Further, we formulate a new language model architecture to capture long-term dependencies, helping us understand the extent to which enumeration of dependencies can compare to more popular neural network techniques for capturing such dependencies. Next, to handle rare words in the text, we propose an unsupervised technique of generating rare-word representations, which is more general and requires less mathematical engineering than comparable methods. Finally, embedding these representations in a language model shows significant improvements in rare-word perplexity over other such models. Für Spracherkennungsaufgaben mit geringen Ressourcen wie Babel Keyword Search und Domainadaptation mit geringen Mengen an Daten aus einem spezifischen Gebiet sind gut trainierte Sprachmodelle essenziell. Zwei wesentliche Herausforderungen bei der Erstellung dieser Sprachmodelle sind der Umgang dieser Modelle a) mit langreichweitigen Abhängigkeiten sowie b) mit Wörtern, die eine niedrige Häufigkeit in Texten aufweisen (seltene Wörter). Um die langreichweitigen Abhängigkeiten in Texten zu untersuchen, werden bestehende Methoden verglichen und diese für Domainadaptationsverfahren für kleine Korpora zur Spracherkennung erweitert. Dieses Vorgehen führt zur Verbesserung der Wortfehlerraten. Weiterhin wird ein neues Sprachmodell entwickelt, um langreichweitige Abhängigkeiten ausfindig zu machen, das im Hinblick auf die Berücksichtigung langreichweitiger Abhängigkeiten hilft zu verstehen, wie sich deren Auflistung im Vergleich zu modernen Verfahren mittels Neuronaler Netze verhält. Was den Umgang mit seltenen Wörtern in Texten angeht, wird ein unüberwachtes Verfahren zur Erzeugung von Vektordarstellungen seltener Wörter eingesetzt. Dieses Verfahren ist allgemeiner und erfordert weniger mathematische Berechnungen als vergleichbare Methoden. Wenn diese Vektordarstellungen in ein Sprachmodell miteinbezogen werden, lassen sich signifikante Verbesserungen gegenüber herkömmlichen Modellen bei der Perplexität von seltenen Wörtern feststellen. |
Link zu diesem Datensatz: | urn:nbn:de:bsz:291-scidok-69640 hdl:20.500.11880/26804 http://dx.doi.org/10.22028/D291-26791 |
Erstgutachter: | Klakow, Dietrich |
Tag der mündlichen Prüfung: | 31-Aug-2017 |
Datum des Eintrags: | 12-Okt-2017 |
Fakultät: | MI - Fakultät für Mathematik und Informatik |
Fachrichtung: | MI - Informatik |
Sammlung: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.