SciDok

Eingang zum Volltext in SciDok

Lizenz

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-69507
URL: http://scidok.sulb.uni-saarland.de/volltexte/2017/6950/


Cross-lingual transfer of semantic role labeling models

Cross-lingualer Transfer von rollensemantischen Analysatoren

Kozhevnikov, Mikhail

pdf-Format:
Dokument 1.pdf (1.273 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Computerlinguistik , Semasiologie , Frame-Semantik
Freie Schlagwörter (Englisch): SRL , semantic role labeling , cross-lingual transfer
Institut: Fachrichtung 6.2 - Informatik
Fakultät: Fakultät 6 - Naturwissenschaftlich-Technische Fakultät I
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Titov, Ivan (Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 24.04.2017
Erstellungsjahr: 2016
Publikationsdatum: 06.09.2017
Kurzfassung auf Englisch: Semantic role labeling is an important step in natural language understanding, offering a formal representation of events and their participants as described in natural language, without requiring the event or the participants to be grounded. Extensive annotation efforts have enabled statistical models capable of accurately analyzing new text in several major languages. Unfortunately, manual annotation for this task is complex and requires training and calibration even for professional linguists, which makes the creation of manually annotated resources for new languages very costly. The process can be facilitated by leveraging existing resources for other languages using techniques such as cross-lingual transfer and annotation projection. This work addresses the problem of improving semantic role labeling models or creating new ones using cross-lingual transfer methods. We investigate different approaches to adapt to the availability and nature of the existing target-language resources. Specifically, cross-lingual bootstrapping is considered for the case where some annotated data is available for the target language, but using an annotation scheme different from that of the source language. In the more common setup, where no annotated data is available for the target language, we investigate the use of direct model transfer, which requires no sentence-level parallel resources. Finally, for cases where the parallel resources are of limited size or poor quality, we propose a novel method, referred to as feature representation projection, combining the strengths of direct transfer and annotation projection.
Kurzfassung auf Deutsch: Rollensemantische Analyse ist ein wichtiger Teil der Computerlinguistik. Sie bietet eine formale Repräsentation von in natürlichen Sprache beschriebenen Ereignissen und deren Beteiligten, welche selbst nicht unbedingt formal beschrieben sein müssen. Umfangreiche Projekte für rollensemantische Annotation ermöglichen die Entwicklung präziser statistischer Modelle für die Analyse neuer Texte in verschiedenen Sprachen. Für andere Sprachen hingegen besteht leider immer noch Ressourcenmangel, hauptsächlich aufgrund eines Mangels an zeit- und kostenintensiven manuellen Annotationen der semantischen Rollen, die von professionellen Linguisten durchgeführt werden müssen und besonderes Training voraussetzen. Dieser Zeit- und Kostenaufwand kann verringert werden indem man mit Techniken wie Modelltransfer und Annotationsprojektion die bestehende Ressourcen auf andere Sprachen überträgt. Diese Arbeit beschreibt eine Reihe von Experimenten zu cross-lingualem Transfer von rollensemantischen Analysatoren. Insbesondere betrachten wir drei Fälle: • cross-linguales Bootstrapping, für den Fall, dass annotierte Ressourcen für Quellsowie Zielsprache bestehen, diese jedoch unterschiedlichen Annotationsschemata folgen; • direkten Modelltransfer für den Fall, dass weder annotierten Daten für die Zielsprache noch alinierte Korpora für das Sprachenpaar verfügbar sind; • ein neuer Ansatz, der die Stärken des direkten Modelltransfers und der Annotationsprojektion kombiniert, für die Fälle, wo alinierte Ressourcen für den Quellund Zielsprache vorhanden sind, jedoch beschränkt oder von schlechter Qualität.
Lizenz: Veröffentlichungsvertrag für Dissertationen und Habilitationen

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English