SciDok

Eingang zum Volltext in SciDok

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-4997
URL: http://scidok.sulb.uni-saarland.de/volltexte/2006/499/


Statistical Parsing for German : modeling syntactic properties and annotation differences

Statistische Syntaxanalyse für Deutsch : Modellieren der syntaktischen Eigenschaften und der Anmerkungsunterschiede

Dubey, Amit

Quelle: (2005) http://homepages.inf.ed.ac.uk/adubey/research/thesis.pdf
pdf-Format:
Dokument 1.pdf (1.021 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Linguistische Datenverarbeitung , Syntaktische Analyse , Parser
Freie Schlagwörter (Deutsch): Computerlinguistik , Statistische Syntaxanalyse , Deutsche Sprachverarbeitung
Freie Schlagwörter (Englisch): Computational linguistics , Statistical parsing , German language processing
CCS - Klassifikation: I.2.7 Lang
Institut: Fachrichtung 4.7 - Allgemeine Linguistik
Fakultät: Fakultät 4 - Philosophische Fakultät II
DDC-Sachgruppe: Sprachwissenschaft, Linguistik
Dokumentart: Dissertation
Hauptberichter: Crocker, Matthew (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 17.02.2005
Erstellungsjahr: 2005
Publikationsdatum: 10.03.2006
Kurzfassung auf Deutsch: Die bisherige Forschung im Bereich des statistischen Parsing ist weitgehend anglozentrisch: neue Modelle werden in der Regel zuerst für das Englische vorgeschlagen und erst dann für andere Sprachen getestet. Parser für neue Baumbanken werden üblicherweise nicht neu entwickelt, sondern es wird lediglich ein Parsingmodell für das Englische auf die neue Sprache angepasst. In dieser Dissertation wird gezeigt, dass viele der Annahmen, die für das Parsing des Englischen gemacht werden, sich nicht ohne Weiteres auf andere Sprachen und Baumbanken übertragen lassen. Die Gründ dafür sind Unterschiede in der linguistischen Struktur und den Annotationschemata der Baumbanken. Insbesondere zeigen wir, dass lexikalisierte Parsingmodelle, die ursprünglich für das Englische vorgeschlagen wurden, sich nicht gut auf das Deutsche übertragen lassen. Selbst wenn die Modelle abgeändert werden, um Unterschieden in der Annotation Rechnung zu tragen, sind die Leistungsgewinne durch Lexikalisierung im Deutschen deutlich geringer als im Englischen.

Dieses Ergebnis dient uns als Ausgangspunkt für eine weitreichende Untersuchung der Rolle, die die linguistischen Unterschiede zwischen den beiden Sprachen beim statistischen Parsing spielen. Unsere Ergebnisse zeigen, dass die Berücksichtigung von linguistischen Eigenschaften des Deutschen weit
wichtiger als Lexikalisierung sind. Zum Beispiel stellt sich heraus, dass ein relativ einfaches Modell des deutschen Kasussystems sich besser zur Bewältigung von Ambiguitäten eignet als ein lexikalisiertes Modell. Weitere Untersuchungen zeigen außerdem, dass die Ambiguität der lexikalischen Kategorien im Deutschen für eine beträchtliche Anzahl von Parsingfehlern verantwortlich ist. Wir schlagen daraufhin ein Morphologiemodell vor, das aber nur eine unzureichende Verbesserung der Parsingleistung vorweisen kann. Eine Fehleranalyse zeigt jedoch, dass ein ideales Morphologiemodell die Parsingleistung deutlich verbessern würde, da es die häufig auftretende Verb/Adjektiv-Ambiguität auflösen könnte. Des
weiteren schlagen wir ein Modell von langen Abhängigkeiten vor und zeigen, dass dieses Modell die Auflösung von Wortstellungambiguitäten im Deutschen deutlich verbessert.

Wir konstatieren auch, dass die verwendete Evaluationsmetrik die Parsingleistung wesentlich beeinflusst: Lexikalisierte Modelle erzielen eine deutlich bessere Leistung, wenn eine Dependenzmetrik angewandt wird. Unlexikalisierte Modelle dagegen erzielen eine bessere Leistung unter Verwendung einer Konstitutentenmetrik. Andere Faktoren scheinen darüberhinaus einen Einfluss auf die Parsingleistung zu haben: je nach verwendetem Suchalgorithmus oder Glättungsschema kommen potentiell wichtige
Disambiguierungsmerkmale nicht zur Geltung, und die Leistung des Modells fällt ab.

Das beste in dieser Dissertation entwickelte Modell erzielt eine Parsingleistung, die bisher auf dem NEGRA- und TIGER-Korpus unerreicht ist. Das Modell erzielt eine Konstituenten-F-Metrik von 76.2 auf NEGRA und 79.5 auf TIGER. Desweiteren erzielt es eine Dependenz-F-Metrik von 84.0 für NEGRA
und 86.2 für TIGER.
Kurzfassung auf Englisch: Statistical parsing research can be described as being anglo-centric: new models are first proposed for English parsing, and only then tested in other languages. Indeed, a standard approach to parsing with new treebanks is to adapt fully developed English parsing models to the other language. In this dissertation, however, we claim that many assumptions of English parsing do not generalize to other languages and treebanks because of linguistic and annotation differences. For example, we show that lexicalized models originally proposed for English parsing generalize poorly to German. Even after modifying the models to account for annotation differences, we find the benefit of lexicalization to be far less than in English.

With this as a starting point, we take a closer look what effect that linguistic differences between English and German have on statistical parsing results. We find that a number of linguistic elements of German play a more crucial role than lexicalization. For example, adding a relatively simple model of the German case system to parser accounts for more ambiguity than a complex model including lexicalization. Further studies show that lexical category ambiguity accounts for a surprising amount of parsing mistakes, and while a model of morphology we develop gives mixed results, an error analysis
suggets that a correct model of morphology would help with resolving harmful and common verb/adjective ambiguities. In addition, we offer a preliminary model of long-distance dependencies, showing this model helps greatly in resolving ambiguities caused by German free word order constructions.

We also find that the choice of evaluation metric can have a profound impact on parsing performance: it appears that lexicalized models perform better on dependency-based metrics whereas unlexicalized models perform better on labelled bracketing metrics. Other seemingly arbitrary choices also affect parsing results: the choice of search and smoothing algorithm can potentially obscure helpful linguistic disambiguation cues.

The best performing model we develop sets the state-of-the-art performance on the NEGRA and TIGER corpora, with labelled bracketing scores of 76.2 on NEGRA and 79.5 on TIGER. Furthermore, this parser scores 84.0 on dependencies on the NEGRA corpus, also the best reported performance on that corpus, and 86.2 on the TIGER corpus.

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English