SciDok

Eingang zum Volltext in SciDok

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-4956
URL: http://scidok.sulb.uni-saarland.de/volltexte/2006/495/


Combination Methods for Automatic Document Organization

Siersdorfer, Stefan

Quelle: (2005)
pdf-Format:
Dokument 1.pdf (1.343 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Automatische Klassifikation , Cluster-Analyse , Maschinelles Lernen
Freie Schlagwörter (Englisch): automatic document classification , clustering , supervised learning
Institut:
Fakultät: Fakultät 6 - Naturwissenschaftlich-Technische Fakultät I
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Weikum, Gerhard (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 13.01.2005
Erstellungsjahr: 2005
Publikationsdatum: 15.02.2006
Kurzfassung auf Englisch: Automatic document classification and clustering are useful for a wide range of applications such as organizing Web, intranet, or portal pages into topic directories, filtering news feeds or mail, focused crawling on the Web or in intranets, and many more. This thesis presents ensemble-based meta methods for supervised learning (i.e., classification based on a small amount of hand-annotated training documents). In addition, we show how these techniques can be carried forward to clustering based on unsupervised learning (i.e., automatic structuring of document corpora without training data). The algorithms are applied in a restrictive manner, i.e., by leaving out some 'uncertain' documents (rather than assigning them to inappropriate topics or clusters with low confidence). We show how restrictive meta methods can be used to combine different document representations in the context of Web document classification and author recognition. As another application for meta methods we study the combination of difierent information sources in distributed environments, such as peer-to-peer information systems. Furthermore we address the problem of semi-supervised classification on document collections using retraining. A possible application is focused Web crawling which may start with very few, manually selected, training documents but can be enhanced by automatically adding initially unlabeled, positively classified Web pages for retraining. The results of our systematic evaluation on real world data show the viability of the proposed approaches.
Kurzfassung auf Deutsch: Automatische Dokumentklassifikation und Clustering sind für eine Vielzahl von Anwendungen von Bedeutung, wie beispielsweise Organisation von Web-, Intranet- oder Portalseiten in thematische Verzeichnisse, Filterung von Nachrichtenmeldungen oder Emails, fokussiertes Crawling im Web oder in Intranets und vieles mehr. Diese Arbeit untersucht Ensemble-basierte Metamethoden für Supervised Learning (d.h. Klassifikation basierend auf einer kleinen Anzahl von manuell annotierten Trainingsdokumenten).
Weiterhin zeigen wir, wie sich diese Techniken auf Clustering basierend auf
Unsupervised Learning (d.h. die automatische Strukturierung von Dokumentkorpora
ohne Trainingsdaten) übertragen lassen. Dabei wenden wir die Algorithmen in restriktiver Form an, d.h. wir treffen keine Aussage über eine Teilmenge von "unsicheren" Dokumenten (anstatt sie mit niedriger Konfidenz ungeeigneten Themen oder Clustern
zuzuordnen).
Wir verwendenen restriktive Metamethoden um unterschiedliche Dokumentrepräsentationen, im Kontext der Klassifikation von Webdokumentem und der Autorenerkennung,
miteinander zu kombinieren. Als weitere Anwendung von Metamethoden
untersuchen wir die Kombination von unterschiedlichen Informationsquellen in
verteilten Umgebungen wie Peer-to-Peer Informationssystemen. Weiterhin betrachten
wir das Problem der Semi-Supervised Klassifikation von Dokumentsammlungen durch
Retraining. Eine mögliche Anwendung ist fokussiertesWeb Crawling, wo wir mit sehr
wenigen, manuell ausgewählten Trainingsdokumenten starten, die durch Hinzufugen
von ursprünglich nicht klassifizierten Dokumenten ergänzt werden.
Die Resultate unserer systematischen Evaluation auf realen Daten zeigen das gute
Leistungsverhalten unserer Methoden.

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English