SciDok

Eingang zum Volltext in SciDok

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-6432
URL: http://scidok.sulb.uni-saarland.de/volltexte/2006/643/


Die Sphere-Search-Suchmaschine zur graphbasierten Suche auf heterogenen, semistrukturierten Daten

Graupmann, Jens

Quelle: (2006)
pdf-Format:
Dokument 1.pdf (2.054 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Suchmaschine , Information Retrieval , Ranking , Datenstruktur , Kontextbezogenes System
Freie Schlagwörter (Deutsch): SphereSearch-Suchmaschine , graphbasierten Suche , ranglistenbasiertes Retrieval , graph-basiertes Datenmodell , Relevanz-Ranking
Freie Schlagwörter (Englisch): SphereSearch engine , unified ranked retrieval , graph-based data model
Institut: Sonstige Einrichtungen
Fakultät: Fakultät 6 - Naturwissenschaftlich-Technische Fakultät I
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Weikum, Gerhard (Prof. Dr.)
Sprache: Deutsch
Tag der mündlichen Prüfung: 12.01.2006
Erstellungsjahr: 2006
Publikationsdatum: 21.07.2006
Kurzfassung auf Deutsch: In dieser Arbeit wird die neuartige SphereSearch-Suchmaschine vorgestellt, die ein einheitliches ranglistenbasiertes Retrieval auf heterogenen XML- und Web-Daten ermöglicht. Ihre Fähigkeiten umfassen die Auswertung von vagen Struktur- und Inhaltsbedingungen sowie ein auf IR-Statistiken und einem graph-basierten Datenmodell basierendes Relevanz-Ranking. Web-Dokumente im HTML- und PDFFormat werden zunächst automatisch in ein XML-Zwischenformat konvertiert und anschließend mit Hilfe von Annotations-Tools durch zusätzliche Tags semantisch angereichtert. Die graph-basierte Suchmaschine bietet auf semi-strukturierten Daten vielfältige Suchmöglichkeiten, die von keiner herkömmlichen Web- oder XMLSuchmaschine ausgedrückt werden können: konzeptbewusste und kontextbewusste Suche, die sowohl die implizite Struktur von Daten als auch ihren Kontext berücksichtigt. Die Vorteile der SphereSearch-Suchmaschine werden durch Experimente auf verschiedenen Dokumentenkorpora demonstriert. Diese umfassen eine große, vielfältige Tags beinhaltende, nicht-schematische Enzyklopädie, die um externe
Dokumente erweitert wurde, sowie einen Standard-XML-Benchmark.
Kurzfassung auf Englisch: This thesis presents the novel SphereSearch Engine that provides unified ranked retrieval on heterogeneous XML andWeb data. Its search capabilities include vague structure and text content conditions, and relevance ranking based on IR statistics and a graph-based data model. Web pages in HTML or PDF are automatically converted into an intermediate XML format, with the option of generating semantic tags by means of linguistic annotation tools. For semi-structured data the graphbased query engine is leveraged to provide very rich search options that cannot be expressed in traditional Web or XML search engines: concept-aware and linkaware querying that takes into account the implicit structure and context of Web pages. The benefits of the SphereSearch engine are demonstrated by experiments with a large and richly tagged but non-schematic open encyclopedia extended with external documents and a standard XML benchmark.

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English