Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen:
doi:10.22028/D291-26708
Titel: | Generation and grounding of natural language descriptions for visual data |
Alternativtitel: | Die Erstellung und Lokalisierung natürlicher Sprachbeschreibungen für visuelle Daten |
VerfasserIn: | Rohrbach, Anna |
Sprache: | Englisch |
Erscheinungsjahr: | 2017 |
Kontrollierte Schlagwörter: | Bilderkennung Sprachproduktion Video |
Freie Schlagwörter: | Videobeschreibung Lokalisierung der natürlichen Sprache visual recognition natural language generation video description visual grounding |
DDC-Sachgruppe: | 004 Informatik |
Dokumenttyp: | Dissertation |
Abstract: | Generating natural language descriptions for visual data links computer vision and computational linguistics. Being able to generate a concise and human-readable description of a video is a step towards visual understanding. At the same time, grounding natural language in visual data provides disambiguation for the linguistic concepts, necessary for many applications. This thesis focuses on both directions and tackles three specific problems. First, we develop recognition approaches to understand video of complex cooking activities. We propose an approach to generate coherent multi-sentence descriptions for our videos. Furthermore, we tackle the new task of describing videos at variable level of detail. Second, we present a large-scale dataset of movies and aligned professional descriptions. We propose an approach, which learns from videos and sentences to describe movie clips relying on robust recognition of visual semantic concepts. Third, we propose an approach to ground textual phrases in images with little or no localization supervision, which we further improve by introducing Multimodal Compact Bilinear Pooling for combining language and vision representations. Finally, we jointly address the task of describing videos and grounding the described people. To summarize, this thesis advances the state-of-the-art in automatic video description and visual grounding and also contributes large datasets for studying the intersection of computer vision and computational linguistics. Die Erstellung natürlicher Sprachbeschreibungen für visuelle Daten verbindet Computer Vision und Computerlinguistik. Die Fähigkeit eine prägnante und menschlich lesbare Beschreibung eines Videos zu produzieren, ist ein Schritt zum visuellen Verständnis. Gleichzeitig ermöglicht Lokalisierung der natürlichen Sprache in visuellen Daten die Disambiguierung der sprachlichen Konzepte. Diese Dissertation konzentriert sich auf beide Richtungen wie folgt. Zuerst entwickeln wir Methoden, um komplexe Kochaktivitäten in Videos zu verstehen und für diese dann kohärente Multi-Satz-Beschreibungen mit variabler Detaillierung zu generieren. Zweitens präsentieren wir einen umfangreichen parallelen Datensatz von Filmen mit professionellen Beschreibungen. Wir schlagen einen Ansatz vor, der aus Videos und Sätzen lernt Videoclips zu beschreiben, und der sich auf einer robusten Erkennung visueller Konzepte stützt. Drittens schlagen wir einen Ansatz vor, um sprachliche Konzepte in Bildern mit wenig oder keiner Überwachung zu lokalisieren, den wir durch eine neue multimodale Kombination der Sprach- und Bild-Repräsentationen verbessern. Abschließend beschreiben wir Videos während wir gleichzeitig die beschriebenen Personen lokalisieren. Zusammenfassend stellt diese Dissertation neue Methoden in der automatischen Videobeschreibung und Lokalisierung natürlicher Sprache in visuellen Daten vor. Zur weiteren Forschung am Schnittpunkt von Computer Vision und Computerlinguistik trägt diese Dissertation große Datensätze bei. |
Link zu diesem Datensatz: | urn:nbn:de:bsz:291-scidok-68749 hdl:20.500.11880/26764 http://dx.doi.org/10.22028/D291-26708 |
Erstgutachter: | Schiele, Bernt |
Tag der mündlichen Prüfung: | 15-Mai-2017 |
Datum des Eintrags: | 2-Jun-2017 |
Fakultät: | MI - Fakultät für Mathematik und Informatik |
Fachrichtung: | MI - Informatik |
Sammlung: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Dateien zu diesem Datensatz:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
anna_rohrbach17phd.pdf | 43,27 MB | Adobe PDF | Öffnen/Anzeigen |
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.