SciDok

Eingang zum Volltext in SciDok

Lizenz

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-69080
URL: http://scidok.sulb.uni-saarland.de/volltexte/2017/6908/


Analysis and improvement of the visual object detection pipeline

Analyse und Verbesserung des visuellen Objektdetektionsverfahrens

Hosang, Jan

pdf-Format:
Dokument 1.pdf (24.743 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Maschinelles Sehen , Objekterkennung , Deep learning , Maschinelles Lernen
Freie Schlagwörter (Deutsch): visuelle Objektdetektion , Objektdetektion , Merkmalrepräsentationen
Freie Schlagwörter (Englisch): Computer Vision , Object Detect , Deep Learning , Machine Learning
Institut: Fachrichtung 6.2 - Informatik
Fakultät: Fakultät 6 - Naturwissenschaftlich-Technische Fakultät I
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Schiele, Bernt (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 02.05.2017
Erstellungsjahr: 2017
Publikationsdatum: 07.07.2017
Kurzfassung auf Englisch: Visual object detection has seen substantial improvements during the last years due to the possibilities enabled by deep learning. While research on image classification provides continuous progress on how to learn image representations and classifiers jointly, object detection research focuses on identifying how to properly use deep learning technology to effectively localise objects. In this thesis, we analyse and improve different aspects of the commonly used detection pipeline. We analyse ten years of research on pedestrian detection and find that improvement of feature representations was the driving factor. Motivated by this finding, we adapt an end-to-end learned detector architecture from general object detection to pedestrian detection. Our deep network outperforms all previous neural networks for pedestrian detection by a large margin, even without using additional training data. After substantial improvements on pedestrian detection in recent years, we investigate the gap between human performance and state-of-the-art pedestrian detectors. We find that pedestrian detectors still have a long way to go before they reach human performance, and we diagnose failure modes of several top performing detectors, giving direction to future research. As a side-effect we publish new, better localised annotations for the Caltech pedestrian benchmark. We analyse detection proposals as a preprocessing step for object detectors. We establish different metrics and compare a wide range of methods according to these metrics. By examining the relationship between localisation of proposals and final object detection performance, we define and experimentally verify a metric that can be used as a proxy for detector performance. Furthermore, we address a structural weakness of virtually all object detection pipelines: non-maximum suppression. We analyse why it is necessary and what the shortcomings of the most common approach are. To address these problems, we present work to overcome these shortcomings and to replace typical non-maximum suppression with a learnable alternative. The introduced paradigm paves the way to true end-to-end learning of object detectors without any post-processing. In summary, this thesis provides analyses of recent pedestrian detectors and detection proposals, improves pedestrian detection by employing deep neural networks, and presents a viable alternative to traditional non-maximum suppression.
Kurzfassung auf Deutsch: Die visuelle Objektdetektion erfuhr in den letzten Jahren durch die Möglichkeiten von Deep Learning erhebliche qualitative Verbesserungen. Während durch die Forschung zur Bildklassifizierung kontinuierliche Fortschritte darin erzielt werden, wie Merkmalsrepräsentation und Klassifikatoren gemeinsam gelernt werden, konzentriert sich die Forschung zur Objektdetektion darauf, wie Deep Learning verwendet werden kann, um Objekte schnell und genau zu lokalisieren. In dieser Arbeit analysieren und verbessern wir verschiedene Aspekte des häufig verwendeten Objektdetektions-Prozesses. Wir analysieren den Fortschritt von zehn Jahren Forschung an Fußgängererkennung und finden heraus, dass die Verbesserung von Merkmalsrepräsentationen den Schlüsselfaktor darstellt. Durch diese Erkenntnis motiviert, adaptieren wir ein tiefes neuronales Netzwerk zur allgemeinen Objekterkennung, das Merkmalsrepräsentation und Klassifikatoren gemeinsam lernt, für die Fußgängererkennung. Unser Netzwerk übertrifft alle bisherigen neuronalen Netze für die Fußgängererkennung bei Weitem, sogar wenn keine zusätzlichen Trainingsdaten verwendet werden. Nach signifikanten Verbesserungen der Fußgängererkennung in den letzten Jahren untersuchen wir den qualitativen Unterschied zwischen menschlicher Leistung und Ergebnissen von Fußgängerdetektoren auf dem neuesten Stand der Technik. Unsere Experimente zeigen, dass Fußgängerdetektoren noch einen langen Weg vor sich haben um menschliche Qualität zu erreichen. Wir untersuchen Fehler von mehreren starken Fußgängerdetektoren und charakterisieren häufige Fehlerquellen. Ein Nebenprodukt dieser Arbeit sind neue und besser lokalisierte Annotationen für den Caltech Fußgängerdetektions-Benchmark. Wir analysieren Erkennungsvorschläge (detection proposals) als Vorverarbeitungsschritt für Objektdetektion. Wir definieren verschiedene Metriken und vergleichen eine breite Palette von Methoden nach diesen Metriken. Durch die Untersuchung der Beziehung zwischen der Lokalisierung von Erkennungsvorschlägen und der endgültigen Objektdetektionsleistung definieren und verifizieren wir experimentell eine Metrik, die als Stellvertreter für die Detektorleistung verwendet werden kann. Darüber hinaus behandeln wir eine strukturelle Schwäche von praktisch allen Objekterkennungs-Prozessen: Unterdrückung nicht-maximaler Detektionen. Wir analysieren, warum dieser Schritt notwendig ist und was die Unzulänglichkeiten des gebräuchlichen Ansatzes sind. Um diese Probleme zu lösen, stellen wir Forschung vor, die diese Mängel überwindet und die die typische Unterdrückung durch eine erlernbare Alternative ersetzt. Das vorgestellte Paradigma ebnet den Weg zu echtem End-to-End-Lernen'' von Objektdetektoren, die keine weitere Nachbearbeitung benötigen. Zusammenfassend stellt diese Dissertation Analysen der jüngsten Fußgänger-Detektoren und Erkennungsvorschläge vor, verbessert die Fußgängererkennung durch den Einsatz tiefer neuronaler Netze und präsentiert eine tragfähige Alternative zur herkömmlichen Unterdrückung nicht-maximaler Detektionen.
Lizenz: Veröffentlichungsvertrag für Dissertationen und Habilitationen

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English