Fusion in Object Detection and Human Pose Estimation for Automotive Scene Understanding

  • The automotive sector has seen a surge in demand for increased safety, comfort, and flexibility, driven by the growing popularity of advanced driver assistance systems (ADAS). Detection of other traffic participants in 2D and 3D is essential to avoid accidents and ensure safety. Despite its importance, there has been limited research on reliable pedestrian detection for automotive, particularly when pedestrians are at a distance, e.g., 20-50 meters. This thesis explores different sensor fusion approaches to achieve optimal performance in object detection and human pose estimation, considering the specific strengths and weaknesses of the used sensors. The goal is to determine when and why to use specific fusion methods to achieve reliable perception of the environment, which is critical for ensuring safety and preventing accidents. For monocular 3D detection a 3D decoder and new loss functions are introduced, to achieve state-of-the-art performance and understand the limitations and advantages of RGB-only setups. However, it is limited by the depth ambiguity, where objects at different distances appear similar in the image. Geometric fusion using camera and lidar sensors overcomes this limitation. An approach for long range pedestrian detection (LRPD) focuses on maintaining high performance at long ranges. Showcasing the robustness and versatility of geometric fusion, an approach for human pose estimation using RGB and lidar (HPERL) is developed. A detailed evaluation attributes the gains to depth perception with a significant reduction in center depth error. To address the requirement for complex calibration, a novel calibration-free learned fusion approach is introduced. The approach is able to learn fusion of features, using self-attention. As a result, the approach has strong robustness against random translation and rotation, since it does not depend on the exact sensor alignment like calibration based approaches. Finally, temporal fusion is explored to overcome missing object permanence in current object detectors. The proposed integrated object permanence (IOP) uses predictions of previous frames as priors for the current frame, enabling more reliable detection, even when objects are partially or briefly occluded. Highlighting the importance of sensor fusion in autonomous driving, this work reveals suitability of fusion for various use-cases. Geometric fusion achieves optimal performance, while learned fusion provides calibration-free solutions. Temporal fusion addresses the issue of missing object permanence.
  • Im Automotive-Sektor ist die Nachfrage nach erhöhter Sicherheit, Komfort und Flexibilität durch Advanced Driver Assistance Systems (ADAS) stark gestiegen. Dabei ist die Detektion anderer Verkehrsteilnehmer in 2D und 3D essenziell zur Unfallvermeidung und Sicherheitssteigerung. Trotz dessen Wichtigkeit gibt es wenig Forschung zu zuverlässiger Fußgängererkennung im Straßenverkehr, besonders für weit entfernte Fußgänger, z.B. 20-50 Meter. Die Arbeit exploriert verschiedene Sensorfusionsansätze zur bestmöglichen Objekterkennung und menschlichen Posenschätzung. Dabei werden spezifische Stärken und Schwächen der Sensoren berücksichtigt und untersucht, wann und warum Fusionsmethoden sich für eine zuverlässige Wahrnehmung eignen. Dies ist kritisch für hohe Sicherheit und Unfallvermeidung. Für monokulare Detektion wird ein State-of-the-Art-Ansatz mit neuem 3D Dekodierer und Verlustfunktion eingeführt, um Vor- und Nachteile von RGB Ansätzen zu verstehen. Jedoch ist der Ansatz durch Tiefenambiguität limitiert, da Objekte in verschiedener Entfernung gleich groß im Bild erscheinen. Geometrische Fusion von Kamera- und Lidar-Sensoren ist davon nicht betroffen. Der Ansatz zur Detektion von entfernten Fußgängern (LRPD) detektiert diese auch in großen Entfernungen zuverlässig. Der Ansatz zur men- schlichen Posenschätzung mittels RGB und Lidar (HPERL) zeigt die Robustheit und Vielseitigkeit der geometrischen Fusion. Verbesserungen lassen sich durch eine detaillierte Evaluierung auf die Tiefenwahrnehmung zurückführen. Gelernte Fusion wird hier als kalibrierungsfreier Ansatz eingeführt, der komplexe Kalibrierung vermeidet und die Robustheit erhöht. Dafür lernt der Ansatz mittels Self-Attention die Fusion der Features. Dadurch ist der Ansatz robust gegenüber zufälligen Translationen und Rotationen, da er nicht von der exakten Sensorausrichtung abhängt, wie kalibrierungsbasierte Ansätze. Temporale Fusion erlaubt die Integration von Objektpermanenz in aktuelle Objektdetektoren. Der Ansatz der integrierten Objektpermanenz (IOP) nutzt Detektionen aus vorherigen Zeitschritten als Priore. Dadurch wird eine zuverlässigere Detektion bei teilweiser oder kurzzeitiger Verdeckung ermöglicht. Diese Arbeit unterstreicht die Wichtigkeit von Sensorfusion im autonomen Fahren und zeigt die Eignung von Fusion für unterschiedliche Anwendungsfälle auf. Geometrische Fusion zeigt optimale Performanz, gelernte Fusion benötigt keine Kalibrierung und temporale Fusion sorgt für Objektpermanenz.

Export metadata

Additional Services

Search Google Scholar
Metadaten
Author:David Michael FürstORCiD
URN:urn:nbn:de:hbz:386-kluedo-97162
DOI:https://doi.org/10.26204/KLUEDO/9716
Advisor:Didier Stricker
Document Type:Doctoral Thesis
Cumulative document:No
Language of publication:English
Date of Publication (online):2026/03/15
Year of first Publication:2026
Publishing Institution:Rheinland-Pfälzische Technische Universität Kaiserslautern-Landau
Granting Institution:Rheinland-Pfälzische Technische Universität Kaiserslautern-Landau
Acceptance Date of the Thesis:2025/10/27
Date of the Publication (Server):2026/03/16
Page Number:xi, 169
Faculties / Organisational entities:Kaiserslautern - Fachbereich Informatik
DDC-Cassification:0 Allgemeines, Informatik, Informationswissenschaft / 004 Informatik
Licence (German):Creative Commons 4.0 - Namensnennung, nicht kommerziell, keine Bearbeitung (CC BY-NC-ND 4.0)