Object Detection and Pose Estimation in Construction Environments using Deep Learning
Objekterkennung und Posenschätzung im Baustellenumfeld mittels tiefem Lernen
- Recent advancements in computer vision and machine learning have significantly improved the safety of autonomous systems. However, limited research has focused on construction and agricultural environments, particularly when dealing with machinery having complex kinematics such as excavators. This thesis addresses this gap by developing innovative models to enhance the performance of vision-based safety systems. Specifically, three key computer vision tasks are investigated: object detection, pose estimation, and activity recognition. To improve object detection, anchor-free models based on dense detectors are developed, integrating new configurations of IoU-based loss functions with spatial attention mechanisms. These enhancements increase accuracy and make the models suitable for edge-device applications. For pose estimation, self-supervised learning approaches are employed to reduce the need for large annotated datasets. Two strategies are compared: one that directly estimates poses and another that combines semantic segmentation with pose estimation, offering greater precision. For activity recognition, an encoder-LSTM model with various attention mechanisms is designed and trained on a synthetic dataset generated from a simulator representing the full range of movement types and patterns of a complex system. Object detection and activity recognition models rely on supervised learning, while pose estimation leverages self-supervised learning paradigms. The proposed models yielded several significant results. The anchor-free dense detector achieves improved performance with CIoU and DIoU loss functions and spatial attention integration, resulting in a 0.5\% and 1.2\% increase in mean average precision (mAP) for the FSAF and FCOS models, respectively, both using a ResNet-50 backbone and trained on the benchmark COCO dataset. These enhancements present a promising direction for edge systems. In pose estimation, the self-supervised learning approach, combined with semantic segmentation, achieves the most accurate results for excavator poses, with improvements of 17\% and 12.5\% in average precision for direct self-supervised and supervised models, respectively. Finally, the encoder-LSTM model for activity recognition demonstrates the highest accuracy when utilizing the scaled dot-product attention mechanism. The results show that a model with two joints is enough for understanding the movement of an excavator as an example of a complex kinematic system. These advancements contribute to improving the efficiency and reliability of vision-based systems in complex environments, paving the way for further research in both industrial and academic contexts.
- Die jüngsten Fortschritte im Bereich der digitalen Bildverarbeitung und des maschinellen Lernens haben die Sicherheit autonomer Systeme erheblich verbessert. Die Forschung konzentrierte sich bisher jedoch nur in begrenztem Maße auf Umgebungen im Bau- und Agarsektor, wo häufig Maschinen mit komplexer Kinematik wie Bagger anzutreffen sind. Die jüngsten Entwicklungen im Bereich des maschinellen Lernens fußen auf dem Paradigma des selbstüberwachten Lernens, das sich vom überwachten Lernen dadurch unterscheidet, dass es keine große Menge an kommentierten Daten erfordert. Es erfordert stattdessen Rohdaten für die Aufgaben vor dem Training und einen kleinen kommentierten Datensatz für die nachfolgenden Aufgaben, was es wiederum vom unüberwachten Lernen unterscheidet, das überhaupt keine kommentierten Daten erfordert. Diese Arbeit verknüpft den selbstüberwachten Lernansatz mit neuen strukturierten tiefen neuronalen Netzwerkmodellen, um die Hauptlücke in den Bereichen Bau und Agrar durch die Entwicklung innovativer Modelle zur Verbesserung der Leistung von bildverarbeitungsbasierten Systemen zu schließen. Im Einzelnen werden drei zentrale Aufgaben der Computer Vision untersucht: Objekterkennung, Posenschätzung und Aktivitätserkennung. Bei der Objekterkennung werden die Objekte in der Szene klassifiziert und die Positionen mit Hilfe eines Begrenzungsrahmens (Bounding Box) lokalisiert, während bei der Posenschätzung die wichtigsten Schlüsselpunkte, die das Objekt darstellen, zur Erstellung eines Skeletts verwendet werden. Schließlich wird die Aktivitätserkennung verwendet, um das Verhalten eines objekts auf der Grundlage einer Reihe von Beobachtungen zu verstehen, die dann Aktionen für Sicherheitsbelange auslösen können. Das Hauptziel dieser Forschungsarbeit ist die Verbesserung der Sicherheit im Bau- und Agrarwesen, insbesondere bei der Bedienung eines Baggers, einem der komplexesten kinematischen Systeme unter allen verwendeten Maschinen. Es wird ein verankerungsfreies Objektdetektormodell entwickelt, das die CIoU-Verlustfunktion und den Mechanismus der räumlichen Aufmerksamkeit nutzt. Die neuen Strukturen haben fast die gleiche Komplexität wie die Basisstrukturen. In der Literatur werden bisher nur wenige Anstrengungen unternommen, um ein Modell zur Posenschätzung für schwere Baumaschinen auf der Grundlage von tiefen neuronalen Netzwerkmodellen zu entwickeln, was darauf zurückzuführen ist, dass wenige kommentierte Datensätze aus realen Situationen vorliegen. Um diese Lücke zu schließen, wurden zwei neue Modelle zur Posenschätzung entwickelt, die auf einem Paradigma des selbstüberwachten Lernens basieren. Ein Vergleich zwischen Ansätzen basierend auf überwachtem und selbstüberwachtem Lernen wird ebenfalls durchgeführt. Um die verschiedenen Aktivitäten einer schweren Baumaschine zu erkennen, wird ein Modell entwickelt, das auf einem Encoder-LSTM-Modell basiert. Diese Struktur kann auf verschiedene komplexe kinematische Systeme verallgemeinert werden, indem eine kleine Menge synthetischer Datensätze aus dem Bereich verwendet wird. Zur Verbesserung der Objekterkennung werden ankerfreie Modelle auf der Grundlage dichter Detektoren entwickelt, indem neue Konfigurationen von IoU-basierten Verlustfunktionen mit Plug-in-Mechanismen für die räumliche Aufmerksamkeit getestet und integriert werden. Es werden zwei Arten von dichten Prädiktoren verwendet: das FSAF- und das FCOS-Modell. Die Genauigkeit dieser Strukturen wurde bei Tests sowohl mit dem COCO-Referenzdatensatz als auch mit dem OPEED-Datensatz, einem speziellen Datensatz mit Aufnahmen aus suburbanen Umgebungen, erhöht. Diese verbesserten Strukturen eignen sich für Edge-Device-Anwendungen. Für die Posenschätzung werden zwei selbstüberwachte Strukturen entwickelt: die SimCLR und die DenseCL. Im Allgemeinen besteht jedes Modell aus mindestens zwei Phasen: die erste ist die Vor-Trainings-Phase, die zweite sind die nachgelagerten Aufgaben. Bei dem Modell, das auf der selbstüberwachten SimCLR-Struktur basiert, wird die Posenschätzung für einen Bagger direkt durch eine Kombination aus Simulation mit Nvidia Issac Sim und MATLAB sowie einem kleinen Echtzeit-Annotation-Datensatz, der teilweise aus dem ACID-Datensatz für die nachgelagerte Aufgabe stammt, generiert. Das Modell, das auf der selbstüberwachten DenseCL-Struktur basiert, besteht dagegen aus drei Hauptphasen: der Pre-Train-Phase, der nachgelagerten Aufgabe für die semantische Segmentierung und der Erzeugung einer Skelettstruktur unter Verwendung von Schlüsselpunkten, die aus jedem Segment mit Hilfe einer konventionellen maschinellen Lernphase generiert werden. Ein Benchmark-Datensatz namens ImageNet wird für die Pre-Train-Phase für beide entwickelten Modelle verwendet. Bei der Arbeit mit einem Aktivitätserkennungsmodell wird ein Encoder-LSTM-Modell mit verschiedenen Strukturen des Aufmerksamkeitsmechanismus getestet. Die Daten, die für diese Aufgabe verwendet werden, stammen ebenfalls aus der Nvidia Isaac-Simulation. Diese Daten repräsentieren die Positionen als (X, Y, Z)-Koordinaten der Hauptgelenke in der kinematischen Struktur von Baggern. Das kinematische Modell besteht aus vier Gelenken mit insgesamt 12 Merkmalen. Zur Datenanalyse und Identifizierung von Beziehungen zwischen diesen Merkmalen wird eine Korrelations-Heatmap-Technik verwendet. Es werden vier aufmerksamkeitsmechanismen (Attention Mechanisms) getestet: ein convolutional attention mechanism (CAM), eine additive attention, eine multi-head attention und ein skalierter dot-product attention with masking. Die Modelle zur Objekterkennung und Aktivitätserkennung basieren auf einem überwachten Lernparadigma, während die Posenschätzung ein selbstüberwachtes Lernparadigma verwendet. Die vorgeschlagenen Modelle erbrachten mehrere wichtige Ergebnisse. Der ankerfreie dichte Detektor erzielte eine verbesserte Leistung mit CIoU- und DIoU-Verlustfunktionen und räumlicher Aufmerksamkeitsintegration, was zu einer Steigerung der mittleren durchschnittlichen Genauigkeit (mAP) um 0,5% bzw. 1,2% für die Modelle FSAF und FCOS führte, die beide ein ResNet-50-Backbone verwenden und auf dem COCO Referenzdatensatz trainiert wurden. Diese Verbesserungen stellen eine vielversprechende Richtung für Edge-Systeme dar. Bei der Posenschätzung erzielte der Ansatz des selbstüberwachten Lernens in Kombination mit semantischer Segmentierung die genauesten Ergebnisse für Baggerposen, mit Verbesserungen von 17% und 12,5% bei der durchschnittlichen Genauigkeit für direkte selbstüberwachte und überwachte Modelle. Schließlich zeigte das Encoder-LSTM-Modell für die Aktivitätserkennung die höchste Genauigkeit, wenn es den skalierten Dot-product masked attention mechanism verwendete. Die Ergebnisse zeigen, dass ein Modell mit zwei Gelenken ausreichend ist, um die Bewegung eines Baggers als Beispiel für ein komplexes kinematisches System zu verstehen. Sie zeigen eine Steigerung der Genauigkeit der Aktivitätserkennung um 22,1% (Vier-Sensor-System) und 33,3% (Zwei-Sensor-System). Diese Fortschritte tragen dazu bei, die Effizienz und Zuverlässigkeit von bildverarbeitungsbasierten Systemen in komplexen Umgebungen zu verbessern und ebnen den Weg für weitere Forschungen sowohl im industriellen als auch im akademischen Kontext. In dieser Arbeit wurden drei grundlegende Computer-Vision-Aufgaben untersucht - Objekterkennung, Posenschätzung und Aktivitätserkennung -, die jeweils zur Weiterentwicklung von Deep-Learning-Methoden zur Verbesserung der Sicherheit im Bau und Agrarbereich beitragen können. Durch eine systematische Untersuchung wurden neuartige Modelle entwickelt und evaluiert, die ankerfreie Modelle, selbstüberwachtes Lernen und ein Encoder-LSTM-Modell mit Aufmerksamkeitsmechanismen zur Verbesserung der Leistung und Generalisierbarkeit nutzen. Die Ergebnisse zeigen, dass die ankerfreien Modelle, die ein Feature Pyramid Network (FPN) in ihrer Struktur enthalten, besser mit dem zukünftigen Ausrichtung auf biologische Plausibilität vereinbar sind, da die Algorithmen und Modelle der tiefen neuronalen Netze nachahmen, wie das menschliche visuelle System Bilder verarbeitet. Es zeigt sich auch, dass selbstüberwachtes Lernen ein geeigneter Ansatz für die Entwicklung von Posenschätzungen für Probleme sein kann, bei denen nur ein kleiner annotierter Datensatz verfügbar ist. Durch den Einsatz von Simulationen kann die Aktivitätserkennung eines kinematischen Systems von einem einfachen System auf ein komplexeres System verallgemeinert werden. Für künftige Arbeiten können weitere ankerfreie Detektoren für die verschiedenen Arten von Verlustfunktionen und verschiedene Arten von Aufmerksamkeitsmechanismen, wie z. B. das convolutional block attention module (CBAM), untersucht werden. Aus Sicht der Autorin sind ankerfreie Modelle immer noch ein Sprungbrett für zukünftige Forschung. Sie können auch in einem halbüberwachten Ansatz verwendet werden. Für die zweite Aufgabe, die Posenschätzung, können die Ergebnisse der ersten Methode der direkten Generierung von Posenschätzungen durch die Verwendung des Aufmerksamkeitsmechanismus sowie durch eine genauere und automatische Generierung von labeln für die Datenerfassung aus Simulationen verbessert werden. Auf der anderen Seite kann die zweite Methode durch eine genaue Assotiontionstechnik verbessert werden, um jedes Segment dem richtigen Objekt zuzuordnen. Bereichsanpassung und kontinuierliches Lernen sind zwei Ansätze für den Wissenstransfer, die zum Erlernen von Mustern für zukünftige Arbeiten genutzt werden können. Für das Aktivitätserkennungsmodell kann ein Sensorfusionsmodell entwickelt werden, das auf einem tiefen neuronalen Netz basiert, um zwei Arten von Zeitseriendaten zu verarbeiten: eine Reihe von Positionen und Bildrahmen. Dieses Modell kann mit den in dieser Studie ermittelten Modellen verglichen werden, und das beste Modell kann anschließend in einem realen Aktivitätserkennungssystem eingesetzt werden. Die Entwicklung eines Aktivitätserkennungsmodells, das auf einem Paradigma des selbstüberwachten Lernens basiert, könnte ein zusätzlicher Weg für zukünftige Forschung sein.
| Author: | Ala'a AlshubbakORCiD |
|---|---|
| URN: | urn:nbn:de:hbz:386-kluedo-92290 |
| DOI: | https://doi.org/10.26204/KLUEDO/9229 |
| Advisor: | Daniel Görges |
| Document Type: | Doctoral Thesis |
| Cumulative document: | Yes |
| Language of publication: | English |
| Date of Publication (online): | 2025/10/08 |
| Year of first Publication: | 2025 |
| Publishing Institution: | Rheinland-Pfälzische Technische Universität Kaiserslautern-Landau |
| Granting Institution: | Rheinland-Pfälzische Technische Universität Kaiserslautern-Landau |
| Acceptance Date of the Thesis: | 2025/08/27 |
| Date of the Publication (Server): | 2025/10/14 |
| Tag: | Activity Recognition; Complex Kinematic System; Construction Environment; Deep Neural Network; Object Detection; Pose Estimation; Self-supervised Learning |
| GND Keyword: | Pose Estimation; Object Detection; Activity Recognition; Complex Kinematic System; Construction Environment; Machine Learning; Deep Neural Network; Self-Supervised Learning |
| Page Number: | XXX, 119 |
| Faculties / Organisational entities: | Kaiserslautern - Fachbereich Elektrotechnik und Informationstechnik |
| DDC-Cassification: | 0 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft |
| Licence (German): |
