Linking Automated Data Analysis and Visualization with Applications in Developmental Biology and High-energy Physics

  • Knowledge discovery from large and complex collections of today’s scientific datasets is a challenging task. With the ability to measure and simulate more processes at increasingly finer spatial and temporal scales, the increasing number of data dimensions and data objects is presenting tremendous challenges for data analysis and effective data exploration methods and tools. Researchers are overwhelmed with data and standard tools are often insufficient to enable effective data analysis and knowledge discovery. The main objective of this thesis is to provide important new capabilities to accelerate scientific knowledge discovery form large, complex, and multivariate scientific data. The research covered in this thesis addresses these scientific challenges using a combination of scientific visualization, information visualization, automated data analysis, and other enabling technologies, such as efficient data management. The effectiveness of the proposed analysis methods is demonstrated via applications in two distinct scientific research fields, namely developmental biology and high-energy physics. Advances in microscopy, image analysis, and embryo registration enable for the first time measurement of gene expression at cellular resolution for entire organisms. Analysis of highdimensional spatial gene expression datasets is a challenging task. By integrating data clustering and visualization, analysis of complex, time-varying, spatial gene expression patterns and their formation becomes possible. The analysis framework MATLAB and the visualization have been integrated, making advanced analysis tools accessible to biologist and enabling bioinformatic researchers to directly integrate their analysis with the visualization. Laser wakefield particle accelerators (LWFAs) promise to be a new compact source of highenergy particles and radiation, with wide applications ranging from medicine to physics. To gain insight into the complex physical processes of particle acceleration, physicists model LWFAs computationally. The datasets produced by LWFA simulations are (i) extremely large, (ii) of varying spatial and temporal resolution, (iii) heterogeneous, and (iv) high-dimensional, making analysis and knowledge discovery from complex LWFA simulation data a challenging task. To address these challenges this thesis describes the integration of the visualization system VisIt and the state-of-the-art index/query system FastBit, enabling interactive visual exploration of extremely large three-dimensional particle datasets. Researchers are especially interested in beams of high-energy particles formed during the course of a simulation. This thesis describes novel methods for automatic detection and analysis of particle beams enabling a more accurate and efficient data analysis process. By integrating these automated analysis methods with visualization, this research enables more accurate, efficient, and effective analysis of LWFA simulation data than previously possible.
  • Die Analyse komplexer wissenschaftlicher Daten ist eine zentrale Herausforderung in der heutigen Forschung. Komplizierte Vorgänge können immer detaillierter gemessen und simuliert werden. Dies fÜhrt dazu, dass aktuelle wissenschaftliche Datensätze Informationen über immer mehr Datendimensionen und Datenobjekte enthalten. Wissenschaftler werden überwältigt mit Daten, und herkömmliche Analyseverfahren sind oft nicht ausreichend um eine effektive Analyse der vorhandenen Daten zu ermöglichen. Das Hauptziel dieser Dissertation ist es, wichtige neue Methoden zu entwickeln um den effizienten Gewinn von Wissen von großen, komplexen, multivariaten wissenschaftlichen Daten zu ermöglichen. Um dieses Ziel zu erreichen, verwendet diese Arbeit eine Kombination aus Visualisierung,Datenanalyse, und anderen grundlegenden Technologien (zum Beispiel Verfahren zum Management von großen Daten). Die Effektivität der vorgeschlagenen Methoden wird demonstriert anhand zweier unterschiedlicher Applikationen aus der Entwicklungsbiologie und der Hochenergiephysik. Fortschritte in der Mikroskopie, Bildanalyse, und Verfahren zur Registrierung von Embryonen ermöglichen zum ersten Mal die Messung von Genexpression mit zellulärer Auflösung für vollständige Organismen. Räumliche Genexpressionsdaten sind hochdimensional, wobei die verschiedenen Gene durch komplexe Prozesse miteinander in Verbindung stehen. Die Analyse dieser hochkomplexen Daten ist schwierig. Durch die Integration von Clustering und modernen Visualisierungsverfahren ermöglicht diese Forschungsarbeit die Analyse von komplexen, räumlichen und sich zeitlich verändernden Genexpressionsmustern sowie deren Beziehungen zueinander. Mittels der Integration von MATLAB, einem fortgeschrittenen System zur Datenanalyse, mit der Visualisierung ermöglicht diese Forschungsarbeit Biologen den Zugriff auf fortgeschrittenen Analyseverfahren. Plasmabasierte Kielfeld-Beschleuniger ermöglichen die Erzeugung von hochenergetischen Partikeln in sehr kurzer Distanz und versprechen in Zukunft die Möglichkeit des Baus von wesentlich kompakteren Partikelbeschleunigern, die Anwendung in der Medizin wie auch in der Physik finden können. Rechnergestützte Simulationen werden verwendet, um ein besseres Verständniss der komplizierten physikalischen Vorgänge zu erlangen. Die resultierenden Simulationsdaten sind (i) extrem groß, (ii) haben unterschiedliche zeitliche und räumliche Auflösung, (iii) sind heterogen und (iv) hochdimensional. Die Analyse solcher hochkomplexen Daten ist kompliziert. Durch die Integration des Visualisierungssystems VisIt mit dem Datenmanagementsystem FastBit ermöglicht diese Forschungsarbeit die interaktive visuelle Analyse von extrem großen dreidimensionalen Simulationsdaten. Im Rahmen der Datenanalyse sind hier insbesondere charakteristische, hochenergetische Partikelbündel, die während der Simulation geformt werden, von Interesse. Um einen effizienten Datenanalyseprozess zu ermöglichen, wurden im Rahmen dieser Dissertation verschiedene Verfahren zur automatischen Detektion und Analyse von Partikelstrahlen entwickelt. Die Integration dieser automatischen Verfahren mit der Visualisierung ermöglicht die genaue, effiziente, und effektive Analyse von Simulationsdaten von Kielfeld-Beschleunigern.

Download full text files

Export metadata

Additional Services

Search Google Scholar
Metadaten
Author:Oliver Rübel
URN:urn:nbn:de:hbz:386-kluedo-24023
ISBN:978-3-941438-35-4
ISSN:1610-2673
Series (Serial Number):Schriftenreihe / Fachbereich Informatik (28)
Advisor:Hans Hagen
Document Type:Doctoral Thesis
Language of publication:English
Year of Completion:2009
Year of first Publication:2009
Publishing Institution:Technische Universität Kaiserslautern
Granting Institution:Technische Universität Kaiserslautern
Acceptance Date of the Thesis:2009/11/20
Date of the Publication (Server):2009/11/26
Tag:3D Gene Expression; Feature Detection; Laser Wakefield Particle Accelerator; Linking Data Analysis and Visualization
GND Keyword:Visualisierung; Datenanalyse; Cluster-Analyse; Gene expression programming; Computerphysik
Faculties / Organisational entities:Kaiserslautern - Fachbereich Informatik
DDC-Cassification:0 Allgemeines, Informatik, Informationswissenschaft / 004 Informatik
Licence (German):Standard gemäß KLUEDO-Leitlinien vor dem 27.05.2011