Signature Topology: functional analysis of omics data

  • One of the main tasks of molecular biology is understanding the mechanisms of molecular biological processes. This brings the problem of creating regulatory networks and therefore finding key regulators. In order to do it, it is important to have such representation of the data that can reveal the distinct patterns within the big groups. On one side, there are numerous experimentally determined kinetic information about the alteration of molecular presence in the observed system. On the other side, there are documented throughout the years evidences of the involvement of molecules in different biological processes. Both sources of the information have their drawbacks: experimental data reflect only a fleeting molecular state of each individual organism and therefore are often high-variant and noisy; functional groups were determined as generalization of known roles of molecules in biological processes and therefore can be not complete and only partially relevant to certain experimental conditions and individual organisms. Our goal is to get the overview of the experimentally observed molecules and extract the knowledge from both sources, avoiding constrains of noise distractions and generalization bias. The resulted optimal representation of the experimental data then would help to pinpoint potential regulators. The proposed method is called the Signature Topology (ST) approach, as it uses the functional topology as the prior knowledge source and creates a specific signature for the given experimental data. The ST approach is based on knowledge-and-data-driven machine learning algorithm, that is implemented via a dynamic programming approach. Based on both prior knowledge and learning from the data, the proposed approach represents a combination of supervised and unsupervised machine learning. The resulting network structure deals with data abundance and avoids an over-detailed description that may lead to misinterpretation and is able to pick out elements with minor behavior patterns. The method is tested with artificial data and applied to real-world mass-spectrometry proteome data and NGS-transcriptome data of Chlamydomonas reinhardtii. The proposed approach helps with identification of the potential regulatory genes, whose roles are not explicitly provided in the used functional ontology. Moreover, it shows a successful reduction in data complexity while preserving all individual molecular information reported in the literature and stored in the functional ontology. If the proposed approach analyzes different experimental data with the same ontology, the resulting networks are uniform and therefore can be compared. That gives an opportunity to compare between a great variety of experimental conditions, from different organisms to different system levels.
  • Eine der Hauptaufgaben der Molekularbiologie ist das Verständnis molekularbiologischer Prozesse. Dies bringt das Problem mit sich, Regulierungsnetzwerke zu kreieren und dazu wichtige Regulatoren zu finden. Damit ist es wichtig, eine solche Darstellung der Daten zu finden, die die unterschiedlichen Muster innerhalb der großen Gruppen aufzeigen kann. Auf der einen Seite gibt es zahlreiche experimentell ermittelte kinetische Informationen über die Veränderung der molekularen Präsenz im beobachteten System. Andererseits sind im Laufe der Jahre Beweise für die Beteiligung von Molekülen an verschiedenen biologischen Prozessen dokumentiert. Beide Informationsquellen haben ihre Nachteile: Experimentelle Daten spiegeln nur einen flüchtigen molekularen Zustand jedes einzelnen Organismus wider und sind daher oft variantenreich und verrauscht; Funktionelle Gruppen wurden als Verallgemeinerung bekannter Rollen von Molekülen in biologischen Prozessen bestimmt und können daher nicht vollständig und nur teilweise für bestimmte experimentelle Bedingungen und einzelne Organismen relevant sein. Unser Ziel ist es, einen Überblick über die experimentell beobachteten Moleküle zu erhalten und das Wissen aus beiden Quellen zu extrahieren, wobei Einschränkungen durch Rauschablenkung und Verallgemeinerung zu vermeiden. Die daraus resultierende optimale Darstellung der experimentellen Daten würde dann helfen, potenzielle Regulatoren zu lokalisieren. Die vorgeschlagene Methode wird als Signature Topology (ST)-Ansatz bezeichnet, da sie die funktionale Topologie als Quelle des Vorwissens verwendet und eine spezifische Signatur für die gegebenen experimentellen Daten erstellt. Der ST-Ansatz basiert auf einem wissens- und datengesteuerten maschinellen Lernalgorithmus, der über einen dynamischen Programmieransatz implementiert wird. Der vorgeschlagene Ansatz basiert sowohl auf Vorwissen als auch auf dem Lernen aus den Daten und stellt eine Kombination aus überwachtem und unüberwachtem maschinellem Lernen dar. Die resultierende Netzwerkstruktur geht mit dem Datenüberfluss um und vermeidet eine zu detaillierte Beschreibung, die zu Fehlinterpretationen führen kann, und kann Elemente mit geringfügigen Verhaltensmustern herausgreifen. Die Methode wird mit künstlichen Daten getestet und auf reale Massenspektrometrie-Proteomdaten und NGS-Transkriptomdaten von Chlamydomonas reinhardtii angewendet. Der vorgeschlagene Ansatz hilft bei der Identifizierung der potenziellen regulatorischen Gene, deren Rollen in der verwendeten funktionellen Ontologie nicht explizit vorgesehen sind. Darüber hinaus zeigt es eine erfolgreiche Reduzierung der Datenkomplexität unter Beibehaltung aller individuellen molekularen Informationen, die in der Literatur berichtet und in der funktionalen Ontologie gespeichert sind. Wenn der vorgeschlagene Ansatz verschiedene experimentelle Daten mit derselben Ontologie analysiert, sind die resultierenden Netzwerke einheitlich und können daher verglichen werden. Dies bietet die Möglichkeit, eine Vielzahl von experimentellen Bedingungen zu vergleichen, von verschiedenen Organismen bis hin zu verschiedenen Systemebenen.
Metadaten
Author:Nathan Mikhaylenko
URN:urn:nbn:de:hbz:386-kluedo-70112
DOI:https://doi.org/10.26204/KLUEDO/7011
Advisor:Timo Mühlhaus, Stefan Kins
Document Type:Doctoral Thesis
Language of publication:English
Date of Publication (online):2022/11/16
Year of first Publication:2022
Publishing Institution:Technische Universität Kaiserslautern
Granting Institution:Technische Universität Kaiserslautern
Acceptance Date of the Thesis:2022/08/26
Date of the Publication (Server):2023/12/14
Tag:Omics data analysis; Ontology; Regulatory gene search
GND Keyword:Ontologie; Omics-Thechnologie; Datenanalyse; Regulatorgen
Page Number:127
Faculties / Organisational entities:Kaiserslautern - Fachbereich Biologie
DDC-Cassification:5 Naturwissenschaften und Mathematik / 570 Biowissenschaften, Biologie
Licence (German):Creative Commons 4.0 - Namensnennung, nicht kommerziell, keine Bearbeitung (CC BY-NC-ND 4.0)