SciDok

Eingang zum Volltext in SciDok

Lizenz

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:291-scidok-58098
URL: http://scidok.sulb.uni-saarland.de/volltexte/2014/5809/


Active transitivity clustering of large-scale biomedical datasets

Active transitivity clustering von großen biomedizinischen Datensätzen

Röttger, Richard

pdf-Format:
Dokument 1.pdf (7.062 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Homologie <Biologie> , Cluster <Datenanalyse> , Bioinformatik , Systembiologie , Cluster-Analyse
Freie Schlagwörter (Englisch): homology detection , clustering , cluster analysis , system biology , bioinformatics
Institut: Fachrichtung 6.2 - Informatik
Fakultät: Fakultät 6 - Naturwissenschaftlich-Technische Fakultät I
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Baumbach, Jan (Prof. Dr. rer. nat.)
Sprache: Englisch
Tag der mündlichen Prüfung: 28.05.2014
Erstellungsjahr: 2014
Publikationsdatum: 30.05.2014
Kurzfassung auf Englisch: Clustering is a popular computational approach for partitioning data sets into groups of objects that share common traits. Due to recent advances in wet-lab technology, the amount of available biological data grows exponentially and increasingly poses problems in terms of computational complexity for current clustering approaches. In this thesis, we introduce two novel approaches, TransClustMV and ActiveTransClust, that enable the handling of large scale datasets by reducing the amount of required information drastically by means of exploiting missing values.
Furthermore, there exists a plethora of different clustering tools and standards making it very difficult for researchers to choose the correct methods for a given problem. In order to clarify this multifarious field, we developed ClustEval which streamlines the clustering process and enables practitioners conducting large-scale cluster analyses in a standardized and bias-free manner.
We conclude the thesis by demonstrating the power of clustering tools and the need for the previously developed methods by conducting real-world analyses. We transferred the regulatory network of E. coli K-12 to pathogenic EHEC organisms based on evolutionary conservation therefore avoiding tedious and potentially dangerous wet-lab experiments. In another example, we identify pathogenicity specific core genomes of actinobacteria in order to identify potential drug targets.
Kurzfassung auf Deutsch: Clustering ist ein populärer Ansatz um Datensätze in Gruppen ähnlicher Objekte zu partitionieren. Nicht zuletzt aufgrund der jüngsten Fortschritte in der Labortechnik wächst die Menge der biologischen Daten exponentiell und stellt zunehmend ein Problem für heutige Clusteralgorithmen dar. Im Rahmen dieser Arbeit stellen wir zwei neue Ansätze, TransClustMV und ActiveTransClust, vor die auch das Bearbeiten sehr großer Datensätze ermöglichen, indem sie den Umfang der benötigten Informationen drastisch reduzieren da fehlende Werte kompensiert werden können.
Allein die schiere Vielfalt der vorhanden Cluster-Methoden und Standards stellt den Anwender darüber hinaus vor das Problem, den am besten geeigneten Algorithmus für das vorliegende Problem zu wählen. ClustEval wurde mit dem Ziel entwickelt, diese Unübersichtlichkeit zu beseitigen und gleichzeitig die Clusteranalyse zu vereinheitlichen und zu automatisieren um auch aufwendige Clusteranalysen zu realisieren.
Abschließend demonstrieren wir die Nützlichkeit von Clustering anhand von realen Anwendungsfällen die darüber hinaus auch den Bedarf der zuvor entwickelten Methoden aufzeigen. Wir haben das genregulatorische Netzwerk von E. coli K-12 ohne langwierige und potentiell gefährliche Laborarbeit auf pathogene EHEC Stämme übertragen. In einem weiteren Beispiel bestimmen wir das pathogenitätsspeziefische „Kerngenom“ von Actinobakterien um potenzielle Angriffspunkte für Medikamente zu identifizieren.
Lizenz: Veröffentlichungsvertrag für Dissertationen und Habilitationen

Home | Impressum | Über SciDok | Policy | Kontakt | Datenschutzerklärung | English