Universitätsbibliothek Wien

Addressing biological questions with massive sequence data

Strauß, Sascha (2009) Addressing biological questions with massive sequence data.
Dissertation, University of Vienna. Zentrum für Molekulare Biologie
BetreuerIn: von Haeseler, Arndt

[img]
Preview
PDF
Alle Rechte vorbehalten / All rights reserved

Download (17Mb)
URN: urn:nbn:at:at-ubw:1-29917.34013.141663-3
URN: urn:nbn:at:at-ubw:1-29917.34013.141663-3

Link zu u:search

Abstract in English

The generation of biological sequence data has witnessed a massive reduction in time consumption and costs, yielding a true data flood. More than 63 million publicly available Expressed Sequence Tags (ESTs) and over 1000 completely sequenced bacterial genomes are impressive examples of this development. This data now allows to re-address open standing questions concerning the evolution of species and of biological systems. The research field of metazoan (animal) phylogeny for example particularly benefits from the massive sequencing of ESTs. The splitting events between the main animal lineages occurred hundreds of millions of years ago, leaving only a weak phylogenetic signal. To get a robust resolution of these splits, the signal has to be amplified by incorporating lots of data. Moreover, the broad variety of taxa for which ESTs are now available allows the determination of evolutionary relationships within the main lineages on a fine scale. Here, we describe a pipeline to automatically process and manage millions of raw ESTs. We further present a method to compile customized data sets for EST-based phylogeny reconstruction, and demonstrate its application with an investigation of the evolutionary relationships of winged insects (Pterygota). Furthermore, we present our finding that common gene selection strategies for EST-based phylogeny reconstruction introduce a bias towards slowly evolving genes. We subsequently investigate the consequences of this bias for the inferred phylogenies. By contrast, the protein family of TonB dependent transporters (TBDTs) is an ideal framework to explore the evolution of biological systems. Exclusively found in gram-negative bacteria, they provide passage for several nutrients through the cell wall with high substrate specificity. By searching for homologs to known TBDTs in almost 700 species, we obtained about 4600 new candidates from ~350 taxa. A subsequent clustering analysis revealed a complex system of 195 subclasses within this family. By labeling the subclasses according to known TBDTs, we were able to suggest putative substrates for the majority of yet undescribed tentative transporters. Interestingly, TBDTs are grouped by their substrates rather than by the taxonomy of species they are found in. Finally, we present an intuitive web interface that grants access of our results to the research community. Both studies demonstrate that by mastering obstacles introduced by the sheer amount of data, nowadays available sequence data provide the opportunity to reconstruct complex evolution on different levels.

Schlagwörter in Englisch

evolution / animal phylogeny / phylogeny reconstruction / TonB dependent transporters / sequence data / Expressed Sequence Tags

Abstract in German

Die Erzeugung von biologischen Sequenzdaten wird zunehmend billiger und schneller. Die mehr als 63 Millionen öffentlich verfügbaren „expressed sequence tags“ (ESTs) und über 1000 vollständig sequenzierten Bakteriengenome belegen diese Entwicklung eindrucksvoll. Diese Datenmengen erlauben es nun, offen stehende Fragen bezüglich der Evolution von Arten und biologischen Systemen aufzugreifen. Das Forschungsgebiet der Tierphylogenie profitiert beispielsweise maßgeblich von der Erzeugung von ESTs in großer Stückzahl. Die Aufspaltungen innerhalb der Abstammungslinien, welche die Großgruppen der Tiere miteinander verbinden, liegen hunderte von Millionen von Jahren zurück. Ihr phylogenetisches Signal ist deswegen nur noch sehr schwach. Um eine robuste Auflösung dieser Aufspaltungen zu erlangen, muss es verstärkt werden. Dies kann nur durch die Einbindung großer Datenmengen geschehen. Darüber hinaus ermöglicht die Vielzahl von Taxa, für die heutzutage Sequenzdaten verfügbar sind, die Bestimmung der feinverästelten evolutionären Beziehungen innerhalb der großen Tiergruppen. In dieser Arbeit stellen wir die von uns implementierte Programmpipeline vor, mit der Millionen von unbearbeiteten ESTs aufbereitet werden können. Des Weiteren beschreiben wir eine Methode, um ESTs basierende Datensätze zu erzeugen, mit deren Hilfe Phylogenien rekonstruiert werden können. Wir demonstrieren die Anwendung dieser Methode anhand einer erfolgreichen Untersuchung der evolutionären Beziehungen von geflügelten Insekten. Wir präsentieren unsere Entdeckung eines systematischen Fehlers, der durch die spezifische Auswahl von Genen bei EST basierten Phylogenierekonstruktionen entsteht. Im Anschluss diskutieren wir die Auswirkungen dieses systematischen Fehlers ausführlich. Die Proteinfamilie der TonB-abhängigen Transporter (TonB dependend transporters (TBDTs)) bietet ideale Rahmenbedingungen, um die Evolution von biologischen Systemen zu erforschen. Diese Transporter, welche ausschließlich in grammnegativen Bakterien gefunden werden, ermöglichen ihren Trägern, Nährstoffe durch die Zellwand aufzunehmen. Wir durchsuchten die Genomsequenzen von rund 700 Arten nach Homologen zu bereits beschriebenen TBDTs. Dabei fanden wir ca. 4600 Kandidaten in ungefähr 350 verschiedenen Genomsequenzen. Eine anschließende Clusteranalyse enthüllte ein komplexes System von 195 Subklassen innerhalb dieser Proteinfamilie. Anhand der Einteilung in die Subklassen war es uns möglich, der Mehrheit der bis jetzt unbeschriebenen Kandidaten ein mögliches Substrat zuzuordnen. Dabei fanden wir heraus, dass die TBDTs entsprechend ihres Substrates gruppieren, und nicht nach der taxonomischen Einteilung der Arten in der sie gefunden wurden. Zuletzt präsentieren wir ein intuitives Webinterface, welches der Forschergemeinde Zugriff auf unsere Ergebnisse gewährt. Beide präsentierten Studien zeigen, dass mit den geeigneten Methoden die heutzutage verfügbare Datenmenge genutzt werden kann, um Evolution auf verschiedenen Ebenen zu rekonstruieren.

Schlagwörter in Deutsch

Evolution / Tierphylogenie / Phylogenierekonstruktion / TonB-abhängige Transporter / Sequenzdaten / Expressed Sequence Tags

Item Type: Hochschulschrift (Dissertation)
Author: Strauß, Sascha
Title: Addressing biological questions with massive sequence data
Umfangsangabe: 240 S. : Ill., graph. Darst.
Institution: University of Vienna
Faculty: Zentrum für Molekulare Biologie
Publication year: 2009
Language: eng ... Englisch
Supervisor: von Haeseler, Arndt
Assessor: Hankeln, Thomas
2. Assessor: Schleiff, Enrico
Classification: 42 Biologie > 42.21 Evolution
AC Number: AC08076728
Item ID: 8995
(Das PDF-Layout ist ident mit der Druckausgabe der Hochschulschrift.)

Urheberrechtshinweis: Für Dokumente, die in elektronischer Form über Datennetze angeboten werden, gilt uneingeschränkt das österreichische Urheberrechtsgesetz; insbesondere sind gemäß § 42 UrhG Kopien und Vervielfältigungen nur zum eigenen und privaten Gebrauch gestattet. Details siehe Gesetzestext.

Edit item (Administrators only) Edit item (Administrators only)