Universitätsbibliothek Wien

Uncovering high resolution mass spectrometry patterns through audio fingerprinting and periodicity mining algorithms

Fruhwürth, Theresa (2017) Uncovering high resolution mass spectrometry patterns through audio fingerprinting and periodicity mining algorithms.
Masterarbeit, University of Vienna. Fakultät für Physik
BetreuerIn: Plant, Claudia

[img] PDF-File
Alle Rechte vorbehalten / All rights reserved

Download (1266Kb)
URN: urn:nbn:at:at-ubw:1-24618.24193.907470-9
URN: urn:nbn:at:at-ubw:1-24618.24193.907470-9

Link zu u:search

Abstract in English

In mass spectral data analysis mass space which is a projection of the originally recorded data in frequency space has been investigated in much more detail than the frequency space. This is necessitated by the fact that so far annotation of peaks with their corresponding chemical substances commonly happens in mass space. Frequency space should in theory be equally successful in providing information to group data according to its features as there is a known non linear relationship between mass and frequency space. Firstly we would like to investigate how mass and frequency compare with respect to entropy i.e. their information content and thus their ability to serve as features in statistical and data mining tasks. Due to the nature of the Mass spectral data that is available in frequency space and in mass space it would lend itself to sonification which makes it possible to employ algorithms commonly used in music information retrieval. Thus this thesis investigates the benefits and drawbacks that emerge by mapping frequency data into the musical domain for further analysis. This includes an investigation into the maintenance of distance between superimposed sine waves that are derived from the original frequency data as well as their sonified counterparts employing Dynamic time warping. In this thesis we furthermore investigate the use of data mining techniques commonly used in areas of time series analysis for finding periodic patterns. The algorithms employed enable finding partial periodic patterns in mass spectral data in both mass and frequency space. The main contribution is the investigation of the suitability of these algorithms that investigate periodicity in time series analysis on mass spectral data that exhibits periodicity on a mass spectrum coming from a sample of natural organic matter (NOM). The goal of the approach is to find pattern such that they include parts that correspond to mass differences of known CHO containing repeat units in NOM which are known to be chemically relevant. The pattern mining algorithm under investigation terminates in linear time and should focus specifically on retrieving periodic patterns that we hope point towards chemically relevant datapoints. Furthermore I present novel tree based computational approaches for the annotation of the chemical species found in such patterns. These trees can be seen as a visual representation of the well known Kendrick mass defect analysis and the mass difference statistics algorithm. Using reference substances that are used for the calibration of Mass spectra, these initiator trees are build and include subtraction and additions of known repeat units corresponding to the fragmentation patterns commonly observed in NOM CHO space.

Schlagwörter in Englisch

Data Mining / Mass spectrometry / Periodicity mining algorithms / Audio Fingerprinting algorithms

Abstract in German

Massen Spektrometrische Daten werden herkoemmlicherweise im Frequenzbereich aufgezeichnet. Derzeit finden jedoch die meisten Daten analytischen methoden im Massen Bereich statt, da dies der Merkmalsraum ist in dem die Annotation von chemischen Substanzen mittels Summen Formel Bestimmung stattfindet. Der Frequenzbereich dieser Daten ist daher weit weniger exploriert sollte jedoch theoretischer weise gleich erfolgreich sein Information fuer das gruppieren von Daten bereitstellen da es eine bekannte non lineare funktionale Beziehung zwischen Massen und Frequenzen gibt. In einem ersten Ansatz wollen wir in Erfahrung bringen inwieweit diese Annahme berechtigt ist und Massen sowie Frequenz Merkmalsraum in ihrer Entropie und damit ihrem Informationsgehalt uebereinstimmen. Dies dient dazu die Merkmalsraeume in ihrer Faehigkeit Merkmale fuer weitere statistische Aufgaben bereitzustellen zu beurteilen. Da Daten die im Massen Spetrometer aufgezeichnet werden natuerlicherweise im Frequenz Merkmalsraum bereitstehen wuerden diese Daten exzellent fuer die Sonifizierung geeignet sein. Dies wuerde es widerum erlauben Algorithmen auf Massen Spektren anzuwenden welche herkoemmlicherweise nur in der Musik Domaene angewandt werden. Diese Masterarbeit befasst sich daher auch mit den Vorteilen und Nachteilen einer solchen Datentransformation vom Frequenzbereich in die musikalische Domaene. Dies inkludiert eine Analyse der Erhaltung von Distanzen zwischen ueberlagerten sinuskurven welche als Basis fuer die Sonifizierung dienen, als auch ihrer sonifizierten Gegenstuecke. Diese Analyse wird durch den Einsatz von Dynamic Time Warping durchgefuehrt. Ein weiterer Teil dieser Arbeit beschaeftigt sich mit der Untersuchung von "data mining" Techniken welche normalerweise in der Zeitreihen Analyse angewandt werden um periodische Muster in den Daten zu finden. Die Algorithmen die in dieser Arbeit angewandt werden sollten es ermoeglichen exakte periodische Muster in Massen Spektren sowohl in Massen als auch im Frequenz Merkmalsraum zu finden. Die Untersuchung der Anwendbarkeit solcher Algorithmen auf Massen Spektren von Proben bestehend aus Natuerlicher Organischer Substanzen ist hier das primaere Ziel. Weiters wird versucht die gefunden Muster auf ihre chemische Relevanz hin zu pruefen. Falls diese Pruefung positiv erfolgt sollten die periodischen Muster Massen Differenzen enthalten welche mit bekannten Massen Differenzen uebereinstimmen die bei der Fragmentierung von CHO enthaltenden Einheiten uebereinstimmen. Der hier Untersuchte Algorithmus terminiert in linearem Zeitaufwand und ist darauf ausgelegt periodische Muster zu extrahieren die wie wir hoffen auch chemisch relevante Massen Differenzen enthalten. Weiters wird ein neuer Baum basierter Annotations Vorgang gezeigt, welcher als eine Digitalisierung des in der Massen Spektrometrie weit verbreiteten Kendrick Massen Defekten gesehen werden kann. Durch die Nutzung von Referenz Substanzen welche fuer die Kalibierung von Massen Spektren verwendet werden als erster Datenknoten und die Addition und Subtraktion von bekannten Fragmenten kann so ein Teil des Suchraums zur Annotation von Natuerlichen Organischen Substanzen abgedeckt werden.

Schlagwörter in Deutsch

Data Mining / Massenspektrometrie / Periodizitaets Mining Algorithmen / Audio Fingerprinting Algorithmen

Item Type: Hochschulschrift (Masterarbeit)
Author: Fruhwürth, Theresa
Title: Uncovering high resolution mass spectrometry patterns through audio fingerprinting and periodicity mining algorithms
Subtitle: an exploratory analysis
Umfangsangabe: 76 Seiten : Diagramme
Institution: University of Vienna
Faculty: Fakultät für Physik
Studiumsbezeichnung bzw.
Universitätslehrgang (ULG):
Masterstudium Computational Science
Publication year: 2017
Language: eng ... Englisch
Supervisor: Plant, Claudia
Assessor: Plant, Claudia
Classification: 54 Informatik > 54.62 Datenstrukturen
35 Chemie > 35.26 Massenspektrometrie
54 Informatik > 54.99 Informatik: Sonstiges
54 Informatik > 54.80 Angewandte Informatik
AC Number: AC13720077
Item ID: 45899
(Das PDF-Layout ist ident mit der Druckausgabe der Hochschulschrift.)

Urheberrechtshinweis: Für Dokumente, die in elektronischer Form über Datennetze angeboten werden, gilt uneingeschränkt das österreichische Urheberrechtsgesetz; insbesondere sind gemäß § 42 UrhG Kopien und Vervielfältigungen nur zum eigenen und privaten Gebrauch gestattet. Details siehe Gesetzestext.

Edit item (Administrators only) Edit item (Administrators only)