Universitätsbibliothek Wien

Formant trajectories in forensic speaker recognition

Enzinger, Ewald (2009) Formant trajectories in forensic speaker recognition.
Diplomarbeit, Universität Wien. Philologisch-Kulturwissenschaftliche Fakultät
BetreuerIn: Moosmüller, Sylvia

[img]
Vorschau
PDF
Alle Rechte vorbehalten / All rights reserved

Download (15Mb)
URN: urn:nbn:at:at-ubw:1-29864.71347.140564-7
URN: urn:nbn:at:at-ubw:1-29864.71347.140564-7

Link zu u:search

Abstract in Englisch

The present work investigates the performance of an approach for forensic speaker recognition that is based on parametric representations of formant trajectories. Quadratic and cubic polynomial functions are fitted to formant contours of diphthongs. The resulting coefficients as well as the first three to four components derived from discrete cosine transform (DCT) are used in order to capture the dynamic properties of the underlying speech acoustics, and thus of the speaker characteristics. This results in a representation based on only a small number of decorrelated parameters that are in turn used for forensic speaker recognition. The evaluation conducted in the study incorporates the calculation of likelihood ratios for use in the Bayesian approach of evidence evaluation. The advantages of this framework and its current limitations are discussed. For the calculation of the likelihood ratios a multivariate kernel density formula developed by Aitken & Lucy (2004) is used which takes both between-speaker and within-speaker variability into account. Automatic calibration and fusion techniques as they are used in automatic speaker identification systems are applied to the resulting scores. To further investigate the importance of duration aspects of the diphthongs for speaker recognition an experiment is undertaken that evaluates the effect of time-normalisation as well as modelling segment durations using an explicit parameter. The performance of the parametric representation approach compared with other methods as well as the effects of calibration and fusion are evaluated using standard evaluation tools like the detection error trade-off (DET) plots, the applied probability of error (APE) plot, the Tippett plot as well as numerical indices like the EER and the Cllr metric.

Schlagwörter in Englisch

acoustic phonetics / forensic phonetics / automatic speaker recognition / diphthongs

Abstract in Deutsch

Die vorliegende Arbeit untersucht das Leistungsverhalten eines Ansatzes der forensischen Sprechererkennung, der auf parametrischen Repräsentationen von Formantverläufen basiert. Quadratische und kubische Polynomfunktionen werden dabei an Formantverläufe von Diphthongen angenähert. Die resultierenden Koeffizienten sowie die ersten drei bzw. vier Komponenten der Diskreten Kosinustransformation (DCT) werden in Folge verwendet, um die dynamischen Eigenschaften der zugrundeliegenden akustischen Merkmale der Sprache und damit der Sprechercharakteristika zu erfassen. Am Ende steht eine Repräsentation bestehend aus wenigen dekorrelierten Parametern, die für die forensische Sprechererkennung verwendet werden. Die in der Untersuchung durchgeführte Evaluierung beinhaltet die Berechnung von Likelihood-Ratio-Werten für die Anwendung im Bayesschen Ansatz für die Bewertung von forensischen Beweisstücken. Die Vorteile dieses Systems und die derzeitigen Beschränkungen werden behandelt. Für die Berechnung der Likelihood-Ratio-Werte wird eine von Aitken & Lucy (2004) entwickelte multivariate Kernel-Density-Formel verwendet, die sowohl Zwischen-Sprecher- als auch Inner-Sprecher-Variabilität berücksichtigt. Automatische Kalibrierungs- und Fusionstechniken, wie sie in Systemen zur automatischen Sprecheridentifikation verwendet werden, werden auf die Ergebniswerte angewendet. Um die Bedeutung von Längenaspekten von Diphthongen für die forensische Sprechererkennung näher zu untersuchen wird ein Experiment durchgeführt, in dem der Effekt von Zeitnormalisierung sowie die Modellierung der Dauer durch einen expliziten Parameter evaluiert werden. Die Leistungsfähigkeit der parametrischen Repräsentationen verglichen mit anderen Methoden sowie die Effekte der Kalibrierung und Fusion werden unter Verwendung üblicher Bewertungswerkzeuge wie des Erkennungsfehlerabwägungs-(DET)-Diagramms, des Tippett-Diagramms und des angewandten Fehlerwahrscheinlichkeits-(APE)-Diagramms, sowie numerischer Kennziffern wie der Gleichfehlerrate (EER) und der Cllr-Metrik evaluiert.

Schlagwörter in Deutsch

Akustische Phonetik / Forensische Phonetik / Automatische Sprechererkennung / Diphthonge

Dokumentenart: Hochschulschrift (Diplomarbeit)
AutorIn: Enzinger, Ewald
Titel: Formant trajectories in forensic speaker recognition
Umfangsangabe: 126 S. : graph. Darst.
Institution: Universität Wien
Fakultät: Philologisch-Kulturwissenschaftliche Fakultät
Publikationsjahr: 2009
Sprache: eng ... Englisch
BetreuerIn: Moosmüller, Sylvia
BeurteilerIn: Moosmüller, Sylvia
Klassifikation: 17 Sprach- und Literaturwissenschaft > 17.53 Phonetik, Phonologie
54 Informatik > 54.75 Sprachverarbeitung
AC-Nummer: AC08017733
Dokumenten-ID: 8239
(Das PDF-Layout ist ident mit der Druckausgabe der Hochschulschrift.)

Urheberrechtshinweis: Für Dokumente, die in elektronischer Form über Datennetze angeboten werden, gilt uneingeschränkt das österreichische Urheberrechtsgesetz; insbesondere sind gemäß § 42 UrhG Kopien und Vervielfältigungen nur zum eigenen und privaten Gebrauch gestattet. Details siehe Gesetzestext.

Dokument bearbeiten (nur für AdministratorInnen) Dokument bearbeiten (nur für AdministratorInnen)