Universitätsbibliothek Wien

Design and development of a BANG-file clustering system

Fritz, Florian (2018) Design and development of a BANG-file clustering system.
Masterarbeit, University of Vienna. Fakultät für Informatik
BetreuerIn: Schikuta, Erich

[img] PDF-File
Alle Rechte vorbehalten / All rights reserved

Download (1722Kb)
DOI: 10.25365/thesis.51675
URN: urn:nbn:at:at-ubw:1-29850.02915.949176-0

Link zu u:search

Abstract in English

Cluster analysis is essential in the field known as explorative data analysis. The Balanced And Nested Grid (BANG) file is a hierarchical clustering system of the grid file type. To efficiently cluster massive data sets the BANG file uses a multidimensional grid structure to organize the value space surrounding pattern values. Its tree structured directory partitions the value space into regions with successive binary divisions on dimensions, which results in self-balancing features of a B-tree. Consequently, unlike previous grid file designs, the directory expands proportionally to the data regardless of the data distribution. The partitioning strategy accurately reflects the clustering of patterns in the value space, with densely populated regions identified as cluster centers, and adapts to changes in the distribution. This thesis concludes with a demonstration of the BANG file clustering system both as a standalone Java application as well as a WEKA package.

Schlagwörter in Englisch

Cluster Analysis / Data Analysis / Hierarchical Clustering / Balanced And Nested Grid / BANG-File / Grid-File / Weka Package / GRIDCLUS

Abstract in German

Die Clusteranalyse spielt eine zentrale Rolle in der explorativen Datenanalyse. Das Balanced And Nested Grid (BANG) File ist ein hierarchisches Clustering-Verfahren des Typs Grid-File. Um riesige Datenmengen effektiv zu clustern bildet das BANG File eine mehrdimensionale Raster-Struktur, welche Daten gruppiert. Der Datenraum wird dabei durch kontinuierliches zweiteilen, orthogonal zu einer der Dimensionen, in Regionen gegliedert. Diese Regionen werden in einem Verzeichnis indexiert, welches die Eigenschaften eines balancierten Baums bietet. Anders als bisherige Grid-File Designs wächst dieses Verzeichnis dadurch proportional zu den Daten, unabhängig von der Verteilung der Daten. Die hierarchische Partitionierungsstrategie spiegelt Cluster im Datenraum wider, wobei Regionen mit den höchsten Dichten an Daten als Zentrum eines Clusters identifiziert werden. Diese Arbeit demonstriert das BANG File Clustering-Verfahren innerhalb einer eigenständigen Java Anwendung und auch als ein WEKA Plugin.

Schlagwörter in Deutsch

Clusteranalyse / Datenanalyse / Hierarchische Clusteranalyse / Balanced And Nested Grid / BANG-File / Grid-File / Weka Package / GRIDCLUS

Item Type: Hochschulschrift (Masterarbeit)
Author: Fritz, Florian
Title: Design and development of a BANG-file clustering system
Umfangsangabe: 82 Seiten : Illustrationen, Diagramme
Institution: University of Vienna
Faculty: Fakultät für Informatik
Studiumsbezeichnung bzw.
Universitätslehrgang (ULG):
Masterstudium Wirtschaftsinformatik
Publication year: 2018
Language: eng ... Englisch
Supervisor: Schikuta, Erich
Assessor: Schikuta, Erich
Classification: 54 Informatik > 54.62 Datenstrukturen
54 Informatik > 54.52 Software engineering
54 Informatik > 54.99 Informatik: Sonstiges
AC Number: AC15370472
Item ID: 51675
(Das PDF-Layout ist ident mit der Druckausgabe der Hochschulschrift.)

Urheberrechtshinweis: Für Dokumente, die in elektronischer Form über Datennetze angeboten werden, gilt uneingeschränkt das österreichische Urheberrechtsgesetz; insbesondere sind gemäß § 42 UrhG Kopien und Vervielfältigungen nur zum eigenen und privaten Gebrauch gestattet. Details siehe Gesetzestext.

Edit item (Administrators only) Edit item (Administrators only)