Universitätsbibliothek Wien

Geospatial Information Retrieval for POIs with the use of a Data Mining System

Czech, Alexander (2015) Geospatial Information Retrieval for POIs with the use of a Data Mining System.
Masterarbeit, Universität Wien. Fakultät für Geowissenschaften, Geographie und Astronomie
BetreuerIn: Riedl, Andreas

[img] PDF-Dokument
Alle Rechte vorbehalten / All rights reserved

Download (15Mb)
URN: urn:nbn:at:at-ubw:1-30003.05314.532666-1
URN: urn:nbn:at:at-ubw:1-30003.05314.532666-1

Link zu u:search

Abstract in Englisch

Up to now, most works about “Neogeography” and “Big Geo-Data” focus on using geotagged social media information for analysis. But this thesis argues that also non-geotagged websites have descriptive capabilities that are of interest. For this, a set of 8 million HTML crawled documents is processed. The crawled data is made manageable and transferred into a PostgreSQL database. To geotag the HTML documents, an address dataset is created from OpenStreetMap data. Multiple variations of each address are then searched for within the HTML documents. Documents containing one or more addresses are geotagged with the coordinates of those addresses. Lastly, websites linking to geotagged websites are also associated with those geotags. To limit the scope of the data that needs to be processed, the HTML documents all have a URL that belongs to the .at top-level domain and the addresses stem from the 1st to 9th and 20th districts of Vienna. This processing creates an information landscape. The second part of the thesis is to explore the analytic capabilities of this information landscape. A classification attempt based on the information is made. For this, the HTML documents are transformed into a vector in the vector space model. For 9 classes, 18 classification vectors are created and compared with cosine similarity to the HTML document vectors. The results are then associated and summarized on an address basis. These summarized results are sorted on an address level in two steps: once into relevant and irrelevant data and a second time based on whether or not they belong to a class. The results of this classification attempt are mixed. While they only achieve about 19 to 25% correct classifications, they clearly prove that the data has an underlying structure referring to the point of interest they are attached to.

Schlagwörter in Englisch

Data Mining / Geospatial / Information Retrieval / GIS / Spatial Data Mining / Vienna / Big Geo-Data

Abstract in Deutsch

Bisher lag der Fokus der Arbeitsfelder “Neogeography“ und “ Big Geo-Data“ auf der Verwendung von geotagged Informationen aus sozialen Medien. Diese Arbeit versucht zu zeigen, dass auch Webseiten, die keinen geotag im bisherigen Sinne besitzen, den Raum beschreibende Eigenschaften besitzen können. Dafür wurden etwa 8 Millionen gecrawlte HTML-Dokumente verarbeitet. Diese rohen gecrawlten Daten sind für Analysen handhabbar gemacht worden und in eine PostgreSQL- Datenbank überführt worden. Um sie mit geotags zu versehen ist ein Adressdatensatz aus OpenStreetMap-Daten erstellt worden. Die HTML-Dokumente sind nach verschiedenen Schreibweisen derselben Adressen aus diesem Datensatz durchsucht worden. Dokumente, die so einer Adresse oder mehreren Adressen zugeordnet werden konnten, sind mit den Koordinaten dieser Adresse oder Adressen geotagged worden. Um den Umfang der zu verarbeitenden Daten zu begrenzen sind die HTML-Dokumente auf diejenigen beschränkt worden, die eine URL besitzen, die zu dem Top-level Domain-Bereich von .at gehören und die Adressen sind beschränkt auf den 1. bis 9. sowie 20. Gemeindebezirk Wiens. Dies erzeugt eine Informationslandschaft. Im zweiten Teil der Arbeit geht es darum, die analytischen Möglichkeiten dieser Informationslandschaft zu untersuchen. Dafür sind die HTML-Dokumente in einen Dokumenten-Vektor im Vektor-Raum-Model überführt worden. Für 9 Klassen werden 18 Klassifizierungsvektoren erzeugt und mit Hilfe der Kosinus-Ähnlichkeit werden diese mit den HTML-Dokument-Vektoren verglichen. Die Ergebnisse werden dann den Adressen zugeordnet und zusammengefasst. Die so zusammen gefassten Ergebnisse werden auf Adressenebene in zwei Schritten sortiert. Erstens werden die Daten für jede Klasse und jede Adresse in relevante und nicht relevante Daten unterschieden und ein weiteres Mal nach Zugehörigkeit zu einer Klasse oder nicht. Die Ergebnisse dieser Klassifizierungsmethode sind durchwachsen. Sie erreichen nur zwischen 19 und 25% korrekte Klassifikationen, aber es ist möglich nachzuweisen, dass es eine den Daten zugrunde liegende Struktur gibt, die in Verbindung zu den Adressen steht.

Schlagwörter in Deutsch

Data Mining / Geospatial / Information Retrieval / GIS / Spatial Data Mining / Wien / Big Geo-Data

Dokumentenart: Hochschulschrift (Masterarbeit)
AutorIn: Czech, Alexander
Titel: Geospatial Information Retrieval for POIs with the use of a Data Mining System
Umfangsangabe: XII, 138, XIII - LIII S. : graph. Darst., Kt.
Institution: Universität Wien
Fakultät: Fakultät für Geowissenschaften, Geographie und Astronomie
Studiumsbezeichnung bzw.
Universitätslehrgang (ULG):
Masterstudium Kartographie und Geoinformation
Publikationsjahr: 2015
Sprache: eng ... Englisch
BetreuerIn: Riedl, Andreas
BeurteilerIn: Riedl, Andreas
Klassifikation: 74 Geographie, Raumordnung, Städtebau > 74.48 Geoinformationssysteme
74 Geographie, Raumordnung, Städtebau > 74.03 Methoden und Techniken der Geographie und Anthropogeographie
74 Geographie, Raumordnung, Städtebau > 74.12 Stadtgeographie, Siedlungsgeographie
AC-Nummer: AC13038415
Dokumenten-ID: 40077
(Das PDF-Layout ist ident mit der Druckausgabe der Hochschulschrift.)

Urheberrechtshinweis: Für Dokumente, die in elektronischer Form über Datennetze angeboten werden, gilt uneingeschränkt das österreichische Urheberrechtsgesetz; insbesondere sind gemäß § 42 UrhG Kopien und Vervielfältigungen nur zum eigenen und privaten Gebrauch gestattet. Details siehe Gesetzestext.

Dokument bearbeiten (nur für AdministratorInnen) Dokument bearbeiten (nur für AdministratorInnen)