Universitätsbibliothek Wien
Universität Wien

Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache

Siam, Omar (2013) Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache.
Diplomarbeit, University of Vienna. Philologisch-Kulturwissenschaftliche Fakultät

BetreuerIn: Mörth, Karlheinz

[img]
Preview
PDF-File
Alle Rechte vorbehalten / All rights reserved

Download (2395Kb)

Link zu u:search | Link zum Online-Katalog der Universitätsbibliothek Wien

Abstract in German

Natural Language Processung (NLP) für Arabisch ist immer noch eine Herausforderung. Erst kürzlich gab es mehrere Versuche Softwarewerzeugsammlungen zusammenzustellen, um komplexere Aufgaben im Bereich NLP für Arabisch zu lösen. Eine noch größere Herausforderung scheint es darzustellen eine solche Werkzeugsammlung für arabische Umgangssprachen zu erstellen, die die Erstsprache aller Menschen in der arabischen Welt sind. Diese Arbeit versucht einen Prozess zu skizzieren, mit dem ein Corpus aus einer frei verfügbaren Ressource im Internet, der Wikipedia Masry, erstellt werden kann, aus dem Frequenzinformationen der darin enthaltenen Wörter extrahiert werden sollen. Um dieses Zeil zu erreichen, wird der theoretische Hintergrund von Corpuslinguistik dargestellt. Außerdem werden die Werkzeuge beschrieben, die benutzt werden, um die Texte zu extrahieren, die mittels Computer verarbeitet werden können, um erste Ergebnisse zu erhalten. Weiters werden einige Werkzeuge diskutiert, die verwendet werden können, um die Daten mit Informationen anzureichern und die Analysen zu verfeinern. Nachdem die aktuellen Standards für die Codierung vorgestellt werden, wird die Arbeit mit einem Wörterbuchteil abgeschlossen, die auch in dem heute in den Geisteswissenschaften am weitesten verbreiteten Standard zur Codierung lexikographischer Daten, den Richtlinien der Text Encoding Initiativem, vorliegen soll.

Schlagwörter in Deutsch

Dialektologie / Corpuslinguistik / Kairo / Ägypten / Kairenisch / Häufigkeitswortlisten / Häufigkeitswörterbücher / Wikipedia / TEI / Encoding

Abstract in English

Natural Language Processing (NLP) for Arabic is still a challenging task. Only recently there have been some efforts to create tool sets for accomplishing more advanced tasks in the field of Arabic NLP. Even more challenging it seems to create such a tool set for Arabic colloquials, which are the mother tongue of every citizen of the Arab World. The present work tries to sketch the process of creating a corpus from a freely available source of Egyptian colloquial on the Internet, namely the Wikipedia Masry, to extract frequency information of the words therein. To achieve this end, the theoretical background of corpus creation is presented as well as tools, which were used to create texts, which can be processed using the computer to obtain first results in the field. Furthermore some tools are discussed which could be used to enhance the data and refine the analysis. After presenting current standards in the encoding of dictionaries the work is concluded by a dictionary part, which will be available in the encoding currently best suited for scholarly exchange of lexicographic data, namely the Guidelines of the Text Encoding Initiative.

Schlagwörter in Englisch

dialectology / Corpus linguistics / Cairo / Egypt / Cairene / word frequency lists / frequency dictionaries / Wikipedia / TEI / encoding

Item Type: Hochschulschrift (Diplomarbeit)
Author: Siam, Omar
Title: Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache
Subtitle: corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache
Umfangsangabe: VI, 117 S. : Ill., graph. Darst.
Institution: University of Vienna
Faculty: Philologisch-Kulturwissenschaftliche Fakultät
Publication year: 2013
Language: ger ... Deutsch
Supervisor: Mörth, Karlheinz
Assessor: Mörth, Karlheinz
Classification: 17 Sprach- und Literaturwissenschaft > 17.59 Lexikologie
17 Sprach- und Literaturwissenschaft > 17.60 Lexikographie
54 Informatik > 54.75 Sprachverarbeitung
17 Sprach- und Literaturwissenschaft > 17.18 Dialektologie
17 Sprach- und Literaturwissenschaft > 17.22 Sprachlenkung, Sprachpolitik
54 Informatik > 54.55 Auszeichungssprachen
54 Informatik > 54.08 Informatik in Beziehung zu Mensch und Gesellschaft
17 Sprach- und Literaturwissenschaft > 17.54 Orthographie
17 Sprach- und Literaturwissenschaft > 17.46 Mathematische Linguistik
AC Number: AC10760812
Item ID: 26036
(Das PDF-Layout ist ident mit der Druckausgabe der Hochschulschrift.)

Urheberrechtshinweis: Für Dokumente, die in elektronischer Form über Datennetze angeboten werden, gilt uneingeschränkt das österreichische Urheberrechtsgesetz; insbesondere sind gemäß § 42 UrhG Kopien und Vervielfältigungen nur zum eigenen und privaten Gebrauch gestattet. Details siehe Gesetzestext.

Edit item (Administrators only) Edit item (Administrators only)