Universitätsbibliothek Wien

Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache

Siam, Omar (2013) Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache.
Diplomarbeit, Universität Wien. Philologisch-Kulturwissenschaftliche Fakultät
BetreuerIn: Mörth, Karlheinz

[img]
Vorschau
PDF-Dokument
Alle Rechte vorbehalten / All rights reserved

Download (2395Kb)
URN: urn:nbn:at:at-ubw:1-30452.70772.244653-7
URN: urn:nbn:at:at-ubw:1-30452.70772.244653-7

Link zu u:search

Abstract in Deutsch

Natural Language Processung (NLP) für Arabisch ist immer noch eine Herausforderung. Erst kürzlich gab es mehrere Versuche Softwarewerzeugsammlungen zusammenzustellen, um komplexere Aufgaben im Bereich NLP für Arabisch zu lösen. Eine noch größere Herausforderung scheint es darzustellen eine solche Werkzeugsammlung für arabische Umgangssprachen zu erstellen, die die Erstsprache aller Menschen in der arabischen Welt sind. Diese Arbeit versucht einen Prozess zu skizzieren, mit dem ein Corpus aus einer frei verfügbaren Ressource im Internet, der Wikipedia Masry, erstellt werden kann, aus dem Frequenzinformationen der darin enthaltenen Wörter extrahiert werden sollen. Um dieses Zeil zu erreichen, wird der theoretische Hintergrund von Corpuslinguistik dargestellt. Außerdem werden die Werkzeuge beschrieben, die benutzt werden, um die Texte zu extrahieren, die mittels Computer verarbeitet werden können, um erste Ergebnisse zu erhalten. Weiters werden einige Werkzeuge diskutiert, die verwendet werden können, um die Daten mit Informationen anzureichern und die Analysen zu verfeinern. Nachdem die aktuellen Standards für die Codierung vorgestellt werden, wird die Arbeit mit einem Wörterbuchteil abgeschlossen, die auch in dem heute in den Geisteswissenschaften am weitesten verbreiteten Standard zur Codierung lexikographischer Daten, den Richtlinien der Text Encoding Initiativem, vorliegen soll.

Schlagwörter in Deutsch

Dialektologie / Corpuslinguistik / Kairo / Ägypten / Kairenisch / Häufigkeitswortlisten / Häufigkeitswörterbücher / Wikipedia / TEI / Encoding

Abstract in Englisch

Natural Language Processing (NLP) for Arabic is still a challenging task. Only recently there have been some efforts to create tool sets for accomplishing more advanced tasks in the field of Arabic NLP. Even more challenging it seems to create such a tool set for Arabic colloquials, which are the mother tongue of every citizen of the Arab World. The present work tries to sketch the process of creating a corpus from a freely available source of Egyptian colloquial on the Internet, namely the Wikipedia Masry, to extract frequency information of the words therein. To achieve this end, the theoretical background of corpus creation is presented as well as tools, which were used to create texts, which can be processed using the computer to obtain first results in the field. Furthermore some tools are discussed which could be used to enhance the data and refine the analysis. After presenting current standards in the encoding of dictionaries the work is concluded by a dictionary part, which will be available in the encoding currently best suited for scholarly exchange of lexicographic data, namely the Guidelines of the Text Encoding Initiative.

Schlagwörter in Englisch

dialectology / Corpus linguistics / Cairo / Egypt / Cairene / word frequency lists / frequency dictionaries / Wikipedia / TEI / encoding

Dokumentenart: Hochschulschrift (Diplomarbeit)
AutorIn: Siam, Omar
Titel: Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache
Untertitel: corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache
Umfangsangabe: VI, 117 S. : Ill., graph. Darst.
Institution: Universität Wien
Fakultät: Philologisch-Kulturwissenschaftliche Fakultät
Publikationsjahr: 2013
Sprache: ger ... Deutsch
BetreuerIn: Mörth, Karlheinz
BeurteilerIn: Mörth, Karlheinz
Klassifikation: 17 Sprach- und Literaturwissenschaft > 17.59 Lexikologie
17 Sprach- und Literaturwissenschaft > 17.60 Lexikographie
54 Informatik > 54.75 Sprachverarbeitung
17 Sprach- und Literaturwissenschaft > 17.18 Dialektologie
17 Sprach- und Literaturwissenschaft > 17.22 Sprachlenkung, Sprachpolitik
54 Informatik > 54.55 Auszeichungssprachen
54 Informatik > 54.08 Informatik in Beziehung zu Mensch und Gesellschaft
17 Sprach- und Literaturwissenschaft > 17.54 Orthographie
17 Sprach- und Literaturwissenschaft > 17.46 Mathematische Linguistik
AC-Nummer: AC10760812
Dokumenten-ID: 26036
(Das PDF-Layout ist ident mit der Druckausgabe der Hochschulschrift.)

Urheberrechtshinweis: Für Dokumente, die in elektronischer Form über Datennetze angeboten werden, gilt uneingeschränkt das österreichische Urheberrechtsgesetz; insbesondere sind gemäß § 42 UrhG Kopien und Vervielfältigungen nur zum eigenen und privaten Gebrauch gestattet. Details siehe Gesetzestext.

Dokument bearbeiten (nur für AdministratorInnen) Dokument bearbeiten (nur für AdministratorInnen)