HEAL DSpace

Εντροπική Ανάλυση Φυσικής Γλώσσας

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Σταφυλοπάτης, Ανδρέας el
dc.contributor.author Καλημέρη, Μαρία Δ. el
dc.contributor.author Kalimeri, Maria D. en
dc.date.accessioned 2011-09-14T07:44:45Z
dc.date.available 2011-09-14T07:44:45Z
dc.date.copyright 2011-09-06 -
dc.date.issued 2011-09-14
dc.date.submitted 2011-09-06 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/5016
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.1345
dc.description 38 σ. el
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Μαθηματική Προτυποποίηση σε Σύγχρονες Τεχνολογίες στην Οικονομία” el
dc.description.abstract Στην εργασία αυτή, στο πλαίσιο της μαθηματικής και υπολογιστικής ανάλυσης της φυσικής γλώσσας, διεξάγουμε και υλοποιούμε μία εντροπική ανάλυση γραπτών κειμένων σε μία αναπαράσταση χρονοσειρών μήκους λέξεων. Η εντροπία του Shannon και η γενίκευσή της με την μορφή των n-gram εντροπιών βρίσκονται να είναι μεγέθη ευαίσθητα στην αναγνώριση του είδους της γλώσσας (ελληνικά, αγγλικά, φιλανδικά κ.α.) και του είδους του κειμένου (πολιτικά και οικονομικά άρθρα, αθλητικά νέα και λογοτεχνία) για την εν λόγω αναπαράσταση. Η διαφορά στις εντροπίες αποδίδεται στην ομοιομορφία και την παρουσία πλατό στις κατανομές πιθανότητας των μηκών των λέξεων αλλά και στις διαφορετικές συσχετίσεις μεταξύ μηκών γειτονικών λέξεων στις υπό μελέτη χρονοσειρές. Με την σειρά της, η παρουσία των πλατό στις κατανομές πιθανότητας αντανακλά βασικές γλωσσολογικές ιδιότητες των διαφόρων γλωσσών, όπως τον πλούτο της κλιτικής μορφολογίας και την παραγωγικότητα της γλώσσας (μέσα από μηχανισμούς όπως είναι η παραγωγή, η σύνθεση και η σύμμειξη (blending)). el
dc.description.abstract In the present work and in the context of mathematical and computational study of natural language, we carry out an entropic analysis of natural language texts in a word-length representation. Shannon's entropy and its generalization in the form of n - gram entropy are found to be characteristic of the language (english, greek, finnish e.t.c.) as well as of the text genre (political and economical news, sports and literature). This is attributed to changes in the probability distribution of the lengths of single words (specifically the crucial role of the uniformity of probabilities of having words with length between five and ten) and the different word-length correlations in the studied symbolic series. On its behalf, the presence of the plateaus in the probability distributions reflects basic linguistic properties of the languages such as richness of inflectional morphology and productivity of a language through mechanisms like agglutination and synthesis of words. en
dc.description.statementofresponsibility Μαρία Δ. Καλημέρη el
dc.language.iso el en
dc.rights ETDRestricted-policy.xml en
dc.subject Φυσική γλώσσα el
dc.subject Εντροπίες Shannon el
dc.subject Τμηματικές εντροπίες el
dc.subject Συμβολική δυναμική el
dc.subject Χρονοσειρές el
dc.subject Natural language en
dc.subject Shannon entropies en
dc.subject n-gram entropies en
dc.subject Symbolic dynamics en
dc.subject Time series en
dc.title Εντροπική Ανάλυση Φυσικής Γλώσσας el
dc.title.alternative Entropic Analysis of Natural Language en
dc.type masterThesis el (en)
dc.date.accepted 2011-09-05 -
dc.date.modified 2011-09-06 -
dc.contributor.advisorcommitteemember Κωνσταντούδης, Βασίλειος el
dc.contributor.advisorcommitteemember Παπαγεωργίου, Χάρης el
dc.contributor.committeemember Σταφυλοπάτης, Ανδρέας el
dc.contributor.committeemember Κωνσταντούδης, Βασίλειος el
dc.contributor.committeemember Παπαγεωργίου, Χάρης el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών. el
dc.date.recordmanipulation.recordcreated 2011-09-14 -
dc.date.recordmanipulation.recordmodified 2011-09-14 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής