Στην εργασία αυτή, στο πλαίσιο της μαθηματικής και υπολογιστικής ανάλυσης της φυσικής γλώσσας, διεξάγουμε και υλοποιούμε μία εντροπική ανάλυση γραπτών κειμένων σε μία αναπαράσταση χρονοσειρών μήκους λέξεων. Η εντροπία του Shannon και η γενίκευσή της με την μορφή των n-gram εντροπιών βρίσκονται να είναι μεγέθη ευαίσθητα στην αναγνώριση του είδους της γλώσσας (ελληνικά, αγγλικά, φιλανδικά κ.α.) και του είδους του κειμένου (πολιτικά και οικονομικά άρθρα, αθλητικά νέα και λογοτεχνία) για την εν λόγω αναπαράσταση. Η διαφορά στις εντροπίες αποδίδεται στην ομοιομορφία και την παρουσία πλατό στις κατανομές πιθανότητας των μηκών των λέξεων αλλά και στις διαφορετικές συσχετίσεις μεταξύ μηκών γειτονικών λέξεων στις υπό μελέτη χρονοσειρές. Με την σειρά της, η παρουσία των πλατό στις κατανομές πιθανότητας αντανακλά βασικές γλωσσολογικές ιδιότητες των διαφόρων γλωσσών, όπως τον πλούτο της κλιτικής μορφολογίας και την παραγωγικότητα της γλώσσας (μέσα από μηχανισμούς όπως είναι η παραγωγή, η σύνθεση και η σύμμειξη (blending)).
In the present work and in the context of mathematical and computational study of natural language, we carry out an entropic analysis of natural language texts in a word-length representation. Shannon's entropy and its generalization in the form of n - gram entropy
are found to be characteristic of the language (english, greek, finnish e.t.c.) as well as of the text genre (political and economical news, sports and literature). This is attributed to changes in the probability distribution of the lengths of single words (specifically the crucial
role of the uniformity of probabilities of having words with length between five and ten) and the different word-length correlations in the studied symbolic series. On its behalf, the presence of the plateaus in the probability distributions reflects basic linguistic properties
of the languages such as richness of inflectional morphology and productivity of a language through mechanisms like agglutination and synthesis of words.