HEAL DSpace

Μέτρα πληροφορίας και συμπίεση δεδομένων χωρίς απώλειες.

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Προκόπου-Χουλιάρα, Μαρία-Ιωάννα el
dc.contributor.author Prokopou-Chouliara, Maria-Ioanna en
dc.date.accessioned 2020-12-06T08:11:51Z
dc.date.available 2020-12-06T08:11:51Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52301
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.19999
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject Εντροπία el
dc.subject Διακριτές τυχαίες μεταβλητές el
dc.subject Συμπίεση χωρίς απώλειες el
dc.subject Entropy en
dc.subject Discrete random variables en
dc.subject Lossless data compression en
dc.title Μέτρα πληροφορίας και συμπίεση δεδομένων χωρίς απώλειες. el
dc.title Information measures and lossless data compression en
dc.contributor.department Μαθηματικό ΣΕΜΦΕ el
heal.type bachelorThesis
heal.classification Μαθηματικά el
heal.classification Θεωρία της πληροφορίας el
heal.classification Mathematics en
heal.classification Information Theory en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-10-12
heal.abstract Η παρούσα διπλωματική εκπονήθηκε υπό την επίβλεψη του Αν. Καθηγητή ΕΜΠ, Μιχάλη Λουλάκη. Σκοπός της είναι να παρουσιαστούν τα βασικά μέτρα πληροφορίας για διακριτές τυχαίες μεταβλητές καθώς και οι βασικές τεχνικές συμπίεσης δεδομένων χωρίς απώλειες Στο πρώτο κεφάλαιο εισάγεται η έννοια της εντροπίας της πληροφορίας για μία διακριτή τυχαία μεταβλητή που παίρνει τιμές σε ένα πεπερασμένο σύνολο. Η εισαγωγή γίνεται μέσα από παραδείγματα που ακολουθούν την λογική που επιβάλλει η ιστορική διαδρομή που μεσολάβησε μέχρι τον πλήρη ορισμό της από τον Claude E. Shannon το 1948. Αφού οριστεί η εντροπία ακολουθεί η γενίκευση της για ένα διάνυσμα διακριτών τυχαίων μεταβλητών μεγέθους n. Ακόμη δίνεται ο πρώτος κανόνας της αλυσίδας για ανεξάρτητες τυχαίες μεταβλητές με μία αλγοριθμική ανάλυση κόστους προκειμένου να αναδειχθεί η αξία χρήσης του. Το κεφάλαιο συνεχίζει με την εισαγωγή του δεσμευμένου μέτρου πληροφορίας και του αντίστοιχου κανόνα της αλυσίδας για εξαρτημένες τυχαίες μεταβλητές συνοδευόμενο από μία αλγοριθμική ανάλυση κόστους. Κατόπιν ορίζεται η απόσταση Kullback-Leibler με βάση την οποία παρακάτω ορίζονται ακόμα δύο μέτρα, το αμοιβαίο μέτρο πληροφορίας καθώς και το δευσευμένο μέτρο πληροφορίας. Το κεφάλαιο ολοκληρώνεται δίνοντας τα άνω και κάτω φράγματα για τα μέτρα πληροφορίας οπου είναι εφικτό μαζί με μία μελέτη για την κυρτότητα τους. Στο δεύτερο κεφάλαιο ορίζονται μαθηματικώς οι πηγές πληροφορίας που παράγονται από διακριτές τυχαίες μεταβλητές. Το κεφάλαιο ξεκινάει με κάποια παραδείγματα τεχνητών γλωσσών τα οποία παράχθηκαν βάσει κώδικα γραμμένο σε python ο οποίος δίνεται στην τελευταία ενότητα. Μετά την εισαγωγή ορίζονται πρώτα οι πηγές χωρίς μνήμη και δίνεται ένα από τα κεντρικότερα θεωρήματα της θεωρίας πληροφορίας, το θεώρημα ασυμπτωτικής ισοκατανομής για πηγές χωρίς μνήμη. Το θεώρημα αυτό εξηγεί τον διαχωρισμό των δυνατών ακολουθιών μεγάλου μήκους σε δύο σύνολα όταν οι ακολουθίες παράγονται από μία πηγή χωρίς μνήμη . Το ένα σύνολο περιέχει τις ακολουθίες που θα παράγονται με μεγάλη πιθανότητα από την πηγή και συγκεντρώνει την περισσότερη μάζα πιθανότητας ενώ το άλλο περιέχει αυτές που είναι απίθανο να παραχθούν. Το σύνολο που περιέχει τις πιθανότερες ακολουθίες ορίζεται ως τυπικό σύνολο και τα μέλη του ως τυπικές ακολουθίες. Με βάση το θεώρημα ασυμπτωτικής ισοκατανομής εξάγονται κάποια πολύ χρήσιμα συμπεράσματα ως προς το μέγεθος και τις πιθανότητες των στοιχείων του τυπικού συνόλου. Το κεφάλαιο συνεχίζει ορίζοντας τον ρυθμό εντροπίας ως την ασυμπτωτική από κοινού εντροπία ανά σύμβολο για συμβολοσειρές θεωρητικά απείρου μεγέθους. Το μέγεθος αυτό είναι χρήσιμο για την μελέτη των πηγών με μνήμη οι οποίες ορίζονται ως μαρκοβιανές αλυσίδες πεπερασμένων καταστάσεων k−τάξης με στάσιμες κατανομές. Από τις πηγές με μνήμη πρώτα μελετώνται οι ομογενείς/στάσιμες πηγές. Αποδεικνύεται πρώτα ότι η δεσμευμένη εντροπία πηγών τέτοιους είδους συγκλίνει ασυμπτωτικά σε ένα μέγεθος που λέγεται εντροπία k−τάξης και είναι επί της ουσία το ασυμπτωτικό όριο της δεσμευμένης εντροπίας της στάσιμης πηγής όταν το μέγεθος της δέσμευσης τείνει στο άπειρο. Εν συνεχεία για τις στάσιμες πηγές αποδεικνύεται ότι η εντροπία k−τάξης ταυτίζεται με τον ρυθμό εντροπία της πηγής. Ολοκληρώνοντας το κεφάλαιο δίνεται το θεώρημα ασυμπτωτικής ισοκατανομής για εργοδικές και στάσιμε πηγές με μνήμη ή όπως είναι γνωστό το Shannon-Mcmillan-Breiman. Στο τρίτο κεφάλαιο παρουσιάζεται η θεωρία γύρω από την συμπίεση. Αρχικά δίνονται οι ορισμοί για τις έννοιες κώδικας, μη ιδιόμορφος κώδικας, μοναδικά αποκωδικοποιήσιμος κώδικας και στιγμιαίος κώδικας για τις τιμές διακριτών τυχαίων μεταβλητών. Ακόμη συζητιούνται οι ομοιότητες και οι διαφορές μεταξύ των κωδίκων μέσα από εφαρμογές και παραδείγματα. Μετά την ολοκλήρωση των ορισμών και της ανάλυση τους δίνεται ένα θεώρημα που εξηγεί γιατί ένας στιγμιαίος κώδικας των τιμών μίας διακριτής τυχαίας μεταβλητής είναι αναγκαστικά και μοναδικά αποκωδικοποιήσιμος. Στην συνέχεια δίνονται τα γνωστότερα κριτήρια με βάση τα οποία αποφασίζεται αν ένας κώδικας είναι μοναδικά αποκωδικοποιήσιμος η στιγμιαίος. Τα κριτήρια κατά σειρά είναι, ο αλγόριθμος των Sardinas-Patterson, η ανισότητα McMillan και η ανισότητα του Kraft. Στην τελευταία ενότητα του κεφαλαίου γίνεται μία ανάλυση των συνθηκών που πρέπει να ισχύουν για τα μήκη ενός στιγμιαίου κώδικα ώστε να είναι βέλτιστος. Με βάση την λύση του παραπάνω προβλήματος βελτιστοποίησης και χρησιμοποιώντας την απόσταση Kullback-Leibler από το πρώτο κεφάλαιο δίνουμε μία απόδειξη για τα όρια του μέσου μήκους κωδικοποίησης των τιμών της τυχαίας μεταβλητής σε σχέση με την εντροπία της. Τέλος μελετάται το πλεόνασμα κωδικοποίησης που προκύπτει στην πράξη καθώς και ο τρόπος που μπορούμε να το ελαχιστοποιήσουμε. Στο τέταρτο κεφάλαιο μελετώνται τα θεωρήματα κωδικοποίησης του Shannon για διακριτά κανάλια με ή χωρίς θόρυβο. Στην πρώτη ενότητα ορίζονται τα διακριτά κανάλια χωρίς θόρυβο μαζί με την χωρητικότητα τους. Με βάση τους παραπάνω ορισμούς διατυπώνεται και αποδεικνύεται κάνοντας χρήση του θεωρήμα- τος ασυμπτωματικής ισοκατανομής για πηγές χωρίς μνήμη το θεώρημα κωδικοποίηση πηγής του Shannon. Στην επόμενη ενότητα ορίζονται και μελετώνται τα διακριτά κανάλια χωρίς μνήμη με θόρυβο. Συγκεκριμένα επεκτείνεται το θεώρημα ασυμπτωτικής ισοκατανομής για πηγές χωρίς μνήμη σε θεώρημα ασυμπτωτικής ισο- κατανομής για από κοινού ακολουθίες (joint asymptotic equipartition theorem) προκείμενου να περιγράφουν πιθανά ζεύγη ακολουθίων εισόδου και εξόδου. Με βάση το τελευταίο θεώρημα και τα μέτρα πληροφορίας του πρώτου κεφαλαίου ορίζεται με φυσιολογικό τρόπο η χωρητικότητα του καναλιού ως το μέγιστο αμοιβαίο μέτρο πληροφορίας μεταξύ των ακολουθιών εισόδου και εξόδου. Χρησιμοποιώντας τις παραπάνω θεωρητικές συνεισφορές αποδεικνύεται το θεώρημα κωδικοποίησης για διακριτά κανάλια χωρίς μνήμη με θόρυβο. Τέλος αποδεικνύεται ότι η χωρητικότητα δεν αυξάνεται στην περίπτωση που έχουμε ένα διακριτό κανάλι χωρίς μνήμη με θόρυβο και σχόλια (feedback). Στο πέμπτο κεφάλαιο παρουσιάζονται οι βασικές τεχνικές συμπίεσης που χρησιμοποιούνται μέχρι και σήμε- ρα. Στις δύο πρώτες ενότητες παρουσιάζεται η συμπίεση κατά Fano και κατά Shannon. Μπορεί αυτές οι τεχνικές συμπίεσης να μην παρουσιάζουν πρακτικό ενδιαφέρον αλλά έχουν ιστορικό και θεωρητικό καθώς οι αναλύσεις μέσου μήκους βασίζονται σε ιδιότητες της εντροπίας που έχουν διατυπωθεί στα προηγούμενα κεφάλαια. Στην τρίτη ενότητα παρουσιάζεται η συμπίεση Huffman μαζί με δύο φράγματα για το μέσο κώδι- κα που παράγει, το πρώτο φράγμα βασίζεται στην γνωστή τεχνική της άπληστης ανάλυσης ενώ το δεύτερο που δόθηκε από τον Gallager βασίζεται στην δομή του δένδρου Huffman σε συνδυασμό με τις ιδιότητες της εντροπίας. Στην τέταρτη ενότητα παρουσιάζεται η αριθμητική κωδικοποίηση και αποδεικνύεται ότι παράγει μη ιδιόμορφους και στιγμιαίους κώδικες που δεν είναι όμως βέλτιστοι. Στην έκτη, την έβδομη και όγδοη ενότητα παρουσιάζεται η οικογένεια των τριών βασικών LZ τεχνικών συμπίεσης. Συγκεκριμένα περιγράφο- νται κατά σειρά ο LZ77, ο LZ78 και ο LZW. Κάθε τεχνική συμπίεσης συνοδεύεται από την ασυμπτωτική ανάλυση μέσου μήκους κώδικα που παράγει. Τέλος στην ένατη ενότητα παρουσιάζεται ο μετασχηματισμός Burrows-Wheeler μαζί με την ασυμπτωτική ανάλυση μέσου μήκους. Η ανάλυση για τον Burrows-Wheeler βασίστηκε στην τεχνική της ανταγωνιστικής ανάλυσης που υπήρχε στην δημοσίευση A simpler analysis of Burrows–Wheeler-based compression. Στο έκτο κεφάλαιο παρουσιάζεται το πείραμα της διπλωματικής. Στόχος του πειράματος ήταν να μελετηθεί η συμπεριφορά των τριών αντιπροσωπευτικών τεχνικών συμπίεσης Huffman, LZ77 και Burrows-Wheeler. Το πείραμα γράφτηκε στην γλώσσα προγραμματισμού python, στο IDE pycharm. Για τους συμπιεστές LZ77 και Burrow-Wheeler χρησιμοποιήθηκαν τα έτοιμα πακέτα Gzip και Bzip2 της python ενώ ο Huffman υλοποιήθηκε ξεχωριστά. Προκειμένου να ελεγχθεί η συμπεριφορά των συμπιεστών σε αρχεία διαφορετικού περιεχόμενου και μεγέθους κατασκευάστηκε ένας web scraper ο οποίος σύλλεξε στίχους ελληνικών τραγουδιών από την ιστοσελίδα stixoi.info απο δημοφιλείς στιχουργούς. Με βάση τους στίχους που συγκεντρώθηκαν πραγμα- τοποιήθηκαν δύο πειράματα. Στο πρώτο πείραμα ενοποιήθηκαν οι στίχοι που άνηκαν στο ίδιο στιχουργό. Τα αρχεία των ενοποιημένων στίχων χρησιμοποιήθηκαν για να αξιολογηθεί η συμπεριφορά των συμπιεστών όταν έρχονται αντιμέτωποι με αρχεία μεγάλου μεγέθους αλλά διαφορετικού περιεχομένου. Στο δεύτερο πείρα- μα το κάθε τραγούδι συμπιέστηκε ξεχωριστά βοηθώντας να μελετηθεί η συμπεριφορά των συμπιεστών όταν μειώνεται πολύ το μέγεθος του αρχείου που καλούνται να συμπιέσουν. el
heal.abstract This thesis was prepared under the supervision of the Associate Professor of NTUA, Michalis Loulakis. Its purpose is to present the basic information measures for discrete random variables as well as the basic data lossless compression techniques. The first chapter introduces the concept of information entropy for a discrete random variable that takes values in a finite set. The introduction is made through examples that follow the logic imposed by the historical path that mediated until its complete definition by Claude E. Shannon in 1948. Once entropy is defined, it is generalized to a vector of discrete random variables of magnitude n. The first rule of chain for independent random variables is also given with an algorithmic cost analysis in order to highlight its use value. The chapter continues with the introduction of the conditional information measure and the corresponding chain rule for dependent random variables accompanied by an algorithmic cost analysis. Then the Kullback-Leibler distance is defined, based on which two more meters are defined below, the mutual information measure as well as the conditionally mutual information measure. The chapter concludes by giving the upper and lower bound to information measures where possible along with a study of their convexity. The second chapter defines mathematically the information sources produced by discrete random vari- ables. The chapter begins with some examples of artificial languages which are produced based on code written in python which is given in the last section. After the introduction, the memoryless discrete sources are first defined and one of the most central theorems of information theory is given, the asymp- totic equipartition property theorem (AEP) for discrete memoryless sources. This theorem explains the separation of possible long sequences into two sets when the sequences are generated from a discrete mem- oryless source. One set contains the sequences that will most likely be generated from the source and gathers the most mass of probability while the other contains those that are unlikely to be produced. The set containing the most probable sequences is defined as a typical set and its members as typical sequences. Based on the asymptotic equipartition property theorem, some very useful conclusions are drawn regarding the size and probabilities of the elements of the typical set. The chapter goes on to define entropy rate as the asymptotic joint entropy per symbol for strings of theoretically infinite size. This quantity is useful for studying information sources with memory which are defined as Markov k-order finite state chains with stationary distributions. From information sources with memory, homogeneous/stationary sources are first studied. It is first shown that the conditional entropy of such sources converges asymptotically to a quantity called k-order entropy and is essentially the asymptotic limit of the conditional entropy of the stationary source when the magnitude of the binding tends to infinity. Then for stationary sources it turns out that the k-order entropy is identical to the source entropy rate. Concluding the chapter is given the theorem of asymptotic equipartition property theorem for ergodic and stationary sources with memory or as it is known Shannon-Mcmillan-Breiman. The third chapter presents the theory around compression. Definitions are given for the concepts code, non-singular code, uniquely decodable code and instantaneous code for the values of discrete random variables. The similarities and differences between the codes are also discussed through applications and examples.After completing the definitions and analyzing them, a theorem is given that explains why an instantaneous code for the values of a discrete random variable is necessarily and uniquely decodable. The following are the best known criteria for deciding whether a code is uniquely decodable or instantaneous. The criteria in order are the Sardinas-Patterson algorithm, the McMillan inequality and the Kraft inequal- ity. In the last section of the chapter an analysis is made of the conditions that must apply to the lengths of an instant code in order to be optimal. Based on the solution of the above optimization problem and using the Kullback-Leibler distance from the first chapter we give a proof of the limits of the mean coding length of the values of the random variable in relation to its entropy. Finally, the code redudance that arises in practice is studied as well as the way we can minimize it. In the fourth chapter, Shannon’s coding theorems for discrete channels with or without noise are studied. The first section defines the discrete memoryless channels without noise along with their capacity. Based on the above definitions, Shannon’s source coding theorem is formulated and proved using the asymptomatic equipartition property theorem for memoryless sources. In the next section the discrete memoryless channels with noise are defined and studied. Specifically, the asymptotic equipartition property theorem for memoryless sources is extended to the asymptotic equipartition property theorem for joint sequences (joint asymptotic equipartition theorem) in order to describe possible pairs of input and output sequences. Based on the last theorem and the information measures of the first chapter, the channel capacity is normally defined as the maximum mutual information measure between the input and output sequences. Using the above theoretical contributions, the coding theorem for discrete memoryless channels with noise is proved. Finally it turns out that the capacity does not increase in case we have a discrete memoryless channels with noise and feedback. The fifth chapter presents the basic compression techniques used to date. The first two sections prsents Fano and Shannon compression schmes. These compression techniques may not be of practical interest but they have historical and theoretical value as the analysis for the mean code length per symbol uses entropy properties introduced in previous chapters. The third section presents the Huffman compression along with two bounds to the average code length it produces, the first barrier is based on the well-known technique of greedy analysis while the second given by Gallager is based on the structure of the Huffman tree combined with entropy properties. The fourth section presents arithmetic coding and proves that it produces non-singular and instantaneous codes that are not optimal. The sixth, seventh and eighth sections present the family of three basic LZ compression techniques. Specifically, the LZ77, LZ78 and LZW are described in order. Each compression technique is accompanied by the asymptotic analysis of the average code length per symbol it produces. Finally, the ninth section presents the Burrows-Wheeler transformation together with the asymptomatic mean length analysis. The analysis for Burrows-Wheeler was based on the competitive analysis technique found in the publication named <<A simpler analysis of Burrows – Wheeler-based compression>>. The sixth chapter presents the thesis experiment. The aim of the experiment was to study the behavior of the three representative compression techniques Huffman, LZ77 and Burrows-Wheeler. The experiment was written in the python programming language using IDE pycharm. For the LZ77 and Burrow-Wheeler compressors, python’s ready-made Gzip and Bzip2 packages were used, while Huffman was implemented separately. In order to check the behavior of compressors in files of different content and size, a web scraper was made which collected lyrics of Greek songs from the website stixoi.info by popular lyricists. Based on the collected song lyrics, two experiments were performed. In the first experiment, the lyrics belonging to the same lyricist were concatinated. Unified lyrics files were used to evaluate the behavior of compressors when confronted with large files of different content. In the second experiment, each song was compressed separately to help study the behavior of the compressors when the size of the file they are called to compress is greatly reduced. en
heal.advisorName Λουλάκης, Μιχάλης el
heal.advisorName Loulakis, Michail en
heal.committeeMemberName Λουλάκης, Μιχάλης el
heal.committeeMemberName Loulakis, MIchail en
heal.committeeMemberName Παγουρτζής, Αριστείδης el
heal.committeeMemberName Στεφανέας, Πέτρος el
heal.committeeMemberName Pagourtzis, Aris en
heal.committeeMemberName Stefaneas, Petros en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών el
heal.academicPublisherID ntua
heal.numberOfPages 300 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα