Αυτόματη ταξινόμηση κειμένων με χρήση
Αυτό-Οργανούμενων Χαρτών & μεθόδων Μηχανικής Μάθησης

Γιαννοπούλου, Ελένη; Giannopoulou, Eleni

dc.contributor.author	Γιαννοπούλου, Ελένη
dc.contributor.author	Giannopoulou, Eleni
dc.date.accessioned	2022-01-17T11:22:59Z
dc.date.available	2022-01-17T11:22:59Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/54339
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.22037
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/gr/	*
dc.subject	Αυτόματη Εξαγωγή Πληροφορίας	el
dc.subject	Στατιστική Ανάλυση Φυσικής Γλώσσας	el
dc.subject	Αυτό-Οργανούμενοι Χάρτες	el
dc.subject	Νευρωνικά Δίκτυα Βαθιάς Μάθησης	el
dc.subject	Διανυσματικοποίηση Πίνακα Περιεχομένων	el
dc.subject	Automatic Information Extraction	en
dc.subject	Statistical Natural Language Processing	en
dc.subject	Self-Organizing Maps	en
dc.subject	Deep Neural Networks	en
dc.subject	ToC Vectorization	en
dc.title	Αυτόματη ταξινόμηση κειμένων με χρήση Αυτό-Οργανούμενων Χαρτών & μεθόδων Μηχανικής Μάθησης	el
dc.title	Automatic text classification using Self-Organizing Maps and Machine Learning methods	en
dc.contributor.department	ΤΟΜΕΑΣ ΕΠΙΚΟΙΝΩΝΙΩΝ, ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ	el
heal.type	doctoralThesis
heal.classification	Computer Science	en
heal.language	el
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2021-06-30
heal.abstract	Η αύξηση του Παγκόσμιου Ιστού τόσο ως προς το πλήθος των συνδεδεμένων κόμβων, όσο και ως προς τον όγκο των πληροφοριών που περιέχει έχει οδηγήσει σε δυσκολίες αποτελεσματικής αναζήτησης και ανάκτησης πληροφοριών από τους τελικούς χρήστες. Αντίστοιχα, σε μικρότερη κλίμακα, στα πλαίσια μιας Ψηφιακής Βιβλιοθήκης ή ενός Ιδρυματικού Αποθετηρίου, η αύξηση του όγκου των πληροφοριών τείνει να μειώσει την αποτελεσματικότητα αναζήτησης. Έτσι, δημιουργήθηκε η ανάγκη για την ανάπτυξη νέων τρόπων αναπαράστασης της διαθέσιμης πληροφορίας, πρόσβασης σε αυτήν και μετατροπής της εν τέλει σε γνώση. Ως καταλληλότερη τεχνολογία για την αποτελεσματική αναζήτηση και ανάκτηση πληροφορίας από κείμενα θεωρούνται οι τεχνικές Μηχανικής Μάθησης και πιο συγκεκριμένα τεχνικές που βασίζονται στην Μη Εποπτευόμενη και Βαθιά Μηχανική Μάθηση. Οι εν λόγω τεχνικές έχουν τη δυνατότητα να ανακαλύπτουν συναφή κείμενα με αυτόματο τρόπο χρησιμοποιώντας μέτρα ομοιότητας διανυσμάτων. Ειδικότερα, οι τεχνικές Μη Εποπτευόμενης Μηχανικής Μάθησης προκρίνονται, στη συγκεκριμένη περίπτωση, έναντι των αντίστοιχων τεχνικών Εποπτευόμενης Μηχανικής Μάθησης, καθώς οι τελευταίες απαιτούν ένα εκτεταμένο, σχολαστικά επισημασμένο σύνολο δεδομένων, που συνήθως δύσκολα είναι διαθέσιμο σε πραγματικές εφαρμογές. Η παρούσα διδακτορική Διατριβή εντάσσεται στο ευρύτερο ερευνητικό πεδίο της αυτόματης Εξαγωγής Πληροφορίας από Κείμενα με χρήση τεχνικών Μηχανικής Μάθησης και πραγματεύεται ανοικτά θέματα στην περιοχή αυτή. Συγκεκριμένα, στην παρούσα Διατριβή προσεγγίζεται το δημοφιλές πρόβλημα της αυτόματης εξαγωγής πληροφορίας ταξινόμησης από κείμενα, με μεθόδους/προσεγγίσεις οι οποίες χωρίζονται αδρά σε τέσσερις βασικές κατηγορίες: α) προσεγγίσεις εξαγωγής, β) προσεγγίσεις ανάθεσης, γ) μεικτές προσεγγίσεις και δ) προσεγγίσεις πρόβλεψης. Οι μέθοδοι εξαγωγής πληροφορίας από κείμενα παρουσιάζουν μεγάλη ποικιλομορφία και εφαρμόζονται σε ένα πλήθος πεδίων με ποικίλες εφαρμογές. Αφού παρουσιαστεί, αρχικά, ένα πλήθος διαφορετικών εφαρμογών, όπου οι μέθοδοι εξαγωγής πληροφορίας έχουν υιοθετηθεί με επιτυχία, εξετάζονται τα πλεονεκτήματα που προκύπτουν από την χρήση τέτοιων μεθόδων ειδικότερα στις Ψηφιακές Βιβλιοθήκες. Στη συνέχεια προσεγγίζεται το πρόβλημα της αυτόματης ταξινόμησης ενός συνόλου δεδομένων ειδήσεων, το οποίο μοντελοποιείται ως ένα πρόβλημα ταξινόμησης πολλαπλής ετικέτας. Σε αυτή την περίπτωση χρησιμοποιείται ένα Νευρωνικό Δίκτυο Μη Εποπτευόμενης Μηχανικής Μάθησης, οι Αυτό-Οργανούμενοι Χάρτες (Self-Organized Maps – SOM), ενώ προτείνεται μια απλή, αλλά αποτελεσματική διαδικασία που αντιμετωπίζει το πρόβλημα πολλαπλής ετικέτας ως ένα πρόβλημα ταξινόμησης πολλαπλών κλάσεων. Επιπλέον, προτείνεται ένας έξυπνος αλγόριθμος για την επιλογή ετικετών, με στόχο να δείξει ότι οι γειτονικοί κόμβοι στον Χάρτη επηρεάζουν την επιλογή των ετικετών για έναν συγκεκριμένο κόμβο. Τέλος, εφαρμόζεται μια ευρετική μέθοδος για την επιλογή του μεγέθους του SOM. Η εκτεταμένη πειραματική ανάλυση που πραγματοποιήθηκε έδειξε ότι η προτεινόμενη λύση βελτιώνει την αποτελεσματικότητα της ταξινόμησης, όχι μόνο όσον αφορά στην ακρίβεια, αλλά και στους υπολογιστικούς πόρους που απαιτούνται και στο χρόνο για την εκπαίδευση του Δικτύου. Στα πλαίσια της παρούσας Διατριβής πραγματοποιείται, επίσης, μια επισκόπηση των μεθόδων ταξινόμησης πολλαπλών κλάσεων, ενώ προτείνεται μια διαδικασία για την αυτόματη ταξινόμηση ηλεκτρονικών βιβλίων εξάγοντας πληροφορία από τους πίνακες περιεχομένων των βιβλίων. Στην περίπτωση αυτή χρησιμοποιήθηκε ένα νευρωνικό δίκτυο μη εποπτευόμενης μηχανικής μάθησης (SOM) και δύο αρχιτεκτονικές Νευρωνικών Δικτύων Βαθιάς Μάθησης κάτω από διαφορετικά σενάρια διαμόρφωσης. Στόχος της διαδικασίας αυτής ήταν η μελέτη ανάπτυξης ενός συστήματος συστάσεων για την υποστήριξη φοιτητών και καθηγητών στον εντοπισμό σχετικών πηγών βάσει μιας λεπτομερούς θεματικής περιγραφής (π.χ. της περίληψης ή του πίνακα περιεχομένων ενός βιβλίου) αντί για μερικές λέξεις-κλειδιά με βάση την πειραματική ανάλυση που πραγματοποιήθηκε. Τέλος, στα πλαίσια της Διατριβής αυτής προτείνεται η δημιουργία μιας Πύλης Διασυνδεδεμένων Δεδομένων με χρήση τεχνολογιών Σημασιολογικού Ιστού, με στόχο την ενσωμάτωση των μηχανισμών αυτόματης εξαγωγής πληροφορίας ταξινόμησης και των αποτελεσμάτων αυτών και απώτερο σκοπό τον εμπλουτισμό μεταδεδομένων, έτσι ώστε να υποβοηθηθεί η αποτελεσματικότερη αναζήτηση και ανάκτηση πληροφοριών από τους τελικούς χρήστες στις συλλογές μιας Ψηφιακής Βιβλιοθήκης.	el
heal.abstract	The growth of the World Wide Web both in terms of the number of connected nodes and the volume of information it contains has led to difficulties in effectively searching and retrieving information from end users. Similarly, on a smaller scale, in the context of a Digital Library or an Institutional Repository, increasing the volume of information tends to reduce search efficiency. Thus, the need arose for the development of new ways of representing the available information, accessing it and finally turning it into knowledge. Machine Learning techniques and more specifically techniques based on Unsupervised and Deep Neural Networks are considered as the most appropriate technology for the effective search and retrieval of information from texts. These techniques have the ability to discover related texts automatically using vector similarity measures. In particular, Unsupervised Learning techniques are, in this case, superior to the corresponding Supervised Learning techniques, as the latter require an extensive, meticulously labeled data set, which is usually difficult to develop in real applications. This doctoral dissertation is part of the broader research field of “Automatic Information Extraction from texts” using Machine Learning Techniques and deals with open topics in this area. Specifically, this dissertation approaches the popular problem of automatically extracting information from texts, with methods / approaches that are roughly divided into four main categories: a) extraction, b) assignment, c) hybrid and d) prediction methods. Methods of extracting information from texts are very diverse and are applied in a number of fields with a variety of applications. Having first introduced a number of different applications, where information extraction methods have been successfully adopted, the advantages of using such methods, especially in Digital Libraries, are examined. Then the problem of automatically classifying a news data set is approached, which is modeled as a multi-label classification problem. In this case, a Self-Organized Maps (SOM) Neural Network is used, while a simple but effective procedure is proposed that transforms the multi-label problem into a multi-class classification problem. In addition, an intelligent algorithm for selecting labels is proposed, in order to show that the neighboring nodes in the Map affect the selection of tags for a specific node. Finally, a heuristic method is used to select the size of the SOM. The extensive experimental analysis carried out showed that the proposed solution improves the efficiency of the classification, not only in terms of accuracy, but also in terms of computational resources and time required for the training of the Network. In the framework of this dissertation, an overview of multi-class classification methods is also carried out, while a process for the automatic classification of e-books by extracting information from the table of contents of the books is proposed. In this case an unsupervised machine learning neural network (SOM) and two Deep Neural Network architectures were used under different configuration scenarios. The aim of this process was to study the feasibility of developing a recommendations system to support students and teachers in identifying relevant sources based on a detailed thematic description (e.g., the summary or table of contents of a book) instead of some keywords based on the experimental analysis performed. Finally, in the context of this dissertation, the creation of a Linked Data portal using Semantic Web technologies is proposed, with the aim of integrating information extraction mechanisms and their results, with the ultimate goal of enriching metadata , in order to assist efficient search and retrieval of information from end users in the collections of a Digital Library.	en
heal.advisorName	Mitrou, Nikolas
heal.advisorName	Μήτρου, Νικόλαος
heal.committeeMemberName	Μήτρου, Νικόλαος
heal.committeeMemberName	Συκάς, Ευστάθιος
heal.committeeMemberName	Βασιλείου, Ιωάννης
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος
heal.committeeMemberName	Παπασπύρου, Νικόλαος
heal.committeeMemberName	Σταματόπουλος, Παναγιώτης
heal.committeeMemberName	Δεμέστιχας, Παναγιώτης
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	173
heal.fullTextAvailability	false