Αυτόματη Περίληψη Κειμένου: Μηχανική Μάθηση και Σημασιολογικές Τεχνικές

Κουρής, Παναγιώτης; Kouris, Panagiotis

dc.contributor.author	Κουρής, Παναγιώτης	el
dc.contributor.author	Kouris, Panagiotis	en
dc.date.accessioned	2023-02-16T08:30:53Z
dc.date.available	2023-02-16T08:30:53Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/57146
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.24844
dc.rights	Default License
dc.subject	Αυτόματη Περίληψη Κειμένου	el
dc.subject	Μηχανική Μάθηση	el
dc.subject	Επεξεργασία Φυσικής Γλώσσας	el
dc.subject	Σημασιολογικές Τεχνικές	el
dc.subject	Νευρωνικά Δίκτυα	el
dc.subject	Automatic Text Summarization	el
dc.subject	Abstractive Text Summarization	el
dc.subject	Machine Learning	el
dc.subject	Natural Language Processing	el
dc.subject	Semantic Techniques	el
dc.subject	Deep Learning	el
dc.title	Αυτόματη Περίληψη Κειμένου: Μηχανική Μάθηση και Σημασιολογικές Τεχνικές	el
dc.title	Automatic Text Summarization: Machine Learning and Semantic Techniques	en
heal.type	doctoralThesis
heal.generalDescription	Η παρούσα διδακτορική διατριβή έχει ως αντικείμενο την αυτόματη περίληψη κειμένου ενός εγγράφου με τη μέθοδο της παραγωγής κειμένου. Στο πλαίσιο αυτό, παρουσιάζεται νέα μεθοδολογία που βασίζεται σε μηχανική μάθηση και σε σημασιολογικές τεχνικές. Η συνεισφορά της διατριβής περιλαμβάνει: (i) τη διερεύνηση αρχιτεκτονικών βαθιάς μάθησης, (ii) την πρόταση νέας μεθοδολογίας συνδυασμού σημασιολογικών μετασχηματισμών και μηχανικής μάθησης για την αντιμετώπιση του προβλήματος της διαχείρισης νέου περιεχομένου (iii) την εισαγωγή ενός νέου πλαισίου, που συνδυάζει μεθοδολογία σημασιολογικής αναπαράστασης του περιεχομένου σε μορφή γραφήματος και βαθιά μάθηση, προς την κατεύθυνση της παραγωγής περιλήψεων με σημασιολογική συνάφεια περιεχομένου και (iv) την παρουσίαση ενός συνόλου μετρικών αξιολόγησης για τον προσδιορισμό της σημασιολογικής επικάλυψης του περιεχομένου των εκτιμώμενων περιλήψεων σε σχέση με το αρχικό κείμενο. Τα συμπεράσματα που προκύπτουν αναδεικνύουν τα οφέλη της ερευνητικής προσπάθειας.	el
heal.classification	Πληροφορική	el
heal.classification	Τεχνητή Νοημοσύνη	el
heal.classification	Συστήματα Μηχανικής Μάθησης	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-12-12
heal.abstract	Η συνεχώς αυξανόμενη πληροφορία κειμένου έχει οδηγήσει στην ανάπτυξη έντονης ερευνητικής δραστηριότητας στο πεδίο της αυτόματης περίληψης κειμένου, το οποίο αποτελεί έναν σημαντικό ερευνητικό τομέα της επεξεργασίας φυσικής γλώσσας. Η έρευνα, που διεξάγεται σήμερα στο πλαίσιο της αυτόματης περίληψης κειμένου, επικεντρώνεται κυρίως σε ανάπτυξη προσεγγίσεων μηχανικής μάθησης, χωρίς, τις περισσότερες φορές, να εξετάζεται ο συνδυασμός μοντέλων μηχανικής μάθησης με άλλες τεχνικές που βασίζονται σε επεξεργασία φυσικής γλώσσας, οι οποίες θα μπορούσαν να συνεισφέρουν στην περαιτέρω βελτίωση του πεδίου αυτού. Με αφορμή το ερευνητικό αυτό κενό, η παρούσα διδακτορική διατριβή, με αντικείμενο την αυτόματη περίληψη κειμένου ενός εγγράφου με τη μέθοδο της παραγωγής κειμένου, εξετάζει αρχιτεκτονικές βαθιάς μάθησης και παρουσιάζει νέες μεθόδους που συνδυάζουν μηχανική μάθηση και σημασιολογικές τεχνικές, με σκοπό τη βελτίωση της αυτόματης περίληψης κειμένου. Η συνεισφορά της διατριβής περιλαμβάνει: (i) τη διερεύνηση αρχιτεκτονικών βαθιάς μάθησης για την αυτόματη περίληψη κειμένου, (ii) την πρόταση νέας μεθοδολογίας σημασιολογικών μετασχηματισμών του περιεχομένου και μηχανικής μάθησης για την αντιμετώπιση του προβλήματος της διαχείρισης νέου κειμένου, το οποίο δεν έχει επαρκή παρουσία στο σύνολο εκπαίδευσης ενός μοντέλου μηχανικής μάθησης, (iii) την εισαγωγή ενός νέου πλαισίου σημασιολογικής αναπαράστασης του περιεχομένου και βαθιάς μάθησης, προς την κατεύθυνση της παραγωγής περιλήψεων με σημασιολογική συνάφεια περιεχομένου και (iv) την παρουσίαση ενός συνόλου μετρικών για παροχή ποιοτικής αξιολόγησης του περιεχομένου των παραγόμενων περιλήψεων. Στο πρώτο μέρος η ερευνητική προσπάθεια εστιάζει στη διερεύνηση αρχιτεκτονικών βαθιάς μάθησης και προτείνει την αξιοποίηση κατάλληλων μοντέλων νευρωνικών δικτύων για την αυτόματη περίληψη κειμένου. Στην κατεύθυνση αυτή, διερευνώνται διαφορετικές αρχιτεκτονικές μοντέλων μηχανικής μάθησης, όπως είναι τα δίκτυα νευρωνικών δικτύων τύπου κωδικοποιητή-αποκωδικοποιητή, η ενισχυτική μάθηση, οι αρχιτεκτονικές μετασχηματιστών ή τα προεκπαιδευμένα μοντέλα γλωσσικής αναπαράστασης. Στη συνέχεια, η έρευνα εστιάζει στην ανάπτυξη ενός πλαισίου σημασιολογικών μετασχηματισμών του περιεχομένου, το οποίο δίνει λύσεις στο πρόβλημα των νέων υποψήφιων για περίληψη κειμένων, τα οποία περιλαμβάνουν περιεχόμενο που ενδεχομένως δεν έχει επαρκή παρουσία στο σύνολο εκπαίδευσης ενός μοντέλου μηχανικής μάθησης. Το προτεινόμενο πλαίσιο περιλαμβάνει τρία βασικά στάδια: την προ-επεξεργασία, τις προβλέψεις μηχανικής μάθησης και τη μετα-επεξεργασία. Το στάδιο της προ-επεξεργασίας βασίζεται σε μια καλά καθορισμένη μεθοδολογία γενίκευσης περιεχομένου, η οποία αξιοποιεί πόρους γνώσης, ταξινομίες εννοιών, σημασιολογική αποσαφήνιση έννοιας λέξεων και αναγνώριση ονοματικών οντοτήτων για τον μετασχηματισμό του περιεχομένου σε μια γενικευμένη μορφή. Η εφαρμογή της μεθοδολογίας γενίκευσης του περιεχομένου βελτιώνει την ακρίβεια των προβλέψεων μηχανικής μάθησης, με την παραγωγή περιλήψεων σε μια γενικευμένη μορφή. Το στάδιο της μετα-επεξεργασίας βασίζεται σε ευρεστικές μεθόδους, που αξιοποιούν αντίστοιχους πόρους γνώσης με εκείνους που χρησιμοποιούνται στη φάση της προ-επεξεργασίας, για τον μετασχηματισμό των γενικευμένων περιλήψεων στην τελική τους μορφή. Στο τρίτο μέρος, η ερευνητική προσπάθεια επικεντρώνεται στην αξιοποίηση της σημασιολογικής αναπαράστασης του περιεχομένου σε μορφή γραφήματος, σε συνδυασμό με προβλέψεις βαθιάς μάθησης για τη βελτίωση της αυτόματης περίληψης κειμένου, προς την κατεύθυνση της παραγωγής περιλήψεων με σημασιολογική συνάφεια περιεχομένου. Η κύρια συνεισφορά της προτεινόμενης μεθοδολογίας περιλαμβάνει τη μοντελοποίηση του προβλήματος ως ένα πρόβλημα μάθησης από γράφημα σε περίληψη με μεθόδους βαθιάς μάθησης, την παρουσίαση σημασιολογικών αναπαραστάσεων κειμένου σε μορφή γραφήματος και τη διερεύνηση της επίδοσης διαφορετικών αρχιτεκτονικών βαθιάς μάθησης σε συνδυασμό με διάφορα σχήματα δεδομένων. Η προτεινόμενη προσέγγιση βασίζεται σε ένα καλά καθορισμένο πλαίσιο για την ανάκτηση των σημασιολογικών γραφημάτων για κάθε περίοδο ενός αρχικού κειμένου, την κατασκευή του σημασιολογικού γραφήματος του περιεχομένου ενός κειμένου, τον μετασχηματισμό ενός σημασιολογικού γραφήματος σε κατάλληλη μορφή για είσοδο σε κάποιο μοντέλο μηχανικής μάθησης και τις προβλέψεις μηχανικής μάθησης. Η προσέγγιση αυτή οργανώνει τη μη δομημένη πληροφορία και αναπαριστά σημασιολογικά το περιεχόμενο, σε μια προσπάθεια βελτίωσης των προβλέψεων μηχανικής μάθησης και την παροχή περιλήψεων με σημασιολογική συνάφεια περιεχομένου. Προς την κατεύθυνση της παροχής μιας ποιοτικής αξιολόγησης για την αυτόματη περίληψη κειμένου, η παρούσα διατριβή προτείνει ένα νέο σύνολο μετρικών, οι οποίες προσδιορίζουν τη συνέπεια απόδοσης πληροφορίας των παραγόμενων περιλήψεων σε σχέση με το αρχικό κείμενο. Οι εν λόγω μετρικές παρέχουν μια σταθμισμένη τιμή αξιολόγησης, σύμφωνα με την έκταση του αρχικού κειμένου και της περίληψης συστήματος, προσδιορίζοντας τη σημασιολογική επικάλυψη μεταξύ της πληροφορίας που περιλαμβάνει η παραγόμενη περίληψη σε σχέση με το αρχικό κείμενο. Το νέο σύνολο μετρικών μπορεί να συνεισφέρει στην αξιολόγηση και βελτίωση των συστημάτων αυτόματης περίληψης κειμένου. Οι προσεγγίσεις που παρουσιάζονται, καθορίστηκαν θεωρητικά, υλοποιήθηκαν και διερευνήθηκαν πειραματικά. Στο πλαίσιο της πειραματικής διαδικασίας εξετάστηκαν σημαντικές πτυχές της προτεινόμενης μεθοδολογίας, καθώς, επίσης, διερευνήθηκε και συγκρίθηκε η επίδοση της εκάστοτε προσέγγισης με άλλες συναφείς εργασίες. Ο προσδιορισμός των βέλτιστων επιλογών, που οδηγούν στη βελτιστοποίηση της επίδοσης των προτεινόμενων λύσεων, τα θετικά αποτελέσματα, καθώς και τα συμπεράσματα, που προέκυψαν, αναδεικνύουν τα οφέλη της παρούσας ερευνητικής προσπάθειας, η οποία μπορεί να οδηγήσει στην περαιτέρω έρευνα για την ανάπτυξη ευφυών συστημάτων στον τομέα της αυτόματης περίληψης κειμένου.	el
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Βαρλάμης, Ηρακλής	el
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.committeeMemberName	Τσανάκας, Παναγιώτης	el
heal.committeeMemberName	Ευθυμίου, Ελένη	el
heal.committeeMemberName	Καρυδάκης, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	210 σ.	en
heal.fullTextAvailability	false