HEAL DSpace

Αυτόματη Περίληψη Κειμένου: Μηχανική Μάθηση και Σημασιολογικές Τεχνικές

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Κουρής, Παναγιώτης el
dc.contributor.author Kouris, Panagiotis en
dc.date.accessioned 2023-02-16T08:30:53Z
dc.date.available 2023-02-16T08:30:53Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57146
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24844
dc.rights Default License
dc.subject Αυτόματη Περίληψη Κειμένου el
dc.subject Μηχανική Μάθηση el
dc.subject Επεξεργασία Φυσικής Γλώσσας el
dc.subject Σημασιολογικές Τεχνικές el
dc.subject Νευρωνικά Δίκτυα el
dc.subject Automatic Text Summarization el
dc.subject Abstractive Text Summarization el
dc.subject Machine Learning el
dc.subject Natural Language Processing el
dc.subject Semantic Techniques el
dc.subject Deep Learning el
dc.title Αυτόματη Περίληψη Κειμένου: Μηχανική Μάθηση και Σημασιολογικές Τεχνικές el
dc.title Automatic Text Summarization: Machine Learning and Semantic Techniques en
heal.type doctoralThesis
heal.generalDescription Η παρούσα διδακτορική διατριβή έχει ως αντικείμενο την αυτόματη περίληψη κειμένου ενός εγγράφου με τη μέθοδο της παραγωγής κειμένου. Στο πλαίσιο αυτό, παρουσιάζεται νέα μεθοδολογία που βασίζεται σε μηχανική μάθηση και σε σημασιολογικές τεχνικές. Η συνεισφορά της διατριβής περιλαμβάνει: (i) τη διερεύνηση αρχιτεκτονικών βαθιάς μάθησης, (ii) την πρόταση νέας μεθοδολογίας συνδυασμού σημασιολογικών μετασχηματισμών και μηχανικής μάθησης για την αντιμετώπιση του προβλήματος της διαχείρισης νέου περιεχομένου (iii) την εισαγωγή ενός νέου πλαισίου, που συνδυάζει μεθοδολογία σημασιολογικής αναπαράστασης του περιεχομένου σε μορφή γραφήματος και βαθιά μάθηση, προς την κατεύθυνση της παραγωγής περιλήψεων με σημασιολογική συνάφεια περιεχομένου και (iv) την παρουσίαση ενός συνόλου μετρικών αξιολόγησης για τον προσδιορισμό της σημασιολογικής επικάλυψης του περιεχομένου των εκτιμώμενων περιλήψεων σε σχέση με το αρχικό κείμενο. Τα συμπεράσματα που προκύπτουν αναδεικνύουν τα οφέλη της ερευνητικής προσπάθειας. el
heal.classification Πληροφορική el
heal.classification Τεχνητή Νοημοσύνη el
heal.classification Συστήματα Μηχανικής Μάθησης el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-12-12
heal.abstract Η συνεχώς αυξανόμενη πληροφορία κειμένου έχει οδηγήσει στην ανάπτυξη έντονης ερευνητικής δραστηριότητας στο πεδίο της αυτόματης περίληψης κειμένου, το οποίο αποτελεί έναν σημαντικό ερευνητικό τομέα της επεξεργασίας φυσικής γλώσσας. Η έρευνα, που διεξάγεται σήμερα στο πλαίσιο της αυτόματης περίληψης κειμένου, επικεντρώνεται κυρίως σε ανάπτυξη προσεγγίσεων μηχανικής μάθησης, χωρίς, τις περισσότερες φορές, να εξετάζεται ο συνδυασμός μοντέλων μηχανικής μάθησης με άλλες τεχνικές που βασίζονται σε επεξεργασία φυσικής γλώσσας, οι οποίες θα μπορούσαν να συνεισφέρουν στην περαιτέρω βελτίωση του πεδίου αυτού. Με αφορμή το ερευνητικό αυτό κενό, η παρούσα διδακτορική διατριβή, με αντικείμενο την αυτόματη περίληψη κειμένου ενός εγγράφου με τη μέθοδο της παραγωγής κειμένου, εξετάζει αρχιτεκτονικές βαθιάς μάθησης και παρουσιάζει νέες μεθόδους που συνδυάζουν μηχανική μάθηση και σημασιολογικές τεχνικές, με σκοπό τη βελτίωση της αυτόματης περίληψης κειμένου. Η συνεισφορά της διατριβής περιλαμβάνει: (i) τη διερεύνηση αρχιτεκτονικών βαθιάς μάθησης για την αυτόματη περίληψη κειμένου, (ii) την πρόταση νέας μεθοδολογίας σημασιολογικών μετασχηματισμών του περιεχομένου και μηχανικής μάθησης για την αντιμετώπιση του προβλήματος της διαχείρισης νέου κειμένου, το οποίο δεν έχει επαρκή παρουσία στο σύνολο εκπαίδευσης ενός μοντέλου μηχανικής μάθησης, (iii) την εισαγωγή ενός νέου πλαισίου σημασιολογικής αναπαράστασης του περιεχομένου και βαθιάς μάθησης, προς την κατεύθυνση της παραγωγής περιλήψεων με σημασιολογική συνάφεια περιεχομένου και (iv) την παρουσίαση ενός συνόλου μετρικών για παροχή ποιοτικής αξιολόγησης του περιεχομένου των παραγόμενων περιλήψεων. Στο πρώτο μέρος η ερευνητική προσπάθεια εστιάζει στη διερεύνηση αρχιτεκτονικών βαθιάς μάθησης και προτείνει την αξιοποίηση κατάλληλων μοντέλων νευρωνικών δικτύων για την αυτόματη περίληψη κειμένου. Στην κατεύθυνση αυτή, διερευνώνται διαφορετικές αρχιτεκτονικές μοντέλων μηχανικής μάθησης, όπως είναι τα δίκτυα νευρωνικών δικτύων τύπου κωδικοποιητή-αποκωδικοποιητή, η ενισχυτική μάθηση, οι αρχιτεκτονικές μετασχηματιστών ή τα προεκπαιδευμένα μοντέλα γλωσσικής αναπαράστασης. Στη συνέχεια, η έρευνα εστιάζει στην ανάπτυξη ενός πλαισίου σημασιολογικών μετασχηματισμών του περιεχομένου, το οποίο δίνει λύσεις στο πρόβλημα των νέων υποψήφιων για περίληψη κειμένων, τα οποία περιλαμβάνουν περιεχόμενο που ενδεχομένως δεν έχει επαρκή παρουσία στο σύνολο εκπαίδευσης ενός μοντέλου μηχανικής μάθησης. Το προτεινόμενο πλαίσιο περιλαμβάνει τρία βασικά στάδια: την προ-επεξεργασία, τις προβλέψεις μηχανικής μάθησης και τη μετα-επεξεργασία. Το στάδιο της προ-επεξεργασίας βασίζεται σε μια καλά καθορισμένη μεθοδολογία γενίκευσης περιεχομένου, η οποία αξιοποιεί πόρους γνώσης, ταξινομίες εννοιών, σημασιολογική αποσαφήνιση έννοιας λέξεων και αναγνώριση ονοματικών οντοτήτων για τον μετασχηματισμό του περιεχομένου σε μια γενικευμένη μορφή. Η εφαρμογή της μεθοδολογίας γενίκευσης του περιεχομένου βελτιώνει την ακρίβεια των προβλέψεων μηχανικής μάθησης, με την παραγωγή περιλήψεων σε μια γενικευμένη μορφή. Το στάδιο της μετα-επεξεργασίας βασίζεται σε ευρεστικές μεθόδους, που αξιοποιούν αντίστοιχους πόρους γνώσης με εκείνους που χρησιμοποιούνται στη φάση της προ-επεξεργασίας, για τον μετασχηματισμό των γενικευμένων περιλήψεων στην τελική τους μορφή. Στο τρίτο μέρος, η ερευνητική προσπάθεια επικεντρώνεται στην αξιοποίηση της σημασιολογικής αναπαράστασης του περιεχομένου σε μορφή γραφήματος, σε συνδυασμό με προβλέψεις βαθιάς μάθησης για τη βελτίωση της αυτόματης περίληψης κειμένου, προς την κατεύθυνση της παραγωγής περιλήψεων με σημασιολογική συνάφεια περιεχομένου. Η κύρια συνεισφορά της προτεινόμενης μεθοδολογίας περιλαμβάνει τη μοντελοποίηση του προβλήματος ως ένα πρόβλημα μάθησης από γράφημα σε περίληψη με μεθόδους βαθιάς μάθησης, την παρουσίαση σημασιολογικών αναπαραστάσεων κειμένου σε μορφή γραφήματος και τη διερεύνηση της επίδοσης διαφορετικών αρχιτεκτονικών βαθιάς μάθησης σε συνδυασμό με διάφορα σχήματα δεδομένων. Η προτεινόμενη προσέγγιση βασίζεται σε ένα καλά καθορισμένο πλαίσιο για την ανάκτηση των σημασιολογικών γραφημάτων για κάθε περίοδο ενός αρχικού κειμένου, την κατασκευή του σημασιολογικού γραφήματος του περιεχομένου ενός κειμένου, τον μετασχηματισμό ενός σημασιολογικού γραφήματος σε κατάλληλη μορφή για είσοδο σε κάποιο μοντέλο μηχανικής μάθησης και τις προβλέψεις μηχανικής μάθησης. Η προσέγγιση αυτή οργανώνει τη μη δομημένη πληροφορία και αναπαριστά σημασιολογικά το περιεχόμενο, σε μια προσπάθεια βελτίωσης των προβλέψεων μηχανικής μάθησης και την παροχή περιλήψεων με σημασιολογική συνάφεια περιεχομένου. Προς την κατεύθυνση της παροχής μιας ποιοτικής αξιολόγησης για την αυτόματη περίληψη κειμένου, η παρούσα διατριβή προτείνει ένα νέο σύνολο μετρικών, οι οποίες προσδιορίζουν τη συνέπεια απόδοσης πληροφορίας των παραγόμενων περιλήψεων σε σχέση με το αρχικό κείμενο. Οι εν λόγω μετρικές παρέχουν μια σταθμισμένη τιμή αξιολόγησης, σύμφωνα με την έκταση του αρχικού κειμένου και της περίληψης συστήματος, προσδιορίζοντας τη σημασιολογική επικάλυψη μεταξύ της πληροφορίας που περιλαμβάνει η παραγόμενη περίληψη σε σχέση με το αρχικό κείμενο. Το νέο σύνολο μετρικών μπορεί να συνεισφέρει στην αξιολόγηση και βελτίωση των συστημάτων αυτόματης περίληψης κειμένου. Οι προσεγγίσεις που παρουσιάζονται, καθορίστηκαν θεωρητικά, υλοποιήθηκαν και διερευνήθηκαν πειραματικά. Στο πλαίσιο της πειραματικής διαδικασίας εξετάστηκαν σημαντικές πτυχές της προτεινόμενης μεθοδολογίας, καθώς, επίσης, διερευνήθηκε και συγκρίθηκε η επίδοση της εκάστοτε προσέγγισης με άλλες συναφείς εργασίες. Ο προσδιορισμός των βέλτιστων επιλογών, που οδηγούν στη βελτιστοποίηση της επίδοσης των προτεινόμενων λύσεων, τα θετικά αποτελέσματα, καθώς και τα συμπεράσματα, που προέκυψαν, αναδεικνύουν τα οφέλη της παρούσας ερευνητικής προσπάθειας, η οποία μπορεί να οδηγήσει στην περαιτέρω έρευνα για την ανάπτυξη ευφυών συστημάτων στον τομέα της αυτόματης περίληψης κειμένου. el
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Βαρλάμης, Ηρακλής el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Ευθυμίου, Ελένη el
heal.committeeMemberName Καρυδάκης, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 210 σ. en
heal.fullTextAvailability false


Files in this item

This item appears in the following Collection(s)

Show simple item record