Αυτόματη παραγωγή περίληψης κειμένου στην ελληνική γλώσσα με αναδρομικά νευρωνικά δίκτυα βαθιάς μάθησης

Μήτρο, Νίκο; Mitro, Niko

dc.contributor.author	Μήτρο, Νίκο	el
dc.contributor.author	Mitro, Niko	en
dc.date.accessioned	2021-07-29T10:14:51Z
dc.date.available	2021-07-29T10:14:51Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/53741
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.21439
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Αυτόματη περίληψη κειμένων	el
dc.subject	Βαθιά μάθηση	el
dc.subject	Περίληψη ελληνικών κειμένων	el
dc.subject	Αναδρομικά νευρωνικά δίκτυα	el
dc.subject	Επεξεργασία φυσικής γλώσσας	el
dc.subject	Automatic text summarization	en
dc.subject	Natural language processing	en
dc.subject	Greek text summarization	en
dc.subject	Recurrent neural networks	en
dc.subject	Deep learning	en
dc.title	Αυτόματη παραγωγή περίληψης κειμένου στην ελληνική γλώσσα με αναδρομικά νευρωνικά δίκτυα βαθιάς μάθησης	el
dc.title	Automatic Greek text summarization by deep learning recurrent neural networks (RNNs)	en
heal.type	bachelorThesis
heal.classification	Επιστήμη υπολογιστών	el
heal.classification	Computer science	en
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2021-04-14
heal.abstract	Σύστημα αυτόματης παραγωγής περίληψης ονομάζεται ένα σύστημα, το οποίο με τη χρήση κάποιου λογισμικού, παράγει ένα κείμενο μικρότερης έκτασης του αρχικού, και ταυτοχρόνως διατηρεί το αρχικό και βασικό νόημα του. Ο ολοένα και αυξανόμενος όγκος των δεδομένων που συναντάται στη σημερινή εποχή, καθιστά την ανάγκη ενός τέτοιου αυτόματου συστήματος ακόμα πιο αισθητή και ταυτοχρόνως ενθαρρύνει την ανάπτυξη λογισμικού για την προσπέλαση αυτού του μεγάλου όγκου δεδομένων. Ο σχεδιασμός ενός εύρωστου συστήματος ικανό να παράγει νοηματικά, συντακτικά και γραμματικά ορθές περιλήψεις συγκεντρώνει μεγάλο ερευνητικό ενδιαφέρον, με αποτέλεσμα διάφοροι μηχανισμοί και εργαλεία λογισμικού να έχουν υλοποιηθεί για την επίλυση αυτού του προβλήματος. Κανένα όμως από αυτά τα εργαλεία δεν έχουν επιτύχει μέχρι σήμερα τη δημιουργία ενός γενικευμένου και ιδανικού συστήματος αυτόματης παραγωγής περίληψης, λόγω της δυσκολίας και της πολυπλοκότητας που εμφανίζει το συγκεκριμένο πρόβλημα. Ωστόσο, η ραγδαία ανάπτυξη της μηχανικής και ιδιαιτέρως της βαθιάς μάθησης, έχει συστήσει νέες τεχνικές αντιμετώπισης του προβλήματος, επιφέροντας βελτιωμένα αποτελέσματα. Στη συγκεκριμένη εργασία, πραγματοποιείται μια πρώτη απόπειρα υλοποίησης ενός αποδοτικού συστήματος αυτόματης παραγωγής περίληψης για την ελληνική γλώσσα. Η υλοποίηση βασίζεται σε μηχανισμούς βαθιάς μάθησης και συγκεκριμένα σε αναδρομικά νευρωνικά δίκτυα και στην αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή. Για την προσαρμογή του συστήματος στην ελληνική γλώσσα, πραγματοποιείται σύγκρισή της με την αγγλική και μελέτη των ιδιομορφιών της σε συντακτικό και γραμματικό επίπεδο. Οι ιδιομορφίες αυτές αντιμετωπίζονται μέσω του λογισμικού στο στάδιο της προ-επεξεργασίας και στο στάδιο της παραγωγής των αριθμητικών αναπαραστάσεων των λέξεων. Για την αξιολόγηση των σχεδιαστικών επιλογών που πάρθηκαν κατά την υλοποίηση του συστήματος και την εύρεση του βέλτιστου συνδυασμού τους, διερευνάται η επίδραση διάφορων βασικών παραμέτρων στην επίδοση του. Οι μετρήσεις της επίδοσης του συστήματος βασίζονται στις καθιερωμένες σε προβλήματα παραγωγής περίληψης μετρικές ROUGE. Από τα πειραματικά αποτελέσματα εξάγονται χρήσιμα συμπεράσματα για την λειτουργία και την αποτελεσματικότητα του συστήματος και αναδεικνύονται κάποιες ορθές κατευθύνσεις για το σχεδιασμό παρόμοιων συστημάτων. Τέλος, παρουσιάζεται ένας πιθανός τρόπος ενσωμάτωσης του υλοποιημένου συστήματος σε μια έξυπνη εφαρμογή για κινητά και προτείνονται κάποιες μελλοντικές κατευθύνσεις προώθησης της έρευνας πάνω στο αντικείμενο.	el
heal.abstract	An automatic text summarization system refers to a system that uses software to produce a shortened version of a text document, preserving its initial and basic topic. Nowadays, the rapidly increasing volume of data makes the need of such automatic systems even more urgent and at the same time encourages the software development for the processing of all this information. The design of a robust system capable of producing semantically, syntactically and grammatically correct summaries is a subject of great research interest. As a result, various software mechanisms and tools have been implemented to solve this problem. But none of these tools have so far succeeded in creating a general and ideal system of automatic summarization, due to the difficulty and complexity of this problem. However, the rapid development of machine learning and especially deep learning, has recommended new techniques to tackle the problem, providing improved results. In this thesis, a first attempt is made to implement an efficient automatic summarization system for the Greek language. The implementation of this system is based on deep learning mechanisms, and specifically on recurrent neural networks and the encoder-decoder architecture. For the adaptation of the system to the Greek language, a comparison between the Greek and the English language is made on a syntactical and grammatical level and the specific features of the Greek language are highlighted. The problems that arise from these features are addressed through the software at the pre-processing of the Greek text data and at the production of the word embeddings. In order to evaluate the design choices made during the implementation of the system, the impact of various key parameters is explored. The performance of the system is measured using the established metrics ROUGE, that have been used extensively on similar systems. Via analyzing the experimental results, useful conclusions about the functionality and the efficiency of the system are extracted and some good guidelines are highlighted for the design of similar systems. Finally, a way of integrating the implemented system into a smart mobile application is presented and some future directions are proposed, in order to promote the research on the subject.	en
heal.advisorName	Βενιέρης, Ιάκωβος	el
heal.committeeMemberName	Βενιέρης, Ιάκωβος	el
heal.committeeMemberName	Κακλαμάνη, Δήμητρα-Θεοδώρα	el
heal.committeeMemberName	Ματσόπουλος, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών	el
heal.academicPublisherID	ntua
heal.numberOfPages	97 σ.	el
heal.fullTextAvailability	false