HEAL DSpace

Automatic Summarization of Court Judgements using Machine Learning, with applications to summarizing Greek Court Judgements

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Γαλάνης, Δημήτρης el
dc.contributor.author Galanis, Dimitris en
dc.date.accessioned 2023-02-02T08:24:25Z
dc.date.available 2023-02-02T08:24:25Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57039
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24737
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Automatic Text Summarization en
dc.subject BERT en
dc.subject Court Judgements en
dc.subject Legal AI en
dc.subject Machine Learning en
dc.subject Αυτόματη Περίληψη Κειμένου el
dc.subject Δικαστικές Αποφάσεις el
dc.subject Τεχνητή Νοημοσύνη και Δίκαιο el
dc.subject Μηχανική Μάθηση el
dc.subject Επεξεργασία Φυσικής Γλώσσας el
dc.title Automatic Summarization of Court Judgements using Machine Learning, with applications to summarizing Greek Court Judgements en
dc.title Αυτόματη Περίληψη Δικαστικών Αποφάσεων μέσω Μηχανικής Μάθησης, με εφαρμογές στην περίληψη Ελληνικών Δικαστικών Αποφάσεων el
heal.type bachelorThesis
heal.classification Natural language processing en
heal.classification Legal AI en
heal.classification Machine learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-11-11
heal.abstract Η ταχεία αύξηση των ψηφιοποιηµένων κειµένων έχει εντείνει την ανάγκη για αξιόπιστες αυτόµατες µεθόδους που µπορούν να ξεχωρίσουν τις σηµαντικές από τις µη-σηµαντικές πληϱοφορίες. Στην νοµική επιστήµη και συγκεκριµένα στην νοµολογία, η διαδικασία αυτή γίνεται κυρίως µη-αυτοµατοποιηµένα από εξειδικευµένους νοµικούς συντάκτες, κάτι που είναι χρονοβόρο. ΄Οµως, οι περιλήψεις δικαστικών αποφάσεων είναι ένα απαραίτητο κοµµάτι της ϱοής εργασίας ενός νοµικού, αφού λόγω του µικρότερου µήκους δίνουν την δυνατότητα για γρηγορότερη και πιο στοχευµένη αναζήτηση σχετικής νοµολογίας. Επιπλέον, οι περιλήψεις δικαστικών αποφάσεων δίνουν την δυνατότητα στους νοµικούς αναγνώστες να εστιάσουν στα κεντρικά σηµεία της απόφασης και, ως εκ τούτου, να την κατανοήσουν πληρέστερα. Πρόσφατες εξελίξεις στον χώρο της Μηχανικής Μάθησης, δίνουν την δυνατότητα για καλύτερες επιδόσεις στα συστήµατα Αυτόµατης Περίληψης Κειµένου (ΑΠΚ), ϐάσει αυτοµάτων µετρικών αξιολόγησης. Επιπλέον, οι πρόσφατες εξελίξεις στον τοµέα των ϐαθιών προεκπαιδευµένων Γλωσσικών Μοντέλων επιτρέπουν την χρήση ΑΠΚ συστηµάτων χωρίς µεγάλο αριθµό δεδοµένων. ΄Οµως, οι περισσότερες τέτοιες µέθοδοι εκπαιδεύονται και αξιολογούνται σε άρθρα ειδήσεων που διαφέρουν σηµαντικά από τις δικαστικές αποφάσεις, αφού οι τελευταίες έχουν µεγαλύτερο µέγεθος, διαφορετική δοµή και κάνουν χρήση εξειδικευµένης νοµικής ορολογίας. Στην παρούσα εργασία, προσπαθούµε να παραγάγουµε αυτόµατες περιλήψεις Ελληνικών δικαστικών αποφάσεων χρησιµοποιώντας µεθόδους Μηχανικής Μάθησης. Για αυτό τον σκοπό, διεξάγουµε εκτεταµένη ϐιβλιογραφική µελέτη των µεθόδων Αυτόµατης Περίληψης Κειµένου, των συνόλων δεδοµένων και των µετρικών αξιολόγησης που χρησιµοποιούνται. Στην συνέχεια, συλλέγουµε ένα σύνολο δεδοµένων αποτελούµενο από Ελληνικές ∆ικαστικές Αποφάσεις. Κατασκευάζουµε ένα σύστηµα εξαγωγικής περίληψης, ϐασιζόµενο στον αλγόριθµο LexRank, το οποίο εξάγει από τις αποφάσεις τις πιο σηµαντικές προτάσεις. Εκπαιδεύουµε ένα µοντέλο Κωδικοποιητή-Αποκωδικοποιητή Βαθιάς Μάθησης που ϐασίζεται στην αρχιτεκτονική BERT, χρησιµοποιώντας προ-εκπαιδευµένες σε Ελληνικά νοµικά κείµενα παραµέτρους, που διατίθενται ελεύθερα, και το χρησιµοποιούµε για την µοντελοποίηση του προβλήµατος της ελεύθερης περίληψης σαν ένα πρόβληµα παραγωγής ακολουθίας κειµένου. Οι µέθοδοί µας αξιολογούνται κάνοντας χρήση της οικογένειας αυτοµάτων µετρικών ROUGE και µέσω µελέτης ανθρώπινης αξιολόγησης από νοµικούς. ∆είχνουµε ότι η εξειδικευµένη για δικαστικές αποφάσεις προ-επεξεργασία κειµένου και η συµπερίληψη πληροφορίας κατηγοριοποίησης των δικαστικών αποφάσεων ϐελτιώνει την επίδοση των µεθόδων µας ελεύθερης περίληψης. Παρέχουµε µια µελέτη αξιολόγησης διαϕόρων παραλλαγών των µεθόδων εξαγωγικής περίληψης που αναπτύξαµε. Η αξιολόγηση από νοµικούς δείχνει πως οι εξαγωγικές µέθοδοι αποδίδουν µέτρια, ενώ οι µέθοδοι ελεύθερης περίληψης παράγουν περιλήψεις µέτριας ευφράδειας και συνοχής αλλά χαµηλής σχετικότητας και συνέπειας µε το κείµενο της δικαστικής απόφασης, υποδεικνύοντας την ανάγκη για µεθόδους περίληψης που συµφωνούν πραγµατολογικά µε το προς περίληψη κείµενο. Η δουλειά µας είναι η πρώτη, από όσο γνωρίζουµε, που µελετά την αυτόµατη περίληψη Ελληνικών δικαστικών αποφάσεων και ευελπιστούµε να δώσει έναυσµα για περαιτέρω έρευνα στην συγκεκριµένη περιοχή. el
heal.abstract Η ταχεία αύξηση των ψηφιοποιημένων κειμένων έχει εντείνει την ανάγκη για αξιόπιστες αυτόματες μεθόδους που μπορούν να ξεχωρίσουν τις σημαντικές από τις μη-σημαντικές πληροφορίες. Στην νομολογία, η διαδικασία αυτή είναι χρονοβόρα καθώς γίνεται κυρίως μη-αυτοματοποιημένα από εξειδικευμένους νομικούς συντάκτες. ́Ομως, οι περιλήψεις δικαστικών αποφάσεων είναι απαραίτητο κομμάτι της ροής εργασίας ενός νομικού, αφού λόγω του μικρότερου μήκους δίνουν την δυνατότητα για γρηγορότερη και πιο στοχευμένη αναζήτηση σχετικής νομολογίας και πληρέστερη κατανόηση των κεντρικών σημείων τους. Πρόσφατες εξελίξεις στον χώρο της Μηχανικής Μάθησης, δίνουν την δυνατότητα για καλύτερες επιδόσεις στα συστήματα Αυτόματης Περίληψης Κειμένου (ΑΠΚ), βάσει αυτομάτων μετρικών αξιολόγησης. Επιπλέον, τα βαθιά προ-εκπαιδευμένα Γλωσσικα Μοντέλα επιτρέπουν την χρήση ΑΠΚ συστημάτων χωρίς μεγάλο αριθμό δεδομένων με εφαρμογές κυρίως σε άρθρα ειδήσεων τα οποία, όμως, έχουν μικρότερο μέγεθος, διαφορετική δομή και ελάχιστη νομική ορολογία. Στην παρούσα εργασία, προσπαθούμε να παραγάγουμε αυτόματες περιλήψεις Ελληνικών δικαστικών αποφάσεων χρησιμοποιώντας μεθόδους Μηχανικής Μάθησης. Για αυτό τον σκοπό, διεξάγουμε εκτεταμένη βιβλιογραφική μελέτη των μεθόδων Αυτόματης Περίληψης Κειμένου, των συνόλων δεδομένων και των μετρικών αξιολόγησης που χρησιμοποιούνται. Στην συνέχεια, συλλέγουμε ένα σύνολο δεδομένων αποτελούμενο από Ελληνικές ∆ικαστικές Αποφάσεις. Κατασκευάζουμε ένα σύστημα εξαγωγικής περίληψης, βασιζόμενο στον αλγόριθμο LexRank, το οποίο εξάγει από τις αποφάσεις τις πιο σημαντικές προτάσεις. Εκπαιδεύουμε ένα μοντέλο Κωδικοποιητή-Αποκωδικοποιητή Βαθιάς Μάθησης που βασίζεται στην αρχιτεκτονική BERT, χρησιμοποιώντας προ-εκπαιδευμένες σε Ελληνικά νομικά κείμενα παραμέτρους, που διατίθενται ελεύθερα, και το χρησιμοποιούμε για την μοντελοποίηση του προβλήματος της ελεύθερης περίληψης σαν ένα πρόβλημα παραγωγής ακολουθίας κειμένου. Οι μέθοδοί μας αξιολογούνται κάνοντας χρήση της οικογένειας αυτομάτων μετρικών ROUGE και μέσω μελέτης ανθρώπινης αξιολόγησης από νομικούς. ∆είχνουμε ότι η εξειδικευμένη για δικαστικές αποφάσεις προ-επεξεργασία κειμένου και η συμπερίληψη πληροφορίας κατηγοριοποίησης των δικαστικών αποφάσεων βελτιώνει την επίδοση των μεθόδων μας ελεύθερης περίληψης. Παρέχουμε μια μελέτη αξιολόγησης διαφόρων παραλλαγών των μεθόδων εξαγωγικής περίληψης. Η αξιολόγηση από νομικούς δείχνει πως οι εξαγωγικές μέθοδοι αποδίδουν μέτρια, ενώ οι μέθοδοι ελεύθερης περίληψης παράγουν περιλήψεις μέτριας ευφράδειας και συνοχής αλλά χαμηλής σχετικότητας και συνέπειας με το κείμενο της δικαστικής απόφασης, υποδεικνύοντας την ανάγκη για μεθόδους περίληψης που συμφωνούν πραγματολογικά με το προς περίληψη κείμενο. el
heal.abstract The rapid increase of digitized text documents has accentuated the need for reliable automatic methods that discern the important information from the unimportant. In the legal domain of court judgements, this process is done mostly manually by specialized legal editors, which is a time-consuming process. However, court judgement summaries are an essential part of a legal practitioner’s workflow, as they are shorter in length, thus enabling faster and more specific search for relevant case-laws. Furthermore, summarized versions of court judgements allow the legal practitioner to intuitively focus on its main points and thus acquire a better understanding of it. Recent advances in Machine Learning have enabled better performance in Automatic Text Summarization (ATS) systems, in terms of automatic evaluation metrics. Moreover, deep pre-trained Language Models enable the use of ATS without large amounts of training data. However, most methods are trained and evaluated for the news-article domain, which differs from the court-judgements domain as the latter includes longer documents, having significantly different structure and making use of specialized legal terminology. In our work, we attempt to automatically summarize Greek court judgements using machine learning methods. To that end, we first conduct an extended survey of the automatic text summarization literature; the methods, the datasets and evaluation metrics used and the criticism that has been applied to them. Then we proceed by constructing a dataset of Greek court judgement texts and their summaries. We build an extractive summarization system, based on the LexRank algorithm, that extracts the most important sentences from a judgement. We train an Encoder-Decoder Deep Learning model based on the BERT architecture, using open-sourced checkpoints trained on Greek parliamentary corpora and use it to model abstractive summarization as a sequence generation task. We evaluate our methods using the ROUGE-family of automatic evaluation metrics and also conduct a human evaluation study. We show that domain informed preprocessing and including judgement classification information can increase the performance of our abstractive summarization methods. We provide a comparison of different variations of our extractive summarization methods. Legal experts’ evaluation shows our extractive methods perform average, and our abstractive methods, while generating moderately fluent and coherent text, have low scores in the relevance and consistency metrics, indicating the need of methods factually aligned to the judgement text. en
heal.advisorName Τσανάκας, Παναγιώτης el
heal.advisorName Tsanakas, Panayiotis en
heal.committeeMemberName Τζαννίνη, Ευγενία el
heal.committeeMemberName Καντερέ, Βασιλική (Βερένα) el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 199 σ. el
heal.fullTextAvailability false
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα