HEAL DSpace

Αξιολόγηση μηχανισμών αυτόματης κατηγοριοποίησης ελληνικών νομικών κειμένων

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Χατζηγιαννάκης, Παναγιώτης el
dc.contributor.author Chatzigiannakis, Panagiotis en
dc.date.accessioned 2024-04-19T08:19:48Z
dc.date.available 2024-04-19T08:19:48Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59227
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26923
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Νομικά Κείμενα el
dc.subject Κατηγοριοποίηση πολλαπλών ετικετών el
dc.subject Μηχανική μάθηση el
dc.subject Μετασχηματιστές el
dc.subject Legal documents en
dc.subject Multi-Label Classification en
dc.subject Machine learning en
dc.subject Transformers en
dc.title Αξιολόγηση μηχανισμών αυτόματης κατηγοριοποίησης ελληνικών νομικών κειμένων el
heal.type bachelorThesis
heal.classification Μηχανική Μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-11-16
heal.abstract Η Επεξεργασία Φυσικής Γλώσσας είναι μία περιοχή της Τεχνητής Νοημοσύνης που προσελκύει όλο και περισσότερο επιστημονικό ενδιαφέρον και σταδιακά γίνεται μέρος της καθημερινής ζωής του ανθρώπου. Από τα πιο θεμελιώδη προβλήματα που αντιμετωπίζει είναι το πρόβλημα της κατηγοριοποίησης κειμένου, δηλαδή της κατάταξης εγγράφων κειμένου σε προκαθορισμένες ομάδες. Η υποπεριοχή του προβλήματος που μας απασχολεί στην εργασία αυτή είναι η κατηγοριοποίηση νομικών κειμένων. Από την πλευρά των δικηγόρων, η κατηγοριοποίηση νομικών κειμένων μπορεί να βοηθήσει στην γρήγορη αναγνώριση σχετικών νομικών προηγουμένων και καταστατικών, γλιτώνοντας έτσι πολύτιμο χρόνο στην νομική έρευνα. Από την πλευρά των πολιτών, καθιστά ευκολότερη την πρόσβαση σε νομικές πληροφορίες, δίνοντάς τους έτσι την δυνατότητα και το κίνητρο να κατανοήσουν τα δικαιώματά τους και τις υποχρεώσεις τους. Το ακριβές αντικείμενο της διπλωματικής είναι η σύγκριση αλγορίθμων μηχανικής μάθησης στο πλαίσιο της Κατηγοριοποίησης Πολλαπλών Ετικετών Ελληνικών νομικών κειμένων. Στο πρόβλημα της Κατηγοριοποίησης κειμένου Πολλαπλών Ετικετών είσοδος είναι ένα κείμενο και έξοδος πολλαπλές, μη αμοιβαία αποκλειόμενες ετικέτες - κατηγορίες. Εκτελούμε ένα πείραμα σε κείμενα Ελληνικής νομοθεσίας όπου οι ετικέτες προέρχονται από τον θησαυρό Eurovoc και ένα πείραμα σε κείμενα νομολογίας όπου οι ετικέτες προέρχονται από τον Άρειο Πάγο. Οι αλγόριθμοι ταξινόμησης τους οποίους υλοποιούμε εκτείνονται από παραδοσιακή μηχανική μάθηση (Naïve Bayes, K-Nearest Neighbor, Decision Tree, Random Forest, Bagging) μέχρι και μοντέλα που βασίζονται στους μετασχηματιστές (BERT - Bidirectional Encoder Representations from Transformers). Ύστερα από την εκτέλεση των πειραμάτων, αξιολογούμε τις επιδόσεις των αλγορίθμων με βάση μετρικών. Το συμπέρασμα στο οποίο καταλήγουμε είναι ότι στην κατηγοριοποίηση νομοθεσίας την καλύτερη επίδοση έχουν οι αλγόριθμοι Naïve Bayes και BERT, ενώ στην κατηγοριοποίηση νομολογίας την καλύτερη επίδοση έχουν οι αλγόριθμοι BERT και K-Nearest Neighbor. el
heal.abstract Natural Language Processing is a field of Artificial Intelligence that keeps attracting more and more scientific interest and is gradually becoming a part of our everyday lives. One of the most fundamental problems it attempts to solve is text classification, which involves categorizing text documents into predefined categories. Our specific area of interest is legal document classification. For a lawyer, legal text classification can help quickly identify relevant precedents and statutes, saving valuable time in legal research. For a citizen, it can enable easier access to legal information, empowering them to understand their rights and obligations. More precisely, the aim of this thesis is the comparison of machine learning algorithms in the task of Multi-Label Classification of Greek legal documents. In Multi-Label Text Classification, the input is a text document and the output consists of multiple, mutually non-exclusive labels. We perform an experiment on Greek legislation documents where the labels are from the Eurovoc theasaurus and another experiment on case laws where the labels are from Areios Pagos. We implement various classification algorithms ranging from traditional machine learning (Naïve Bayes, K-Nearest Neighbor, Decision Tree, Random Forest, Bagging) to state-of-the-art models based on transformers (BERT – Bidirectional Encoder Representations from Transformers). After conducting the experiments, we evaluate the performance of each algorithm with the use of metrics. We come to the conclusion that in the case of legislation the most efficient algorithms are Naïve Bayes and BERT whereas in the case of case laws the most efficient algorithms are BERT and K-Nearest Neighbor. en
heal.advisorName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Τζαννίνη, Ευγενία el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα