| dc.contributor.author | Διβριώτης, Κωνσταντίνος
|
el |
| dc.contributor.author | Divriotis, Konstantinos
|
en |
| dc.date.accessioned | 2025-12-04T09:56:44Z | |
| dc.date.available | 2025-12-04T09:56:44Z | |
| dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/62991 | |
| dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.30687 | |
| dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
| dc.subject | Large Language Models | en |
| dc.subject | Low-Resource Languages | en |
| dc.subject | Greek Dataset | en |
| dc.subject | Pretraining | en |
| dc.subject | Instruction Tuning | en |
| dc.subject | Processing Pipeline | en |
| dc.subject | Μεγάλα Γλωσσικά Μοντέλα | el |
| dc.subject | Γλώσσες Χαμηλών Πόρων | el |
| dc.subject | Ελληνικό Σύνολο Δεδομένων | el |
| dc.subject | Προεκπαίδευση | el |
| dc.subject | Εκπαίδευση Βάσει Οδηγιών | el |
| dc.subject | Αγωγός Επεξεργασίας Δεδομένων | el |
| dc.title | Data Acquisition, Exploration and Preparation for LLM Training - The Case of the Greek Language | en |
| dc.contributor.department | Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών - Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης | el |
| heal.type | bachelorThesis | |
| heal.classification | Συστήματα Τεχνητής Νοημοσύνης και Μηχανικής Μάθησης | el |
| heal.language | el | |
| heal.language | en | |
| heal.access | free | |
| heal.recordProvider | ntua | el |
| heal.publicationDate | 2025-07-02 | |
| heal.abstract | Large Language Models (LLMs) have emerged as powerful tools in Natural Language Processing, propelled by the ever-expanding scale of model sizes and training datasets. While such resources exist for high-resource languages, low-resource languages such as Greek remain significantly underrepresented in modern LLM research and development. In this thesis, we address this gap by constructing two foundational datasets for Greek LLM development: a pretraining dataset and an instruction tuning dataset. For pretraining, we collected and processed large volumes of conversational data from YouTube transcripts and formal, structured texts from publicly available PDF documents, mostly books and academic material. For instruction tuning, we translated existing high-quality instruction corpora using a custom translation pipeline, ensuring cultural relevance and context-aware conversation in Greek. Throughout the data creation process, we implemented a series of processing steps, including noise removal, formatting normalization, language filtering, and deduplication, leading to the development of a robust processing pipeline. The final datasets, comprising over 2.3 billion words and 6 billion tokens, mark a significant advancement toward training high-quality Greek LLMs. Our work contributes both reusable infrastructure and curated data to support future research and development in Greek NLP. | en |
| heal.abstract | Τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) έχουν αναδειχθεί ως ισχυρά εργαλεία για την Επεξεργασία Φυσικής Γλώσσας, καθοδηγούμενα από τη διαρκώς αυξανόμενη κλίμακα των μοντέλων και των συνόλων δεδομένων εκπαίδευσης. Αν και τέτοιοι πόροι είναι διαθέσιμοι για γλώσσες υψηλών πόρων, οι γλώσσες χαμηλών πόρων όπως η Ελληνική παραμένουν σημαντικά υποεκπροσωπούμενες στη σύγχρονη έρευνα και ανάπτυξη LLMs. Στην παρούσα εργασία, επιδιώκουμε να καλύψουμε αυτό το κενό κατασκευάζοντας δύο θεμελιώδη σύνολα δεδομένων για την ανάπτυξη Ελληνικών LLMs: ένα σύνολο δεδομένων προεκπαίδευσης και ένα σύνολο για εκπαίδευση βάσει οδηγιών (instruction tuning). Για την προεκπαίδευση, συλλέξαμε και επεξεργαστήκαμε μεγάλους όγκους συνομιλιακών δεδομένων από απομαγνητοφωνήσεις βίντεο του YouTube και επίσημων, δομημένων κειμένων από δημοσίως διαθέσιμα έγγραφα PDF, κυρίως βιβλία και ακαδημαϊκό υλικό. Για το instruction tuning, με\-τα\-φρά\-σα\-με υπάρχοντα ξενόγλωσσα σύνολα υψηλής ποιότητας με μία προσαρμοσμένη διαδικασία με\-τά\-φρα\-σης, διασφαλίζοντας πολιτισμική συνάφεια και συζητήσεις με διατήρηση του πλαισίου (context) στα Ελληνικά. Κατά τη δημιουργία των δεδομένων, εφαρμόσαμε μια σειρά βημάτων επεξεργασίας, όπως αφαίρεση θορύβου, κανονικοποίηση, φιλτράρισμα με βάση τη γλώσσα και αφαίρεση διπλότυπων, οδηγώντας στην ανάπτυξη ενός αξιόπιστου αγωγού επεξεργασίας. Τα τελικά σύνολα δεδομένων περιλαμβάνουν πάνω από 2.3 δισεκατομμύρια λέξεις και 6 δισεκατομμύρια tokens, αποτελώντας ένα σημαντικό βήμα προς την εκπαίδευση Ελληνικών LLMs υψηλής ποιότητας. Η εργασία αυτή προσφέρει τόσο επαναχρησιμοποιήσιμη τεχνική υποδομή όσο και επιμελημένα δεδομένα που υποστηρίζουν τη μελλοντική έρευνα και ανάπτυξη στον τομέα του Ελληνικού NLP. | el |
| heal.advisorName | Στάμου, Γεώργιος | |
| heal.committeeMemberName | Στάμου, Γεώργιος | |
| heal.committeeMemberName | Βαζιργιάννης, Μιχάλης | |
| heal.committeeMemberName | Βουλόδημος, Αθανάσιος | |
| heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης | el |
| heal.academicPublisherID | ntua | |
| heal.numberOfPages | 86 | |
| heal.fullTextAvailability | false |
The following license files are associated with this item: