Data Acquisition, Exploration and Preparation for LLM Training - The Case of the Greek Language

Διβριώτης, Κωνσταντίνος; Divriotis, Konstantinos

dc.contributor.author	Διβριώτης, Κωνσταντίνος	el
dc.contributor.author	Divriotis, Konstantinos	en
dc.date.accessioned	2025-12-04T09:56:44Z
dc.date.available	2025-12-04T09:56:44Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/62991
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.30687
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Large Language Models	en
dc.subject	Low-Resource Languages	en
dc.subject	Greek Dataset	en
dc.subject	Pretraining	en
dc.subject	Instruction Tuning	en
dc.subject	Processing Pipeline	en
dc.subject	Μεγάλα Γλωσσικά Μοντέλα	el
dc.subject	Γλώσσες Χαμηλών Πόρων	el
dc.subject	Ελληνικό Σύνολο Δεδομένων	el
dc.subject	Προεκπαίδευση	el
dc.subject	Εκπαίδευση Βάσει Οδηγιών	el
dc.subject	Αγωγός Επεξεργασίας Δεδομένων	el
dc.title	Data Acquisition, Exploration and Preparation for LLM Training - The Case of the Greek Language	en
dc.contributor.department	Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών - Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης	el
heal.type	bachelorThesis
heal.classification	Συστήματα Τεχνητής Νοημοσύνης και Μηχανικής Μάθησης	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2025-07-02
heal.abstract	Large Language Models (LLMs) have emerged as powerful tools in Natural Language Processing, propelled by the ever-expanding scale of model sizes and training datasets. While such resources exist for high-resource languages, low-resource languages such as Greek remain significantly underrepresented in modern LLM research and development. In this thesis, we address this gap by constructing two foundational datasets for Greek LLM development: a pretraining dataset and an instruction tuning dataset. For pretraining, we collected and processed large volumes of conversational data from YouTube transcripts and formal, structured texts from publicly available PDF documents, mostly books and academic material. For instruction tuning, we translated existing high-quality instruction corpora using a custom translation pipeline, ensuring cultural relevance and context-aware conversation in Greek. Throughout the data creation process, we implemented a series of processing steps, including noise removal, formatting normalization, language filtering, and deduplication, leading to the development of a robust processing pipeline. The final datasets, comprising over 2.3 billion words and 6 billion tokens, mark a significant advancement toward training high-quality Greek LLMs. Our work contributes both reusable infrastructure and curated data to support future research and development in Greek NLP.	en
heal.abstract	Τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) έχουν αναδειχθεί ως ισχυρά εργαλεία για την Επεξεργασία Φυσικής Γλώσσας, καθοδηγούμενα από τη διαρκώς αυξανόμενη κλίμακα των μοντέλων και των συνόλων δεδομένων εκπαίδευσης. Αν και τέτοιοι πόροι είναι διαθέσιμοι για γλώσσες υψηλών πόρων, οι γλώσσες χαμηλών πόρων όπως η Ελληνική παραμένουν σημαντικά υποεκπροσωπούμενες στη σύγχρονη έρευνα και ανάπτυξη LLMs. Στην παρούσα εργασία, επιδιώκουμε να καλύψουμε αυτό το κενό κατασκευάζοντας δύο θεμελιώδη σύνολα δεδομένων για την ανάπτυξη Ελληνικών LLMs: ένα σύνολο δεδομένων προεκπαίδευσης και ένα σύνολο για εκπαίδευση βάσει οδηγιών (instruction tuning). Για την προεκπαίδευση, συλλέξαμε και επεξεργαστήκαμε μεγάλους όγκους συνομιλιακών δεδομένων από απομαγνητοφωνήσεις βίντεο του YouTube και επίσημων, δομημένων κειμένων από δημοσίως διαθέσιμα έγγραφα PDF, κυρίως βιβλία και ακαδημαϊκό υλικό. Για το instruction tuning, με\-τα\-φρά\-σα\-με υπάρχοντα ξενόγλωσσα σύνολα υψηλής ποιότητας με μία προσαρμοσμένη διαδικασία με\-τά\-φρα\-σης, διασφαλίζοντας πολιτισμική συνάφεια και συζητήσεις με διατήρηση του πλαισίου (context) στα Ελληνικά. Κατά τη δημιουργία των δεδομένων, εφαρμόσαμε μια σειρά βημάτων επεξεργασίας, όπως αφαίρεση θορύβου, κανονικοποίηση, φιλτράρισμα με βάση τη γλώσσα και αφαίρεση διπλότυπων, οδηγώντας στην ανάπτυξη ενός αξιόπιστου αγωγού επεξεργασίας. Τα τελικά σύνολα δεδομένων περιλαμβάνουν πάνω από 2.3 δισεκατομμύρια λέξεις και 6 δισεκατομμύρια tokens, αποτελώντας ένα σημαντικό βήμα προς την εκπαίδευση Ελληνικών LLMs υψηλής ποιότητας. Η εργασία αυτή προσφέρει τόσο επαναχρησιμοποιήσιμη τεχνική υποδομή όσο και επιμελημένα δεδομένα που υποστηρίζουν τη μελλοντική έρευνα και ανάπτυξη στον τομέα του Ελληνικού NLP.	el
heal.advisorName	Στάμου, Γεώργιος
heal.committeeMemberName	Στάμου, Γεώργιος
heal.committeeMemberName	Βαζιργιάννης, Μιχάλης
heal.committeeMemberName	Βουλόδημος, Αθανάσιος
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης	el
heal.academicPublisherID	ntua
heal.numberOfPages	86
heal.fullTextAvailability	false