HEAL DSpace

Data Acquisition, Exploration and Preparation for LLM Training - The Case of the Greek Language

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Διβριώτης, Κωνσταντίνος el
dc.contributor.author Divriotis, Konstantinos en
dc.date.accessioned 2025-12-04T09:56:44Z
dc.date.available 2025-12-04T09:56:44Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62991
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30687
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Large Language Models en
dc.subject Low-Resource Languages en
dc.subject Greek Dataset en
dc.subject Pretraining en
dc.subject Instruction Tuning en
dc.subject Processing Pipeline en
dc.subject Μεγάλα Γλωσσικά Μοντέλα el
dc.subject Γλώσσες Χαμηλών Πόρων el
dc.subject Ελληνικό Σύνολο Δεδομένων el
dc.subject Προεκπαίδευση el
dc.subject Εκπαίδευση Βάσει Οδηγιών el
dc.subject Αγωγός Επεξεργασίας Δεδομένων el
dc.title Data Acquisition, Exploration and Preparation for LLM Training - The Case of the Greek Language en
dc.contributor.department Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών - Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης el
heal.type bachelorThesis
heal.classification Συστήματα Τεχνητής Νοημοσύνης και Μηχανικής Μάθησης el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-07-02
heal.abstract Large Language Models (LLMs) have emerged as powerful tools in Natural Language Processing, propelled by the ever-expanding scale of model sizes and training datasets. While such resources exist for high-resource languages, low-resource languages such as Greek remain significantly underrepresented in modern LLM research and development. In this thesis, we address this gap by constructing two foundational datasets for Greek LLM development: a pretraining dataset and an instruction tuning dataset. For pretraining, we collected and processed large volumes of conversational data from YouTube transcripts and formal, structured texts from publicly available PDF documents, mostly books and academic material. For instruction tuning, we translated existing high-quality instruction corpora using a custom translation pipeline, ensuring cultural relevance and context-aware conversation in Greek. Throughout the data creation process, we implemented a series of processing steps, including noise removal, formatting normalization, language filtering, and deduplication, leading to the development of a robust processing pipeline. The final datasets, comprising over 2.3 billion words and 6 billion tokens, mark a significant advancement toward training high-quality Greek LLMs. Our work contributes both reusable infrastructure and curated data to support future research and development in Greek NLP. en
heal.abstract Τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) έχουν αναδειχθεί ως ισχυρά εργαλεία για την Επεξεργασία Φυσικής Γλώσσας, καθοδηγούμενα από τη διαρκώς αυξανόμενη κλίμακα των μοντέλων και των συνόλων δεδομένων εκπαίδευσης. Αν και τέτοιοι πόροι είναι διαθέσιμοι για γλώσσες υψηλών πόρων, οι γλώσσες χαμηλών πόρων όπως η Ελληνική παραμένουν σημαντικά υποεκπροσωπούμενες στη σύγχρονη έρευνα και ανάπτυξη LLMs. Στην παρούσα εργασία, επιδιώκουμε να καλύψουμε αυτό το κενό κατασκευάζοντας δύο θεμελιώδη σύνολα δεδομένων για την ανάπτυξη Ελληνικών LLMs: ένα σύνολο δεδομένων προεκπαίδευσης και ένα σύνολο για εκπαίδευση βάσει οδηγιών (instruction tuning). Για την προεκπαίδευση, συλλέξαμε και επεξεργαστήκαμε μεγάλους όγκους συνομιλιακών δεδομένων από απομαγνητοφωνήσεις βίντεο του YouTube και επίσημων, δομημένων κειμένων από δημοσίως διαθέσιμα έγγραφα PDF, κυρίως βιβλία και ακαδημαϊκό υλικό. Για το instruction tuning, με\-τα\-φρά\-σα\-με υπάρχοντα ξενόγλωσσα σύνολα υψηλής ποιότητας με μία προσαρμοσμένη διαδικασία με\-τά\-φρα\-σης, διασφαλίζοντας πολιτισμική συνάφεια και συζητήσεις με διατήρηση του πλαισίου (context) στα Ελληνικά. Κατά τη δημιουργία των δεδομένων, εφαρμόσαμε μια σειρά βημάτων επεξεργασίας, όπως αφαίρεση θορύβου, κανονικοποίηση, φιλτράρισμα με βάση τη γλώσσα και αφαίρεση διπλότυπων, οδηγώντας στην ανάπτυξη ενός αξιόπιστου αγωγού επεξεργασίας. Τα τελικά σύνολα δεδομένων περιλαμβάνουν πάνω από 2.3 δισεκατομμύρια λέξεις και 6 δισεκατομμύρια tokens, αποτελώντας ένα σημαντικό βήμα προς την εκπαίδευση Ελληνικών LLMs υψηλής ποιότητας. Η εργασία αυτή προσφέρει τόσο επαναχρησιμοποιήσιμη τεχνική υποδομή όσο και επιμελημένα δεδομένα που υποστηρίζουν τη μελλοντική έρευνα και ανάπτυξη στον τομέα του Ελληνικού NLP. el
heal.advisorName Στάμου, Γεώργιος
heal.committeeMemberName Στάμου, Γεώργιος
heal.committeeMemberName Βαζιργιάννης, Μιχάλης
heal.committeeMemberName Βουλόδημος, Αθανάσιος
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης el
heal.academicPublisherID ntua
heal.numberOfPages 86
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού 3.0 Ελλάδα