HEAL DSpace

Μεταγραφή και ευθυγράμμιση στίχων με σύγχρονες τεχνικές βαθιάς μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κυπραίου, Χριστίνα el
dc.contributor.author Kypraiou, Christina en
dc.date.accessioned 2023-11-27T10:20:25Z
dc.date.available 2023-11-27T10:20:25Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58333
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26029
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Αυτόματη αναγνώριση ομιλίας el
dc.subject Μηχανική μάθηση el
dc.subject Βαθιά νευρωνικά δίκτυα el
dc.subject Ευθυγράμμιση ήχου με κείμενο el
dc.title Μεταγραφή και ευθυγράμμιση στίχων με σύγχρονες τεχνικές βαθιάς μάθησης el
heal.type bachelorThesis
heal.classification Τεχνητή Νοημοσύνη el
heal.classification Νευρωνικά Δίκτυα el
heal.classification Μηχανική Μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-07-06
heal.abstract Η παρούσα διπλωματική εργασία αποσκοπεί στην επίλυση του προβλήματος της μεταγραφής και ευθυγράμμισης στίχων με χρήση σύγχρονων μεθόδων βαθιάς μάθησης και στην σύγκριση των μοντέλων αυτών με κλασικά στατιστικά μοντέλα. Όσον αφορά τον τομέα Ανάκτησης Μουσικής Πληροφορίας (Music Information Retrieval) οι περισσότερες υπάρχουσες εφαρμογές επικεντρώνονται στη μεταγραφή του τόνου της φωνής του τραγουδιού, ελάχιστη έρευνα έχει γίνει για τη μεταγραφή των στίχων και την χρονική ευθυγράμμισή τους με το ηχητικό σήμα. Η αυτόματη ανάκτηση των στίχων τραγουδιών μπορεί να έχει σημαντικό αντίκτυπο στα εργαλεία σύνθεσης τραγουδιών, στις λεζάντες ήχου/βίντεο, στις εφαρμογές καραόκε, στη δημιουργία μουσικών καταλόγων, στη σύνθεση μουσικής, στη δημιουργία λιστών αναπαραγωγής και στην εκτίμηση πνευματικών δικαιωμάτων. Το πρόβλημα της αυτόματης μεταγραφής στίχων είναι αντίστοιχο με το πρόβλημα της αυτόματης αναγνώρισης ομιλίας (ASR). Οι είσοδοι και των δύο συστημάτων είναι η ανθρώπινη φωνή και η αναμενόμενη έξοδος είναι οι μεταγραφές τους, ωστόσο το τραγούδι έχει συγκεκριμένα χαρακτηριστικά σε σύγκριση με τη φυσική ομιλία, τα οποία εισάγουν διάφορες προκλήσεις. Σε σύγκριση με την ευθυγράμμιση από κείμενο σε ομιλία, η ευθυγράμμιση στίχων παραμένει εξαιρετικά δύσκολη, παρά τις πολλές προσπάθειες να συνδυαστούν πλήθος επιμέρους μοντέλων, συμπεριλαμβανομένου του διαχωρισμού και της ανίχνευσης φωνής. Επιπλέον, η εκπαίδευση απαιτεί τη διαθεσιμότητα λεπτομερών επισημάνσεων σε συγκεκριμένη μορφή. Η αυτόματη αναγνώριση ομιλίας έχει σημειώσει σημαντική πρόοδο τα τελευταία χρόνια, ωστόσο το αντίστοιχο πρόβλημα στον τομέα του τραγουδιού πάσχει από περιορισμένα δεδομένα και υποβαθμισμένη κατανοησιμότητα των τραγουδισμένων στίχων. Στην παρούσα διπλωματική εργασία επιχειρούμε να εκμεταλλευτούμε τις ομοιότητες μεταξύ ομιλίας και τραγουδιού. Πειραματιζόμαστε αρχικά με στατιστικά μοντέλα όπως τα Κρυφά Μοντέλα Markov (HMM). Στην συνέχεια δοκιμάζονται αρχιτεκτονικές νευρωνικών δικτύων όπως το Transformer που συνδυάζουν τον μηχανισμό προσοχής και την μοντελοποίηση από άκρο σε άκρο και αποτελούν τεχνικές της σύγχρονης ερευνητικής στάθμης (SOTA) στην Αυτόματη Αναγνώριση Ομιλίας. Επίσης εξετάζεται η επιρροή που ασκεί το πλήθος και η προέλευση των δεδομένων εκπαίδευσης. el
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 93 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα