HEAL DSpace

Ανάπτυξη μοντέλου αναγνώρισης φωνητικών εντολών με χρήση τεχνητών νευρωνικών δικτύων.

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ιατρίδη, Άννα Μαρία el
dc.contributor.author Iatridi, Anna Maria en
dc.date.accessioned 2025-01-16T12:47:30Z
dc.date.available 2025-01-16T12:47:30Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60780
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28476
dc.rights Default License
dc.subject Τεχνητή νοημοσύνη el
dc.subject Φωνητικές εντολές el
dc.subject Νευρωνικά δίκτυα el
dc.subject Κατηγοριοποίηση el
dc.subject Επεξεργασία σήματος el
dc.subject AI en
dc.subject MFCCs en
dc.subject Speech recognition en
dc.subject ANN en
dc.subject Signal processing en
dc.title Ανάπτυξη μοντέλου αναγνώρισης φωνητικών εντολών με χρήση τεχνητών νευρωνικών δικτύων. el
heal.type bachelorThesis
heal.secondaryTitle Development of a voice command recognition model based on artificial neural networks. en
heal.classification Αναγνώριση ομιλίας el
heal.classification Speech recognition en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-18
heal.abstract Στην παρούσα εργασία μελετάται η ανάπτυξη μοντέλου αναγνώρισης φωνητικών εντολών με χρήση τεχνητών νευρωνικών δικτύων, για βιομηχανικές εφαρμογές. Η βιομηχανική εφαρμογή είναι ο ρομποτικός βραχίονας Staubli RX 90L που βρίσκεται στο εργαστήριο του Τομέα Κατεργασιών στο Εθνικό Μετσόβιο Πολυτεχνείο. Το νευρωνικό δίκτυο σχεδιάστηκε για να αναγνωρίζει μονολεκτικές φωνητικές εντολές και να τις μετατρέπει σε γραπτό κείμενο, με σκοπό τον προγραμματισμό του ρομπότ. Η ανάπτυξη του μοντέλου διεπαφής υπολογιστή-ρομπότ είναι εκτός του φάσματος της εργασίας, όμως η προοπτική συνεργασίας του μοντέλου με το ρομπότ καθορίζει σε μεγάλο βαθμό τις προδιαγραφές του ίδιου του μοντέλου. Το πρώτο στάδιο της εργασίας είναι ο καθορισμός του λεξιλογίου προς αναγνώριση. Αυτό καθορίζεται από τις εντολές της V+ και από την διαθεσιμότητα εντολών από το Google’s Speech Commands Dataset. Η βιβλιοθήκη εντολών, περιέχει εντολές στην αγγλική γλώσσα, όπως τα αριθμητικά ψηφία από το μηδέν μέχρι το εννιά και άλλες μικρές και απλές λέξεις, όπως “on”, “off”, “stop” κ.α. Για να γίνει η αναγνώριση των εντολών είναι απαραίτητη η σωστή προεπεξεργασία των ηχητικών σημάτων και η εξαγωγή των χαρακτηριστικών μαθηματικών παραμέτρων, των οποίων ο συνδυασμός οδηγεί στην αναγνώριση της εντολής. Η προετοιμασία του σήματος, πριν την αναγνώριση, προσομοιώνει το τρόπο πρόσληψης και ανάλυσης των ηχητικών σημάτων του ανθρώπινου αυτιού και εγκεφάλου. Η προεπεξεργασία περιέχει πρώτον και κύριον το στάδιο της αποθορυβοποίησης, όπου χρησιμοποιούνται φίλτρα pre-emphasis για να καθαρίσουν το σήματα από περιττή και άχρηστη πληροφορία. Το φίλτρο αυτό αποτελεί μία μαθηματική συνάρτηση υπολογισμού της διαφοράς διαδοχικών σημείων του σήματος με έναν συντελεστή. Η συνάρτηση αυτή μειώνει την συνολική ένταση των σημάτων, λειτουργώντας σαν ένα είδος κανονικοποίησης. Με αυτόν τον τρόπο τα σήματα έχουν περισσότερη ομοιογένεια. Την αποθορυβοποίηση διαδέχεται ο διαχωρισμός του σήματος σε επιμέρους τμήματα, πριν το στάδιο υπολογισμού του φάσματος. Ο λόγος για τον κατακερματισμό του σήματος είναι ότι ο υπολογισμός του φάσματος συχνοτήτων στο σύνολο του σήματος χάνει πληροφορία για την χρονική εξάρτηση της συχνότητας. Αντίθετα ο υπολογισμός του φάσματος σε μικρότερα τμήματα του σήματος, διασφαλίζει την χρονική εξάρτηση της συχνότητας, ως πληροφορία που θα συμβάλλει στην αναγνώριση των εντολών. Η διάσπαση του σήματος σε μικρότερα δημιουργεί ασυνέχειες, οι οποίες οδηγούν σε διαρροές φάσματος. Η διαρροή φάσματος είναι όταν εμφανίζονται συχνότητες, καθ όλο το εύρος, οι οποίες δεν αντιστοιχούν σε πραγματική πληροφορία, αλλά σε ασυνέχειες. Η απαλοιφή των ασυνεχειών έρχεται σε σύγκρουση με την διακριτότητα του σήματος. Η συνάρτηση Hamming window, εξασφαλίζει απουσία διαρροών και ταυτόχρονα καλή διακριτότητα. Τώρα το σήμα είναι έτοιμο για την εφαρμογή του διακριτού μετασχηματισμού Fourier (DFT). Η εξαγωγή των φασματικών συντελεστών της κλίματας Mel (MFCCs), αποτελεί το πιο καίριο βήμα για την αναγνώριση εντολών. Αρχικά, το σήμα μετασχηματίζεται από την κλίμακα συχνοτήτων στην κλίμακα των Mel. Η κλίμακα Mel είναι μια αντιληπτική κλίμακα συχνοτήτων με ισαπέχοντα διαστήματα συχνοτήτων που αντιλαμβάνονται ως ισαπέχουσες απ’ το ανθρώπινο αυτί. Ο άνθρωπος δεν έχει την ίδια ευαισθησία σε όλες τις συχνότητες¨στις χαμηλές μπορεί και αναγνωρίζει πολύ εύκολα ακόμα και πολύ μικρές μεταβολές, ενώ στις υψηλότερες η αντιληπτικοτητα του μειώνεται και διαφορετικές συχνότητες τις αντιλαμβάνεται ως ίδιες ή παρεμφερείς. Για κάθε ένα από τα τμήματα, υπολογίζονται οι 12 φασματικοί συντελεστές. Οι φασματικοί συντελεστές λειτουργούν ως ταυτότητα των διαφορετικών φωνημάτων και καθιστούν δυνατή την διαφοροποίηση των ηχητικών λέξεων. Αυτοί αποτελούν την είσοδο του νευρωνικού δικτύου, για την κατηγοριοποίηση άγνωστων εντολές, σε γνωστές κλάσεις. Για την αναγνώριση των φωνητικών εντολών, γίνεται χρήση τεχνητών νευρωνικών δικτύων αναγνώρισης μοτίβων. Η επιλογή κατάλληλου μοντέλου μηχανικής μάθησης είναι καίρια για την επιτυχημένη αναγνώριση των εντολών. Κατά την εκπόνηση της διπλωματικής δόθηκε μεγάλη έμφαση στην εύρεσης της βέλτιστης αρχιτεκτονικής νευρωνικού δικτύου, προς την επίτευξη της μέγιστης απόδοσης. Το τελικό νευρωνικό δίκτυο επιλέχθηκε με 600 κρυμμένους νευρώνες στο πρώτο επίπεδο και 450 στο δεύτερο. Η σύγκριση πολυπλοκοτερο αρχιτεκτονικών δεν κρίθηκε απαραίτητη, αλλά θα αποτελούσε ενδιαφέρουσα διερεύνηση. Το τελικό μοντέλο αναγνωρίζει 18 φωνητικές εντολές με ακρίβεια 80%, υπό προϋποθέσεις. Η μέγιστη ακρίβεια εμφανίζεται όταν οι άγνωστες, προ αναγνώριση, λέξεις ανήκουν στο σύνολο Google’s Speech Commands Dataset. Οι εντολές που δίνονται από ανεξάρτητους ομιλητές αναγνωρίζεται με ακρίβεια κοντα στο 60%. Αυτό δείχνει σημάδια υπερ+εκπαίδευσης και αδυναμία γενίκευσης προβλέψεων. Σε κάθε περίπτωση, η χρήση τεχνητών νευρωνικών δικτύων θεωρείται ανταγωνιστική μέθοδος στο κομμάτι της αναγνώρισης εντολών και με μικρές διορθώσεις μπορεί να φτάσει καλύτερες επιδόσεις. el
heal.abstract In this thesis was studied the development of a voice recognition model based on artificial neural networks for industrial applications. More specifically, the case study is the robotic arm Staubli RX 90L located at the Manufacturing Technology laboratory, in National Technical University of Athens. The neural network is designed to recognize single-word commands and translate them into written text, for manipulation of the robotic arm. The development of the robot interface is outside of the thesis-scope, but the aim is the model to be able to collaborate with Staubli RX 90L in the future and therefore the commands used are relevant to the robot’s action. In the first step of the process, the vocabulary for recognition is decided based on the V+ language commands the robot understands. To achieve that, the foundation was to study V+ language and its most important and basic keywords and commands. For the audio dataset, a part of Google’s Speech Commands Dataset was used. This dataset contains single-word commands from a representative sample of human. The relevant commands are the digits from 0 to 9 and short words, like “on”, “off”, “stop” among others. The pre-processing of the signals is done to be able to extract the characteristic features to identify the spoken word. The pre-processing, is used to remove background noise form the data and balance the frequency spectrum. The correct pre-processing is the one resembling human’s hearing ability. Pre-emphasis, windowing and Fast Fourier transform, are few of the key parameters for speech recognition. The feature extraction phase is the most vital for successful recognition. The Mel-Frequency Cepstral Coefficients (MFCCs) method is used to “normalize” the frequencies to the scale that the human ear perceives them. The 12 MFCCs are characteristic of the input signal and include the most important information. The coefficients are used to classify the unknown recording to one of the known classes. For the classification, a pattern recognition, artificial neural network (ANN) is used. To select the most suitable model, the ANN parameters have been investigated, architecture, training function etc. The final network structure is 600x450 neurons in hidden layer one and two respectively. The final model recognizes in total 18 spoken commands with accuracy 82%. There are still improvements to be done, but the main goals of the thesis have been achieved and the results show that with the proper optimization ANNs are a competitive and relatively simple method for voice commands recognition. en
heal.advisorName Μπενάρδος, Πανώριος el
heal.committeeMemberName Βοσνιάκος, Γεώργιος Χριστόφορος el
heal.committeeMemberName Κουλουριώτης, Δημήτριος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Μηχανολόγων Μηχανικών. Τομέας Τεχνολογίας των Κατεργασιών. Εργαστήριο Κατεργασιών των Υλικών (Μηχανουργικό και Μηχανολογικό Εργοστάσιο) el
heal.academicPublisherID ntua
heal.numberOfPages 76 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής