Υβριδικά δίκτυα μηχανικής μάθησης μπορούν να σχηματιστούν από τη συνένωση τεχνικών μη επιβλεπόμενης μάθησης και πιθανοτικών προσεγγίσεων, σε μία προσπάθεια να συνδυαστούν τα πλεονεκτήματα τους και να ξεπεραστούν ορισμένοι από τους περιορισμούς τους. Η παρούσα διδακτορική διατριβή εισαγάγει μία τέτοια υβριδική προσέγγιση η οποία συνδυάζει τους αυτο-οργανούμενους χάρτες - Self-Organizing Maps (SOMs) με τα κρυφά μοντέλα Markov - Hidden Markov Models (HMMs). O αυτο-οργανούμενος χάρτης κρυφών μοντέλων Markov - Self-Organizing Hidden Markov Model Map (SOHMMM) είναι μία τομή ανάμεσα στις θεωρητικές βάσεις και στις αλγοριθμικές πραγματώσεις των δύο συστατικών στοιχείων του. Αμφότερες οι αρχιτεκτονικές των δύο συνιστωσών του συγχωνεύονται. Ο λειτουργικός πυρήνας του SOHMMM αποτελείται από ένα νέο ενοποιημένο SOM-HMM αλγόριθμο. Η ένωση και η συνέργια των μεθοδολογιών της μη επιβλεπόμενης εκπαίδευσης του SOM και του δυναμικού προγραμματισμού του HMM παράγουν μία κλάση στοχαστικών αλγορίθμων μη επιβλεπόμενης μάθησης, οι οποίοι ενσωματώνονται πλήρως με το SOHMMM. Τα κύρια πλεονεκτήματα του προτεινόμενου συστήματος είναι η ικανότητα του να εκμεταλλεύεται την ενυπάρχουσα αλλά αφανή πληροφορία που κρύβεται στις χωροχρονικές συσχετίσεις των στοιχείων των δεδομένων, καθώς και το γεγονός ότι απαιτεί ελάχιστη, ή ακόμη και καθόλου, εκ των προτέρων γνώση που να σχετίζεται με το εκάστοτε υπό εξέταση πρόβλημα μοντελοποίησης.
Σε μία πιο πραγματιστική βάση, μπορεί να υποστηριχθεί ότι οι αντίστοιχες αρχιτεκτονικές και οι επιμέρους μεθοδολογίες μάθησης συνενώνονται σε μία προσπάθεια να ικανοποιηθούν οι αυξανόμενες απαιτήσεις που πηγάζουν από τα DNA, RNA και πρωτεϊνικά μόρια. Η αντιμετώπιση πολλών προβλημάτων ανάλυσης βιολογικών αλληλουχιών επιτυγχάνεται μέσω του προκύπτοντος αυτόματου μηχανισμού μάθησης από ανεπεξέργαστα δεδομένα. Εξαιτίας του γεγονότος ότι το SOHMMM μπορεί να φέρει εις πέρας αναλύσεις ακολουθιών και αλληλουχιών, απαιτώντας ελάχιστη ή μηδενική εκ των προτέρων γνώση, μπορεί να έχει μία σειρά εφαρμογών στην ομαδοποίηση, στην μείωση διαστατικότητας και στην οπτικοποίηση συστάδων ακολουθιών μεγάλης κλίμακας, και επιπλέον, υπό συγκεκριμένες προϋποθέσεις, στην αναζήτηση και στην κατηγοριοποίηση τους. Τρεις εκτενείς σειρές πειραμάτων, βασιζόμενες σε τεχνητά σύνολα ακολουθιών, στην πρωτεϊνική οικογένεια των σφαιρινών και στα splice junctions αλληλουχιών γονιδίων, επιδεικνύουν τα χαρακτηριστικά και τις δυνατότητες του SOHMMM.
Hybrid machine learning networks can be formed by merging unsupervised learning/self-organizing techniques and probabilistic approaches, in an effort to combine their advantages and overcome certain of their limitations. The present PhD thesis introduces such a hybrid approach that combines the Self-Organizing Map (SOM) and the Hidden Markov Model (HMM). The Self-Organizing Hidden Markov Model Map (SOHMMM) establishes a cross-section between the theoretic foundations and algorithmic realizations of its two constituents. Both components’ corresponding architectures are fused. The SOHMMM’s functional core consists of a novel unified SOM-HMM algorithm. The fusion and synergy of the SOM unsupervised training and the HMM dynamic programming methodologies bring forth a class of stochastic unsupervised learning algorithms, which are fully integrated into the SOHMMM. The principal advantages of the proposed system are its capability to exploit latent information hidden in the spatiotemporal correlations of data elements, and the fact that it necessitates little, or even no, additional prior information and domain knowledge on the modeling problem at hand.
On a more pragmatic basis, the respective architectures and learning methodologies are merged in an attempt to meet the increasing requirements imposed by the properties of DeoxyriboNucleic Acid (DNA), RiboNucleic Acid (RNA), and protein chain molecules. Addressing many biological sequence analysis problems is achieved through the resulting automatic raw sequence data learning mechanism. Since the SOHMMM carries out probabilistic sequence analysis with little or no prior knowledge, it can have a variety of applications in clustering, dimensionality reduction and visualization of large-scale sequence spaces, and also, in sequence discrimination, search and classification. Three series of experiments based on artificial sequence data, the globin protein family and splice junction gene sequences demonstrate the SOHMMM’s characteristics and capabilities.