Η Εξαγωγή Πληροφορίας είναι η διαδικασία αυτόματης εξαγωγής δομημένης πληροφορίας από μη-δομημένα δεδομένα που είναι διαθέσιμα σε μορφή κατάλληλη για μηχανιστική επεξεργασία. Μία εφαρμογή της είναι η Εξαγωγή Συσχετίσεων μεταξύ διαφορετικών οντοτήτων από κείμενο φυσικής γλώσσας.
Στόχος της παρούσας εργασίας ήταν η κατασκευή ενός στατιστικού μοντέλου για την Εξαγωγή των Αλληλεπιδράσεων μεταξύ βιολογικών μορίων microRNA και γονιδίων, από επιστημονικές δημοσιεύσεις. Η μέθοδος περιλαμβάνει την αναγνώριση των Οντοτήτων που αναφέρονται σε microRNA και Γονίδια στο κείμενο, την εξαγωγή γλωσσικής πληροφορίας σχετικά με τους δύο όρους και την εκπαίδευση ενός στατιστικού μοντέλου χρησιμοποιώντας δεδομένα από επικυρωμένες αλληλεπιδράσεις microRNA-Γονιδίων. Το μοντέλο αυτό μπορεί στη συνέχεια να εφαρμοστεί σε νέα κείμενα δημοσιεύσεων και να εντοπίσει τις αλληλεπιδράσεις που αναφέρονται. Τα δεδομένα εκπαίδευσης προέρχονται από ειδικές βάσεις δεδομένων που περιλαμβάνουν αλληλεπιδράσεις microRNA και Γονιδίων, οι οποίες έχουν επιβεβαιωθεί πειραματικά. Τέτοιες βάσεις δεδομένων είναι το TarBase, το miRTarBase και το miRecords και τα δεδομένα που παρέχουν έχουν επιμεληθεί από ανθρώπους. Παράλληλα, στα πλαίσια της διπλωματικής αυτής υλοποιήθηκαν εργαλεία για την επίλυση υποπροβλημάτων της Επεξεργασίας Φυσικής Γλώσσας, τα οποία είναι απαραίτητα στην κατασκευή του μοντέλου.
Information Extraction is the task of automatically extracting structured information from unstructured machine-readable data. The idea can be applied to multiple tasks including Relation Extraction between Named Entities from Natural Language texts.
The aim of this thesis was the construction of a model for automatic extraction of microRNA-Gene interactions from biomedical publications. The methodology used includes identifying the Named Entities of microRNA and Gene, extracting important natural language information about the terms and training a statistical Binary Maximum Entropy Model on human curated microRNA-Gene interactions. The model can then be applied to new publications, identify undocumented interactions, and evaluate based on the training data. The curated data was provided by databases such as TarBase, miRTarBase and miRecords, which include miRNA-Gene interactions that were experimentally validated. Two models were trained, one for the identification of interactions described in full-text publications and the second for the identification of the interactions mentioned in the publication abstract and title. Additionally, software and tools associated with Natural Language Processing Subtasks were developed to aid the main classification task.