dc.contributor.author | Τζάνου, Ελένη | el |
dc.contributor.author | Tzanou, Eleni | en |
dc.date.accessioned | 2025-01-22T10:19:27Z | |
dc.date.available | 2025-01-22T10:19:27Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/60912 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.28608 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Βιοπληροφορική Ανάλυση | el |
dc.subject | Μικροβίωμα του Αίματος | el |
dc.subject | Μεθόδους Ομαδοποίησης | el |
dc.subject | Μεθόδους Αποθορυβοποίησης | el |
dc.subject | 16S rRNA Γονίδιο | el |
dc.subject | 16S rRNA Gene | en |
dc.subject | Blood Microbiome | en |
dc.subject | Clustering Methods | en |
dc.subject | Denoising Methods | en |
dc.subject | Bioinformatic Analysis | en |
dc.title | Ανάπτυξη βιοπληροφορικών εργαλείων για την ανάλυση μεταγονιδιωματικών δεδομένων | el |
dc.title | Development of bioinformatic tools for the analysis of metagenomic data | en |
heal.type | bachelorThesis | |
heal.classification | Βιοπληροφορική | el |
heal.classification | Bioinformatics | en |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-07-10 | |
heal.abstract | Η ραγδαία πρόοδος της τεχνολογίας αλληλούχισης νέας γενιάς έχει επιτρέψει την πραγματοποίηση πληθώρας ερευνών που σχετίζονται με την πιθανή συσχέτιση του ανθρώπινου μικροβιώματος με νευροψυχιατρικές διαταραχές, όπως αυτή της σχιζοφρένειας. Η μεταγονιδιωματική αλληλούχιση αμπλικονίων που προέρχονται από φυλογενετικούς δείκτες, ιδιαίτερα του 16S rRNA γονιδίου, επιτρέπει την ταξινομική ανάλυση και τον προσδιορισμό της βακτηριακής ποικιλομορφίας βιολογικών δειγμάτων χωρίς την ανάγκη μεθόδων καλλιέργειας. Η βιοπληροφορική επεξεργασία των δεδομένων αλληλούχισης αμπλικονίων, η οποία είναι απαραίτητη λόγω του όγκου, της πολυπλοκότητας και των σφαλμάτων που παρέχουν, περιλαμβάνει κυρίως μεθόδους ομαδοποίησης (OTUs) ή αποθορυβοποίησης (ASVs). Παρά τον κοινό τους στόχο, οι συγκεκριμένες μέθοδοι διαφέρουν ως προς τη λογική και την εφαρμογή τους, απαιτώντας την επικύρωση της συμβατότητας της βιολογικής ερμηνείας των αποτελεσμάτων τους για την έγκυρη και αξιόπιστη διερεύνηση βακτηριακής σύνθεσης βιολογικών δειγμάτων. Η παρούσα Διπλωματική Εργασία αποσκοπεί στη βιοπληροφορική ανάλυση δεδομένων αλληλούχισης του 16S rRNA γονιδίου που προέρχονται από δείγματα αίματος ατόμων με σχιζοφρένεια εφαρμόζοντας μεθόδους βασισμένες σε ASVs και OTUs προκειμένου να ερευνηθούν τυχόν διαφορές στην βιολογική ερμηνεία των αποτελεσμάτων τους. Τα διαθέσιμα δεδομένα έχουν προκύψει από την δειγματοληψία αίματος είκοσι ασθενών με σχιζοφρένεια σε δύο χρονικές στιγμές: i) κατά την εφμάνιση του πρώτου ψυχωσικού επεισοδίου και ii) μετά από ένα μήνα αντιψυχωσικής φαρμακευτικής χορήγησης. Επιπλέον, στην ανάλυση συμπεριλήφθηκαν και τρία δείγματα αρνητικού ελέγχου. Τα δείγματα επεξεργαστήκαν για την αλληλούχιση της περιοχής V3-V4 του 16S rRNA γονιδίου και την εισαγωγή τους στην πλατφόρμα Illumina, από την οποία παράχθηκαν fastq αρχεία με paired-end 2 x 250 bp αναγνώσματα. Η βιοπληροφορική επεξεργασία των δεδομένων πραγματοποιήθηκε στην πλατφόρμα QIIME2, από την οποία κατασκευάστηκαν δύο ροές επεξεργασίας βασιζόμενες σε ASV μεθόδους (DADA2 και Deblur) και μία αντίστοιχη σε OTU κλειστής αναφοράς (VSEARCH) με τουλάχιστον 97% ομοιότητα με τη βάση δεδομένων SILVA. Το στάδιο προεπεξεργασίας των επεξεργαστικών ροών περιλαμβάνει την αφαίρεση μη βιολογικών αλληλουχιών, την επιλογή αποκοπής των τελικών αλληλουχιών των paired-end αναγνωσμάτων (μόνο για DADA2), την συγχώνευση των paired-end αναγνωσμάτων, το φιλτράρισμα των paired-end (για DADA2) και συγχωνευμένων (για Deblur/VSEARCH) αναγνωσμάτων με βάση την ποιότητα, την περικοπή των συγχωνευμένων αναγνωσμάτων σε ίσο μήκος (μόνο για Deblur), την αφαίρεση χιμαιρικών αλληλουχιών καθώς και την παραγωγή ASVs/OTUs. Τα δεδομένα οδηγήθηκαν στην διαδικασία ταξινομικής ανάθεσης χρησιμοποιώντας τον προ-εκπαιδευμένο ταξινομητή Naïve Bayes με τη βάση δεδομένων SILVA. Στην συνέχεια, αφαιρέθηκαν οι επιμολύνσεις, συμπεριλαμβανομένου των μη-στοχευόμενων, των σημαντικά χαμηλής σχετικής αφθονίας (<0,002%) και των βιολογικά μη αναμενόμενων ταξινομικών κατηγοριών αντίστοιχα. Οι ροές επεξεργασίας ολοκληρώθηκαν με την ανάλυση ποικιλομορφίας, κατά την οποία κατασκευάστηκαν καμπύλες αραίωσης για τον προσδιορισμό βάθους αλληλούχισης και υπολογίστηκαν δείκτες εντροπίας Shannon για την εκτίμηση της α-ποικιλομορφίας των δειγμάτων. Επίσης, επιχειρήθηκε η βέλτιστη επιλογή τιμών βασικών παραμέτρων που σχετίζονται με την συγχώνευση, το φιλτράρισμα βάση ποιότητας και τα σημεία αποκοπής αναγνωσμάτων, εξετάζοντας τη συμπεριφορά των δεδομένων έως και την ταξινομική ανάθεση στα διάφορα παραμετρικά σενάρια. Τα αποτελέσματα φανέρωσαν ότι οι διάφορες τιμές ελάχιστου μήκους επικαλυπτόμενης περιοχής (Overlapmin=10, 20 και 30) κατά την συγχώνευση των paired-end αναγνωσμάτων επέφεραν παρόμοιο αντίκτυπο στα δεδομένα αλληλούχισης και στις ταξινομικές πληροφορίες τους. Η αφαίρεση των τελικών αλληλουχιών των paired-end αναγνωσμάτων στον DADA2 (trim@=f:220 r:225) έναντι της επιλογής μη-αποκοπής αυτών (no-trim) και η διατήρηση μεγαλύτερο μήκους αναγνωσμάτων στον Deblur (trim@=380 έναντι του trim@=250) βελτίωσαν την αποδοτικότητα των ASVs. Οι διαφορετικές προσεγγίσεις ποιοτικού φιλτραρίσματος, με τον DADA2 να αξιολογεί τα paired-end αναγνώσματα με βάση το μέγιστο ποσοστό αναμενόμενων σφαλμάτων (e.emax=0.5, 1.5 και 2.5) και ο Deblur/VSEARCH αντίστοιχα την ελάχιστη βαθμολογία ποιότητας PHRED ανά βάση των συγχωνευμένων αναγνωσμάτων (Qmin= 20, 22 και 26), οδήγισαν σε παρόμοια αποτελέσματα, με την αύξηση της αξιοπιστίας των τελικών αποτελεσμάτων να επιφέρει την απώλεια όγκου αναγνωσμάτων και ταξινομικών πληροφοριών. Η επιλογή των τελικών τιμών παραμέτρων (DADA2:[Overlapmin=10, e.emax=1.5, no-trim], Deblur:[Overlapmin=10, Qmin= 22, trim@=380] και VSEARCH:[Overlapmin=10, Qmin= 22]) βασίστηκε κυρίως στην βέλτιστη αποκόμιση αξιόπιστων διατηρητέων αναγνωσμάτων και ταξινομικών μονάδων όσο αφορά την ποιότητα και τον αριθμό τους. Επίσης, κατά την επιλογή αυτή, έγινε η προσπάθεια εφαρμογής παρόμοιων παραμετρικών σεναρίων μεταξύ των ροών επεξεργασίας για την αποτελεσματικότερη σύγκρισή τους. Κατά την σύγκριση των επεξεργαστικών ροών, αναδείχθηκε η σημαντική απώλεια πρωτογενών δεδομένων από την αποθορυβοποίηση Deblur, εντοπίστηκε ενός σημαντικός όγκος μη-ταξινομημένων ASVs από την αποθορυβοποίηση DADA2, και προσδιορίστηκε πολύ μεγάλος αριθμός OTUs από την ομαδοποίηση VSEARCH. Η συγκριτική ταξινομική ανάλυση των μεθόδων ASVs/OTUs φανέρωσε αυξημένη ταξινομική ομοιότητα μέχρι και σε επίπεδο γένους μεταξύ των συνόλων δεδομένων, με το φιλτράρισμα χαμηλής σχετικής αφθονίας ταξινομικών κατηγοριών να οδηγεί σε ακόμα πιο παρόμοια αποτελέσματα, και ανέδειξε την αδυναμία των ASVs/OTUs στην ταξινόμηση σε επίπεδο είδους. Η αφαίρεση των βακτηριακών ταξινομικών μονάδων γένους Lactobacillus, των οποίων η παρουσία τους στα βιολογικά δείγματα χαρακτηρίστηκε ως αποτέλεσμα επιμόλυνσης, είχε έντονο αντίκτυπο στον όγκο των διατηρητέων αναγνωσμάτων, το οποίο ήταν παρόμοιο μεταξύ των τριών διαφορετικών επεξεργαστικών ροών. Οι ταξινομικές σχετικές αφθονίες των δειγμάτων δεν έδειξαν διαφορές μεταξύ των μεθόδων. Επίσης, η βακτηριακή σύνθεση σε επίπεδο φυλής του αίματος σχιζοφρενών παρουσίασε αύξηση των Firmicutes σε σύγκριση με υγιή άτομα βάσει βιβλιογραφίας. Οι καμπύλες αραίωσης των τριών επεξεργαστικών ροών φανέρωσαν διαφορές, με τον VSEARCH να δείχνει συνεχή αύξηση των παρατηρούμενων OTUs συναρτήσει του βάθους αλληλούχισης. Όσο αναφορά στην α-ποικιλομορφίας, και στις τρεις επεξεργαστικές ροές δεν παρατηρήθηκαν στατιστικά σημαντικές διαφορές στα δείγματα αίματος και αρνητικού ελέγχου. Ο VSEARCH οδήγησε σε υψηλότερες τιμές δείκτη Shannon, υποδεικνύοντας μια πιθανή υπερεκτίμηση της βακτηριακής ποικιλομορφίας. Η παρούσα εργασία, σε συμφωνία με την υπάρχουσα σχετική βιβλιογραφία, υποστηρίζει την προτίμηση των μεθόδων αποθορυβοποίησης, και πιο συγκεκριμένα του DADA2, έναντι της ομαδοποίησης για την ανάλυση του 16S rRNA γονιδίου λόγω της υπολογιστικής αποδοτικότητας, της ανεξαρτησίας του από βάση δεδομένων και της ευελιξίας της επιλογής του μήκους των paired-end αναγνωσμάτων. | el |
heal.abstract | Τhe advances in next-generation sequencing technology have led to an great number of studies related to the investigation of the human microbiome and its potential association with neuropsychiatric disorders, such as schizophrenia. The amplicon metagenomic sequencing of phylogenetic markers, particularly the 16S rRNA gene, allows for the taxonomic analysis and identification of bacterial diversity of biological samples without the need for culture methods. The bioinformatic analysis of amplicon sequencing data that is required due to the volume, complexity and errors that they provide, mainly involves clustering (OTUs) or denoising (ASVs) methods. Despite their common goal, these methods differ in their logic and application, requiring validation of the compatibility in the biological interpretation of the results obtained by both methods for valid and reliable investigation of bacterial composition in biological samples. This Diploma Thesis aims in the bioinformatic analysis of 16S rRNA gene sequencing data from blood samples of individuals with schizophrenia using both ASV and OTU based methods, in order to investigate any differences in the biological interpretation of the results. The available data have been obtained from blood sampling of twenty patients with schizophrenia at two timepoints: i) at the presentation of the first episode psychosis and ii) after one month of antipsychotic medication. In addition, three negative control samples were included in the analysis. The samples were processed for the V3-V4 region sequencing of the 16S rRNA gene and were imported into an Illumina platform, from which fastq files with paired-end 2 x 250 bp reads were generated. The bioinformatic processing of these data was performed on the QIIME2 platform, from which three workflows were constructed: two workflows based on ASV methods (DADA2 and Deblur) and one workflow based on OTU closed reference method (VSEARCH) with at least 97% similarity threshold to the SILVA database. The preprocessing stage of the workflows includes removing non-biological sequences, trimming the final sequences of paired-end reads (for DADA2 only), merging paired-end reads, quality filtering of paired-end (for DADA2) and merged (for Deblur/VSEARCH) reads, truncation of merged reads to equal length (for Deblur only), removing chimeric sequences and generating ASVs/OTUs. The data were taken through the process of taxonomic assignment using the pre-trained Naïve Bayes classifier with the SILVA database. Then, contaminants were removed, including non-targeted, significantly low relative abundance (<0.002%) and biologically unexpected taxa. The workflows were completed with diversity analysis, during which rarefaction curves were constructed to determine sequencing depth and Shannon entropy indices were calculated to estimate the a-diversity of the samples. An attempt was also made to optimally select values of key parameters related to merging, quality filtering and read cut-off points, by examining the behaviour of the data up to the taxonomic assignment on the different parametric scenarios. The results revealed that different values of minimum overlap length (Overlapmin=10, 20 and 30) when merging paired-end reads had a similar impact on the sequencing data and their taxonomic information. Trimming the final sequences of paired-end reads in DADA2 (trim@=f:220 r:225) versus choosing not to trim them (no-trim) and retaining longer read lengths in Deblur (trim@=380 versus trim@=250) improved the efficiency of ASVs. The different quality filtering approaches, with DADA2 evaluating paired-end reads based on the maximum expected error rate (e.emax=0.5, 1.5 and 2.5) and Deblur/VSEARCH on the minimum quality PHRED score per base of merged reads (Qmin= 20, 22 and 26), led to similar results, with the increase in reliability of the final results led in a loss of read volume and taxonomic information. The choice of final parameter values (DADA2:[Overlapmin=10, e.emax=1.5, no-trim], Deblur:[Overlapmin=10, Qmin= 22, trim@=380] and VSEARCH:[Overlapmin=10, Qmin= 22]) was mainly based on the optimal obtaining of reliable retained reads and taxa, in terms of their quality and number. Also, during this choice, an attempt was made to apply similar parametric scenarios between the workflows, for their more effective comparison. When comparing the workflows, a significant loss of raw-data was highlighted by Deblur denoising, a significant volume of unclassified ASVs was identified by DADA2 denoising, and a very large number of OTUs was produced by VSEARCH clustering. Comparative taxonomic analysis of the ASVs/OTUs based methods revealed increased taxonomic similarity up to genus level between the compared datasets, with low relative abundance taxa filtering leading to even more similar results, and highlighted the weakness of ASVs/OTUs taxonomic classification at species-level. The removal of bacterial taxa of the genus Lactobacillus, whose presence in biological samples was characterized as a result of contamination, had a strong impact on the volume of retained reads, which was similar between the three different workflows. The relative taxonomic compositions of the samples showed no differences between methods. Also, in this study the blood bacterial composition at phylum level of schizophrenic patients showed an increase in Firmicutes compared to blood bacterial composition of healthy subjects reported in the literature. Rarefaction curves of the three workflows revealed differences, with VSEARCH showing a consistent increase in observed OTUs in correlation to the sequencing depth. Conserning a-diversity analysis, in all three workflows no statistically significant differences were observed in the blood and negative control samples. Additionally, VSEARCH resulted in higher Shannon index values, indicating a possible overestimation of bacterial diversity. This work, in agreement with the existing relevant literature, supports the preference of denoising methods, and more specifically of DADA2, over clustering methods for 16S rRNA gene analysis due to its computational efficiency, database independency and flexibility in choosing the length of paired-end reads. | en |
heal.advisorName | Μαμμά, Διομή | el |
heal.committeeMemberName | Λουτράρη, Ελένη | el |
heal.committeeMemberName | Τσιβιλής, Σωτήριος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Χημικών Μηχανικών. Τομέας Σύνθεσης και Ανάπτυξης Βιομηχανικών Διαδικασιών (IV) | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 240 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: