Αξιολόγηση αλγορίθμων επεξεργασίας πειραματικών δεδομένων αλληλούχισης νουκλεικών οξέων μεγάλου πλαισίου ανάγνωσης και συγκριτική ανάλυση μεταβλητών

Στέφανος, Τσαμπανάκης; Stefanos, Tsampanakis

dc.contributor.author	Στέφανος, Τσαμπανάκης	el
dc.contributor.author	Stefanos, Tsampanakis	en
dc.date.accessioned	2021-11-15T12:30:52Z
dc.date.available	2021-11-15T12:30:52Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/54070
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.21768
dc.rights	Default License
dc.subject	Αξιολόγηση αλγορίθμων	el
dc.subject	Βιοπληροφορική	el
dc.subject	Τεχνολογίες αλληλούχισης	el
dc.subject	Αλγόριθμοι	el
dc.subject	Σύγκριση μεταβλητών	el
dc.subject	Algorithm evaluation	en
dc.subject	Algorithms	en
dc.subject	Bioinformatics	en
dc.subject	Comparison of variables	en
dc.subject	Sequencing technologies	en
dc.title	Αξιολόγηση αλγορίθμων επεξεργασίας πειραματικών δεδομένων αλληλούχισης νουκλεικών οξέων μεγάλου πλαισίου ανάγνωσης και συγκριτική ανάλυση μεταβλητών	el
heal.type	bachelorThesis
heal.classification	Βιοπληροφορική	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2021
heal.abstract	The anlysis of the DNA sequence of a genome plays an important role in the field of biology since it offers a plethora of genetic information where scientists and medical professionals have the ability to use these informations as disease diagnostic tool, disease prevention tool as well as the understanding of various mutations. For the creation of an accurate representation of a genome various scientific interests and fields have been established. More specifically the filed of bioinformatics has been established as well as various DNA sequencing technologies where the past years they are constantly optimized offering better representations with fewer errors at faster speeds In this paper we will conduct a bioinformatic analysis of DNA. We will perform a quality check where we will analyze various factors where they can contribute to the quality of the the DNA reads. These factors consists the difference in the quality results whether the DNA was harvested from a human source or from a different organism, the difference in the method where the library preparation was achieved and the difference in the two different basecalling models offered by the program GUPPY. For the assessment of the read quality we will use two different programs FastQC and NanoPack where through these we will calculate the Qscore/N50 values as well as the read length. We will use DNA from Human Retinal Epithelial cell (RPE) and DNA from a ovarian cell originated in a Chinese hamster (CHO). The CHO DNA was prepared using two different library preparations the ligation method and the rapid method and based on the different results which they produced the optimal method will be evaluated. The RPE was prepared using the ligation method but the basecalling was done twice using the two models of GUPPY the high accuracy model( HAC) and FAST model and their results where then evaluated . In the end the results from from CHO and RPE DNA where compared to see which DNA produced the highest quality.	en
heal.abstract	Η ανάλυση της αλληλουχιας ενός γονιδιώματος αποτελεί ένα πολύ σημαντικό κομμάτι στον κλάδο της βιολογίας αφού προσφέρει μια πληθώρα γενετικών πληροφοριών όπου επιστήμονες και επαγγελματίες στον χώρο της Υγείας έχουν την ικανότητα να την χρησιμοποιήσουν σαν διαγνωστικό μέσο νοσημάτων , μέσο πρόληψης ασθενειών καθώς και κατανόησης διάφορων μεταλλάξεων. Για την ακριβή αναπαράσταση γονιδιωμάτων πολλά ερευνητικά ενδιαφέροντα και επιστημονικοί κλάδοι έχουν δημιουργηθεί. Πιο συγκερκιμένα έχει δημιουργηθεί ο κλάδος της βιοπληροφορικής καθώς και των τεχνολογιών αλληλούχισης που τα τελευταία χρόνια βελτιώνονται συνεχώς προσφέροντας όλα και καλύτερες αναπαραστάσεις με μικρότερα σφάλματα σε μικρότερο χρόνο. Στην παρούσα εργασία έγινε μια βιοπληροφορική ανάλυση του DNA. Πραγματοποιήθηκε δηλαδή ένας ποιοτικός έλεγχος στον οποίο αναλύθηκαν διάφοροι παράγοντες που μπορούν να συμβάλουν στην ποιότητα των παραγόμενων μεγάλων πλαισίων ανάγνωσης (long reads). Πιο συγκεκριμένα οι παράγοντες αυτοί είναι οι διαφορές ανάμεσα στο αν το DNA είναι ανθρώπινο ή όχι, ανάμεσα στον τρόπο που έγινε η προετοιμασία βιβλιοθήκης και τέλος οι διαφορές ανάμεσα σε δύο μοντέλα του προγράμματος GUPPY στο οποίο έγινε η διαδικασία του basecall. Για την εκτίμηση της ποιότητας των reads χρησιμοποιήθηκαν δυο διαφορετικά προγράμματα το FastQC και το NanoPack μέσω των οποίων υπολογίστηκαν οι τιμές Qscore, N50 και τα μήκοι των reads Αρχικά χρησιμοποιήθηκε DNA απο ανθρώπινο επιθηλιακό ιστό (RPE) και DNA από τις ωοθήκες ενός κινέζικου χάμστερ (CHO Chinese Hamster Ovarian). Το CHO DNA προετοιμάστηκε με δύο διαφορετικούς τρόπους προετοιμασίας βιβλιοθήκης την ‘rapid’ μεθοδο και ‘ligation’ και με βάση τα αποτελέσματα τους έγινε εκτίμηση της βέλτιστης μεθόδου προετοιμασίας βιβλιοθήκης . Τo επιθηλιακό DNA προετοιμάστηκε μέσω της ligation μεθόδου, όμως η διαδικασία basecall έγινε δυο φορές. Η πρώτη έγινε με το μοντέλο FAST του GUPPY και η δεύτερη μέσω του High Accuracy (HAC) μοντέλου και μέσω των αποτελεσμάτων τους έγινε μια εκτίμηση . Τέλος ανάμεσα στα αποτελέσματα από το επιθηλιακό και το CHO DNA πραγματοποιήθηκε η τελική εκτίμηση ανάμεσα σε ποιο πρότυπο DNA παρουσιάστηκε η μεγαλύτερη ποιότητα στα μεγάλα πλαίσια ανάγνωσης .	el
heal.advisorName	Γεωργακίλας, Αλέξανδρος	el
heal.committeeMemberName	Γεωργακίλας, Αλέξανδρος	el
heal.committeeMemberName	Αναγνωστόπουλος, Κωνσταντίνος	el
heal.committeeMemberName	Τερζούδη, Γεωργία	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών	el
heal.academicPublisherID	ntua
heal.numberOfPages	59 σ.	el
heal.fullTextAvailability	false