Βιοπληροφορική ανάλυση τοξικολογικών γονιδιωματικών δεδομένων

Βάρσου, Δήμητρα Δανάη; Varsou, Dimitra Danai

dc.contributor.author	Βάρσου, Δήμητρα Δανάη	el
dc.contributor.author	Varsou, Dimitra Danai	en
dc.date.accessioned	2016-10-21T11:12:06Z
dc.date.available	2016-10-21T11:12:06Z
dc.date.issued	2016-10-21
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/43878
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.13421
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Νανοσωματίδια	el
dc.subject	Τοξικότητα	el
dc.subject	Γονιδιακή οντολογία	el
dc.subject	Ανάλυση διακύμανσης συνόλου γονιδίων	el
dc.subject	Πρωτεϊνικό στέμμα	el
dc.subject	Μεθοδολογία read across	el
dc.subject	R	en
dc.subject	Nanoparticles	en
dc.subject	Toxicity	en
dc.subject	Gene ontology	en
dc.subject	Gene set variation analysis	en
dc.subject	Protein corona	en
dc.subject	Read across method	en
dc.title	Βιοπληροφορική ανάλυση τοξικολογικών γονιδιωματικών δεδομένων	el
dc.title	Bioinformatics toxicological analysis of genomic data	en
heal.type	bachelorThesis
heal.classification	Βιοπληροφορική	el
heal.classificationURI	http://data.seab.gr/concepts/b50bf44af3b24e597323aa84bd26e06a0650789e
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2016-09-28
heal.abstract	Στα πλαίσια της παρούσας Διπλωματικής Εργασίας αρχικά μελετήθηκε η λειτουργική συμπεριφορά πρωτεϊνικών και γονιδιακών δεδομένων που προέκυψαν από πειράματα εφαρμογής νανοσωματιδίων σε βιολογικά μέσα, μέσω τεχνικών της Βιοπληροφορικής και της Βιοστατιστικής. Σκοπός ήταν να εξετασθούν οι σχέσεις των γονιδιακών συνόλων που ενεργοποιούνται κατά την αλληλεπίδραση των νανοσωματιδίων με τα βιολογικά μέσα, με την τοξικότητα. Ιδιαίτερη έμφαση δόθηκε μάλιστα στη σύγκριση μεταξύ ανιονικών και κατιονικών νανοσωματιδίων. Στη συνέχεια αναπτύχθηκε μεθοδολογία read across, με στόχο την πρόβλεψη της τοξικότητας νανοσωματιδίων, έχοντας ως δεδομένα ένα σύνολο νανοσωματιδίων με γνωστή την τιμή της τοξικότητάς τους και φυσικοχημικούς και βιολογικούς δείκτες για αυτά. Για την ανάλυση αναπτύχθηκε κώδικας σε γλώσσα R και αξιοποιήθηκαν τα πακέτα του αποθετηρίου Bioconductor. Ο συνολικός κώδικας στη συνέχεια χρησιμοποιήθηκε για τη δημιουργία μιας διαδικτυακής εφαρμογής, με το όνομα toxFlow, που πραγματοποιεί τα βασικότερα σημεία της ανάλυσης. H εφαρμογή είναι διαθέσιμη στη διεύθυνση: http://147.102.86.129:3838/ και ο κώδικας είναι βρίσκεται στο GitHub στη διεύθυνση: https://github.com/DemetraDanae/toxFlow.git (doi: 10.5281/zenodo.153981). Τα δεδομένα που χρησιμοποιήθηκαν και στα δυο προβλήματα προέρχονται από δυο διαφορετικές δημοσιεύσεις αλλά και στις δυο περιπτώσεις αναφέρονται σε νανοσωματίδια χρυσού. Τα δεδομένα του Walkey και των συνεργατών του (2014) είναι δεδομένα σύστασης αποτυπώματος πρωτεϊνικού στέμματος σε νανοσωματίδια χρυσού τριών διαφορετικών διαμέτρων (15, 30 και 60 nm) και προέρχονται από πειράματα ανάλυσης LC/MS-MS. Για την ανάλυση του πρωτεϊνικού στέμματος τα νανοσωματίδια επωάστηκαν με κύτταρα της σειράς Α549 (καρκινικά επιθηλιακά κύτταρα ανθρώπινου πνεύμονα). Τα δεδομένα της Grzincic και των συνεργατών της (2015) προέρχονται από αναλύσεις γονιδιακής έκφρασης μέσω μικροσυστοιχιών RNA και αφορούν στην αλληλεπίδραση νανοσωματιδίων χρυσού 20 nm με κύτταρα των σειρών HDF (ανθρώπινα δερματικά ινοβλαστικά κύτταρα) και PC3 (κύτταρα καρκίνου του προστάτη). Τα εξεταζόμενα νανοσωματίδια είχαν διαφορετικές επικαλύψεις οι οποίες ανάλογα με το φορτίο τους, χαρακτηρίζονται ως ανιονικά ή κατιονικά. Συνοπτικά αρχικά εφαρμόστηκε η Ανάλυση Διακύμανσης Συνόλου Γονιδίων (GSVA) και οι όροι των σημαντικών γονιδιακών συνόλων που προέκυψαν από την ανάλυση προσαρμόστηκαν, ανάλογα με την κατάταξή τους σε ανιονικά ή κατιονικά, σε ένα γραμμικό μοντέλο και συνδέθηκαν με όρους της Γονιδιακής Οντολογίας. Η ανάλυση αυτή πραγματοποιήθηκε χρησιμοποιώντας για τα δυο σύνολα δεδομένων τη σχέση με δυο διαφορετικές γονιδιακές συλλογές, την C5: GO gene sets, MF: GO molecular function, η οποία προέρχεται από την βάση δεδομένων MSigDB, και την CTD Disease-GO molecular function associations, η οποία προέρχεται από τη βάση δεδομένων Comparative Toxicogenomics Database. Από τη βιβλιογραφική επισκόπηση των σημαντικών γονιδιακών συνόλων που προέκυψαν για στάθμη σημαντικότητας 0.05, επιβεβαιώθηκε η σχέση τους με καρκινογενέσεις αλλά και με διάφορες νευρασθένειες όπως ο βουτουλισμός και η νόσος του Πάρκινσον. Η μεθοδολογία read across που αναπτύχθηκε εντάσσεται στο πλαίσιο των μη πειραματικών τεχνικών, με τις οποίες προβλέπεται η τοξικότητα, ενώ παράλληλα εξοικονομούνται χρόνος και χρήματα και αποφεύγονται τα πειράματα in vivo. Για την πρόβλεψη του δείκτη της κυτταρικής συσχέτισης της πρώτης σειράς δεδομένων, το μοντέλο πέρασε τη φάση της εκπαίδευσης χρησιμοποιώντας αρχικά όλα τα διαθέσιμα δεδομένα και στη συνέχεια φιλτράροντάς τα ώστε να συμμετέχουν στην πρόβλεψη μόνο όσα έχουν μεγαλύτερη συνάφεια με τον δείκτη τοξικότητας. Η αξιολόγηση των προβλέψεων έγινε χρήσει του συντελεστή προσδιορισμού R2, ο οποίος έφτασε έως το 98%. Για το δεύτερο σύνολο των δεδομένων για τα οποία δεν ήταν γνωστός κάποιος δείκτης τοξικότητας, το μοντέλο δοκιμάστηκε για την πρόβλεψη του ανιονικού ή κατιονικού χαρακτήρα των νανοσωματιδίων με τη χρήση ενός τεχνικού κατηγορικού δείκτη της μορφής 0-1. Η ακρίβεια της πρόβλεψης σε αυτή την περίπτωση εξετάστηκε μέσω της κατασκευής μήτρας σύγχυσης (confusion matrix). Σε τελική φάση για το φιλτράρισμα των δεδομένων εκπαίδευσης, χρησιμοποιήθηκαν τα αποτελέσματα των σημαντικών γονιδίων που προέκυψαν από την ανάλυση GSVA, δεδομένου ότι τα σημαντικά γονιδιακά σύνολα περιέχουν πληροφορία περισσότερο συναφή με το δείκτη τοξικότητας. Ο συντελεστής R2 σε αυτή την περίπτωση έφτασε το 96% ενώ, για τις ίδιες παραμέτρους χρησιμοποιώντας όλα τα δεδομένα το R2 έφτασε το 48%. Από την παρούσα Εργασία προέκυψε η ανακοίνωση των Βάρσου και συνεργατών, Exploring correlations patterns on toxicity omics data (παρουσίαση poster), η οποία παρουσιάστηκε στα πλαίσια του επιστημονικού συνεδρίου 2nd Nanosafety Forum for Young Scientists, το οποίο έλαβε χώρα στο Visby της Σουηδίας μεταξύ 15 και 16/9/2016, υπό την αιγίδα του NanoSafety Cluster και του προγράμματος FP7-eNanoMapper. Επιπλέον τα αποτελέσματα που παρουσιάζονται στη συνέχεια αποτελούν μέρος δημοσίευσης που βρίσκεται σε διαδικασία συγγραφής.	el
heal.abstract	In the present Diploma Thesis the functional behavior of protein and gene data from nanoparticles implementation testing in biological agents was studied, using Bioinformatics and Biostatistics methods. Our purpose was to examine relationships between gene sets that are activated by the interaction of nanoparticles with biological agents and toxicity. Particular emphasis was given on the comparison between the anionic and cationic nanoparticles. Furthermore, a model which can be used to predict the nanoparticle's toxicity was developed, within the framework of read across technique. For model training a set of nanoparticles with a known value of their toxicity and physicochemical and biological descriptors is needed. The analysis code was developed in R programming language and packages from the Bioconductor repository were used. Finally a web application was developed called toxFlow, that carries out the main parts of the analysis (freely available on GitHub: https://github.com/DemetraDanae/toxFlow.git, doi: 10.5281/zenodo.153981). The application can be found in the following site: http://147.102.86.129:3838/. Two use case gold nanoparticles' datasets were considered for analysis. The first dataset is derived by Walkey and al. (2014) and consists of protein corona fingerprint for gold nanoparticles with diameter 15, 30 and 60 nm, from LC/MS-MS analysis experiments. These nanoparticles were incubated with cells of A549 cell line (human lung epithelial cancer cells). The second dataset is a gene expression data, originally published by Grzincic and al. (2015) who conducted RNA microarray assays for the interaction of gold nanoparticles 20 nm with HDF (human dermal fibroblasts) and PC3 (prostate cancer cells) cell lines. The examined nanoparticles had different coatings and depending on their charge they were characterized as anionic or cationic. In summary, Gene Set Variation Analysis (GSVA) was applied to the biological data sets, and significant gene sets derived from the analysis, were adjusted -according to their classification in anionic or cationic-, on a linear model and were connected with terms of Gene Ontology. This analysis was carried out using two different gene set collections namely a collection of Gene Ontology sets from MSigDB (C5: GO gene sets, MF: GO molecular function) and a collection derived by Comparative Toxicogenomics Database (CTD Disease-GO molecular function associations). The literature review of significant gene sets for a significance level of 0.05, confirmed their relationship with carcinogenesis and with various diseases such as Botulism and Parkinson's disease. Additionally, a model predicting the toxicity of nanoparticles was developed using a read across technique, a non-experimental technique that predicts toxicity in a cost-effectiveand time- effective way whilst avoiding in vivo experiments. For the prediction of the cell association index of the first dataset, the model was trained using all available data in the first place and then data was filtered in order to exclude from prediction those that were not so relevant to the toxicity index. The determination coefficient R2 was reported to be in this cases high as 98%. For the second dataset, since the toxicity outcome was unknown, the model was trained in order to predict the anionic or cationic classification of the nanoparticles. The accuracy of prediction in this case was tested through confusion matices. In the final phase, significant gene sets derived from GSVA were used for filtering the training data, since this gene sets contain relevant information to the toxicity index. The R2 in this case reached up to 96%, whereas when using the same parameters and all data, to 48%. Results of this Thesis where presented by Varsou D.D. et al., as a poster presentation entitled Exploring correlations patterns on toxicity omics data, at the 2nd Nanosafety Forum for Young Scientists conference, which took place in Visby Sweden between 15 and 09/16/2016, and was organized by NanoSafety Cluster and FP7-eNanoMapper project. Furthermore the results presented below are part of the publication in the writing process	en
heal.advisorName	Σαρίμβεης, Χαράλαμπος	el
heal.committeeMemberName	Τόπακας, Ευάγγελος	el
heal.committeeMemberName	Μπεάζη-Κατσιώτη, Μαργαρίτα	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Χημικών Μηχανικών. Τομέας Ανάλυσης, Σχεδιασμού και Ανάπτυξης Διεργασιών και Συστημάτων (ΙΙ)	el
heal.academicPublisherID	ntua
heal.numberOfPages	118 σ.
heal.fullTextAvailability	true