HEAL DSpace

Big Earth Data and Machine Learning for Sustainable and Resilient Agriculture

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σιτοκωνσταντίνου, Βασίλειος el
dc.contributor.author Sitokonstantinou, Vasileios en
dc.date.accessioned 2023-01-12T09:14:50Z
dc.date.available 2023-01-12T09:14:50Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56629
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24327
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Causal machine learning en
dc.subject Semi-supervised learning en
dc.subject Common agricultural policy en
dc.subject Ffood security en
dc.subject Smart farming en
dc.subject Αιτιώδης μηχανική μάθηση el
dc.subject Μερικώς επιβλεπόμενη μάθηση el
dc.subject Κοινή αγροτική πολιτική el
dc.subject Ευφυής γεωργία el
dc.subject Επισιτιστική ασφάλεια el
dc.title Big Earth Data and Machine Learning for Sustainable and Resilient Agriculture en
dc.title Αξιοποίηση μεθόδων μηχανικής μάθησης και μεγάλων δεδομένων παρατήρησης της Γης για την προώθηση βιώσιμης και ανθεκτικής γεωργίας el
dc.contributor.department Remote Sensing Laboratory el
heal.type doctoralThesis
heal.classification Machine Learning en
heal.classification Earth Observation en
heal.classification Agriculture en
heal.classification Remote Sensing en
heal.classification Artificial Intelligence en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-10-13
heal.abstract More than a tenth of the global population does not have access to sufficient quantities of affordable, nutritious food. At the same time, the food demand is expected to increase between 35-56% over the period 2010-2050, which will require the intensification of agriculture. On the other hand, climate change calls for the employment of agricultural practices that will secure resilience and sustainability. There is, therefore, an urgent need for producing more, while changing our methods to account for future changes. In this regard, the large scale and frequent monitoring of agricultural land can provide significant insights for timely decision making based on evidence. Big streams of Earth images from satellites or other platforms (e.g., drones and mobile phones) are becoming increasingly available at low or no cost and with enhanced spatial and temporal resolution. This thesis recognizes the unprecedented opportunities offered by the high quality and open access Earth observation data of our times and introduces novel machine learning and big data methods to properly exploit them towards developing applications for sustainable and resilient agriculture. The thesis addresses three distinct thematic areas, i.e., the monitoring of the Common Agricultural Policy (CAP), the monitoring of food security and applications for smart and resilient agriculture. The methodological innovations of the developments related to the three thematic areas address the following issues: i) the processing of big Earth Observation (EO) data, ii) the scarcity of annotated data for machine learning model training and iii) the gap between machine learning outputs and actionable advice. The first contribution of this thesis is the Agriculture Monitoring Data Cube (ADC) that offers an automated, modular, end-to-end, cloud-based framework for handling big satellite data (Sentinel-1 and Sentinel-2) based on the Open Data Cube (ODC). ADC provides a set of powerful tools on top of the cube, including i) the generation of analysis-ready feature spaces of big satellite data to feed downstream machine learning tasks and ii) the support of Satellite Image Time-Series (SITS) analysis via services pertinent to the monitoring of the CAP, e.g., detecting trends and events, monitoring the growth status and more. The second contribution of this thesis is a scalable and transferable machine learning method for multi-crop classification. The method uses the farmers’ declarations, as part of their subsidy applications in the CAP, in order to train the crop classification model. The method is extended by applying semantic enrichment on the crop type maps, increasing the value of knowledge extracted towards making decisions in operational scenarios of the paying agencies of the CAP. Specifically, a smart sampling method was developed to select parcels of potential wrong declaration (i.e., the farmers do not cultivate what they declared). This method provides actionable advice to the inspectors of the CAP paying agencies, early in the year, according to their operating model requirements. Freely available satellite data, such as Sentinel-1 and Sentinel-2 data, used in the methods described above, cannot always provide confident crop type predictions in areas characterized by extended cloud coverage and/or small farm sizes. For this reason, ancillary sources of EO data are required. Towards this direction the space-to-ground paradigm is introduced, bringing together street-level and satellite images in an analysis-ready dataset, encouraging the community to experiment with fusion machine learning techniques for enhanced crop classification results. In this spirit, a preliminary late fusion approach was developed, where street-level image crop classification results were combined with the satellite based crop type maps. Another crop classification method is developed to classify paddy rice in South Korea. In this case, the focus is on weakly supervised learning as for South Korea there are not any available annotations. A pseudo-labeling approach is introduced using merely a confined number of labels that come from a small part of the country. Then the pseudo-labels are used to train a paddy rice classification model that generalizes to the entire country of South Korea. The nationwide classification required the processing of TBs of Sentinel images that would have been impossible in conventional machines. For this reason, a distributed implementation of the model was deployed using SPARK in a High Performance Data Analytics (HPDA) environment. Finally, this thesis introduces two methods for phenology estimation in cotton fields. This is important work towards timely farm interventions that will secure the quality and volume of the yield and even increase it. Phenology ground observations are scarce in time and space, for this reason both methods focus on utilizing only few labels. In the first method, a semi-supervised approach is developed that uses a handful of labels to generate thousands of pseudo-labels that in turn train multiple supervised crop phenology classification models. The second method takes it a step further and develops a fuzzy clustering approach that not only estimates phenology in an unsupervised way but additionally predicts the transitional states between phenological stages using the membership score of fuzzy c-means. The aforementioned contributions refer to detection methods, e.g., crop classification, phenology estimation. Although this work is important and addresses big data and machine learning issues associated with the large-scale and timely monitoring of agricultural land, there is still work to be done to reach actionable advice for the policy maker and the farmer. In this regard, causal and interpretable machine learning have been identified as key enablers to bridge this gap. Two methods have been developed to showcase preliminary results towards this direction. The first method uses interpretable machine learning to estimate the onset of pest harmfulness in cotton fields. The interpretability of the model allows for i) the rapid adoption of the application by the farmer and ii) the combination of the data-driven predictions with the empirical knowledge of the farmer, thus potentially increasing the value of the model outputs. The second method uses causal machine learning to assess agricultural land suitability for applying specific cultivation practices. In more detail, the heterogeneous impact of crop rotation and landscape crop diversity on Net Primary Productivity (NPP) was estimated, accounting for historical crop and environmental data. The results showed that the effect of crop rotation was insignificant, while landscape crop diversity had a small negative effect on NPP. Finally, considerable effect heterogeneity in space was observed for both practices. All in all, this thesis showed that big EO data are a powerful tool for the large-scale and timely monitoring of agricultural land towards food security and climate resilience. In this context, it was demonstrated how big data technologies such as data cubes, distributed learning, linked open data and semantic enrichment can be used to exploit the data deluge and extract knowledge to address real user needs. Furthermore, this thesis argues for the importance of semi-supervised and unsupervised machine learning models that circumvent the ever-present challenge of scarce annotations and thus allow for model generalization in space and time. Specifically, it is shown how merely few ground truth data are needed to generate high quality crop type maps and crop phenology estimations. Finally, this thesis argues there is considerable distance in value between model inferences and decision making in real-world scenarios and thereby showcases the power of causal and interpretable machine learning in bridging this gap. en
heal.abstract Οι απαιτήσεις για σίτιση θα αυξηθούν 35-56% κατά την περίοδο 2010-2050 και ήδη 10% του παγκόσμιου πληθυσμού δεν έχει πρόσβαση σε επαρκή τροφή. Ενώ η αύξηση της ζήτησης για τροφή απαιτεί την εντατικοποίηση της γεωργίας, η κλιματική αλλαγή απαιτεί την εφαρμογή καλλιεργητικών πρακτικών που θα εξασφαλίσουν την ανθεκτικότητα και τη βιωσιμότητα της. Ως εκ τούτου υπάρχει άμεση ανάγκη για μεγαλύτερη παραγωγή, αλλάζοντας παράλληλα τις μεθόδους μας, συνυπολογίζοντας μελλοντικές αλλαγές. Υπό αυτό το πρίσμα, η μεγάλης κλίμακας και τακτική παρακολούθηση της γεωργικής γης δύναται να προσφέρει σημαντικές πληροφορίες για την έγκαιρη λήψη αποφάσεων βάσει στοιχείων. Μεγάλες ροές από εικόνες παρατήρησης της Γης είτε από δορυφόρους είτε από άλλες πλατφόρμες (για παράδειγμα drones και κινητά τηλέφωνα) γίνονται ολοένα και περισσότερο διαθέσιμες με χαμηλό ή και μηδενικό κόστος και σε καλύτερη χωρική και χρονική ανάλυση. Η παρούσα διατριβή αναγνωρίζει τις άνευ προηγουμένου ευκαιρίες που προσφέρουν τα υψηλής ανάλυσης και ανοικτής πρόσβασης δεδομένα παρατήρησης της Γης της εποχής μας και υλοποιεί νέες μεθόδους μηχανικής μάθησης και επεξεργασίας μεγάλων δεδομένων για την κατάλληλη αξιοποίησή τους με σκοπό τη ανάπτυξη εφαρμογών για βιώσιμη και ανθεκτική γεωργία. Η διατριβή πραγματεύεται τρεις διακριτούς θεματικούς τομείς, δηλαδή την παρακολούθηση της Κοινής Αγροτικής Πολιτικής (ΚΑΠ), την παρακολούθηση της επισιτιστικής ασφάλειας και τις εφαρμογές ευφυούς γεωργίας. Οι μεθοδολογικές καινοτομίες, της παρούσας διατριβής, που σχετίζονται με τις τρεις θεματικές περιοχές αντιμετωπίζουν τα ακόλουθα ζητήματα: ι) την επεξεργασία μεγάλων δεδομένων παρατήρησης της Γης, ιι) την έλλειψη επισημειωμένων δεδομένων για εκπαίδευση μοντέλων μηχανικής μάθησης και ιιι) το χάσμα μεταξύ των αποτελεσμάτων της μηχανικής μάθησης και των πρακτικών συμβουλών. Η πρώτη συνεισφορά της διατριβής αυτής είναι ο κύβος δεδομένων (data cube) για την παρακολούθησης γεωργίας (ADC), ο οποίος προσφέρει ένα πλήρως αυτοματοποιημένο πλαίσιο για την διαχείριση των μεγάλων δορυφορικών δεδομένων (Sentinel-1, Sentinel-2), βασισμένο στο Open Data Cube (ODC) . Ο ADC παρέχει ένα σύνολο ισχυρών εργαλείων που επιτρέπουν α) την δημιουργία χώρων χαρακτηριστικών μεγάλων δορυφορικών δεδομένων για την τροφοδοσία μοντέλων μηχανικής μάθησης και β) την υποστήριξη της ανάλυσης χρονοσειρών δορυφορικών εικόνων μέσω υπηρεσιών που σχετίζονται με την παρακολούθηση της ΚΑΠ (π.χ. ανίχνευση τάσεων και γεγονότων, παρακολούθηση της ανάπτυξης κτλ). Η δεύτερη συνεισφορά της διατριβής είναι μια επεκτάσιμη και μεταφέρσιμη μέθοδος μη- χανικής μάθησης για την ταξινόμηση πολλαπλών καλλιεργειών. Η μέθοδος αυτή κάνει χρήση των δηλώσεων των αγροτών, ως μέρος των αιτήσεων επιδότησης για την ΚΑΠ, προκειμένου να εκπαιδεύσει τα μοντέλα. Η μέθοδος επεκτείνεται με τον σημασιολογικό εμπλουτισμό στους χάρτες καλλιεργειών στοχεύοντας στην ενίσχυση της εξαγόμενης γνώσης και τη λήψη αποφάσεων σε επιχειρησιακά σενάρια των οργανισμών πληρωμών της ΚΑΠ. Συγκεκριμένα, αναπτύχθηκε μια έξυπνη μέθοδος δειγματοληψίας ώστε να επιλέγονται πιθανώς λανθασμένες δηλώσεις (δηλαδή οι παραγωγοί δεν καλλιεργούν αυτό που δηλώνουν). Αυτή η μέθοδος παρέχει πρακτικές συμβουλές στους επιθεωρητές των οργανισμών πληρωμών της ΚΑΠ νωρίς μέσα στο έτος βάσει των απαιτήσεων των επιχειρησιακών διαδικασιών. Τα ελεύθερα διαθέσιμα δορυφορικά δεδομένα, όπως αυτά από τους δορυφόρους Sentinel που χρησιμοποιήθηκαν στις μεθόδους που περιγράφηκαν παραπάνω, δεν μπορούν να εγγυηθούν έγκυρες αποφάσεις σε περιοχές με υψηλή νεφοκάλυψη ή/και σε αγροτεμάχια με μικρό μέγεθος. Συνεπώς χρειαζόμαστε συμπληρωματικές πηγές δεδομένων παρατήρη- σης της Γης. Σε αυτή την κατεύθυνση αναπτύχθηκε ένα ανοιχτό σύνολο δεδομένων που συνδυάζει δορυφορικές εικόνες και street-level εικόνες, επιτρέποντας στην κοινότητα να πειραματιστεί με μοντέλα μηχανικής μάθησης για να ενισχύσει τα αποτελέσματα ταξινόμησης καλλιεργειών που χρησιμοποιούν μόνο δορυφορικές εικόνες. Σε αυτό το πνεύμα, αναπτύχθηκε μια προκαταρκτική προσέγγιση συνδυασμού των δορυφορικών και street-level εικόνων. Επίσης αναπτύχθηκε μέθοδος ταξινόμησης των ορυζώνων στη Νότια Κορέα. Στην περίπτωση αυτή, εστιάσαμε στην μερικώς επιβλεπόμενη μάθηση, καθώς για τη Νότια Κορέα δεν υπάρχουν διαθέσιμα επισημειωμένα δεδομένα, όπως στην περίπτωση της ΚΑΠ. ́Ετσι, αναπτύχθηκε μία ημι-επιβλεπόμενη προσέγγιση που χρησιμοποιεί περιορισμένο αριθμό επισημειωμένων δεδομένων από ένα μικρό μόνο τμήμα της χώρας για να δημιουργήσει ψευδείς επισημειώσεις (προβλέψεις μοντέλου ομαδοποίησης) για την εκπαίδευση ενός μοντέλου επιβλεπόμενης ταξινόμησης ρυζιού που γενικεύεται σε ολόκληρη τη χώρα της Νότιας Κορέας. Η εθνικής κλίμακας ταξινόμηση απαιτούσε την επεξεργασία TB δεδομένων από εικόνες Sentinel που ήταν αδύνατη σε συμβατικά μηχανήματα. Ως εκ τούτου, εφαρμόστηκε μια κατανεμημένη υλοποίηση του μοντέλου (σε SPARK) σε περιβάλλον ανάλυσης δεδομένων υψηλής απόδοσης (HPDA). Τέλος, η παρούσα διατριβή παρουσιάζει δύο νέες μεθόδους για την εκτίμηση της φαινολογίας σε καλλιέργειες βαμβακιού. Η δουλειά αυτή καθίσταται σημαντική για την έγκαιρη επέμβασης στο χωράφι που θα διασφαλίσει την ποιότητα και τον όγκο της παραγωγής. Οι επίγειες παρατηρήσεις της φαινολογίας είναι ελλιπείς στο χρόνο και στον χώρο και για το λόγο αυτό και οι δύο μέθοδοι επικεντρώνονται στη χρήση μόνο λίγων επισημειωμένων δεδομένων. Στην πρώτη μέθοδο, αναπτύχθηκε ένα μοντέλο το οποίο χρησιμοποιεί ελάχιστα επισημειωμένα δεδομένα απο μία μόνο περιοχή για να δημιουργήσει χιλιάδες ψευδείς επισημειώσεις (προβλέψεις του μοντέλου στην γύρω περιοχή) που χρησιμοποιούνται για να εκπαιδεύσουν επιβλεπόμενα μοντέλα ταξινόμησης που μπορούν να γενικεύσουν στον χώρο. Η δεύτερη μέθοδος αναπτύσσει μια προσέγγιση ασαφούς ομαδοποίησης που όχι μόνο εκτιμά τη φαινολογία με μη επιβλεπόμενο τρόπο αλλά προβλέπει επιπλέον τις μεταβατικές καταστάσεις μεταξύ φαινολογικών σταδίων χρησιμοποιώντας τη πιθανότητα μιας οντότητας να ανήκει σε μια συγκεκριμένη ομάδα, όπως αυτή υπολογίζεται από τον αλγόριθμο fuzzy c-means . Οι προαναφερθείσες συνεισφορές αναφέρονται σε μεθόδους ανίχνευσης/εντοπισμού, π.χ. ταξινόμηση καλλιεργειών και εκτίμηση φαινολογίας. Παρόλο που η εργασία αυτή είναι σημαντική και δίνει απαντήσεις σε ζητήματα διαχείρισης μεγάλων δεδομένων και μηχανικής μάθησης σχετιζόμενα με την μεγάλης κλίμακας και έγκαιρη παρακολούθηση της γεωργικής γης, υπάρχει χώρος βελτίωσης ώστε να φτάσουμε σε πρακτικές και χρήσι- μες συμβουλές τόσο για τον υπεύθυνο χάραξης πολιτικής όσο και για τον αγρότη. Από αυτή την άποψη, η αιτιώδης και η ερμηνεύσιμη μηχανική μάθηση (causal, intepretable ma- chine learning) έχουν αναγνωριστεί ως κατάλληλες μέθοδοι για τη γεφύρωση αυτού του χάσματος. Προς αυτή την κατεύθυνση αναπτύχθηκαν δύο μεθοδολογίες για την επίδειξη προκαταρκτικών αποτελεσμάτων. Η πρώτη χρησιμοποιεί ερμηνεύσιμη μηχανική μάθηση στοχεύοντας στην εκτίμηση της έναρξης της βλαβερότητας του πράσινου σκουληκιού στο βαμβάκι. Η ερμηνεία του μοντέλου επιτρέπει την ταχεία δράση από τους αγρότες, καθώς εμπιστεύονται την εκτίμηση. Επίσης μπορούν να συνδυάσουν τα αποτελέσματα με την εμπειρική τους γνώση. Η δεύτερη μέθοδος χρησιμοποιεί αιτιώδη μηχανική μάθηση για να αξιολογήσει την καταλληλόλητα της γεωργικής γης για την εφαρμογή συγκεκριμένων καλλιεργητικών πρακτικών. Πιο συγκεκριμένα αξιολογείται ο αντίκτυπος της εναλλαγής των καλλιεργειών και της χωρικής διαφοροποίησης των καλλιεργειών στην ρύθμιση του κλίματος. Τα αποτελέσματα έδειξαν πως ο αντίκτυπος της εναλλαγής των καλλιεργειών δεν ήταν σημαντικός αλλά η χωρική διαφοροποίηση των καλλιεργειών είχε μία μικρή αρνητική επίδραση στην ρύθμιση του κλίματος. Αυτή η διατριβή έδειξε ότι τα μεγάλα τηλεπισκοπικά δεδομένα είναι ένα ισχυρό εργαλείο για την έγκαιρη και μεγάλης κλίμακας παρακολούθηση της γεωργικής γης. Συγκεκριμένα, η παρούσα εργασία επέδειξε πως τεχνολογίες επεξεργασίας μεγάλων δεδομένων, όπως κύβοι δεδομένων, κατανεμημένη μάθηση, συνδεδεμένα ανοιχτά δεδομένα και σημασιολογικός εμπλουτισμός, μπορούν να χρησιμοποιηθούν για να εξάγουν την απαραίτητη γνώση από μεγάλα δορυφορικά δεδομένα και να λύσουν πραγματικές ανάγκες χρηστών. Επιπροσθέτως, η διατριβή υποστηρίζει την σημασία των μοντέλων ημι-επιβλεπόμενης και μη επιβλεπόμενης μάθησης που ξεπερνούν το πανταχού παρόν πρόβλημα της έλλειψης επισημειωμένων δεδομένων. Επιδείχτηκε πως με ελάχιστα ή και χωρίς επισημειωμένα δε- δομένα μπορούν να παραχθούν χάρτες καλλιεργειών και εκτιμήσεις φαινολογίας υψηλής ποιότητας. Τέλος, η διατριβή εντοπίζει πως υπάρχει απόσταση μεταξύ των αποτελεσμάτων των μοντέλων μηχανικής μάθησης και την λήψη αποφάσεων βάσει αυτών σε επιχειρησιακά σενάρια. Σε αυτή την κατεύθυνση, επιδεικνύεται η ισχύς της αιτιώδους και ερμηνεύσιμης μηχανικής μάθησης στην γεφύρωση του χάσματος μεταξύ εκτίμησης και πρακτικής συμβουλής. el
heal.sponsor Throughout the course of my PhD, I have worked at the Operational Unit Beyond | IAASARS | NOA. The Beyond Unit is an inspiring research team that has embraced my scientific vision and helped to bring it to fruition. It was through my work at Beyond that I managed to secure the funding of my research but most importantly to grow as a person and scientist. In detail, this work has been supported by the following projects of the Operational Unit Beyond | IAASARS | NOA that have received funding from the EU's Horizon 2020 research and innovation programme: RECAP No. 693171 (2016-2018), EOPEN No. 776019 (2018-2020), e-shape No. 820852 (2020-2023), ENVISION No. 869366 (2020-2023), CALLISTO No. 101004152 (2021-2024), EIFFEL No. 101003518 (2021-2024). en
heal.advisorName Καραθανάση, Βασιλεία el
heal.advisorName Karathanassi, Vassilia en
heal.committeeMemberName Karathanassi, Vassilia en
heal.committeeMemberName Kontoes, Charalampos en
heal.committeeMemberName Argialas, Dimitrios en
heal.committeeMemberName Karantzalos, Konstantinos
heal.committeeMemberName Voulodimos, Athanasios
heal.committeeMemberName Manakos, Ioannis
heal.committeeMemberName Athanasiadis, Ioannis
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Αγρονόμων και Τοπογράφων Μηχανικών el
heal.academicPublisherID ntua
heal.numberOfPages 319 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα