On Thursday, December 19, 2024, at 14:00, Mr. Kyriakos Psallidas of the graduate program “Data Science and Information Technologies”, track on “Bioinformatics – Biomedical Data Science”, will present his MSc thesis titled:
AI4ACT, A tool for Actigraphy Time Series Data Analysis
Abstract
Actigraphy is an affordable, non-invasive method for monitoring activity patterns over day and night, proving valuable in healthcare areas such as cardiovascular diseases, sleep disorders, and cognitive impairment. With its increasing popularity, there is a growing need for effective machine learning techniques to analyze time series datasets, enabling researchers to derive biological insights and predict disease conditions. However, actigraphy datasets are often limited in size (typically a few hundred samples), suffer from class imbalance, and lack standardized methods for comparing classifiers developed with actigraphy time series data.
This thesis presents a Command-Line Interface (CLI) package for processing and analyzing actigraphy data. The package includes a comprehensive range of dataset transformations, such as time series smoothing, normalization, Seasonality-Trend Decomposition using LOESS (STL), day-averaging, class balancing methods, and various feature engineering techniques. Additionally, it supports hyperparameter tuning, model selection, and various estimator algorithms, along with a modular workflow for estimator comparison, model evaluation, inference, and time series clustering.
In collaboration with the Aiginition Longitudinal Biomarker Investigation of Neurodegeneration (ALBION) study at the University of Athens, we utilized the package to develop baseline models for two classification tasks: distinguishing Normal Control (NC) participants from those with Mild Cognitive Impairment (MCI), and differentiating Cerebrospinal Fluid (CSF) test-negative participants from test-positive ones. These classification tasks are particularly challenging due to the small sizes of the MCI (119 samples) and CSF (76 samples) ALBION datasets, as well as their highly imbalanced class distributions, which show an approximately 4-to-1 ratio of negative to positive samples.
Despite these challenges, we leveraged cloud-based computing to conduct numerous model design experiments, evaluating how various time series preprocessing and transformation techniques impact classifier performance. Our main goal was to establish baseline performance levels achievable without feature engineering.
Through ten rounds of repeated nested cross-validation, we found that for MCI classification, baseline models can achieve median AUC values in the range [0.61, 0.71], Recall values in [0.5, 0.6], and Specificity values between [0.7, 0.83]. For the CSF endpoint classification, using a severely limited dataset, the baseline models reached median AUC values in the range [0.58, 0.66], Recall values in [0.5, 0.667], and Specificity values between [0.667, 0.75]. These results are promising when considering the dataset limitations and the fact that no feature engineering was employed. Notably, the best-performing models made parsimonious choices, such as using only the first 8 hours of each day, focusing solely on the trend component of the time series, or including only one feature per hour.
Analysis of the per-sample Correct Classification Rate across the best-performing models revealed that performance limitations stemmed from the inadequate representation of high-activity MCI and low-activity NC patterns within the small datasets. Improvements could be realized by generating a larger, more balanced actigraphy dataset for training, effective feature engineering, and synthetic data generation—processes supported by the package.
EXAMINATION COMMITTEE:
Prof. Elias Manolakos, Department of Informatics and Telecommunications, University of Athens (thesis supervisor)
Prof. Nikolaos Skarmeas, Professor of Neurology, Department of Medicine, University of Athens.
Dr. Stavros Perantonis, Research Director National Center for Scientific Research “Demokritos”
Join Zoom Meeting
https://us02web.zoom.us/j/85301739067?pwd=XdjatZK9HkTZtZBqKLtbLbXRSALyLx.1
Meeting ID: 853 0173 9067
Passcode: 228253
Dial by your location
- +1 301 715 8592 US (Washington DC)
- +1 305 224 1968 US
- +30 231 118 0599 Greece
- +30 211 198 4488 Greece
Find your local number: https://us02web.zoom.us/u/kbpnDPWcd
Την Πέμπτη 19 Δεκεμβρίου 2024, στις 14:00, ο κ. Κυριάκος Ψαλλίδας μεταπτυχιακός φοιτητής του προγράμματος «Επιστήμη Δεδομένων και Τεχνολογίες Πληροφορίας», με ειδίκευση «Βιοπληροφορική – Επιστήμη Βιοϊατρικών Δεδομένων», θα παρουσιάσει διαδικτυακά την διπλωματική εργασίας του με τίτλο:
AI4ACT, Eργαλείο λογισμικού για Ανάλυση Χρονοσειρών Ακτιγραφίας
Περίληψη
Η ακτιγραφία είναι μια χαμηλού κόστους, μη επεμβατική μέθοδος παρακολούθησης της ανθρώπινης δραστηριότητας καθόλη τη διάρκεια της μέρας και της νύχτας, που μπορεί να παρέχει έγκαιρα χρήσιμες πληροφορίες σε περιπτώσεις όπως οι καρδιαγγειακές παθήσεις, οι διαταραχές ύπνου και η πρώιμη γνωσιακή εξασθένηση. Καθώς αυξάνεται η δημοφιλία της χρήσης της, δημιουργείται η ανάγκη ανάπτυξης τεχνικών μηχανικής μάθησης για την ανάλυση χρονοσειρών ακτιγραφίας, που να επιτρέπουν στους ερευνητές να εξάγουν ασφαλή συμπεράσματα σχετικά με τους υποκείμενους βιολογικούς μηχανισμούς των υπο παρακολούθηση διεργασιών, καθώς και να προβλέψουν έγαιρα την πιθανή εξέλιξη παθολογικών καταστάσεων. Ωστόσο, τα σετ δεδομένων ακτιγραφίας που διατίθενται για έρευνα σήμερα είναι περιορισμένα σε μέγεθος (στη καλύτερη περίπτωση μερικές εκατοντάδες δείγματα) και πάσχουν από ανισορροπία κατηγοριών που δυσκολεύει την συστηματική σύγκριση αλγορίθμων ταξινόμισης.
Η διπλωματική αυτή εργασία παρουσιάζει ένα πακέτο CLI σχεδιασμένο για την προεπεξεργασία και ανάλυση δεδομένων ακτιγραφίας. Το πακέτο περιλαμβάνει ένα ολοκληρωμένο σετ μετασχηματισμών δεδομένων, όπως την εξομάλυνση, κανονικοποίηση, και ο δοαμερισμός χρονοσειρών ακτιγραφίας σε επιμέρους συνιστώσες τάσης-εποχικότητας χρησιμοποιώντας LOESS (STL), τη δημιουργία νεων χρονοσειρών μέσης ημερήσιας τιμής, καθώς και μεθόδους εξισορρόπησης των κατηγοριών δειγμάτων. Επιπλέον υποστηρίζει τεχνικές μηχανικής μάθησης, όπως η ρύθμιση υπερπαραμέτρων, η επιλογή βέλτιστου μοντέλου για διάφορους αλγόριθμους εκτίμησης, μαζί με ροή εργασιών για στατιστική σύγκριση εκτιμητών, ομαδοποίηση χρονοσειρών κτλ.
Σε συνεργασία με την ομάδα Έρευνας Βιοδεικτών Νευροεκφύλισης του Αιγινήτειου Νοσοκομείου (ALBION) στο Πανεπιστήμιο Αθηνών, χρησιμοποιήσαμε το πακέτο για να αναπτύξουμε μοντέλα αναφοράς για δύο σημαντικά προβλήματα ταξινόμησης με βάση μόνο την ακτιγραφία των ασθενών: τη διάκριση συμμετεχόντων Ελέγχου (NC) από εκείνους με Ήπια Γνωσιακή Εξασθένηση (MCI), και τη διαφοροποίηση συμμετεχόντων στη μελέτη με αρνητικό τεστ Εγκεφαλονωτιαίου Υγρού (CSF) από εκείνους με θετικό τεστ. Αυτές οι εργασίες ταξινόμησης είναι ιδιαίτερα απαιτητικές λόγω του μικρού μεγέθους των αντίστοιχων συνόλων δεδομένων MCI (119 δείγματα) και CSF (76 δείγματα), καθώς επίσης και των εξαιρετικά μη ισορροπημένων κατανομών των κατηγοριών δειγμάτων που βρίσκονται σε αναλογία σχεδόν 4 προς 1 αρνητικα προς θετικά δείγματα.
Παρά τις προκλήσεις αυτές, αξιοποιήσαμε την υπολογιστική ισχύ που προσφέρουν τα υπολογιστικά νέφη (cloud computing) για να διεξάγουμε πολυάριθμα πειράματα σχεδιασμού μοντέλων, και να διερευνήσουμε πώς διαφορετικές τεχνικές επεξεργασίας και μετασχηματισμού χρονοσειρών ακτιγραφίας επηρεάζουν την απόδοση των αλγορίθμων ταξινόμησης. Κύριος στόχος μας ήταν να καθορίσουμε επίπεδα απόδοσης αναφοράς (baseline) που μπορούν να επιτευχθούν απο ταξινομητές χρονοσειρών απευθείας, δηλαδή χωρίς την εξαγωγή χαρακτηριστικών (feature engineering).
Μέσω δέκα γύρων επαναλαμβανόμενης ένθετης διασταυρούμενης επικύρωσης ( repeated nested cross validation), διαπιστώσαμε ότι για την ταξινόμηση MCI, τα μοντέλα αναφοράς μπορούν να επιτύχουν τιμές διάμεσου AUC (area under the curve) στο εύρος τιμών [0,61, 0,71], τιμές Recall (ευαισθησίας) στο εύρος [0,5, 0,6], και τιμές Specificity (ειδικότητας) μεταξύ [0,7, 0,83]. Στην ταξινόμηση των δεδομένων CSF, χρησιμοποιώντας ένα εξαιρετικά περιορισμένο σύνολο δεδομένων, τα μοντέλα αναφοράς έφτασαν σε τιμές διάμεσου AUC στο εύρος [0,58, 0,66], τιμές Recall στο [0,5, 0,667], και τιμές Specificity μεταξύ [0,667, 0,75]. Τα αποτελέσματα αυτά είναι ελπιδοφόρα, λαμβάνοντας υπόψη τους σοβαρούς περιορισμούς των συνόλων δεδομένων που αναλύθηκαν και το γεγονός ότι δεν χρησιμοποιήθηκε εξαγωγή χαρακτηριστικών απο τις χρονοσειρές. Είναι αξιοσήμείωτο ότι τα αποδοτικότερα μοντέλα αναφοράς είναι αυτά που έκαναν “φειδωλές” επιλογές (parsimonious modeling), όπως, (α) χρήση μόνο του δεύτερου οκταώρου κάθε ημέρας, (β) εστίαση αποκλειστικά στη χρονοσειρά τάσης της ακτιγραφίας, ή (γ) χρήση μόνο της μέσης ακτιγραφίας ανά ώρα.
Η ανάλυση για κάθε δείγμα του συνόλου δεδομένων του Ποσοστού Σωστής Ταξινόμησης ανά δείγμα χρησιμοποιώντας τα καλύτερα μοντελα αποκάλυψε ότι οι περιορισμοί απόδοσης προέρχονταν από την ανεπαρκή αναπαράσταση στα σύνολα δεδομένων προτύπων MCI υψηλής ακτιγραφικής δραστηριότητας καθώς και προτύπων NC χαμηλής ακτιγραφικής δραστηριότητας. Αυτό οδηγεί στο συμπερασμα ότι βελτίωση της απόδοσης αναμένεται να επιτευχθεί στο μέλλον μέσω της δημιουργίας ενός μεγαλύτερου και πιο ισορροπημένου συνόλου δεδομένων ακτιγραφίας για την πληρέστερη εκπαίδευση μοντέλων μηχανικης μάθησης, της χρήσης κατάλληλα επιλεγμένων χαρακτηριστικών, και της παραγωγής αξιόπιστων συνθετικών δεδομένων, διαδικασίες που υποστηρίζονται από το πακέτο.
ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ:
Δρ. Ηλίας Μανωλάκος, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (Επιβλέπων)
Δρ. Νικόλαος Σκαρμέας, Καθηγητής Νευρολογίας, Τμήμα Ιατρικής Σχολής, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Δρ. Σταύρος Περαντώνης, Διευθυντής Ερευνών, Ίδρυμα ΕΚΕΦΕ, Δημόκριτος
Join Zoom Meeting
https://us02web.zoom.us/j/85301739067?pwd=XdjatZK9HkTZtZBqKLtbLbXRSALyLx.1
Meeting ID: 853 0173 9067
Passcode: 228253
Dial by your location
- +1 301 715 8592 US (Washington DC)
- +1 305 224 1968 US
- +30 231 118 0599 Greece
- +30 211 198 4488 Greece
Find your local number: https://us02web.zoom.us/u/kbpnDPWcd