MSc Thesis presentation of Mr. Kyriakos Psallidas, Thursday 19/12/2024, 14.00
On Thursday, December 19, 2024, at 14:00, Mr. Kyriakos Psallidas of the graduate program “Data Science and Information Technologies”, track on “Bioinformatics – Biomedical Data Science”, will present his MSc thesis titled:
AI4ACT, A tool for Actigraphy Time Series Data Analysis
Abstract
Actigraphy is an affordable, non-invasive method for monitoring activity patterns over day and night, proving valuable in healthcare areas such as cardiovascular diseases, sleep disorders, and cognitive impairment. With its increasing popularity, there is a growing need for effective machine learning techniques to analyze time series datasets, enabling researchers to derive biological insights and predict disease conditions. However, actigraphy datasets are often limited in size (typically a few hundred samples), suffer from class imbalance, and lack standardized methods for comparing classifiers developed with actigraphy time series data.
This thesis presents a Command-Line Interface (CLI) package for processing and analyzing actigraphy data. The package includes a comprehensive range of dataset transformations, such as time series smoothing, normalization, Seasonality-Trend Decomposition using LOESS (STL), day-averaging, class balancing methods, and various feature engineering techniques. Additionally, it supports hyperparameter tuning, model selection, and various estimator algorithms, along with a modular workflow for estimator comparison, model evaluation, inference, and time series clustering.
In collaboration with the Aiginition Longitudinal Biomarker Investigation of Neurodegeneration (ALBION) study at the University of Athens, we utilized the package to develop baseline models for two classification tasks: distinguishing Normal Control (NC) participants from those with Mild Cognitive Impairment (MCI), and differentiating Cerebrospinal Fluid (CSF) test-negative participants from test-positive ones. These classification tasks are particularly challenging due to the small sizes of the MCI (119 samples) and CSF (76 samples) ALBION datasets, as well as their highly imbalanced class distributions, which show an approximately 4-to-1 ratio of negative to positive samples.
Despite these challenges, we leveraged cloud-based computing to conduct numerous model design experiments, evaluating how various time series preprocessing and transformation techniques impact classifier performance. Our main goal was to establish baseline performance levels achievable without feature engineering.
Through ten rounds of repeated nested cross-validation, we found that for MCI classification, baseline models can achieve median AUC values in the range [0.61, 0.71], Recall values in [0.5, 0.6], and Specificity values between [0.7, 0.83]. For the CSF endpoint classification, using a severely limited dataset, the baseline models reached median AUC values in the range [0.58, 0.66], Recall values in [0.5, 0.667], and Specificity values between [0.667, 0.75]. These results are promising when considering the dataset limitations and the fact that no feature engineering was employed. Notably, the best-performing models made parsimonious choices, such as using only the first 8 hours of each day, focusing solely on the trend component of the time series, or including only one feature per hour.
Analysis of the per-sample Correct Classification Rate across the best-performing models revealed that performance limitations stemmed from the inadequate representation of high-activity MCI and low-activity NC patterns within the small datasets. Improvements could be realized by generating a larger, more balanced actigraphy dataset for training, effective feature engineering, and synthetic data generation—processes supported by the package.
EXAMINATION COMMITTEE:
Prof. Elias Manolakos, Department of Informatics and Telecommunications, University of Athens (thesis supervisor)
Prof. Nikolaos Skarmeas, Professor of Neurology, Department of Medicine, University of Athens.
Dr. Stavros Perantonis, Research Director National Center for Scientific Research “Demokritos”
Join Zoom Meeting
https://us02web.zoom.us/j/85301739067?pwd=XdjatZK9HkTZtZBqKLtbLbXRSALyLx.1
Meeting ID: 853 0173 9067
Passcode: 228253
Dial by your location
- +1 301 715 8592 US (Washington DC)
- +1 305 224 1968 US
- +30 231 118 0599 Greece
- +30 211 198 4488 Greece
Find your local number: https://us02web.zoom.us/u/kbpnDPWcd
Την Πέμπτη 19 Δεκεμβρίου 2024, στις 14:00, ο κ. Κυριάκος Ψαλλίδας μεταπτυχιακός φοιτητής του προγράμματος «Επιστήμη Δεδομένων και Τεχνολογίες Πληροφορίας», με ειδίκευση «Βιοπληροφορική – Επιστήμη Βιοϊατρικών Δεδομένων», θα παρουσιάσει διαδικτυακά την διπλωματική εργασίας του με τίτλο:
AI4ACT, Eργαλείο λογισμικού για Ανάλυση Χρονοσειρών Ακτιγραφίας
Περίληψη
Η ακτιγραφία είναι μια χαμηλού κόστους, μη επεμβατική μέθοδος παρακολούθησης της ανθρώπινης δραστηριότητας καθόλη τη διάρκεια της μέρας και της νύχτας, που μπορεί να παρέχει έγκαιρα χρήσιμες πληροφορίες σε περιπτώσεις όπως οι καρδιαγγειακές παθήσεις, οι διαταραχές ύπνου και η πρώιμη γνωσιακή εξασθένηση. Καθώς αυξάνεται η δημοφιλία της χρήσης της, δημιουργείται η ανάγκη ανάπτυξης τεχνικών μηχανικής μάθησης για την ανάλυση χρονοσειρών ακτιγραφίας, που να επιτρέπουν στους ερευνητές να εξάγουν ασφαλή συμπεράσματα σχετικά με τους υποκείμενους βιολογικούς μηχανισμούς των υπο παρακολούθηση διεργασιών, καθώς και να προβλέψουν έγαιρα την πιθανή εξέλιξη παθολογικών καταστάσεων. Ωστόσο, τα σετ δεδομένων ακτιγραφίας που διατίθενται για έρευνα σήμερα είναι περιορισμένα σε μέγεθος (στη καλύτερη περίπτωση μερικές εκατοντάδες δείγματα) και πάσχουν από ανισορροπία κατηγοριών που δυσκολεύει την συστηματική σύγκριση αλγορίθμων ταξινόμισης.
Η διπλωματική αυτή εργασία παρουσιάζει ένα πακέτο CLI σχεδιασμένο για την προεπεξεργασία και ανάλυση δεδομένων ακτιγραφίας. Το πακέτο περιλαμβάνει ένα ολοκληρωμένο σετ μετασχηματισμών δεδομένων, όπως την εξομάλυνση, κανονικοποίηση, και ο δοαμερισμός χρονοσειρών ακτιγραφίας σε επιμέρους συνιστώσες τάσης-εποχικότητας χρησιμοποιώντας LOESS (STL), τη δημιουργία νεων χρονοσειρών μέσης ημερήσιας τιμής, καθώς και μεθόδους εξισορρόπησης των κατηγοριών δειγμάτων. Επιπλέον υποστηρίζει τεχνικές μηχανικής μάθησης, όπως η ρύθμιση υπερπαραμέτρων, η επιλογή βέλτιστου μοντέλου για διάφορους αλγόριθμους εκτίμησης, μαζί με ροή εργασιών για στατιστική σύγκριση εκτιμητών, ομαδοποίηση χρονοσειρών κτλ.
Σε συνεργασία με την ομάδα Έρευνας Βιοδεικτών Νευροεκφύλισης του Αιγινήτειου Νοσοκομείου (ALBION) στο Πανεπιστήμιο Αθηνών, χρησιμοποιήσαμε το πακέτο για να αναπτύξουμε μοντέλα αναφοράς για δύο σημαντικά προβλήματα ταξινόμησης με βάση μόνο την ακτιγραφία των ασθενών: τη διάκριση συμμετεχόντων Ελέγχου (NC) από εκείνους με Ήπια Γνωσιακή Εξασθένηση (MCI), και τη διαφοροποίηση συμμετεχόντων στη μελέτη με αρνητικό τεστ Εγκεφαλονωτιαίου Υγρού (CSF) από εκείνους με θετικό τεστ. Αυτές οι εργασίες ταξινόμησης είναι ιδιαίτερα απαιτητικές λόγω του μικρού μεγέθους των αντίστοιχων συνόλων δεδομένων MCI (119 δείγματα) και CSF (76 δείγματα), καθώς επίσης και των εξαιρετικά μη ισορροπημένων κατανομών των κατηγοριών δειγμάτων που βρίσκονται σε αναλογία σχεδόν 4 προς 1 αρνητικα προς θετικά δείγματα.
Παρά τις προκλήσεις αυτές, αξιοποιήσαμε την υπολογιστική ισχύ που προσφέρουν τα υπολογιστικά νέφη (cloud computing) για να διεξάγουμε πολυάριθμα πειράματα σχεδιασμού μοντέλων, και να διερευνήσουμε πώς διαφορετικές τεχνικές επεξεργασίας και μετασχηματισμού χρονοσειρών ακτιγραφίας επηρεάζουν την απόδοση των αλγορίθμων ταξινόμησης. Κύριος στόχος μας ήταν να καθορίσουμε επίπεδα απόδοσης αναφοράς (baseline) που μπορούν να επιτευχθούν απο ταξινομητές χρονοσειρών απευθείας, δηλαδή χωρίς την εξαγωγή χαρακτηριστικών (feature engineering).
Μέσω δέκα γύρων επαναλαμβανόμενης ένθετης διασταυρούμενης επικύρωσης ( repeated nested cross validation), διαπιστώσαμε ότι για την ταξινόμηση MCI, τα μοντέλα αναφοράς μπορούν να επιτύχουν τιμές διάμεσου AUC (area under the curve) στο εύρος τιμών [0,61, 0,71], τιμές Recall (ευαισθησίας) στο εύρος [0,5, 0,6], και τιμές Specificity (ειδικότητας) μεταξύ [0,7, 0,83]. Στην ταξινόμηση των δεδομένων CSF, χρησιμοποιώντας ένα εξαιρετικά περιορισμένο σύνολο δεδομένων, τα μοντέλα αναφοράς έφτασαν σε τιμές διάμεσου AUC στο εύρος [0,58, 0,66], τιμές Recall στο [0,5, 0,667], και τιμές Specificity μεταξύ [0,667, 0,75]. Τα αποτελέσματα αυτά είναι ελπιδοφόρα, λαμβάνοντας υπόψη τους σοβαρούς περιορισμούς των συνόλων δεδομένων που αναλύθηκαν και το γεγονός ότι δεν χρησιμοποιήθηκε εξαγωγή χαρακτηριστικών απο τις χρονοσειρές. Είναι αξιοσήμείωτο ότι τα αποδοτικότερα μοντέλα αναφοράς είναι αυτά που έκαναν “φειδωλές” επιλογές (parsimonious modeling), όπως, (α) χρήση μόνο του δεύτερου οκταώρου κάθε ημέρας, (β) εστίαση αποκλειστικά στη χρονοσειρά τάσης της ακτιγραφίας, ή (γ) χρήση μόνο της μέσης ακτιγραφίας ανά ώρα.
Η ανάλυση για κάθε δείγμα του συνόλου δεδομένων του Ποσοστού Σωστής Ταξινόμησης ανά δείγμα χρησιμοποιώντας τα καλύτερα μοντελα αποκάλυψε ότι οι περιορισμοί απόδοσης προέρχονταν από την ανεπαρκή αναπαράσταση στα σύνολα δεδομένων προτύπων MCI υψηλής ακτιγραφικής δραστηριότητας καθώς και προτύπων NC χαμηλής ακτιγραφικής δραστηριότητας. Αυτό οδηγεί στο συμπερασμα ότι βελτίωση της απόδοσης αναμένεται να επιτευχθεί στο μέλλον μέσω της δημιουργίας ενός μεγαλύτερου και πιο ισορροπημένου συνόλου δεδομένων ακτιγραφίας για την πληρέστερη εκπαίδευση μοντέλων μηχανικης μάθησης, της χρήσης κατάλληλα επιλεγμένων χαρακτηριστικών, και της παραγωγής αξιόπιστων συνθετικών δεδομένων, διαδικασίες που υποστηρίζονται από το πακέτο.
ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ:
Δρ. Ηλίας Μανωλάκος, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (Επιβλέπων)
Δρ. Νικόλαος Σκαρμέας, Καθηγητής Νευρολογίας, Τμήμα Ιατρικής Σχολής, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Δρ. Σταύρος Περαντώνης, Διευθυντής Ερευνών, Ίδρυμα ΕΚΕΦΕ, Δημόκριτος
Join Zoom Meeting
https://us02web.zoom.us/j/85301739067?pwd=XdjatZK9HkTZtZBqKLtbLbXRSALyLx.1
Meeting ID: 853 0173 9067
Passcode: 228253
Dial by your location
- +1 301 715 8592 US (Washington DC)
- +1 305 224 1968 US
- +30 231 118 0599 Greece
- +30 211 198 4488 Greece
Find your local number: https://us02web.zoom.us/u/kbpnDPWcd
MSc Thesis presentation of Alexandros Tavernarakis, Monday 14/10/2024, 16.00
On Monday, October 14, 2024, at 16:00, Mr. Alexandros Tavernarakis of the
graduate program “Data Science and Information Technologies”, will present
on a Google Meet meeting his MSc thesis titled:
“Machine Learning-driven light shaping for optomechanical measurement
optimization.”
Abstract
Optomechanics is the field investigating the interactions between light
and mechanical motion. Optomechanics has long been identified as the best
strategy to proceed with measuring mechanical motion. Moreover, the
ability to efficiently couple light at the nanoscale has rushed the field
into using so-called nano-optomechanical systems, whose mechanical
responsivity is dramatically enhanced due to their ultra-low masses.
However, the usual hypothesis required for describing ultra-sensitive
measurements are waived at that scale leading to suboptimal and poorly
understood measurements.
To tackle this issue, we envision to implement a maching-learning platform
enabling to both address the quantum limits of nano-optomechanical
measurements and to auto-tune the system-dependent optimal nanomotion
observable. This platform rely on a multimode coherent imaging and light
shaping system inserted into an machine-learing-driven computer feedback
loop. This work presents the multiple challenges that had to be faced,
depending on the physical light scattering properties of the medium, its
geometry and its coupling to nanomotion, all parameters which have to be
accounted, recognized and best dealt with by the feedback process.
EXAMINATION COMMITTEE:
Haris Papageorgiou, Senior Researcher ATHENA (thesis supervisor)
Konstantinos Koutroumpas, Research Director NOA
Pierre Verlot, Assistant Professor Paris-Saclay University
Join Google Meet Meeting
Tavernarakis Alexandros- DSIT_MSc Presentation
Monday, October 14 · 16:00 – 17:30pm
FINAL PROGRAM FALL SEMESTER 2024-25
DATA SCIENCE AND INFORMATION TECHNOLOGIES | ||||||
FALL SEMESTER 2024-25 | ||||||
MONDAY | TUESDAY | WEDNESDAY | THURSDAY | FRIDAY | ||
Lesson Code | HOURS | HOURS | HOURS | HOURS | HOURS | |
Μ164 | Knowledge Technologies | 11 a.m.-2 p.m. | ||||
Koubarakis – Santipantakis | ||||||
Required 1st Elective 2nd | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom Γ | ||||||
M415 | Computer Vision | 2-5 p.m. | ||||
Avrithis- Psomas | ||||||
Elective 1st | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom Δ | ||||||
Μ430 | Machine Learning | 6-9 p.m. | ||||
Perantonis | ||||||
Required 1st and 2nd | ||||||
(online) | ||||||
Μ417 | Introduction to Biotechnology | 12 n.-3 p.m. | ||||
Tsaggaris-Stravopodis-Tsitsiloni | ||||||
Required 2nd | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom Γ | ||||||
Μ416 | Biology-Physiology | 10 a.m.-1 p.m. | ||||
Stravopodis-Tsitsiloni-Anastasiadou | ||||||
Required 2nd | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom Δ | ||||||
Μ413 | Introduction to Bioinformatics | 2 p.m-5 p.m. | ||||
Reczko-Dimopoulos | ||||||
Required 2nd Elective 1st | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom Γ | ||||||
M402 | Clustering Algorithms | 5-8 p.m. | ||||
Koutroumpas | ||||||
Elective 1st and 2nd | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom Γ | ||||||
Μ161 | High scale Analytics | 9 a.m.-12 p.m. | ||||
Gunopulos | ||||||
Required 1st Elective 2nd | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom ΣΤ | ||||||
Μ404 | Biostatistics | 12 n.-3 p.m. | ||||
Linardatos | ||||||
Elective 1st and 2nd | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom Γ | ||||||
Μ401 | Deep Neural Networks | 3-6 p.m. | ||||
Papageorgiou- Kolovou | ||||||
Required 1st Elective 2nd | ||||||
Depart. of Informatics & Telecom. NKUA | ||||||
Classroom Γ | ||||||
Clarification: | 1st : Specialization Big Data and AI | |||||
2nd: Specialization Bioinformatics -Biomedical Data Science |
Έναρξη Μαθημάτων χειμερινού εξαμήνου α.ε 2024-2025
Τη Δευτέρα 7/10 αρχίζουν οι διαλέξεις των μαθημάτων του DSIT. Το πρόγραμμα μαθημάτων θα αναρτηθεί σύντομα.
ΑΚΑΔΗΜΑΪΚΟ ΗΜΕΡΟΛΟΓΙΟ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΚΑΔ. ΕΤΟΥΣ 2024-25
Δείτε εδώ το Ακαδημαϊκό Ημερολόγιο 2024-2025
Python Boot Camp-Fall DSIT 2024-25
During the first week (30/9 to 4/10) of the fall semester, all new students will attend the Python Boot Camp, which will take place from 17:00 pm to 20:00 pm (physically) at the the Linux Labs of the Department of Informatics and Telecommunications.
Days of the bootcamp:
Monday the 30th of September, 17:00 pm to 20:00 pm, Linux Labs of the Department of Informatics and Telecommunications
Tuesday the 1st of October, 17:00 pm to 20:00 pm, Linux Labs of the Department of Informatics and Telecommunications
Thursday the 3rd of October, 17:00 pm to 20:00 pm, Linux Labs of the Department of Informatics and Telecommunications
Friday the 4th of October, 17:00 pm to 20:00 pm, Linux Labs of the Department of Informatics and Telecommunications