MSc Thesis presentation of Mr. Spyridon Alvanakis-Apostolou, Wednesday, August 27, 2025

//MSc Thesis presentation of Mr. Spyridon Alvanakis-Apostolou, Wednesday, August 27, 2025

MSc Thesis presentation of Mr. Spyridon Alvanakis-Apostolou, Wednesday, August 27, 2025

On Wednesday, August 27, 2025, at 17:15 (EET), Mr. Spyridon Alvanakis-Apostolou of the graduate program “Data Science and Information Technologies”, track on “Bioinformatics – Biomedical Data Science”, will present his MSc thesis titled:

ML4META – A comprehensive tool for Metabolomics Data Analysis

ABSTRACT
Metabolomics is an emerging field of biomedical research that focuses on the analysis of small-molecule metabolites to decipher disease mechanisms and characterize phenotypic diversity. With growing diverse applications in biomarker discovery, drug development, personalized medicine, environmental monitoring, etc., there is an increasing need for machine learning tools to build explainable predictive models exploiting metabolomics datasets. However, these datasets are typically characterized by small sample sizes, very high dimensionality, class imbalance, and a lack of standardized bioinformatic workflows for their analysis.
We present ML4META, a comprehensive Python package for analyzing metabolomics datasets in tabular format. The package includes preprocessing capabilities, stable feature selection, hyperparameter tuning across multiple estimator algorithms, model selection and evaluation methods, inference, and integrated Shapley Additive Explanation-based feature importance ranking to facilitate biomarker discovery.
We validated the diverse capabilities of ML4META using two publicly available metabolomics datasets with very different characteristics: the Parkinson’s Disease [2] Epic Composite dataset (72 subjects, 1430 features) and the ICC single-cell dataset (1544 cells, 511 features). The first dataset exemplifies clinical investigations with typically small patient sample sizes and large feature sets, while the second phenotypic characterization and high-complexity feature relationships apparent in large-scale single-cell data.
We propose a hybrid approach for biomarker discovery that combines model-agnostic feature selection using Minimum Redundancy Maximum Relevance (MRMR) with SHAP-based feature importance ranking to identify high-confidence biomarker candidates that exhibit both robust selectivity and strong predictive importance. Unlike approaches that rely solely on SHAP importance values using the entire feature set and one predictive model, our hybrid approach favors selecting stable features exhibiting an optimal trade-off between relevance and redundancy using model-agnostic repeated MRMR, and high feature importance across multiple high-performance models using SHAP values. Our more strict hybrid methodology aims to address model-specific bias, improve the robustness of feature selection across algorithms, and reduce model exposure to noisy features.
For the Parkinson’s Disease EPIC dataset, we identified simple interpretable ElasticNet models that achieve AUC values exceeding 0.98. Our analysis validated the five key biomarkers previously identified in the reference study using a neural network, confirmed the importance of six additional features highlighted in that work, and revealed one novel potential biomarker not previously reported. For the ICC single-cell classification problem, tree-based estimators achieved AUC scores of 0.83-0.84, while identifying 14 potential biomarkers, 9 of which were not included in the original study.
Our hybrid approach, combining model-agnostic feature selectivity based on stability with model-specific feature importance ranking across many estimators, provides an improved robustness framework for biomarker discovery that minimizes false positive features while ensuring biological interpretability.

Examination Committee:
Dr. Theodoros Dalamagas, Research Director, Information Management Systems Institute, Athena Research Center
Prof. Ioannis Emiris, Dept. of Infomatics and Telecommunications, University of Athens
Prof. Emeritus Elias S. Manolakos (research advisor) Dept. of Infomatics and Telecommunications, University of Athens

Join Zoom Meeting
https://us02web.zoom.us/j/84359745074?pwd=RLiiCtTLVWLvwlvCZgp7Ha8IHcH2sP.1
Meeting ID: 843 5974 5074
Passcode: 546307

One tap mobile
+302111984488,,84359745074#,,,,*546307# Greece
+302311180599,,84359745074#,,,,*546307# Greece
Join instructions
https://us02web.zoom.us/meetings/84359745074/invitations?signature=pBzPaNpnRw6yDMyG8bHsfijaJRHChg2Fj3vDnGGLKsk

ML4META – Πλήρες εργαλείο λογισμικού για Ανάλυση Μεταβολικών Δεδομένων

ΠΕΡΙΛΗΨΗ
Η μεταβολομική είναι ένας αναδυόμενος τομέας της βιοϊατρικής έρευνας που επικεντρώνεται στην ανάλυση μικρομοριακών μεταβολιτών για την αποκρυπτογράφηση των μηχανισμών των ασθενειών και τον χαρακτηρισμό της φαινοτυπικής ποικιλομορφίας. Καθώς αυξάνονται οι εφαρμογές της μεταβολομικής στην ανακάλυψη βιοδεικτών, την ανάπτυξη φαρμάκων, την εξατομικευμένη ιατρική, την περιβαλλοντική παρακολούθηση κ.λπ., υπάρχει ανάγκη για εργαλεία μηχανικής μάθησης για την κατασκευή ερμηνεύσιμων μοντέλων πρόβλεψης που να αξιοποιούν σύνολα δεδομένων μεταβολομική. Ωστόσο, αυτά τα δεδομένα χαρακτηρίζονται τυπικά από μικρά μεγέθη δειγμάτων, πολύ υψηλή διαστατικότητα, ανισορροπία κλάσεων και έλλειψη τυποποιημένων βιοπληροφορικών ροών εργασίας για την ανάλυσή τους.
Παρουσιάζουμε το ML4META, ένα ολοκληρωμένο πακέτο Python για την ανάλυση συνόλων δεδομένων μεταβολομικής που παρέχονται σε μορφή πίνακα. Το πακέτο περιλαμβάνει δυνατότητες για προεπεξεργασία δεδομένων, επιλογή σταθερών χαρακτηριστικών, ρύθμιση υπερπαραμέτρων για πολλαπλούς αλγορίθμους εκτίμησης, μεθόδους επιλογής και αξιολόγησης μοντέλων, συμπερασμό και ενσωματωμένη κατάταξη σπουδαιότητας χαρακτηριστικών βασισμένη σε Shapley Additive Explanation για τη διευκόλυνση της ανακάλυψης δυνητικών βιοδεικτών.
Επικυρώσαμε τις ποικίλες δυνατότητες του ML4META χρησιμοποιώντας δύο δημόσια διαθέσιμα σύνολα δεδομένων μεταβολομικής με πολύ διαφορετικά χαρακτηριστικά: το σύνολο δεδομένων Parkinson’s Disease EPIC Composite (72 υποκείμενα, 1430 χαρακτηριστικά) και το σύνολο δεδομένων ICC μονοκυττάρων (1544 κύτταρα, 511 χαρακτηριστικά). Το πρώτο σύνολο δεδομένων αντιπροσωπεύει κλινικές έρευνες με τυπικά μικρά μεγέθη δειγμάτων ασθενών και μεγάλα σύνολα χαρακτηριστικών, ενώ το δεύτερο φαινοτυπικό χαρακτηρισμό και σχέσεις χαρακτηριστικών υψηλής πολυπλοκότητας που είναι εμφανείς σε δεδομένα μονοκυττάρων.
Προτείνουμε μια υβριδική προσέγγιση για την ανακάλυψη δυνητικών βιοδεικτών που συνδυάζει μοντέλο-ανεξάρτητη επιλογή σταθερών χαρακτηριστικών χρησιμοποιώντας Minimum Redundancy Maximum Relevance (MRMR) με κατάταξη σπουδαιότητας χαρακτηριστικών βασισμένη σε SHAP για την ταυτοποίηση υποψήφιων βιοδεικτών υψηλής εμπιστοσύνης που επιδεικνύουν τόσο ισχυρή επιλεκτικότητα όσο και υψηλή προγνωστική σπουδαιότητα. Σε αντίθεση με προσεγγίσεις που βασίζονται αποκλειστικά σε τιμές σπουδαιότητας SHAP που έχουν προκύψει χρησιμοποιώντας ολόκληρο το σύνολο χαρακτηριστικών και ένα μόνο μοντέλο πρόβλεψης, η υβριδική μας προσέγγιση ευνοεί την επιλογή σταθερών χαρακτηριστικών, που επιδεικνύουν βέλτιστο trade-off μεταξύ συνάφειας και πλεονασμού χρησιμοποιώντας μοντέλο-ανεξάρτητο επαναλαμβανόμενο MRMR, και υψηλή σπουδαιότητα σε πολλαπλά υψηλής απόδοσης μοντέλα χρησιμοποιώντας τιμές SHAP. Η πιο αυστηρή υβριδική μας μεθοδολογία στοχεύει στην αντιμετώπιση της μοντέλο-ειδικής μεροληψίας, τη βελτίωση της ευρωστίας της επιλογής χαρακτηριστικών και τη μείωση της έκθεσης των μοντέλων σε θορυβώδη χαρακτηριστικά.
Για το σύνολο δεδομένων Parkinson’s Disease EPIC, ανακαλύψαμε απλά ερμηνεύσιμα μοντέλα ElasticNet που επιτυγχάνουν τιμές AUC που υπερβαίνουν το 0.98. Η ανάλυσή μας επικύρωσε τους πέντε βασικούς βιοδείκτες που προηγουμένως ταυτοποιήθηκαν στη μελέτη αναφοράς χρησιμοποιώντας νευρωνικό δίκτυο, επιβεβαίωσε τη σπουδαιότητα έξι επιπλέον χαρακτηριστικών που τονίστηκαν σε εκείνη την εργασία και αποκάλυψε έναν νέο δυνητικό βιοδείκτη που δεν είχε προηγουμένως αναφερθεί. Για το πρόβλημα ταξινόμησης ICC μονοκυττάρων, οι εκτιμητές βασισμένοι σε δέντρα πέτυχαν επιδόσεις AUC 0.83-0.84, ενώ ταυτοποίησαν 14 δυνητικούς βιοδείκτες, 9 από τους οποίους δεν περιλαμβάνονταν στην αρχική μελέτη.
Η υβριδική μας προσέγγιση, που συνδυάζει τη σταθερότητα των χαρακτηριστικών ανεξάρτητα από το μοντέλο με την κατάταξη της ερμηνευτικής σπουδαιότητας των χαρακτηριστικών αλλα για πολλαπλά μοντέλα, παρέχει ένα πλέον εύρωστο πλαίσιο για την ανακάλυψη βιοδεικτών που ελαχιστοποιεί τα ψευδώς θετικά χαρακτηριστικά, εξασφαλίζοντας παράλληλα τη βιολογική ερμηνευσιμότητα.

Τριμελής Επιτροπή:
Δρ. Θεόδωρος Δαλαμάγκας, Διευθυντής Ερευνών και Αναπληρωτής Διευθυντής του Ινστιτούτου Πληροφοριακών Συστημάτων του Ερευνητικού Κέντρου «ΑΘΗΝΑ»
Δρ. Ιωάννης Εμίρης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο της Αθηνών
Δρ. Ηλίας Μανωλάκος (Επιβλέπων), Ομότιμος Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

By |2025-08-26T00:53:14+00:00August 26th, 2025|DSIT|0 Comments

About the Author:

Leave A Comment