On Tuesday, September 23, 2025, at 14:00, Ms. Evangelia Giannaki of the postgraduate
program “Data Science and Information Technologies”, track on “Bioinformatics – Biomedical Data Science”, will present her MSc thesis titled:
CRISPR-Cas9 guide RNA efficiency prediction with pretrained DNA language models
Abstract
Improving the prediction of CRISPR-Cas9 guide RNA (gRNA) efficiency is a key factor in successful genome editing. Using deep learning and transfer learning approaches, we leveraged DNABERT—a BERT-based transformer model pretrained on the human genome—to predict on-target activity directly from DNA sequences. Two variants of DNABERT were fine-tuned for gRNAs expressed under the human U6 and T7 promoters, trained on curated experimental datasets. The models effectively capture complex sequence patterns, achieving high predictive accuracy while offering interpretability through attention weights, providing insights into the molecular determinants of gRNA efficiency. This work demonstrates the power of pretrained DNA language models in functional genomics and supports more efficient, scalable, and data-driven design of CRISPR guide RNAs for research and therapeutic applications.
EXAMINATION COMMITTEE:
Dr. Stavros Perantonis, Research Director, Institute of Informatics and Telecommunications, National Center for Scientific Research “Demokritos”
Dr. Ourania Tsitsilonis, Professor of Immunology, Department of Biology, National and Kapodistrian University of Athens
Dr. Anastasia Krithara, Researcher C, Institute of Informatics and Telecommunications, National Center for Scientific Research “Demokritos”
23 September 2025
14:00 – 15:00 (GTB)
Join Zoom Meeting
https://us06web.zoom.us/j/86553443736?pwd=m1gAYLMTQWadcMLb9ebd5zOSQBWOvI.1
Meeting ID: 865 5344 3736
Passcode: 8aKzeB
Την Τρίτη 23 Σεπτεμβρίου 2025, στις 14:00, η κα Ευαγγελία Γιαννάκη, μεταπτυχιακή
φοιτήτρια του προγράμματος «Επιστήμη Δεδομένων και Τεχνολογίες Πληροφορίας», με
ειδίκευση «Βιοπληροφορική – Επιστήμη Βιοϊατρικών Δεδομένων», θα παρουσιάσει διαδικτυακά τη διπλωματική εργασία της με τίτλο:
Πρόβλεψη της αποτελεσματικότητας του CRISPR-Cas9 guide RNA με προεκπαιδευμένα γλωσσικά μοντέλα DNA
Περίληψη
Η βελτίωση της πρόβλεψης της αποτελεσματικότητας των guide RNA (gRNA) του συστήματος CRISPR-Cas9 αποτελεί βασικό παράγοντα για την επιτυχή επεξεργασία του γονιδιώματος. Με τη χρήση μεθόδων βαθιάς μάθησης (deep learning) και μεταφοράς μάθησης (transfer learning), αξιοποιείται το DNABERT—ένα transformer μοντέλο βασισμένο στο BERT, προεκπαιδευμένο στο ανθρώπινο γονιδίωμα—για την πρόβλεψη της στοχευμένης δραστηριότητας απευθείας από τις αλληλουχίες DNA. Δύο παραλλαγές του DNABERT προσαρμόστηκαν ξεχωριστά για gRNAs που εκφράζονται υπό τους υποκινητές U6 και T7, εκπαιδευόμενες σε επιλεγμένα πειραματικά σύνολα δεδομένων. Τα μοντέλα καταφέρνουν να αναγνωρίζουν σύνθετα μοτίβα αλληλουχίας, επιτυγχάνοντας υψηλή ακρίβεια πρόβλεψης, ενώ παράλληλα παρέχουν δυνατότητα ερμηνείας μέσω των βαρών προσοχής (attention weigths), προσφέροντας πληροφορίες για τους μοριακούς παράγοντες που καθορίζουν την αποτελεσματικότητα των gRNAs. Η εργασία αυτή αναδεικνύει τη δυναμική των προεκπαιδευμένων μοντέλων γλώσσας DNA στη λειτουργική γονιδιωματική και υποστηρίζει τον πιο αποτελεσματικό, κλιμακώσιμο (scalable) και βασισμένο σε δεδομένα σχεδιασμό CRISPR gRNAs για ερευνητικές και θεραπευτικές εφαρμογές.
ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ:
Δρ Σταύρος Περαντώνης, Διευθυντής Ερευνών, Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών, Εθνικό Κέντρο Έρευνας Φυσικών Επιστημών «Δημόκριτος»
Δρ Ουρανία Τσιτσιλώνη, Καθηγήτρια Ανοσολογίας, Τμήμα Βιολογίας, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Δρ Αναστασία Κριθαρά, Ερευνήτρια Γ, Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών, Εθνικό Κέντρο Έρευνας Φυσικών Επιστημών «Δημόκριτος»
23 Σεπτεμβρίου 2025
14:00 – 15:00 (GTB)
Join Zoom Meeting
https://us06web.zoom.us/j/86553443736?pwd=m1gAYLMTQWadcMLb9ebd5zOSQBWOvI.1
Meeting ID: 865 5344 3736
Passcode: 8aKzeB
Leave A Comment