MSc Thesis presentation of Mr. Dimitrios Rontogiannis, Wednesday 5/3/2025

//MSc Thesis presentation of Mr. Dimitrios Rontogiannis, Wednesday 5/3/2025

MSc Thesis presentation of Mr. Dimitrios Rontogiannis, Wednesday 5/3/2025

On Wednesday, March 5, 2025, at 10:00, Mr. Dimitrios Rontogiannis of the graduate
program “Data Science and Information Technologies”, track on “Big Data and Artificial
Intelligence”, will present his MSc thesis titled:
Efficient and Interactive Evaluation of Large Language Models

Abstract

Evaluating large language models (LLMs) comprehensively is computationally expensive and
often fails to capture subtle performance differences. This thesis addresses two key challenges
in LLM evaluation—cost-effective accuracy estimation on static benchmarks and interactive
evaluation for in-depth analysis on complex tasks. For the first challenge, we develop methods
to estimate an LLM’s accuracy across multi-domain benchmarks without exhaustively evaluating
every instance by leveraging question embeddings, historical model responses, and
probabilistic modeling, thereby efficiently approximating accuracy while reducing computational
overhead for scalable assessments. The second challenge involves complex tasks where binary
pass/fail metrics are insufficient; to tackle this, we propose an interactive evaluation framework
that refines model responses through guided feedback, allowing for a more detailed assessment
of performance. This interaction enhances evaluation granularity and reveals detailed insights
into the model’s strengths, weaknesses, and reasoning behaviors, with a comprehensive report
synthesizing these insights into a nuanced perspective on model capabilities. By addressing
both cost-efficient accuracy estimation and interactive capability assessment, this thesis
contributes scalable and insightful methodologies for advancing LLM evaluation.

EXAMINATION COMMITTEE:

Prof. Dimitris Gunopulos, Department of Informatics and Telecommunications, University of
Athens (thesis supervisor)
Prof. Manolis Koubarakis, Department of Informatics and Telecommunications, University of
Athens
Prof. Yannis Panagakis, Department of Informatics and Telecommunications, University of
Athens
Wednesday, March 5 · 10:00 – 11:00am
Time zone: Europe/Athens

Google Meet joining info
Video call link: https://meet.google.com/nfw-sywh-qst

Την Τετάρτη 5 Μαρτίου 2025, στις 10:00, ο κ. Δημήτριος Ροντογιάννης μεταπτυχιακός
φοιτητής του προγράμματος «Επιστήμη Δεδομένων και Τεχνολογίες Πληροφορίας», με
ειδίκευση «Μεγάλα δεδομένα και τεχνητή νοημοσύνη», θα παρουσιάσει διαδικτυακά την
διπλωματική εργασίας του με τίτλο:

Αποτελεσματική και διαδραστική αξιολόγηση Μεγάλων Γλωσσικών Μοντέλων
Περίληψη
Η αξιολόγηση μεγάλων γλωσσικών μοντέλων (LLM) είναι υπολογιστικά δαπανηρή και συχνά
αποτυγχάνει να καταγράψει τις λεπτές διαφορές απόδοσης. Η παρούσα διατριβή αντιμετωπίζει
δύο βασικές προκλήσεις στην αξιολόγηση LLM – αποδοτική εκτίμηση της ακρίβειας σε στατικούς
δείκτες αναφοράς και διαδραστική αξιολόγηση για εις βάθος ανάλυση σε σύνθετες εργασίες. Για
την πρώτη πρόκληση, αναπτύσσουμε μεθόδους για την εκτίμηση της ακρίβειας ενός LLM σε
πολυτομεακούς δείκτες αναφοράς χωρίς εξαντλητική αξιολόγηση κάθε περίπτωσης,
αξιοποιώντας την ενσωμάτωση ερωτήσεων, τις ιστορικές αποκρίσεις του μοντέλου και την
πιθανολογική μοντελοποίηση, προσεγγίζοντας έτσι αποτελεσματικά την ακρίβεια και μειώνοντας
παράλληλα την υπολογιστική επιβάρυνση για κλιμακούμενες αξιολογήσεις. Η δεύτερη πρόκληση
αφορά πολύπλοκες εργασίες όπου οι δυαδικές μετρήσεις επιτυχίας/αποτυχίας δεν επαρκούν-
για την αντιμετώπισή της, προτείνουμε ένα διαδραστικό πλαίσιο αξιολόγησης που βελτιώνει τις
απαντήσεις του μοντέλου μέσω καθοδηγούμενης ανατροφοδότησης, επιτρέποντας μια πιο
λεπτομερή αξιολόγηση των επιδόσεων. Αυτή η αλληλεπίδραση ενισχύει την ανάλυση της
αξιολόγησης και αποκαλύπτει λεπτομερείς γνώσεις σχετικά με τα δυνατά σημεία, τις αδυναμίες
και τις συμπεριφορές συλλογισμού του μοντέλου, με μια ολοκληρωμένη έκθεση που συνθέτει
αυτές τις γνώσεις σε μια διαφοροποιημένη προοπτική για τις δυνατότητες του μοντέλου. Με την
αντιμετώπιση τόσο της αποδοτικής εκτίμησης ακρίβειας όσο και της διαδραστικής αξιολόγησης
ικανοτήτων, η παρούσα διατριβή συμβάλλει σε κλιμακούμενες και διορατικές μεθοδολογίες για
την προώθηση της αξιολόγησης LLM.

ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ:

Δρ. Δημήτρης Γουνόπουλος, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών Εθνικό
και Καποδιστριακό Πανεπιστήμιο Αθηνών (Επιβλέπων)
Δρ. Μανόλης Κουμπαράκης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών Εθνικό
και Καποδιστριακό Πανεπιστήμιο Αθηνών
Δρ. Ιωάννης Παναγάκης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών Εθνικό και
Καποδιστριακό Πανεπιστήμιο Αθηνών

Wednesday, March 5 · 10:00 – 11:00am
Time zone: Europe/Athens

Google Meet joining info
Video call link: https://meet.google.com/nfw-sywh-qst

By |2025-03-04T17:23:35+00:00March 4th, 2025|DSIT|0 Comments

About the Author:

Leave A Comment