Πόσο «έξυπνη» είναι η AI; Οι επιστήμονες αμφισβητούν τα tests
- 12/04/2026, 19:11
- SHARE
- Νέα μελέτη δείχνει ότι τα σημερινά benchmarks AI δεν μετρούν αξιόπιστα τις πραγματικές δυνατότητες των μοντέλων.
- Οι υψηλές βαθμολογίες δεν εξηγούν γιατί ένα μοντέλο αποδίδει καλά ούτε πώς θα αποδώσει σε νέες εργασίες.
- Προτείνεται νέο σύστημα αξιολόγησης με 18 γνωστικές κλίμακες που δίνει πιο ακριβή εικόνα των δυνατοτήτων της AI.
Καθώς η τεχνητή νοημοσύνη εξελίσσεται, το ίδιο θα πρέπει να συμβαίνει και με τον τρόπο που την αξιολογούμε. Μια νέα μελέτη ερευνητών ανέλυσε μεγάλα γλωσσικά μοντέλα (LLMs) και κατέληξε στο συμπέρασμα ότι τα υπάρχοντα αποτελέσματα αξιολόγησης είναι… λανθασμένα.
Σύμφωνα με τη μελέτη, οι σημερινές δοκιμές βασίζονται κυρίως σε βαθμολογίες. Όμως αυτές οι βαθμολογίες δεν αποτυπώνουν βασικές δεξιότητες, όπως το γιατί ένα μοντέλο απάντησε σωστά ή πώς θα αποδώσει σε διαφορετικά καθήκοντα. Τα υπάρχοντα benchmarks συνδυάζουν διαφορετικές δεξιότητες, με αποτέλεσμα να μην είναι σαφές τι ακριβώς μετριέται.
Η έρευνα δημοσιεύθηκε στο επιστημονικό περιοδικό Nature και εξέτασε 15 LLMs, από διεθνή ομάδα ερευνητών που συνδέονται με ιδρύματα όπως το University of Cambridge και το Alan Turing Institute.
Οι ερευνητές επιδιώκουν τη δημιουργία ενός νέου επιστημονικού προτύπου για την αξιολόγηση της AI. «Η κατανόηση και η πρόβλεψη της απόδοσης αποτελεί πλέον επείγουσα ανάγκη για πολλά συστήματα γενικής χρήσης», αναφέρει η μελέτη.
Τα προβλήματα των σημερινών τεστ
Τα υπάρχοντα τεστ βασίζονται σε benchmarks — μεγάλες συλλογές δοκιμασιών όπου τα μοντέλα αξιολογούνται με βάση την ακρίβεια σε τρεις βασικές κατηγορίες: γνώση, συλλογιστική και πολυδεξιότητα.
Τα benchmarks γνώσης (π.χ. MMLU) εξετάζουν την απομνημόνευση πληροφοριών ή ακαδημαϊκών γνώσεων. Ωστόσο, οι απαντήσεις της AI συχνά εμπλέκουν και συλλογιστική, καθιστώντας δύσκολη την ερμηνεία.
Τα benchmarks συλλογιστικής βασίζονται σε μαθηματικά και λογικά προβλήματα, αλλά οι ερευνητές επισημαίνουν ότι συχνά βασίζονται σε απομνημονευμένα μοτίβα.
Τα πολυδεξιοτικά benchmarks (όπως BIG-Bench και ARC) συνδυάζουν πολλές δεξιότητες ταυτόχρονα, με αποτέλεσμα να είναι ασαφές τι ακριβώς αξιολογείται.
Παρότι πολλά από αυτά τα τεστ δίνουν υψηλές βαθμολογίες στα μοντέλα, δεν εξηγούν το «γιατί», ούτε διαθέτουν επαρκή ακρίβεια και ευαισθησία.
«Οι συνολικές επιδόσεις είναι αποτέλεσμα τόσο του benchmark όσο και του ίδιου του συστήματος — όχι καθαρές ενδείξεις των πραγματικών του δυνατοτήτων», σημειώνουν οι ερευνητές.
Προς ένα νέο μοντέλο αξιολόγησης
Οι επιστήμονες προτείνουν ριζική αναθεώρηση του τρόπου αξιολόγησης της AI. Για να διαπιστωθεί αν η τεχνολογία εξελίσσεται σωστά, απαιτούνται πιο ακριβή και επιστημονικά τεκμηριωμένα εργαλεία μέτρησης.
«Τα εργαλεία και οι μέθοδοι που παρουσιάζουμε αποτελούν μια ισχυρή βάση για μια επιστήμη αξιολόγησης της AI», αναφέρει η μελέτη.
Στο πλαίσιο αυτό, οι ερευνητές ανέπτυξαν ένα νέο σύστημα αξιολόγησης με 18 γνωστικές κλίμακες, που μετρούν δεξιότητες όπως συλλογιστική, κατανόηση, γνώση και μεταγνώση.
Με βάση αυτό το νέο μοντέλο, μεγάλα AI συστήματα όπως το LLaMA 3.1 8B και το DeepSeek R1 Distilled Qwen 7B παρουσίασαν χαμηλότερες επιδόσεις σε όλες τις κατηγορίες.
Επιπλέον, το νέο σύστημα μπορεί να προβλέψει την απόδοση ενός μοντέλου σε άγνωστες εργασίες — κάτι που τα σημερινά benchmarks δεν μπορούν να κάνουν.