Νέο τεστ AI αποκαλύπτει το «τυφλό σημείο» των μοντέλων στη λογική κρίση
- 01/04/2026, 21:32
- SHARE
Μπορεί η τεχνητή νοημοσύνη να καταλάβει πότε μια ερώτηση είναι λάθος από τη βάση της; Αυτό είναι το ερώτημα πίσω από ένα νέο τεστ αξιολόγησης που δημιούργησε ο Peter Gostev από την εταιρεία Arena.
Το τεστ βασίζεται σε σκόπιμα παραπλανητικές ερωτήσεις που μοιάζουν τεχνικές, αλλά καταρρέουν με μια απλή λογική εξέταση. Στόχος είναι να διαπιστωθεί αν τα μεγάλα γλωσσικά μοντέλα θα αμφισβητήσουν την υπόθεση ή θα προχωρήσουν σε απαντήσεις σαν να είναι έγκυρη.
Σε πολλές περιπτώσεις, τα μοντέλα αποτυγχάνουν: αντί να εντοπίσουν το πρόβλημα, δίνουν αναλυτικές απαντήσεις σε ερωτήματα που δεν έχουν πραγματικό νόημα.
«Ήθελα να αποτυπώσω αυτή την αίσθηση ότι τα μοντέλα συχνά δεν είναι βέβαιο ότι κατανοούν πλήρως τι απαντούν», σημείωσε ο Gostev, επισημαίνοντας ότι τα αποτελέσματα ήταν πιο έντονα από ό,τι ανέμενε.
Ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι τα λεγόμενα “reasoning models” δεν αποδίδουν απαραίτητα καλύτερα. Αντί να απορρίψουν μια προβληματική ερώτηση, συχνά προσπαθούν να τη μετατρέψουν σε κάτι απαντήσιμο, οδηγώντας σε περίπλοκες αλλά αβάσιμες απαντήσεις.
Το εύρημα αυτό αναδεικνύει ένα βαθύτερο ζήτημα: τη διάκριση ανάμεσα στην υπολογιστική ικανότητα και την κρίση. Παρότι τα σύγχρονα μοντέλα μπορούν να επιλύσουν σύνθετα προβλήματα, δυσκολεύονται σε κάτι πιο θεμελιώδες — να αναγνωρίσουν πότε μια ερώτηση είναι λανθασμένη.
Σε επίπεδο επιδόσεων, τα μοντέλα της Anthropic εμφανίζονται πιο αποτελεσματικά στο να απορρίπτουν ερωτήσεις χωρίς νόημα. Αντίθετα, το Gemini της Google παρουσιάζει χαμηλότερα ποσοστά επιτυχίας, ενώ τα μοντέλα της OpenAI κινούνται σε ενδιάμεσα επίπεδα.
Το συμπέρασμα είναι σαφές: στην εποχή της τεχνητής νοημοσύνης, η «ευφυΐα» δεν είναι μόνο θέμα υπολογιστικής ισχύος, αλλά και κρίσης.