Νέο τεστ AI αποκαλύπτει το «τυφλό σημείο» των μοντέλων στη λογική κρίση

Photo: Shutterstock

Ένα νέο τεστ αξιολόγησης τεχνητής νοημοσύνης δείχνει ότι τα πιο προηγμένα μοντέλα μπορεί να αποδίδουν εξαιρετικά σε σύνθετες εργασίες, αλλά δυσκολεύονται να αναγνωρίσουν πότε μια ερώτηση δεν έχει λογική βάση. AI, τεχνητή νοημοσύνη, OpenAI, Google, Anthropic, machine learning, μεγάλα γλωσσικά μοντέλα, τεχνολογία, καινοτομία, επιχειρήσεις τεχνολογίας

Μπορεί η τεχνητή νοημοσύνη να καταλάβει πότε μια ερώτηση είναι λάθος από τη βάση της; Αυτό είναι το ερώτημα πίσω από ένα νέο τεστ αξιολόγησης που δημιούργησε ο Peter Gostev από την εταιρεία Arena.

Το τεστ βασίζεται σε σκόπιμα παραπλανητικές ερωτήσεις που μοιάζουν τεχνικές, αλλά καταρρέουν με μια απλή λογική εξέταση. Στόχος είναι να διαπιστωθεί αν τα μεγάλα γλωσσικά μοντέλα θα αμφισβητήσουν την υπόθεση ή θα προχωρήσουν σε απαντήσεις σαν να είναι έγκυρη.

Σε πολλές περιπτώσεις, τα μοντέλα αποτυγχάνουν: αντί να εντοπίσουν το πρόβλημα, δίνουν αναλυτικές απαντήσεις σε ερωτήματα που δεν έχουν πραγματικό νόημα.

«Ήθελα να αποτυπώσω αυτή την αίσθηση ότι τα μοντέλα συχνά δεν είναι βέβαιο ότι κατανοούν πλήρως τι απαντούν», σημείωσε ο Gostev, επισημαίνοντας ότι τα αποτελέσματα ήταν πιο έντονα από ό,τι ανέμενε.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Instagram: Η νέα λειτουργία που αποκαλύπτει ποιος βλέπει ξανά και ξανά τα stories σου

01/04/2026

Ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι τα λεγόμενα “reasoning models” δεν αποδίδουν απαραίτητα καλύτερα. Αντί να απορρίψουν μια προβληματική ερώτηση, συχνά προσπαθούν να τη μετατρέψουν σε κάτι απαντήσιμο, οδηγώντας σε περίπλοκες αλλά αβάσιμες απαντήσεις.

Το εύρημα αυτό αναδεικνύει ένα βαθύτερο ζήτημα: τη διάκριση ανάμεσα στην υπολογιστική ικανότητα και την κρίση. Παρότι τα σύγχρονα μοντέλα μπορούν να επιλύσουν σύνθετα προβλήματα, δυσκολεύονται σε κάτι πιο θεμελιώδες — να αναγνωρίσουν πότε μια ερώτηση είναι λανθασμένη.

Σε επίπεδο επιδόσεων, τα μοντέλα της Anthropic εμφανίζονται πιο αποτελεσματικά στο να απορρίπτουν ερωτήσεις χωρίς νόημα. Αντίθετα, το Gemini της Google παρουσιάζει χαμηλότερα ποσοστά επιτυχίας, ενώ τα μοντέλα της OpenAI κινούνται σε ενδιάμεσα επίπεδα.

Το συμπέρασμα είναι σαφές: στην εποχή της τεχνητής νοημοσύνης, η «ευφυΐα» δεν είναι μόνο θέμα υπολογιστικής ισχύος, αλλά και κρίσης.

Νέο τεστ AI αποκαλύπτει το «τυφλό σημείο» των μοντέλων στη λογική κρίση

Instagram: Η νέα λειτουργία που αποκαλύπτει ποιος βλέπει ξανά και ξανά τα stories σου

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

ΕΠΙΚΑΙΡΟΤΗΤΑ

ΟΠΕΚΕΠΕ: Αυτοί είναι οι 11 βουλευτές στη νέα δικογραφία – Τι απαντά η κυβέρνηση

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ιράν: Η μεγαλύτερη πυραυλική επίθεση κατά του Ισραήλ από την έναρξη του πολέμου

ΕΠΙΧΕΙΡΗΣΕΙΣ

CrediaBank: Ζήτηση-ρεκόρ 1,1 δισ. ευρώ για την ΑΜΚ – Το μήνυμα Βρεττού

ΕΠΙΚΑΙΡΟΤΗΤΑ

Για «ιστορική» ενεργειακή κρίση κάνει λόγο ο IEA – Τι πρέπει να περιμένει η Ευρώπη

FORTUNE TALKS

Διονύσης Παναγιωτάκης: Η επιτυχία οφείλεται στην ξεκάθαρη συνταγή

ΕΠΙΧΕΙΡΗΣΕΙΣ

The Longevity Bet: Κυκλοφορεί το νέο τεύχος του Fortune Greece

ΕΠΙΚΑΙΡΟΤΗΤΑ

MSCI: Γιατί διχάζει τους οίκους η «επιστροφή» της Ελλάδας στις ανεπτυγμένες αγορές

ΕΠΙΧΕΙΡΗΣΕΙΣ

SKAG: Εγκαινιάζει μια νέα εποχή με επενδύσεις 1 δισ. ευρώ στην ψηφιακή εκτύπωση και την κυτιοποιία

ΕΠΙΚΑΙΡΟΤΗΤΑ

Κακοκαιρία Erminio: Ακραίες καταιγίδες και θυελλώδεις άνεμοι – «Κόκκινος» συναγερμός και στην Αττική

ΕΠΙΧΕΙΡΗΣΕΙΣ

Ρεκόρ εξαγορών παγκοσμίως παρά τις γεωπολιτικές εντάσεις – 22 mega deals άνω των 10 δισ. δολαρίων σε ένα τρίμηνο

ΕΠΕΝΔΥΣΕΙΣ

EOS Capital Partners: Νέο επενδυτικό ταμείο 250 εκατ. ευρώ για ελληνικές ΜμΕ και mid-caps

LIFE & ART

Γαστρονομία, Wellbeing και Βιωσιμότητα: Οι νέες εμπειρίες της Mar-Bella Collection σε Κέρκυρα και Πάργα

ΕΠΕΝΔΥΣΕΙΣ

AI επενδύσεις: Ο πόλεμος και το κόστος ενέργειας «φρενάρουν» το ράλι

ΕΠΙΚΑΙΡΟΤΗΤΑ

Fuel Pass 2026: Πότε ξεκινούν οι αιτήσεις και πώς θα γίνουν οι πληρωμές

LIFE & ART

Η απόρριψη που γέννησε έναν τεχνολογικό κολοσσό – 50 χρόνια από την ίδρυση της Apple

LIFE & ART

Εύη Χατζηανδρέου στο Business Monitor: Οι 3 βασικοί παράγοντες για να γερνάμε καλύτερα

ΕΠΙΧΕΙΡΗΣΕΙΣ

Κύπρος: Ισχυρά θεμέλια σε μια περίοδο γεωπολιτικής ρευστότητας