Νέο τεστ AI αποκαλύπτει το «τυφλό σημείο» των μοντέλων στη λογική κρίση

Επίλεξέ μας ως προτιμώμενη πηγή στο Google

Ένα νέο τεστ αξιολόγησης τεχνητής νοημοσύνης δείχνει ότι τα πιο προηγμένα μοντέλα μπορεί να αποδίδουν εξαιρετικά σε σύνθετες εργασίες, αλλά δυσκολεύονται να αναγνωρίσουν πότε μια ερώτηση δεν έχει λογική βάση. AI, τεχνητή νοημοσύνη, OpenAI, Google, Anthropic, machine learning, μεγάλα γλωσσικά μοντέλα, τεχνολογία, καινοτομία, επιχειρήσεις τεχνολογίας

Μπορεί η τεχνητή νοημοσύνη να καταλάβει πότε μια ερώτηση είναι λάθος από τη βάση της; Αυτό είναι το ερώτημα πίσω από ένα νέο τεστ αξιολόγησης που δημιούργησε ο Peter Gostev από την εταιρεία Arena.

Το τεστ βασίζεται σε σκόπιμα παραπλανητικές ερωτήσεις που μοιάζουν τεχνικές, αλλά καταρρέουν με μια απλή λογική εξέταση. Στόχος είναι να διαπιστωθεί αν τα μεγάλα γλωσσικά μοντέλα θα αμφισβητήσουν την υπόθεση ή θα προχωρήσουν σε απαντήσεις σαν να είναι έγκυρη.

Σε πολλές περιπτώσεις, τα μοντέλα αποτυγχάνουν: αντί να εντοπίσουν το πρόβλημα, δίνουν αναλυτικές απαντήσεις σε ερωτήματα που δεν έχουν πραγματικό νόημα.

«Ήθελα να αποτυπώσω αυτή την αίσθηση ότι τα μοντέλα συχνά δεν είναι βέβαιο ότι κατανοούν πλήρως τι απαντούν», σημείωσε ο Gostev, επισημαίνοντας ότι τα αποτελέσματα ήταν πιο έντονα από ό,τι ανέμενε.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Instagram: Η νέα λειτουργία που αποκαλύπτει ποιος βλέπει ξανά και ξανά τα stories σου

01/04/2026

Ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι τα λεγόμενα “reasoning models” δεν αποδίδουν απαραίτητα καλύτερα. Αντί να απορρίψουν μια προβληματική ερώτηση, συχνά προσπαθούν να τη μετατρέψουν σε κάτι απαντήσιμο, οδηγώντας σε περίπλοκες αλλά αβάσιμες απαντήσεις.

Το εύρημα αυτό αναδεικνύει ένα βαθύτερο ζήτημα: τη διάκριση ανάμεσα στην υπολογιστική ικανότητα και την κρίση. Παρότι τα σύγχρονα μοντέλα μπορούν να επιλύσουν σύνθετα προβλήματα, δυσκολεύονται σε κάτι πιο θεμελιώδες — να αναγνωρίσουν πότε μια ερώτηση είναι λανθασμένη.

Σε επίπεδο επιδόσεων, τα μοντέλα της Anthropic εμφανίζονται πιο αποτελεσματικά στο να απορρίπτουν ερωτήσεις χωρίς νόημα. Αντίθετα, το Gemini της Google παρουσιάζει χαμηλότερα ποσοστά επιτυχίας, ενώ τα μοντέλα της OpenAI κινούνται σε ενδιάμεσα επίπεδα.

Το συμπέρασμα είναι σαφές: στην εποχή της τεχνητής νοημοσύνης, η «ευφυΐα» δεν είναι μόνο θέμα υπολογιστικής ισχύος, αλλά και κρίσης.

Νέο τεστ AI αποκαλύπτει το «τυφλό σημείο» των μοντέλων στη λογική κρίση

Instagram: Η νέα λειτουργία που αποκαλύπτει ποιος βλέπει ξανά και ξανά τα stories σου

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

ΕΠΙΚΑΙΡΟΤΗΤΑ

ΗΠΑ-Ιράν: Καταρρέει η εκεχειρία – Νέες απειλές για πλήγματα και κλείσιμο των Στενών του Ορμούζ

ΕΠΙΚΑΙΡΟΤΗΤΑ

ΝΑΤΟ: Ολοκληρώθηκε η Σύνοδος – Νέες αμυντικές προμήθειες 50 δισ. δολαρίων και δέσμευση για 70 δισ. ευρώ στην Ουκρανία

ΕΠΙΚΑΙΡΟΤΗΤΑ

Μητσοτάκης: «Ιστορική ανορθογραφία» το casus belli – Τα νομικά εμπόδια για τα F-35 της Τουρκίας

ΕΠΙΚΑΙΡΟΤΗΤΑ

ΔΝΤ: Υποβαθμίζει ξανά τις προβλέψεις για την παγκόσμια οικονομία – Οι τρεις κίνδυνοι για την ανάπτυξη

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ιράν: «Παγώνει» τις συνομιλίες με τις ΗΠΑ και απειλεί με κλείσιμο των Στενών του Ορμούζ

ΕΠΙΧΕΙΡΗΣΕΙΣ

Θανάσης Σοφιανός: Πώς η Relevance χτίζει οικοσύστημα τεχνολογικών εταιρειών

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ρούτε: «Το ΝΑΤΟ είναι πιο ενωμένο από ποτέ» μετά τη Σύνοδο της Άγκυρας

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ακίνητα: Επιβραδύνεται η άνοδος στις τιμές κατοικιών – Ποιες περιοχές είναι οι ακριβότερες

ΕΠΙΧΕΙΡΗΣΕΙΣ

Η Κίνα γίνεται η νέα κινητήρια δύναμη καινοτομίας για τις παραδοσιακές αυτοκινητοβιομηχανίες

ΕΠΙΧΕΙΡΗΣΕΙΣ

Samsung Wallet: Κάνει ποδαρικό στην Ελλάδα – Πώς διαμορφώνεται το τοπίο των digital wallets

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ισχυρή δυναμική στις ελληνικές εξαγωγές: Άνοδος 20,9% τον Μάιο

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ρωσία: Απαγορεύει τις εξαγωγές ντίζελ και στρέφεται σε εισαγωγές καυσίμων λόγω ελλείψεων

ΕΠΙΚΑΙΡΟΤΗΤΑ

Μαρίν Λεπέν: Τέλος στα σενάρια διαδοχής από τον Μπαρντελά – Υποψήφια για την γαλλική προεδρία παρά την καταδίκη

ΕΠΙΚΑΙΡΟΤΗΤΑ

Πώς η Wolt βάζει την οδική ασφάλεια στην «καρδιά» του delivery

LEADERSHIP

Σύγχρονη ηγεσία: Πώς η παραδοχή του λάθους σε κάνει καλύτερο CEO

ΕΠΙΧΕΙΡΗΣΕΙΣ

#40under40GR2026: Άνοιξαν οι αιτήσεις για τη λίστα που αναδεικνύει τη νέα γενιά της ελληνικής επιχειρηματικής ηγεσίας – Apply Now!

ΕΠΙΧΕΙΡΗΣΕΙΣ

Η εταιρική διακυβέρνηση ως μοχλός ανάπτυξης, εμπιστοσύνης και αξίας

ΕΠΙΧΕΙΡΗΣΕΙΣ

4ο Effective Dialogue | Disruption or Destruction: Ανατροπή ή Κατάρρευση;