Νέο τεστ AI αποκαλύπτει το «τυφλό σημείο» των μοντέλων στη λογική κρίση

Νέο τεστ AI αποκαλύπτει το «τυφλό σημείο» των μοντέλων στη λογική κρίση
Photo: Shutterstock
Ένα νέο τεστ αξιολόγησης τεχνητής νοημοσύνης δείχνει ότι τα πιο προηγμένα μοντέλα μπορεί να αποδίδουν εξαιρετικά σε σύνθετες εργασίες, αλλά δυσκολεύονται να αναγνωρίσουν πότε μια ερώτηση δεν έχει λογική βάση. AI, τεχνητή νοημοσύνη, OpenAI, Google, Anthropic, machine learning, μεγάλα γλωσσικά μοντέλα, τεχνολογία, καινοτομία, επιχειρήσεις τεχνολογίας

Μπορεί η τεχνητή νοημοσύνη να καταλάβει πότε μια ερώτηση είναι λάθος από τη βάση της; Αυτό είναι το ερώτημα πίσω από ένα νέο τεστ αξιολόγησης που δημιούργησε ο Peter Gostev από την εταιρεία Arena.

Το τεστ βασίζεται σε σκόπιμα παραπλανητικές ερωτήσεις που μοιάζουν τεχνικές, αλλά καταρρέουν με μια απλή λογική εξέταση. Στόχος είναι να διαπιστωθεί αν τα μεγάλα γλωσσικά μοντέλα θα αμφισβητήσουν την υπόθεση ή θα προχωρήσουν σε απαντήσεις σαν να είναι έγκυρη.

Σε πολλές περιπτώσεις, τα μοντέλα αποτυγχάνουν: αντί να εντοπίσουν το πρόβλημα, δίνουν αναλυτικές απαντήσεις σε ερωτήματα που δεν έχουν πραγματικό νόημα.

«Ήθελα να αποτυπώσω αυτή την αίσθηση ότι τα μοντέλα συχνά δεν είναι βέβαιο ότι κατανοούν πλήρως τι απαντούν», σημείωσε ο Gostev, επισημαίνοντας ότι τα αποτελέσματα ήταν πιο έντονα από ό,τι ανέμενε.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι τα λεγόμενα “reasoning models” δεν αποδίδουν απαραίτητα καλύτερα. Αντί να απορρίψουν μια προβληματική ερώτηση, συχνά προσπαθούν να τη μετατρέψουν σε κάτι απαντήσιμο, οδηγώντας σε περίπλοκες αλλά αβάσιμες απαντήσεις.

Το εύρημα αυτό αναδεικνύει ένα βαθύτερο ζήτημα: τη διάκριση ανάμεσα στην υπολογιστική ικανότητα και την κρίση. Παρότι τα σύγχρονα μοντέλα μπορούν να επιλύσουν σύνθετα προβλήματα, δυσκολεύονται σε κάτι πιο θεμελιώδες — να αναγνωρίσουν πότε μια ερώτηση είναι λανθασμένη.

Σε επίπεδο επιδόσεων, τα μοντέλα της Anthropic εμφανίζονται πιο αποτελεσματικά στο να απορρίπτουν ερωτήσεις χωρίς νόημα. Αντίθετα, το Gemini της Google παρουσιάζει χαμηλότερα ποσοστά επιτυχίας, ενώ τα μοντέλα της OpenAI κινούνται σε ενδιάμεσα επίπεδα.

Το συμπέρασμα είναι σαφές: στην εποχή της τεχνητής νοημοσύνης, η «ευφυΐα» δεν είναι μόνο θέμα υπολογιστικής ισχύος, αλλά και κρίσης.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ: