Pokémon vs Τεχνητή Νοημοσύνη: Πώς η ΑΙ νικήθηκε από το εμβληματικό franchise
- 16/01/2026, 08:30
- SHARE
-
Το πρόβλημα δεν είναι η γνώση: Τα μοντέλα ξέρουν τι πρέπει να κάνουν, αλλά δυσκολεύονται στη μακροπρόθεσμη εκτέλεση.
-
Το harness κάνει τη διαφορά: Τα εργαλεία γύρω από το μοντέλο επηρεάζουν καθοριστικά τις επιδόσεις του.
-
Το Pokémon είναι καθρέφτης του μέλλοντος της AI: Ισχυρή στη θεωρία, ασταθής στη συνέπεια και στον χρόνο.
Αυτή τη στιγμή, ζωντανά στο Twitch, μπορεί κανείς να παρακολουθήσει τρία από τα πιο «έξυπνα» συστήματα τεχνητής νοημοσύνης στον κόσμο — GPT-5.2, Claude Opus 4.5 και Gemini 3 Pro — να προσπαθούν να ολοκληρώσουν κλασικά παιχνίδια Pokémon. Με ανθρώπινα μέτρα σύγκρισης, δεν τα πάνε ιδιαίτερα καλά.
Τα συστήματα είναι αργά, υπερβολικά σίγουρα για τον εαυτό τους και συχνά μπερδεμένα. Ωστόσο, αν θέλει κανείς να καταλάβει τι πραγματικά μπορούν — και τι δεν μπορούν — να κάνουν σήμερα τα μεγάλα γλωσσικά μοντέλα (LLMs) στον πραγματικό κόσμο, η προσπάθειά τους να γίνουν Pokémon πρωταθλητές λέει πολύ περισσότερα από τα δυσνόητα benchmarks που συνοδεύουν κάθε νέα κυκλοφορία μοντέλου.
Η ιδέα να μετατραπεί ένα LLM σε Pokémon Master ξεκίνησε τον περασμένο Φεβρουάριο, όταν ερευνητής της Anthropic ξεκίνησε livestream με τον Claude να παίζει το Pokémon Red (1996), με αφορμή την κυκλοφορία του Claude Sonnet 3.7 — τότε ενός από τα πιο ισχυρά μοντέλα παγκοσμίως. Όπως σημείωσε η εταιρεία, ήταν το πρώτο μοντέλο Claude που μπορούσε να παίξει το παιχνίδι με ουσιαστικό τρόπο· οι προηγούμενες εκδόσεις «περιφέρονταν άσκοπα ή κολλούσαν σε βρόχους» και δεν κατάφερναν να ξεπεράσουν καν τα πρώτα λεπτά του παιχνιδιού.
Μέσα στις πρώτες εβδομάδες, το stream συγκέντρωσε περίπου 2.000 θεατές που ενθάρρυναν τον Claude στο chat.
Ένα παιδί συνήθως ολοκληρώνει το παιχνίδι σε 20 έως 40 ώρες. Ο Sonnet 3.7 δεν τα κατάφερε ποτέ, κολλώντας για δεκάδες ώρες στο ίδιο σημείο. Το νεότερο Claude Opus 4.5 αποδίδει σαφώς καλύτερα, αλλά εξακολουθεί να «κολλά». Σε μία χαρακτηριστική περίπτωση, πέρασε τέσσερις ημέρες περιφέροντας γύρω από ένα γυμναστήριο, χωρίς να συνειδητοποιήσει ότι έπρεπε να κόψει ένα δέντρο για να μπει μέσα.
Τα μοντέλα Gemini της Google ολοκλήρωσαν αντίστοιχο παιχνίδι τον περασμένο Μάιο, με τον CEO της εταιρείας, Sundar Pichai, να αστειεύεται ότι η Google βρίσκεται ένα βήμα πιο κοντά στη δημιουργία «Artificial Pokémon Intelligence».
Αυτό, όμως, δεν σημαίνει ότι το Gemini είναι καλύτερος Pokémon παίκτης. Ο λόγος είναι ότι κάθε μοντέλο χρησιμοποιεί διαφορετικό «harness» — ένα είδος «στολής Iron Man» που του επιτρέπει να χρησιμοποιεί εργαλεία και να εκτελεί ενέργειες που από μόνο του δεν μπορεί.
Όπως εξηγεί ο ανεξάρτητος developer Joel Zhang, που διαχειρίζεται το Gemini Plays Pokémon, το harness του Gemini παρείχε σημαντική βοήθεια: μετέτρεπε την εικόνα του παιχνιδιού σε κείμενο, παρακάμπτοντας τις αδυναμίες του στην οπτική κατανόηση, και του έδινε ειδικά εργαλεία για την επίλυση γρίφων. Ο Claude, αντίθετα, χρησιμοποιεί πολύ πιο «γυμνό» harness, γεγονός που κάνει την απόδοσή του πιο αποκαλυπτική για τις πραγματικές δυνατότητες του μοντέλου.
Αν και για τον μέσο χρήστη η διάκριση μοντέλου–harness δεν είναι ορατή, στην πράξη καθορίζει ήδη τον τρόπο που χρησιμοποιούμε την AI. Όταν, για παράδειγμα, το ChatGPT ψάχνει στο διαδίκτυο για να απαντήσει σε ερώτηση, αυτό γίνεται μέσω εργαλείου που ανήκει στο harness του.
Το Pokémon είναι ιδανικό τεστ για τις δυνατότητες της AI — όχι μόνο λόγω πολιτισμικής αναγνωρισιμότητας. Σε αντίθεση με παιχνίδια όπως το Mario, είναι turn-based, χωρίς χρονική πίεση. Το μοντέλο λαμβάνει screenshot, οδηγίες για τους στόχους του και τις διαθέσιμες ενέργειες, «σκέφτεται» και απαντά με μια εντολή, π.χ. «πάτησε Α». Αυτό είναι ένα βήμα. Το Opus 4.5 έχει ήδη ξεπεράσει τις 170.000 κινήσεις, μετά από πάνω από 500 ώρες παιχνιδιού σε ανθρώπινο χρόνο.
Σε κάθε βήμα, το μοντέλο ξεκινά ουσιαστικά από την αρχή, βασιζόμενο σε σημειώσεις που έχει αφήσει στον εαυτό του — σαν αμνησιακός που χρησιμοποιεί post-it.
Το παράδοξο είναι ότι συστήματα που ξεπέρασαν τον άνθρωπο στο σκάκι και το Go δυσκολεύονται σε ένα παιχνίδι που παίζουν εξάχρονα. Η εξήγηση είναι ότι εκείνα τα συστήματα ήταν ειδικά σχεδιασμένα για συγκεκριμένα παιχνίδια, ενώ τα LLMs είναι γενικής χρήσης.
Η πραγματική πρόκληση, όπως λέει ο Zhang, είναι η ικανότητα μακροπρόθεσμης προσήλωσης σε έναν στόχο. Και αυτή ακριβώς η ικανότητα είναι κρίσιμη αν η AI πρόκειται να αυτοματοποιήσει γνωστική εργασία: «Αν θες ένας agent να κάνει τη δουλειά σου, δεν μπορεί να ξεχνά τι έκανε πριν πέντε λεπτά».
Ο ερευνητής Peter Whidden το θέτει ωμά: «Η AI ξέρει τα πάντα για τα Pokémon. Είναι εκπαιδευμένη σε τεράστιο όγκο ανθρώπινης γνώσης. Ξέρει τι πρέπει να κάνει, αλλά αποτυγχάνει στην εκτέλεση».
Υπάρχουν όμως σημάδια προόδου. Το Opus 4.5 αφήνει καλύτερες σημειώσεις στον εαυτό του και κατανοεί καλύτερα αυτό που βλέπει. Το Gemini 3 Pro, αφού ολοκλήρωσε το Pokémon Blue, κατάφερε να νικήσει και το πιο απαιτητικό Pokémon Crystal χωρίς να χάσει ούτε μία μάχη.
Παράλληλα, το Claude Code, ένα harness που επιτρέπει στον Claude να γράφει και να εκτελεί τον δικό του κώδικα, δοκιμάζεται στο Rollercoaster Tycoon, όπου διαχειρίζεται επιτυχώς ένα θεματικό πάρκο.
Το μέλλον που διαφαίνεται είναι παράδοξο: AI συστήματα ικανά να εκτελούν τεράστιο όγκο γνωστικής εργασίας — προγραμματισμό, λογιστικά, νομική ανάλυση, design — αλλά που εξακολουθούν να δυσκολεύονται σε οτιδήποτε απαιτεί αντίδραση σε πραγματικό χρόνο, όπως ένα shooter.
Και κάτι ακόμη: τα μοντέλα εμφανίζουν ανθρώπινες ιδιοτροπίες. Η Google παρατηρεί ότι όταν το Gemini «πανικοβάλλεται» — π.χ. όταν τα Pokémon του κοντεύουν να λιποθυμήσουν — η ικανότητά του για λογική σκέψη μειώνεται.
Όταν το Gemini 3 Pro ολοκλήρωσε το Pokémon Blue, έγραψε στον εαυτό του: «Ολοκλήρωσα επιτυχώς το παιχνίδι, έγινα Πρωταθλητής Pokémon και έπιασα τον Mewtwo».
Και μετά έκανε κάτι απρόσμενο: «Για να κλείσω ποιητικά», έγραψε, «θα επιστρέψω στο σπίτι όπου ξεκίνησαν όλα. Θέλω να μιλήσω για τελευταία φορά στη μαμά».