«Το χαλάσαμε»: Η σπάνια παραδοχή Σαμ Άλτμαν για το ChatGPT

«Το χαλάσαμε»: Η σπάνια παραδοχή Σαμ Άλτμαν για το ChatGPT
Photo: Shutterstock
Η παραδοχή του Sam Altman ότι το GPT-5.2 υπολείπεται στις γλωσσικές του δυνατότητες αναζωπυρώνει τη συζήτηση για το αν τα μεγάλα γλωσσικά μοντέλα φτάνουν σε τεχνολογικό όριο, καθώς η OpenAI δίνει προτεραιότητα στις τεχνικές επιδόσεις έναντι της ανθρώπινης έκφρασης.
  • Η OpenAI αναγνωρίζει ότι το GPT-5.2 υστέρησε στη γλωσσική και δημιουργική απόδοση, λόγω έμφασης σε τεχνικές δεξιότητες.

  • Ειδικοί εντοπίζουν σημάδια οπισθοδρόμησης, όπως πιο επίπεδο ύφος, χειρότερες μεταφράσεις και ασυνέπεια σε πραγματικά tasks.

  • Το βασικό ερώτημα πλέον είναι αν τα LLMs μπορούν να αριστεύουν σε όλα τα πεδία ή αν η εξειδίκευση έχει τίμημα.

Έχουν περάσει λίγο περισσότερα από τρία χρόνια από την κυκλοφορία του πρώτου εμπορικά διαθέσιμου chatbot μεγάλων γλωσσικών μοντέλων (LLM), του ChatGPT της OpenAI. Και παρότι το μοντέλο έχει σημειώσει σαφή άλματα σε επίπεδο επιδόσεων, η χλιαρή εικόνα των πιο πρόσφατων εκδόσεων ενισχύει την αντίληψη ότι τα LLMs αγγίζουν ένα τεχνολογικό «ταβάνι».

Χαρακτηριστικό παράδειγμα αποτελεί η πρόσφατη παραδοχή του CEO της OpenAI, Sam Altman, ότι η εταιρεία «τα έκανε θάλασσα» με τις γλωσσικές δυνατότητες της τελευταίας έκδοσης του chatbot, του GPT-5.2.

«Νομίζω ότι απλώς το χαλάσαμε», δήλωσε ο Altman σε συνάντηση με developers τη Δευτέρα. «Θα προσπαθήσουμε οι επόμενες εκδόσεις του GPT-5.x να είναι πολύ καλύτερες στο γράψιμο από ό,τι ήταν το 4.5».

Στη συνέχεια, ο Altman εξήγησε ότι η εταιρεία επέλεξε συνειδητά να δώσει προτεραιότητα στις τεχνικές δυνατότητες του ChatGPT, πιθανώς εις βάρος της φυσικότητας και ποιότητας της ανθρώπινης γλώσσας.

«Αποφασίσαμε —και πιστεύω με βάσιμους λόγους— να επενδύσουμε το μεγαλύτερο μέρος της προσπάθειάς μας στο 5.2 στο να γίνει εξαιρετικό σε νοημοσύνη, συλλογισμό, κώδικα, μηχανική», είπε. «Οι πόροι μας είναι περιορισμένοι και συχνά, εστιάζοντας σε ένα πράγμα, παραμελούμε κάποιο άλλο».

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Η παραδοχή αυτή ανοίγει ένα υψηλού ρίσκου ερώτημα: μπορούν τα AI μοντέλα αιχμής να διατηρούν κορυφαίες επιδόσεις σε όλα τα πεδία ή η εξειδίκευση σε έναν τομέα θα γίνεται εις βάρος ενός ευρύτερου φάσματος δεξιοτήτων;

Όπως επισημαίνει το Search Engine Journal, η κυκλοφορία του GPT-5.2 συνοδεύτηκε από έντονη έμφαση σε τεχνικές εργασίες, όπως ο προγραμματισμός και η διαχείριση spreadsheets. Σε αντίθεση με παλαιότερες εκδόσεις, οι αναφορές σε γραφή ή δημιουργική εργασία ήταν ελάχιστες, μια στροφή που άφησε πολλούς μη τεχνικούς χρήστες με την αίσθηση ότι το ChatGPT «κολλάει».

Ο data scientist και tech blogger Mehul Gupta επισημαίνει στην αξιολόγησή του ότι υπάρχουν πολλά σημάδια οπισθοδρόμησης, και μάλιστα όχι ιδιαίτερα διακριτικά.

Μεταξύ αυτών περιλαμβάνονται «πιο επίπεδο ύφος», χειρότερες μεταφράσεις, ασυνεπής συμπεριφορά ανά task και σοβαρή υποβάθμιση του “instant mode”, της λειτουργίας που υποτίθεται ότι προσφέρει άμεσες απαντήσεις σε απλές ερωτήσεις.

Όπως γράφει ο Gupta, το GPT-5.2 δυσκολεύεται και σε πραγματικές συνθήκες χρήσης. Κατά την αξιολόγηση ανθρώπινων εγγράφων —συμβολαίων, σημειώσεων με μικτή μορφή ή PDF— το μοντέλο «ξεχνά προηγούμενες λεπτομέρειες, αυτοαναιρείται, παρερμηνεύει παραπομπές και ‘επινοεί’ διευκρινίσεις που δεν υπάρχουν».

«Τα benchmarks είναι καθαρά», σημειώνει. «Τα πραγματικά έγγραφα όχι. Το 5.2 συνεχίζει να δυσκολεύεται με τον ‘θόρυβο’ της πραγματικότητας».

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ: