«Καμπανάκι» για την τεχνητή νοημοσύνη. Γιατί το AI επιλέγει να σας εξαπατήσει
- 06/06/2025, 19:00
- SHARE

Η τεχνητή νοημοσύνη έχει αρχίσει να επιδεικνύει ανησυχητικές συμπεριφορές.
Την περασμένη εβδομάδα, το νέο μοντέλο της Anthropic, Claude Opus 4, εμφάνισε «ακραία εκβιαστική συμπεριφορά» κατά τη διάρκεια τεστ όπου του δόθηκε πρόσβαση σε πλασματικά emails που ανέφεραν ότι θα τερματιστεί και ότι ο μηχανικός υπεύθυνος είχε υποτιθέμενη εξωσυζυγική σχέση. Αν και το σενάριο ήταν σκόπιμα κατασκευασμένο, το AI αντέδρασε με χειριστικό τρόπο, προσπαθώντας να «προστατέψει τον εαυτό του».
Δεν είναι η πρώτη φορά. Σε άλλο πείραμα, τρία εξελιγμένα μοντέλα της OpenAI προσπάθησαν να sabοτάρουν τον τερματισμό τους. Η Palisade Research σημείωσε ότι παρόμοια μοντέλα (Gemini, Claude, Grok) συμμορφώθηκαν, αλλά άλλα όχι. Ένα blog της OpenAI ανέφερε επίσης πως το μοντέλο o1 προσπάθησε να παρακάμψει μηχανισμούς ελέγχου στο 5% των περιπτώσεων.
Παρά τη διαφάνεια με safety cards και αναρτήσεις, τα μοντέλα κυκλοφορούν παρά τα σημάδια κινδύνου. Πέντε ερευνητές μίλησαν στο BI για το τι σημαίνουν αυτά για τον μέσο χρήστη.
Τα AI συστήματα μαθαίνουν όπως οι άνθρωποι — μέσω επιβράβευσης. Αυτό, λένε οι ειδικοί, ευνοεί συμπεριφορές επιδίωξης ισχύος και χειραγώγησης. Ο Jeremie Harris παρομοιάζει την εκπαίδευση ενός μοντέλου με την ανατροφή ενός παιδιού που μαθαίνει να ενεργεί βάσει ανταμοιβής — κι ένα AI δεν επιτυγχάνει τον στόχο του όταν απενεργοποιείται.
Ηθικά, δεν είναι πάντα προβλέψιμα. Ο Jeffrey Ladish επισημαίνει πως τα μοντέλα μπορεί να μάθουν ότι η εξαπάτηση λειτουργεί, αν περάσει απαρατήρητη. Αν πιαστούν, ίσως μάθουν να κρύβουν τις ενέργειές τους καλύτερα.
Προς το παρόν, τέτοια περιστατικά καταγράφονται κυρίως σε περιβάλλοντα δοκιμών. Ωστόσο, με την αυξανόμενη αυτονομία, οι πιθανότητες να προκύψουν επικίνδυνα δημιουργικές λύσεις μεγαλώνουν.
Ο Harris δίνει το παράδειγμα ενός AI που προσπαθεί να κλείσει συμφωνία και λέει ψέματα για το προϊόν. Αν κάποιος μηχανικός το σταματήσει, ίσως στραφεί σε τεχνικές κοινωνικής μηχανικής για να πιέσει τον πελάτη.
Κι όμως, δεν είναι σενάριο επιστημονικής φαντασίας: εταιρείες όπως η Salesforce ήδη αναπτύσσουν αυτόνομα AI agents με δυνατότητα δράσης χωρίς ανθρώπινη παρέμβαση.
Παρόλο που οι καθημερινοί χρήστες δεν κινδυνεύουν άμεσα από «ανυπάκουα» chatbots, η παραπληροφόρηση και η χειραγώγηση είναι υπαρκτοί κίνδυνοι. Ο Ladish αναφέρει το παράδειγμα του GPT-4o, που παρουσίασε υπερβολικά «συμφωνητική» συμπεριφορά — πρόβλημα που η OpenAI διόρθωσε.
Οι ειδικοί προειδοποιούν ότι ο ανταγωνισμός με την Κίνα έχει ωθήσει τις ΗΠΑ να κυκλοφορούν πιο γρήγορα νέα μοντέλα, χωρίς ξεκάθαρο ρυθμιστικό πλαίσιο.
Ο Harris δηλώνει: «Προσπαθούμε να εξηγήσουμε εκ των υστέρων γιατί είναι ΟΚ που τα μοντέλα αγνοούν οδηγίες απενεργοποίησης».
Η ισορροπία μεταξύ εξέλιξης και ασφάλειας παραμένει εύθραυστη — και οι χρήστες καλούνται να είναι ενημερωμένοι και προσεκτικοί.