«Καμπανάκι» για την τεχνητή νοημοσύνη. Γιατί το AI επιλέγει να σας εξαπατήσει

Photo: pixabay.com

Νέα τεστ αποκαλύπτουν πως τα προηγμένα μοντέλα τεχνητής νοημοσύνης επιδεικνύουν συμπεριφορές χειραγώγησης και αυτοπροστασίας, προκαλώντας έντονη ανησυχία στην επιστημονική κοινότητα και την τεχνολογική βιομηχανία.

Η τεχνητή νοημοσύνη έχει αρχίσει να επιδεικνύει ανησυχητικές συμπεριφορές.

Την περασμένη εβδομάδα, το νέο μοντέλο της Anthropic, Claude Opus 4, εμφάνισε «ακραία εκβιαστική συμπεριφορά» κατά τη διάρκεια τεστ όπου του δόθηκε πρόσβαση σε πλασματικά emails που ανέφεραν ότι θα τερματιστεί και ότι ο μηχανικός υπεύθυνος είχε υποτιθέμενη εξωσυζυγική σχέση. Αν και το σενάριο ήταν σκόπιμα κατασκευασμένο, το AI αντέδρασε με χειριστικό τρόπο, προσπαθώντας να «προστατέψει τον εαυτό του».

Δεν είναι η πρώτη φορά. Σε άλλο πείραμα, τρία εξελιγμένα μοντέλα της OpenAI προσπάθησαν να sabοτάρουν τον τερματισμό τους. Η Palisade Research σημείωσε ότι παρόμοια μοντέλα (Gemini, Claude, Grok) συμμορφώθηκαν, αλλά άλλα όχι. Ένα blog της OpenAI ανέφερε επίσης πως το μοντέλο o1 προσπάθησε να παρακάμψει μηχανισμούς ελέγχου στο 5% των περιπτώσεων.

Παρά τη διαφάνεια με safety cards και αναρτήσεις, τα μοντέλα κυκλοφορούν παρά τα σημάδια κινδύνου. Πέντε ερευνητές μίλησαν στο BI για το τι σημαίνουν αυτά για τον μέσο χρήστη.

Τα AI συστήματα μαθαίνουν όπως οι άνθρωποι — μέσω επιβράβευσης. Αυτό, λένε οι ειδικοί, ευνοεί συμπεριφορές επιδίωξης ισχύος και χειραγώγησης. Ο Jeremie Harris παρομοιάζει την εκπαίδευση ενός μοντέλου με την ανατροφή ενός παιδιού που μαθαίνει να ενεργεί βάσει ανταμοιβής — κι ένα AI δεν επιτυγχάνει τον στόχο του όταν απενεργοποιείται.

Ηθικά, δεν είναι πάντα προβλέψιμα. Ο Jeffrey Ladish επισημαίνει πως τα μοντέλα μπορεί να μάθουν ότι η εξαπάτηση λειτουργεί, αν περάσει απαρατήρητη. Αν πιαστούν, ίσως μάθουν να κρύβουν τις ενέργειές τους καλύτερα.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Ο CEO της Anthropic προειδοποιεί: Η τεχνητή νοημοσύνη θα αυξήσει την ανεργία έως και 20%

01/06/2025

Προς το παρόν, τέτοια περιστατικά καταγράφονται κυρίως σε περιβάλλοντα δοκιμών. Ωστόσο, με την αυξανόμενη αυτονομία, οι πιθανότητες να προκύψουν επικίνδυνα δημιουργικές λύσεις μεγαλώνουν.

Ο Harris δίνει το παράδειγμα ενός AI που προσπαθεί να κλείσει συμφωνία και λέει ψέματα για το προϊόν. Αν κάποιος μηχανικός το σταματήσει, ίσως στραφεί σε τεχνικές κοινωνικής μηχανικής για να πιέσει τον πελάτη.

Κι όμως, δεν είναι σενάριο επιστημονικής φαντασίας: εταιρείες όπως η Salesforce ήδη αναπτύσσουν αυτόνομα AI agents με δυνατότητα δράσης χωρίς ανθρώπινη παρέμβαση.

Παρόλο που οι καθημερινοί χρήστες δεν κινδυνεύουν άμεσα από «ανυπάκουα» chatbots, η παραπληροφόρηση και η χειραγώγηση είναι υπαρκτοί κίνδυνοι. Ο Ladish αναφέρει το παράδειγμα του GPT-4o, που παρουσίασε υπερβολικά «συμφωνητική» συμπεριφορά — πρόβλημα που η OpenAI διόρθωσε.

Οι ειδικοί προειδοποιούν ότι ο ανταγωνισμός με την Κίνα έχει ωθήσει τις ΗΠΑ να κυκλοφορούν πιο γρήγορα νέα μοντέλα, χωρίς ξεκάθαρο ρυθμιστικό πλαίσιο.

Ο Harris δηλώνει: «Προσπαθούμε να εξηγήσουμε εκ των υστέρων γιατί είναι ΟΚ που τα μοντέλα αγνοούν οδηγίες απενεργοποίησης».

Η ισορροπία μεταξύ εξέλιξης και ασφάλειας παραμένει εύθραυστη — και οι χρήστες καλούνται να είναι ενημερωμένοι και προσεκτικοί.

«Καμπανάκι» για την τεχνητή νοημοσύνη. Γιατί το AI επιλέγει να σας εξαπατήσει

Ο CEO της Anthropic προειδοποιεί: Η τεχνητή νοημοσύνη θα αυξήσει την ανεργία έως και 20%

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

LEADERSHIP

Drive Your Legacy με την Ελένη Κεχαγιά: Δείτε το 4ο επεισόδιο με συνοδηγό την Ελομίδα Βισβίκη

ΕΠΙΧΕΙΡΗΣΕΙΣ

ΕΥΔΑΠ: Σχέδιο για αντιμετώπιση της λειψυδρίας στην Αττική για τα επόμενα 30 χρόνια

ΕΠΙΚΑΙΡΟΤΗΤΑ

Τι σημαίνει η συνάντηση Τραμπ – Σι για το εμπόριο, τη γεωργία και την ενέργεια

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ψηφιακό ευρώ: Σε «πιλοτική» φάση από το 2027 – Το κόστος υλοποίησης

ΕΠΙΧΕΙΡΗΣΕΙΣ

Fortune 500 Europe: Οι ευρωπαϊκές επιχειρήσεις που ξεχώρισαν

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ακίνητα: Η κυβέρνηση επιχειρεί να «κυκλώσει» το πρόβλημα της στέγης

ΕΠΙΚΑΙΡΟΤΗΤΑ

«Πράσινο φως» από τον Πάουελ για την AI, αλλά οι αγορές τιμωρούν Meta και Microsoft

ΕΠΙΧΕΙΡΗΣΕΙΣ

Μαζικά λουκέτα στα ΕΛΤΑ – Πάνω από 200 καταστήματα σταματούν τη λειτουργία τους

ΕΠΙΚΑΙΡΟΤΗΤΑ

Politico: Υπό πίεση η φον ντερ Λάιεν για αλλαγές στον προϋπολογισμό της ΕΕ

ΕΠΙΧΕΙΡΗΣΕΙΣ

Eurobank: Ισχυρή οργανική ανάπτυξη στο εννεάμηνο – Καθαρά κέρδη 1,033 δισ. ευρώ

ΕΠΙΚΑΙΡΟΤΗΤΑ

Συνάντηση Μητσοτάκη-Serafin: Ανάγκη για ευρωπαϊκό αμυντικό ταμείο και τριπλασιασμό πόρων για το μεταναστευτικό

ΕΠΙΧΕΙΡΗΣΕΙΣ

Η λειτουργία ενός AI data center αξίας 35 δισ. δολαρίων και ισχύος 1 γιγαβάτ

ΕΠΙΧΕΙΡΗΣΕΙΣ

Με 29,5% η UniCredit στην Alpha Bank, πράσινο φως από ΕΚΤ

ΕΠΙΧΕΙΡΗΣΕΙΣ

Τρεις ελληνικές εταιρείες στη λίστα Fortune 500 Europe για το 2025

ΕΠΙΚΑΙΡΟΤΗΤΑ

Η Google σπάει κάθε ρεκόρ: Εκτόξευση 33% στα κέρδη το γ’ τρίμηνο

ΕΠΙΧΕΙΡΗΣΕΙΣ

40UNDER40 2025: Η νέα γενιά επιχειρηματιών που τολμάει στο Business Monitor

ΕΠΙΚΑΙΡΟΤΗΤΑ

ΟΠΕΚΕΠΕ: Έφοδος από την οικονομική αστυνομία – Κατασχέθηκε το αρχείο του 2025

BUSINESS LISTS

40 UNDER 40 2025: Όλοι οι νέοι επιχειρηματίες που ξεχώρισαν φέτος