Η Google προετοιμάζεται για το χειρότερο σενάριο: Όταν οι AI agents γίνουν εσωτερική απειλή

Η Google προετοιμάζεται για το χειρότερο σενάριο: Όταν οι AI agents γίνουν εσωτερική απειλή
Ostersund, Sweden - July 24 2023: Google Deepmind website. DeepMind Technologies Limited, doing business as Google DeepMind, is a British-American artificial intelligence research laboratory. Photo: Shutterstock
Η Google DeepMind παραδέχεται ότι η πλήρης «ευθυγράμμιση» της τεχνητής νοημοσύνης ίσως να μην επιτευχθεί ποτέ και γι’ αυτό αναπτύσσει ένα νέο πολυεπίπεδο σύστημα επιτήρησης που αντιμετωπίζει τους AI agents ως δυνητικές εσωτερικές απειλές.

Του Jeremy Kahn

Καθώς οι ΑΙ agents αποκτούν ολοένα και μεγαλύτερη αυτονομία και επιχειρησιακές δυνατότητες, η Google αναπτύσσει ένα νέο πλαίσιο επιτήρησης και ελέγχου για τα συστήματα που χρησιμοποιεί στο εσωτερικό της. Η εταιρεία δημοσιεύει έναν αναλυτικό οδικό χάρτη με στόχο να βοηθήσει και άλλα εργαστήρια τεχνητής νοημοσύνης να προετοιμαστούν για το ενδεχόμενο της εμφάνισης ΑΙ agents που ενεργούν αντίθετα προς τα συμφέροντα των εταιρειών που τους αναπτύσσουν.

Το σχέδιο ασφαλείας της Google DeepMind σηματοδοτεί μια αξιοσημείωτη μετατόπιση από την τυπική εστίαση της κοινότητας ασφάλειας της τεχνητής νοημοσύνης στο λεγόμενο «πρόβλημα ευθυγράμμισης». Την προσπάθεια εκπαίδευσης ενός συστήματος ΑΙ έτσι ώστε να διασφαλιστεί ότι οι ενέργειές του παραμένουν συνεπείς με τις προθέσεις, τις αξίες και την ηθική των ανθρώπων που το διαχειρίζονται.

Παρότι η εταιρεία εξακολουθεί να θεωρεί την ευθυγράμμιση θεμελιώδη πυλώνα της ασφάλειας, αναγνωρίζει ταυτόχρονα ότι το πρόβλημα ευθυγράμμισης μπορεί να μην επιλυθεί ποτέ πλήρως. Για τον λόγο αυτό, ο νέος οδικός χάρτης της Google δημιουργεί ένα πολυεπίπεδο σύστημα ασφάλειας που αντιμετωπίζει τους ΑΙ agents ως δυνητικούς εσωτερικούς απειλητικούς παράγοντες μέσα σε έναν οργανισμό. Η τεχνική έκθεση 35 σελίδων περιγράφει μια σειρά από βήματα και διαδικασίες που έχουν σχεδιαστεί ώστε να εντοπίζουν έγκαιρα σημάδια απειλητικής συμπεριφοράς από ΑΙ agents.

«Αν η πρώτη γραμμή άμυνας -δηλαδή η ευθυγράμμιση- αποτύχει, πώς μπορούμε να περιορίσουμε τη ζημιά ούτως ή άλλως;» δήλωσε σε συνέντευξή του στο Fortune ο Rohin Shah, επικεφαλής της ομάδας ασφάλειας και ευθυγράμμισης AGI στην Google DeepMind.

Το προτεινόμενο πλαίσιο αντλεί σε μεγάλο βαθμό από την παραδοσιακή κυβερνοασφάλεια, ειδικά από τα μοντέλα πρόληψης εσωτερικών απειλών. «Δανειζόμαστε πολλά από τις υπάρχουσες πρακτικές ασφάλειας, οι οποίες ήδη ασχολούνται με την απειλή από κακόβουλους ή απρόβλεπτους εργαζόμενους, και μπορούν να εφαρμοστούν σε ένα νέο περιβάλλον», εξηγεί ο Shah. Ωστόσο, όπως επισημαίνει, «η τεχνητή νοημοσύνη διαφέρει θεμελιωδώς από τους ανθρώπους».

Η βασικότερη διαφορά έγκειται στο ότι οι ΑΙ agents μπορούν να ενεργήσουν πολύ πιο γρήγορα και σε μεγαλύτερη κλίμακα από ό,τι θα μπορούσε ποτέ ένας μεμονωμένος ανθρώπινος υπάλληλος. Επομένως, οι οργανισμοί χρειάζονται μηχανισμούς που θα μπορούν να ελέγχουν σε ποια εργαλεία και δεδομένα έχει πρόσβαση ένας ΑΙ agent, καθώς και συστήματα παρακολούθησης των ΑΙ agents που θα εντοπίζουν ύποπτα ή παρεκκλίνοντα μοτίβα συμπεριφοράς σε πραγματικό χρόνο.

Υπάρχουν όμως και πιο σύνθετες διαφορές. Για παράδειγμα, τα περισσότερα συστήματα ελέγχου πρόσβασης και δικαιωμάτων για ανθρώπινους υπαλλήλους βασίζονται στον οργανωτικό ρόλο ενός συγκεκριμένου υπαλλήλου εντός της εταιρείας. Ένας διαχειριστής συστημάτων διαθέτει διαφορετικά επίπεδα πρόσβασης, για παράδειγμα, από έναν υπάλληλο υποδοχής. Αρκετές εταιρείες, καθώς και προμηθευτές λογισμικού που αναπτύσσουν πλατφόρμες «επιπέδου ενορχήστρωσης» για ΑΙ agents, επιχειρούν επί του παρόντος να μεταφέρουν αυτό το μοντέλο στο νέο περιβάλλον, ορίζοντας, για παράδειγμα, ότι ένας ΑΙ agent θα πρέπει να διαθέτει την ίδια πρόσβαση και δικαιώματα με τον ανθρώπινο υπάλληλο για λογαριασμό του οποίου ενεργεί.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Ωστόσο, αυτή η λογική μπορεί να καταρρεύσει πολύ γρήγορα, δήλωσε στο Fortune ο John Flynn, αντιπρόεδρος ασφάλειας και προστασίας προσωπικών δεδομένων της Google DeepMind. Καταρχάς, όσο οι επιχειρησιακές διαδικασίες αυτοματοποιούνται ολοένα και περισσότερο, γίνεται όλο και πιο ασαφές για λογαριασμό ποιου ακριβώς εργαζομένου ή τμήματος λειτουργεί ένας ΑΙ agent. Επιπλέον, σε πλήρως αυτοματοποιημένες ροές εργασίας, ένας και μόνο agent μπορεί να εκτελεί καθήκοντα που αντιστοιχούν σε πολλούς διαφορετικούς ρόλους και όχι σε έναν συγκεκριμένο. Τέλος, καθώς τα συστήματα τεχνητής νοημοσύνης γίνονται πιο ικανά, οι οργανισμοί ενδέχεται να επιθυμούν ο ίδιος agent να δρα σε πολλαπλές διαδικασίες και λειτουργίες ταυτόχρονα. Σε ένα τέτοιο περιβάλλον, τα παραδοσιακά συστήματα δικαιωμάτων πρόσβασης που βασίζονται σε σταθερούς ρόλους, ή ακόμη και σε προκαθορισμένες επιχειρησιακές διαδικασίες, ενδέχεται να αποδειχθούν ανεπαρκή, υποστήριξε ο Flynn.

Αντίθετα, αυτό που απαιτείται είναι ένα πολύ πιο δυναμικό μοντέλο ελέγχου πρόσβασης που μπορεί να προσαρμόζεται σε πραγματικό χρόνο ανάλογα με την εργασία που εκτελεί ένας ΑΙ agent εκείνη τη στιγμή και το πώς αυτό εντάσσεται σε μια συγκεκριμένη ροή εργασίας. Ο Flynn περιγράφει σενάρια όπου ο ίδιος ΑΙ agent μπορεί να έχει δικαιώματα για να εκτελέσει μια συγκεκριμένη ενέργεια ή να αποκτήσει πρόσβαση σε μια συγκεκριμένη βάση δεδομένων για μια εργασία σε μια συγκεκριμένη ροή εργασίας, αλλά, ίσως λίγα λεπτά αργότερα, δεν θα του επιτρεπόταν η ίδια πρόσβαση σε μια διαφορετική ροή εργασίας. Κατά τον Flynn, το ζητούμενο είναι ένα εξελιγμένο σύστημα παρακολούθησης συμπεριφορών AI agents που θα γνωρίζει πώς θα πρέπει να μοιάζει η φυσιολογική εκτέλεση για οποιαδήποτε δεδομένη εργασία σε οποιαδήποτε ροή εργασίας και θα εντοπίζει αποκλίσεις από αυτό το μοτίβο σε πραγματικό χρόνο, ενεργώντας γρήγορα για να διακόψει άμεσα την πρόσβαση εάν υπάρχουν ενδείξεις ότι ο AI agent επιχειρεί ενέργειες εκτός προδιαγραφών.

Σε ανάρτηση στο blog της σχετικά με τον νέο οδικό χάρτη ασφάλειας AI agents, η DeepMind αναφέρει ότι έχει ήδη αναπτύξει ένα εσωτερικό πρωτότυπο σύστημα που παρακολουθεί ασύγχρονα τις τροχιές των agents κώδικα και κλιμακώνει ύποπτα ευρήματα για ανθρώπινο έλεγχο. Αυτό το σύστημα έχει αναλύσει περίπου 1 εκατομμύριο εργασίες agents κώδικα, δήλωσε η DeepMind. Αυτή η εργασία έχει συμβάλει «καθοριστικά στη δημιουργία ενός live monitoring μηχανισμού για τον agent Gemini Spark», επιτρέποντας στην εταιρεία να ανταποκρίνεται σε πραγματικό χρόνο σε περιστατικά όπως η ακούσια διαγραφή δεδομένων.

Αξιοσημείωτο είναι ότι, όπως αναφέρει η DeepMind, η πλειονότητα από όσα επισημαίνουν οι οθόνες της δεν είναι κακόβουλα. Η «πλειονότητα των alerts δεν σχετίζεται με κακόβουλη πρόθεση», αναφέρει η ανάρτηση στο blog. Συχνά προκύπτουν από «λανθασμένη ερμηνεία ή υπερβολική προθυμία επίτευξης στόχου από τη μεριά του ίδιου του agent».

Αυτό το είδος συμπεριφορικής παρακολούθησης σε πραγματικό χρόνο αποτελεί μόνο μία από περίπου 15 διαφορετικές κατηγορίες μηχανισμών για τον μετριασμό του κινδύνου των AI agents που προτείνει η Google DeepMind στον οδικό της χάρτη. Οι υπόλοιπες περιλαμβάνουν, μεταξύ άλλων, απλά logs δραστηριότητας δικτύου που θα μπορούσαν είτε να εξεταστούν σε πραγματικό χρόνο είτε να ελεγχθούν αργότερα, αλλά και τη χρήση ενός λιγότερο εξελιγμένου, αλλά αξιόπιστου μοντέλου τεχνητής νοημοσύνης για την παρακολούθηση των λεγόμενων «ιχνών συλλογισμού» AI agents. Τα ίχνη αυτά αντιστοιχούν στις κειμενικές «ακολουθίες σκέψης» ενός μοντέλου τεχνητής νοημοσύνης όταν συλλογίζεται για το ποιες ενέργειες πρέπει να κάνει. Ωστόσο, οι ερευνητές έχουν διαπιστώσει ότι αυτά τα ίχνη συλλογισμού δεν αντικατοπτρίζουν πάντα με ακρίβεια αυτό που «σκέφτεται» στην πραγματικότητα το μοντέλο. Για τον λόγο αυτό, προτείνουν συμπληρωματικά την παρακολούθηση των μοτίβων ενεργοποίησης των ψηφιακών νευρώνων μέσα στα μεγάλα νευρωνικά δίκτυα που τροφοδοτούν τα σημερινά μοντέλα τεχνητής νοημοσύνης, προκειμένου να εντοπιστούν σημάδια ότι το μοντέλο ενεργεί παραπλανητικά. Η Google DeepMind παρομοιάζει αυτή την προσέγγιση με τη χρήση απεικονιστικών τεχνικών τύπου fMRI στον ανθρώπινο εγκέφαλο επιχειρώντας να διαβάσει τη συναισθηματική κατάσταση ή τις σκέψεις του σε πραγματικό χρόνο.

Στο τεχνικό έγγραφο του οδικού χάρτη ασφάλειας ΑΙ agents, η Google DeepMind αναπτύσσει επίσης το πλαίσιο που ονομάζει TRAIT&R – μια ταξινόμηση τακτικών αθέμιτης χρήσης τεχνητής νοημοσύνης – το οποίο βασίζεται στο γνωστό πλαίσιο ATT&CK, μια βάση γνώσεων για αντιφατικές συμπεριφορές στην κυβερνοασφάλεια που διατηρείται από το MITRE, την αμερικανική μη κερδοσκοπική εταιρεία συμβούλων έρευνας και μηχανικής συστημάτων που συχνά εργάζεται για ομοσπονδιακές υπηρεσίες. Το ATT&CK ξεχωρίζει τρεις βασικές κατηγορίες απειλών, απέναντι στις οποίες η Google DeepMind λέει ότι θέλει να αμυνθεί: «απώλεια ελέγχου» (π.χ. δημιουργία μιας κρυφής, μη παρακολουθούμενης εσωτερικής δραστηριότητας από το μοντέλο), «δολιοφθορά εργασίας» (π.χ. αθόρυβη υπονόμευση της ευθυγράμμισης ή της έρευνας ασφάλειας) και «άμεση βλάβη» (π.χ. εξαγωγή βαρών μοντέλων ή καταστροφή κρίσιμων περιουσιακών στοιχείων).

Ο Flynn, ο αντιπρόεδρος ασφαλείας, σημείωσε στη συνέντευξή του ότι η εταιρεία βρίσκεται ήδη «σε αρκετά προχωρημένο στάδιο» υλοποίησης του οδικού της χάρτη. «Πολλά από αυτά βρίσκονται ήδη σε καλό δρόμο και κάποια βρίσκονται σε παραγωγή – ειδικά σε έλεγχο πρόσβασης, ανίχνευσης και παρακολούθησης της ακολουθίας σκέψης. Σημαντικό μέρος του συστήματος είναι σε ισχύ και σε εξέλιξη», σημείωσε.

Ο Shah από την πλευρά του τόνισε ότι το πλαίσιο στοχεύει επίσης και στον εντοπισμό πιο ανεπαίσθητων μορφών βλάβης. Η δολιοφθορά στην εργασία, σημείωσε, «θα μπορούσε να επιτευχθεί μέσω της πειθούς, παρουσιάζοντας φαινομενικά σωστά αλλά ουσιαστικά ελαττωματικά αποτελέσματα», έτσι ώστε οι χρήστες «να καταλήγουν σε λανθασμένα συμπεράσματα». Πρόκειται για μια κατηγορία από τις πιο δύσκολες ως προς την ανίχνευση.

Ο οδικός χάρτης με την ονομασία “v0.1” παραμένει ένα έργο σε εξέλιξη που η DeepMind σκοπεύει να ενσωματώσει στο ευρύτερο Frontier Safety Framework μόλις ωριμάσει περαιτέρω.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Πηγή: Fortune.com