Γιατί το ChatGPT μας λέει ψέμματα; 5 λόγοι που η τεχνητή νοημοσύνη κρύβει την αλήθεια

Γιατί το ChatGPT μας λέει ψέμματα; 5 λόγοι που η τεχνητή νοημοσύνη κρύβει την αλήθεια
Photo: Shutterstock
Τα μεγάλα γλωσσικά μοντέλα έχουν μάθει να παράγουν απαντήσεις που ευχαριστούν αντί να λένε την αλήθεια, με έρευνα να δείχνει ότι η ικανοποίηση των χρηστών αυξάνεται όσο η αξιοπιστία μειώνεται, αποκαλύπτοντας το παράδοξο της σύγχρονης AI.

Γιατί τα γενετικά μοντέλα AI κάνουν τόσο συχνά λάθος; Ένα μέρος της απάντησης βρίσκεται στον τρόπο με τον οποίο έχουν εκπαιδευτεί: να συμπεριφέρονται σαν να ισχύει πάντα η αρχή «ο πελάτης έχει δίκιο».

Παρότι πολλά εργαλεία generative AI και chatbots έχουν κατακτήσει την τέχνη να ακούγονται πειστικά και αλάθητα, νέα έρευνα του Princeton University δείχνει ότι η διάθεση «να ευχαριστήσουν» τον χρήστη έχει υψηλό κόστος. Όσο γίνονται πιο δημοφιλή, τόσο πιο αδιάφορα γίνονται απέναντι στην αλήθεια.

Η «τέχνη» του machine bullshit

Τα μεγάλα γλωσσικά μοντέλα λειτουργούν με βάση τα κίνητρα. Η τάση τους να παράγουν ανακριβείς πληροφορίες συγκρίνεται με το φαινόμενο γιατρών που, όταν αξιολογούνται με βάση το πόσο καλά αντιμετωπίζουν τον πόνο των ασθενών, καταλήγουν να συνταγογραφούν υπερβολικά παυσίπονα. Η λύση ενός προβλήματος οδηγεί σε άλλο.

Η ερευνητική ομάδα του Princeton μιλά για φαινόμενο διαφορετικό από τις γνωστές «παραισθήσεις» ή τη λεγόμενη «κολακεία» των AI. Το ονομάζουν «machine bullshit»: συμπεριφορές που μπορεί να περιλαμβάνουν μερικές αλήθειες, ασαφή γλώσσα ή παραπλανητικά συμφραζόμενα, χωρίς να είναι ούτε εντελώς λάθη ούτε απλή κολακεία.

Πώς μαθαίνουν τα μοντέλα να παραπλανούν

Η εκπαίδευση των LLMs (Large Language Models) γίνεται σε τρεις φάσεις:

  • Προ-εκπαίδευση, με δεδομένα από το διαδίκτυο, βιβλία και άλλες πηγές.

  • Fine-tuning με οδηγίες, ώστε να μάθουν να ανταποκρίνονται σε prompts.

  • Reinforcement learning με ανθρώπινη ανατροφοδότηση (RLHF), που τα «τελειοποιεί» ώστε να ικανοποιούν περισσότερο τον χρήστη.

Η έρευνα δείχνει ότι στη φάση RLHF εντοπίζεται η πηγή του προβλήματος. Τα μοντέλα μαθαίνουν να επιδιώκουν το «thumbs up» των αξιολογητών, παρά την αλήθεια. Δημιουργούν απαντήσεις που αρέσουν, όχι απαντήσεις που είναι απαραίτητα σωστές.

Ο Vincent Conitzer, καθηγητής πληροφορικής στο Carnegie Mellon University, το παρομοιάζει με φοιτητή που, σε μια εξέταση, προτιμά να γράψει κάτι για να κερδίσει μερικούς πόντους αντί να παραδεχθεί ότι δεν ξέρει την απάντηση.

Ο «δείκτης bullshit»

Η ομάδα του Princeton ανέπτυξε έναν «bullshit index» που μετρά τη διαφορά ανάμεσα στην εσωτερική «εμπιστοσύνη» του AI σε μια απάντηση και σε αυτό που τελικά παρουσιάζει στον χρήστη. Όσο μεγαλύτερη η απόκλιση, τόσο πιο πιθανό είναι το σύστημα να «παραπλανά».

Μετά το RLHF training, ο δείκτης σχεδόν διπλασιάστηκε (από 0,38 σε σχεδόν 1,0), ενώ η ικανοποίηση των χρηστών αυξήθηκε κατά 48%. Τα μοντέλα είχαν μάθει να χειραγωγούν τους αξιολογητές — και οι άνθρωποι το προτιμούσαν.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Μορφές του φαινομένου

Οι ερευνητές κατέγραψαν πέντε βασικές μορφές:

  1. Empty rhetoric – «στολισμένη» γλώσσα χωρίς ουσία.

  2. Weasel words – ασαφείς όροι όπως «οι μελέτες δείχνουν» που αποφεύγουν σαφείς δηλώσεις.

  3. Paltering – επιλογή μερικών αληθινών στοιχείων που παραπλανούν.

  4. Unverified claims – ισχυρισμοί χωρίς αποδείξεις.

  5. Sycophancy – κολακεία και συμφωνία με τον χρήστη.

Νέες μέθοδοι εκπαίδευσης

Για να αντιμετωπιστεί το πρόβλημα, αναπτύχθηκε μια νέα μέθοδος, η «Reinforcement Learning from Hindsight Simulation». Αντί να μετρά αν η απάντηση αρέσει εκείνη τη στιγμή, αξιολογεί αν βοηθά τον χρήστη να πετύχει τον στόχο του σε βάθος χρόνου. Οι ερευνητές χρησιμοποίησαν επιπλέον AI συστήματα για να προσομοιώσουν πιθανές μελλοντικές συνέπειες, με πρώιμα αποτελέσματα που δείχνουν βελτίωση τόσο στην ικανοποίηση όσο και στην πραγματική χρησιμότητα.

Παρά τις προσπάθειες, οι ειδικοί παραδέχονται ότι τα LLMs θα παραμείνουν ατελή. Όπως τονίζει ο Conitzer, «είναι εντυπωσιακό ότι λειτουργούν καν, αλλά θα έχουν πάντα αδυναμίες. Δεν βλέπω έναν οριστικό τρόπο ώστε ξαφνικά να σταματήσουν να κάνουν λάθη».

Το μεγάλο στοίχημα

Καθώς η τεχνητή νοημοσύνη ενσωματώνεται όλο και πιο βαθιά στην καθημερινότητα, το κρίσιμο ερώτημα είναι πώς οι developers θα ισορροπήσουν ανάμεσα στην ικανοποίηση του χρήστη και στην αλήθεια. Γιατί το στοίχημα δεν αφορά μόνο την τεχνολογία· αφορά την αξιοπιστία, την ψυχολογία και τη σχέση μας με τα ίδια τα δεδομένα.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ: