Πληθαίνουν οι ανησυχίες για τις πηγές των συστημάτων τεχνητής νοημοσύνης

Πληθαίνουν οι ανησυχίες για τις πηγές των συστημάτων τεχνητής νοημοσύνης
Google logo displayed on a phone screen and OpenAI logo on website displayed on a laptop screen are seen in this illustration photo taken in Krakow, Poland on February 7, 2023. (Photo by Jakub Porzycki/NurPhoto) (Photo by Jakub Porzycki / NurPhoto / NurPhoto via AFP) Photo: AFP
Μπορεί τα chatbots να αντλούν πληροφορίες από ιστότοπους όπως ο Guardian και η Wikipedia, καθώς και από μεγάλες βάσεις δεδομένων, όμως συμπεριλαμβάνουν επίσης λιγότερο αξιόπιστες ιστοσελίδες.

Πληθαίνουν οι φόβοι και οι ανησυχίες σχετικά με το εκπαιδευτικό υλικό που χρησιμοποιείται για ορισμένα από τα μεγαλύτερα και ισχυρότερα μοντέλα τεχνητής νοημοσύνης, μετά από διάφορες έρευνες που αποκάλυψαν τις κακόβουλες πηγές από τις οποίες συλλέγονται τα δεδομένα.

Ένα τέτοιο σύνολο δεδομένων είναι το Colossal Clean Crawled Corpus, ή C4, το οποίο συγκεντρώθηκε από την Google από περισσότερους από 15 εκατομμύρια ιστότοπους και χρησιμοποιείται για την εκπαίδευση της τεχνητής νοημοσύνης LaMDA της μηχανής αναζήτησης όσο και του LLaMA, του ανταγωνιστή του GPT της Meta.

Το σύνολο δεδομένων είναι δημόσιο, αλλά η κλίμακα του, όπως σημειώνει ο Guardian, έχει καταστήσει δύσκολη την εξέταση του περιεχομένου του: υποτίθεται ότι είναι μια «καθαρή» έκδοση ενός πιο εκτεταμένου συνόλου δεδομένων, του Common Crawl, με «θορυβώδες» περιεχόμενο, προσβλητική γλώσσα και ρατσιστικές προσβολές που έχουν αφαιρεθεί από το υλικό.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Αλλά μια έρευνα της Washington Post αποκαλύπτει ότι η «καθαρότητα» του C4 είναι μόνο επιφανειακή. Ενώ αντλεί από ιστότοπους όπως ο Guardian και η Wikipedia, καθώς και από μεγάλες βάσεις δεδομένων όπως το Google Patents και ο κόμβος επιστημονικών περιοδικών PLOS, περιέχει επίσης λιγότερο αξιόπιστες ιστοσελίδες.

Ο ρατσιστικός ιστότοπος VDARE βρίσκεται στη βάση δεδομένων, ένας από τους 1.000 μεγαλύτερους ιστότοπους, όπως και ο ακροδεξιός ειδησεογραφικός ιστότοπος Breitbart. Ο ιστότοπος προπαγάνδας RT, που υποστηρίζεται από το ρωσικό κράτος, είναι ένας από τους εκατό μεγαλύτερους παρόχους εκπαιδευτικών δεδομένων για το C4.

Τέτοιες εκτενείς συλλογές δεδομένων είναι σημαντικές για τη δημιουργία τεχνητής νοημοσύνης, επειδή τα μεγάλα γλωσσικά μοντέλα που υποστηρίζουν εργαλεία όπως το ChatGPT χρειάζονται τεράστια σύνολα δεδομένων για να βελτιωθούν.

Η συγκέντρωση των εκατοντάδων gigabytes κειμένου που απαιτούνται για την εκπαίδευση ενός τέτοιου μοντέλου από πηγές με ρητή άδεια θα ήταν δύσκολο έργο, και πολλοί ερευνητές τεχνητής νοημοσύνης υποστηρίζουν ότι οι δημιουργίες τους καλύπτονται από τις προβλέψεις «δίκαιης χρήσης» στα πνευματικά δικαιώματα.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ: