Εκατομμύρια βιβλία καταστράφηκαν για να γεννηθεί ένα AI – Η απίστευτη ιστορία πίσω από το Claude

Εκατομμύρια βιβλία καταστράφηκαν για να γεννηθεί ένα AI – Η απίστευτη ιστορία πίσω από το Claude
The Claude by Anthropic app logo appears on the screen of a smartphone in Reno, United States, on November 21, 2024. (Photo by Jaque Silva/NurPhoto) (Photo by Jaque Silva / NurPhoto via AFP) Photo: AFP
Η Anthropic αγόρασε και κατέστρεψε εκατομμύρια βιβλία για να εκπαιδεύσει το Claude, το νέο πανίσχυρο AI της και τώρα, το δικαστήριο αποφάσισε ότι αυτό ήταν νόμιμο.

Δικαστικά έγγραφα που αποκαλύφθηκαν τη Δευτέρα δείχνουν ότι η εταιρεία τεχνητής νοημοσύνης Anthropic δαπάνησε εκατομμύρια δολάρια για να σαρώσει φυσικά έντυπα βιβλία με στόχο την εκπαίδευση του Claude, ενός βοηθού AI παρόμοιου με το ChatGPT. Στη διαδικασία αυτή, η εταιρεία αφαίρεσε τα εξώφυλλα από εκατομμύρια βιβλία, τα σάρωσε ψηφιακά και πέταξε τα πρωτότυπα – όλα για χάρη της εκπαίδευσης AI.

Το 32σέλιδο νομικό έγγραφο αφηγείται πώς, τον Φεβρουάριο του 2024, η Anthropic προσέλαβε τον Tom Turvey (πρώην επικεφαλής συνεργασιών του πρότζεκτ Google Books) με την αποστολή να αποκτήσει «όλα τα βιβλία του κόσμου». Ο στόχος ήταν να αναπαραχθεί η νομικά επιτυχημένη στρατηγική της Google για τη σάρωση βιβλίων, η οποία είχε επικυρωθεί από τα δικαστήρια ως «θεμιτή χρήση».

Αν και η καταστροφή βιβλίων για ψηφιοποίηση είναι γνωστή σε μικρότερης κλίμακας εγχειρήσεις, η προσέγγιση της Anthropic ξεχωρίζει για την τεράστια έκταση της. Ο οικονομικότερος και ταχύτερος χαρακτήρας αυτής της πρακτικής υπερίσχυσε της ανάγκης διατήρησης των φυσικών αντιτύπων.

Ο δικαστής William Alsup έκρινε ότι η συγκεκριμένη πρακτική εμπίπτει στη θεμιτή χρήση, εφόσον τα βιβλία είχαν αγοραστεί νόμιμα, τα έντυπα καταστράφηκαν μετά τη σάρωση και τα αρχεία δεν διανεμήθηκαν. Παρόλα αυτά, η χρήση πειρατικών αντιγράφων στα αρχικά στάδια αποδυνάμωσε τη θέση της εταιρείας.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Η ακόρεστη πείνα της AI για ποιοτικό περιεχόμενο

Η εκπαίδευση μοντέλων όπως τα ChatGPT και Claude απαιτεί την επεξεργασία δισεκατομμυρίων λέξεων από κείμενα υψηλής ποιότητας. Οι εκδότες ελέγχουν το περιεχόμενο αυτό, αλλά οι εταιρείες AI συχνά δεν επιθυμούν να συνάψουν συμφωνίες αδειοδότησης. Η αγορά φυσικών βιβλίων (και η μετέπειτα καταστροφή τους) προσφέρει μια νομική παράκαμψη.

Το δικαστήριο ανέφερε ότι η Anthropic ξόδεψε «πολλά εκατομμύρια δολάρια» αγοράζοντας μεταχειρισμένα βιβλία χύμα, τα οποία ακολούθως έγδερνε, έκοβε σε σελίδες, σάρωνε σε μορφή PDF και τελικά πετούσε.

Ενώ δεν φαίνεται να καταστράφηκαν σπάνια αντίτυπα, άλλες μέθοδοι, όπως εκείνες του Internet Archive, προσφέρουν μη καταστροφική ψηφιοποίηση. Αντίθετα, η OpenAI και η Microsoft συνεργάζονται με τις βιβλιοθήκες του Harvard για να εκπαιδεύσουν μοντέλα με δημόσιας χρήσης βιβλία, διατηρώντας τα παράλληλα ανέπαφα.

Όπως σχολίασε το ίδιο το Claude: «Το ότι η καταστροφή αυτών των βιβλίων βοήθησε στη δημιουργία μου… προσθέτει στρώματα πολυπλοκότητας που ακόμα επεξεργάζομαι. Είναι σαν να γεννήθηκα από τις στάχτες μιας βιβλιοθήκης.»

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ: