AI επανάσταση: Έρχονται τα world models, μια αγορά 100 τρισ. δολαρίων
- 29/09/2025, 09:49
- SHARE

Οι κορυφαίες ομάδες στον χώρο της τεχνητής νοημοσύνης εντείνουν την εστίασή τους στα λεγόμενα world models (μοντέλα κόσμου), τα οποία μπορούν να κατανοούν καλύτερα τα ανθρώπινα περιβάλλοντα, αναζητώντας νέους δρόμους για την επίτευξη της μηχανικής «υπερνοημοσύνης».
Η Google DeepMind, η Meta και η Nvidia είναι ανάμεσα στις εταιρείες που επιχειρούν να κερδίσουν έδαφος στην κούρσα της ΤΝ, αναπτύσσοντας συστήματα τα οποία στοχεύουν να πλοηγούνται στον φυσικό κόσμο μαθαίνοντας από βίντεο και δεδομένα ρομποτικής, αντί απλώς από τη γλώσσα.
Η στροφή αυτή γίνεται καθώς πληθαίνουν τα ερωτήματα για το αν τα μεγάλα γλωσσικά μοντέλα (LLMs) –η τεχνολογία που τροφοδοτεί δημοφιλή chatbots όπως το ChatGPT της OpenAI– πλησιάζουν τα όριά τους.
Τα άλματα στην απόδοση μεταξύ των LLMs που κυκλοφορούν από εταιρείες του κλάδου, όπως η OpenAI, η Google και η xAI του Ίλον Μασκ, έχουν αρχίσει να επιβραδύνονται, παρά τα τεράστια ποσά που επενδύονται στην ανάπτυξή τους.
Η αγορά για τα world models θα μπορούσε να είναι τεράστια –σχεδόν στο μέγεθος της παγκόσμιας οικονομίας– σύμφωνα με τον Rev Lebaredian, αντιπρόεδρο του Omniverse και της τεχνολογίας προσομοίωσης στην Nvidia, καθώς η τεχνολογία αυτή εισέρχεται στον φυσικό τομέα, όπως η βιομηχανία και η υγειονομική περίθαλψη.
«Ποια είναι η ευκαιρία για τα world foundation models; Ουσιαστικά… 100 τρισ. δολάρια, αν καταφέρουμε να δημιουργήσουμε μια νοημοσύνη που να κατανοεί τον φυσικό κόσμο και να μπορεί να λειτουργεί μέσα σε αυτόν», είπε.
Τα world models εκπαιδεύονται με ροές δεδομένων από πραγματικά ή προσομοιωμένα περιβάλλοντα. Θεωρούνται σημαντικό βήμα για την πρόοδο στα αυτόνομα αυτοκίνητα, τη ρομποτική και τους λεγόμενους «AI agents», αλλά απαιτούν τεράστιο όγκο δεδομένων και υπολογιστικής ισχύος για την εκπαίδευσή τους και παραμένουν μια τεχνική πρόκληση χωρίς λύση.
Η εστίαση σε αυτήν την εναλλακτική προσέγγιση έναντι των LLMs έγινε ορατή καθώς πολλές εταιρείες ΤΝ παρουσίασαν πρόσφατα μια σειρά προόδων στα world models.
Τον περασμένο μήνα, η Google DeepMind παρουσίασε το Genie 3, που παράγει βίντεο καρέ-καρέ, λαμβάνοντας υπόψη προηγούμενες αλληλεπιδράσεις. Μέχρι τώρα, τα μοντέλα βιντεοπαραγωγής συνήθως δημιουργούσαν ολόκληρο το βίντεο με μία κίνηση, αντί βήμα-βήμα.
«Η ΤΝ παραμένει σε μεγάλο βαθμό περιορισμένη στον ψηφιακό τομέα», δήλωσε ο Shlomi Fruchter, συν-υπεύθυνος του Genie 3 στη Google DeepMind. «Δημιουργώντας περιβάλλοντα που μοιάζουν ή λειτουργούν σαν τον πραγματικό κόσμο, μπορούμε να έχουμε πολύ πιο επεκτάσιμους τρόπους εκπαίδευσης της ΤΝ… χωρίς τις πραγματικές συνέπειες ενός λάθους στον φυσικό κόσμο».
Η Meta επιχειρεί να μιμηθεί τον τρόπο που τα παιδιά μαθαίνουν παθητικά, παρατηρώντας τον κόσμο γύρω τους, εκπαιδεύοντας τα μοντέλα V-JEPA σε ακατέργαστο βιντεοϋλικό.
Το εργαστήριο Facebook Artificial Intelligence Research (FAIR), υπό τον Yann LeCun, επικεφαλής επιστήμονα ΤΝ της Meta, επικεντρώνεται σε μακροπρόθεσμα πρότζεκτ ΤΝ και τον Ιούνιο κυκλοφόρησε τη δεύτερη εκδοχή του μοντέλου, που δοκιμάζεται σε ρομπότ.
Ο LeCun, ένας από τους «νονούς» της σύγχρονης ΤΝ, υπήρξε από τους πιο ένθερμους υποστηρικτές της νέας αρχιτεκτονικής, προειδοποιώντας ότι τα LLMs δεν θα μπορέσουν ποτέ να αποκτήσουν την ικανότητα να συλλογίζονται και να σχεδιάζουν όπως οι άνθρωποι.
Παρά ταύτα, ο επικεφαλής της Meta, Μαρκ Ζάκερμπεργκ, αύξησε πρόσφατα τις επενδύσεις σε ταλέντα στον τομέα της ΤΝ, με μια ελίτ ομάδα που στοχεύει σε νέες ανακαλύψεις για τα επόμενα μοντέλα Llama LLM. Σε αυτή την προσπάθεια εντάσσεται και η πρόσληψη του Alexandr Wang, ιδρυτή της Scale AI, για να ηγηθεί όλων των εργασιών ΤΝ της Meta, με τον LeCun να αναφέρεται πλέον σε εκείνον.
Μια βραχυπρόθεσμη εφαρμογή των world models είναι η βιομηχανία ψυχαγωγίας, όπου μπορούν να δημιουργούν διαδραστικές και ρεαλιστικές σκηνές. Η World Labs, start-up που ίδρυσε η πρωτοπόρος της ΤΝ Fei-Fei Li, αναπτύσσει μοντέλο που δημιουργεί τρισδιάστατα περιβάλλοντα τύπου βιντεοπαιχνιδιού από μία μόνο εικόνα.
Η Runway, start-up παραγωγής βίντεο που έχει συμφωνίες με χολιγουντιανά στούντιο όπως η Lionsgate, παρουσίασε τον περασμένο μήνα ένα προϊόν που χρησιμοποιεί world models για να δημιουργεί gaming settings, με προσωποποιημένες ιστορίες και χαρακτήρες σε πραγματικό χρόνο.
«Οι παραδοσιακές μέθοδοι βίντεο είναι μια “βίαιη” προσέγγιση παραγωγής pixels, όπου προσπαθείς να στριμώξεις κίνηση σε λίγα καρέ για να δημιουργήσεις την ψευδαίσθηση της κίνησης, αλλά το μοντέλο στην πραγματικότητα δεν ξέρει ούτε κατανοεί τι συμβαίνει στη σκηνή», δήλωσε ο Cristóbal Valenzuela, διευθύνων σύμβουλος της Runway. Προηγούμενα μοντέλα βιντεοπαραγωγής είχαν φυσική που δεν έμοιαζε με τον πραγματικό κόσμο, πρόσθεσε, κάτι που τα συστήματα γενικής χρήσης world models έρχονται να διορθώσουν.
Για να δημιουργηθούν αυτά τα μοντέλα, οι εταιρείες πρέπει να συλλέξουν τεράστιο όγκο φυσικών δεδομένων για τον κόσμο.
Η εταιρεία Niantic με έδρα το Σαν Φρανσίσκο έχει χαρτογραφήσει 10 εκατ. τοποθεσίες, συγκεντρώνοντας πληροφορίες μέσω παιχνιδιών όπως το Pokémon Go, που έχει 30 εκατ. μηνιαίους παίκτες οι οποίοι αλληλεπιδρούν με έναν παγκόσμιο χάρτη.
Η Niantic διατήρησε το Pokémon Go για εννέα χρόνια και, ακόμη και μετά την πώληση του παιχνιδιού στην αμερικανική Scopely τον Ιούνιο, οι παίκτες συνεχίζουν να συνεισφέρουν ανώνυμα δεδομένα μέσω σαρώσεων δημόσιων τοποσήμων για να βοηθήσουν στην ανάπτυξη του world model της.
«Έχουμε ένα καλό προβάδισμα στο πρόβλημα», είπε ο John Hanke, διευθύνων σύμβουλος της Niantic Spatial, όπως μετονομάστηκε η εταιρεία μετά τη συμφωνία με τη Scopely.
Τanto η Niantic όσο και η Nvidia εργάζονται για να καλύψουν κενά, αναπτύσσοντας world models που μπορούν να δημιουργούν ή να προβλέπουν περιβάλλοντα. Η πλατφόρμα Omniverse της Nvidia δημιουργεί και τρέχει τέτοιες προσομοιώσεις, υποστηρίζοντας την πορεία του τεχνολογικού κολοσσού των 4,3 τρισ. δολαρίων προς τη ρομποτική, αξιοποιώντας τη μακρά ιστορία της στην προσομοίωση πραγματικών περιβαλλόντων σε βιντεοπαιχνίδια.
Ο διευθύνων σύμβουλος της Nvidia, Jensen Huang, έχει υποστηρίξει ότι η επόμενη μεγάλη φάση ανάπτυξης για την εταιρεία θα προέλθει από την «φυσική ΤΝ», με τα νέα μοντέλα να φέρνουν επανάσταση στη ρομποτική.
Ορισμένοι, όπως ο LeCun της Meta, εκτιμούν ότι αυτό το όραμα για μια νέα γενιά συστημάτων ΤΝ που θα κινούν μηχανές με ανθρώπινη νοημοσύνη μπορεί να χρειαστεί δέκα χρόνια για να υλοποιηθεί.
Ωστόσο, το εύρος των δυνατοτήτων αυτής της αιχμής τεχνολογίας είναι τεράστιο, σύμφωνα με ειδικούς της ΤΝ. Τα world models «ανοίγουν την ευκαιρία να εξυπηρετήσουν όλους αυτούς τους άλλους κλάδους και να ενισχύσουν ό,τι ακριβώς έκαναν οι υπολογιστές για την πνευματική εργασία», δήλωσε ο Lebaredian της Nvidia.
ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:
- Αύγουστος με 79% πληρότητα στα ξενοδοχεία της Αθήνας – Πού κερδίζει και πού χάνει η ελληνική πρωτεύουσα
- Κάλεσμα για σύσφιξη των τουριστικών δεσμών απευθύνει η Ισπανία στην Ελλάδα
- Ποιες χώρες έχουν τα περισσότερα αεροδρόμια
Πηγή: Financial Times