Google: Η AI επανάσταση της DeepMind με το νέο «σκεπτόμενο» Gemini

Google: Η AI επανάσταση της DeepMind με το νέο «σκεπτόμενο» Gemini
Photo: Shutterstock

Αυτή η νέα γενιά ΤΝ επιτρέπει στις μηχανές να επιλύουν σύνθετα προβλήματα του πραγματικού κόσμου, να σχεδιάζουν εργασίες πολλαπλών βημάτων και να χρησιμοποιούν το διαδίκτυο για να βρουν λύσεις.

Η Google DeepMind παρουσίασε μια νέα γενιά μοντέλων τεχνητής νοημοσύνης για τη ρομποτική, τα οποία ενισχύουν σημαντικά τις ικανότητες λογικής σκέψης των μηχανών, επιτρέποντάς τους να επιλύουν πιο σύνθετα προβλήματα και να εκτελούν περίπλοκες εργασίες του πραγματικού κόσμου, όπως η ταξινόμηση ρούχων και η ανακύκλωση απορριμμάτων.

Τα νέα ρομποτικά μοντέλα της εταιρείας, με τις ονομασίες Gemini Robotics 1.5 και Gemini Robotics-ER 1.5, έχουν σχεδιαστεί για να βοηθούν τα ρομπότ να ολοκληρώνουν εργασίες πολλαπλών βημάτων, δίνοντάς τους τη δυνατότητα να «σκέφτονται» πριν δράσουν. Αυτή η εξέλιξη αποτελεί μέρος της ευρύτερης προσπάθειας της βιομηχανίας τεχνολογίας να καταστήσει τα ρομπότ γενικής χρήσης πιο χρήσιμα στην καθημερινή ζωή. Σύμφωνα με την Google DeepMind, ένα ρομπότ που εκπαιδεύτηκε με το νέο μοντέλο ήταν σε θέση να σχεδιάσει και να εκτελέσει εργασίες που απαιτούν αρκετά λεπτά, όπως το δίπλωμα ρούχων σε διαφορετικά καλάθια ανάλογα με το χρώμα τους.

Αυτή η πρόοδος έρχεται σε μια περίοδο όπου τεχνολογικοί κολοσσοί, συμπεριλαμβανομένων των OpenAI και Tesla, ανταγωνίζονται για την ενσωμάτωση προηγμένων μοντέλων AI σε ρομπότ, με την ελπίδα ότι θα μεταμορφώσουν ένα ευρύ φάσμα βιομηχανιών, από την υγειονομική περίθαλψη έως τη μεταποίηση. «Τα μοντέλα μέχρι τώρα ήταν ικανά να εκτελούν μία εντολή κάθε φορά», δήλωσε η Carolina Parada, επικεφαλής του τμήματος ρομποτικής της Google DeepMind. «Τώρα μεταβαίνουμε από τη μία εντολή στην πραγματική κατανόηση και επίλυση προβλημάτων για φυσικές εργασίες».

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Το μοντέλο Gemini Robotics-ER 1.5 (Embodied Reasoning) λειτουργεί ως ο «εγκέφαλος» του ρομπότ, αναλαμβάνοντας τη λογική επεξεργασία, τον σχεδιασμό και την ικανότητα χρήσης ψηφιακών εργαλείων, όπως το Google Search, για την επίλυση προβλημάτων. Για παράδειγμα, σε μια επίδειξη, ένα ρομπότ που του ζητήθηκε να ετοιμάσει μια βαλίτσα για ένα ταξίδι στο Λονδίνο, χρησιμοποίησε το διαδίκτυο για να ελέγξει τον καιρό, διαπίστωσε ότι θα έβρεχε και πρόσθεσε αυτόνομα μια ομπρέλα στη βαλίτσα. Το μοντέλο Gemini Robotics 1.5, από την άλλη, είναι ένα μοντέλο όρασης-γλώσσας-δράσης (vision-language-action – VLA) που μεταφράζει τα σχέδια και τις εντολές σε φυσικές κινήσεις.

Μια σημαντική καινοτομία του νέου συστήματος είναι μια τεχνική που ονομάζεται «μεταφορά κίνησης» (motion transfer). Αυτή η τεχνολογία επιτρέπει σε ένα μοντέλο AI να μεταφέρει δεξιότητες που έχουν αναπτυχθεί για ένα συγκεκριμένο τύπο ρομπότ (π.χ. ρομποτικούς βραχίονες) σε έναν άλλο, εντελώς διαφορετικό τύπο, όπως ένα ανθρωποειδές ρομπότ. Αυτή η εξέλιξη θα μπορούσε να επιλύσει ένα από τα μεγαλύτερα εμπόδια στην ανάπτυξη της ρομποτικής AI: την έλλειψη επαρκών δεδομένων εκπαίδευσης από τον πραγματικό κόσμο.

Με πληροφορίες από The Verge και FT

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ: