ChatGPT-4o: Το νέο μοντέλο της OpenAI βάζει τέλος στη «ρομποτική» Τεχνητή Νοημοσύνη – Όλα όσα αλλάζουν

ChatGPT-4o: Το νέο μοντέλο της OpenAI βάζει τέλος στη «ρομποτική» Τεχνητή Νοημοσύνη – Όλα όσα αλλάζουν
Finger touching ChatGPT chat bot screen seen on smartphone display with large Chat GPT logo. AI chatbot by OpenAI. Macro photo. Stafford, United Kingdom, February 19, 2023 Photo: AFP
Μια νέα εποχή στην αλληλεπίδραση ανθρώπου-μηχανής εγκαινιάζει η OpenAI με την κυκλοφορία του GPT-4o (omni).
  • Το GPT-4o ανταποκρίνεται σε ηχητικές εισόδους σε μόλις 320 χιλιοστά του δευτερολέπτου, χρόνο αντίστοιχο με την ανθρώπινη αντίδραση, καταργώντας την ενοχλητική καθυστέρηση των προηγούμενων εκδόσεων.
  • Ενσωματώνει πλήρως κείμενο, εικόνα, βίντεο και ήχο. Μπορεί να αναλύσει ένα βίντεο σε πραγματικό χρόνο, να διαβάσει συναισθηματικές ενδείξεις από τον τόνο της φωνής και να προσαρμόσει ανάλογα τις απαντήσεις του.
  • Η OpenAI προσφέρει τις δυνατότητες του GPT-4o στους χρήστες της δωρεάν έκδοσης (με όρια χρήσης), ενώ παράλληλα λανσάρει εφαρμογή για υπολογιστές με ανανεωμένο, φιλικότερο περιβάλλον χρήσης.

Στον κόσμο της τεχνολογίας, η παρουσίαση ενός νέου γλωσσικού μοντέλου συνήθως συνοδεύεται από υποσχέσεις για καλύτερη κωδικοποίηση ή μεγαλύτερη ακρίβεια. Ωστόσο, η παρουσίαση του GPT-4o («o» από τη λέξη «omni», δηλαδή «τα πάντα») εστίασε σε κάτι πολύ πιο θεμελιώδες: την ευκολία και τη φυσικότητα της χρήσης.

Όπως εξήγησε η επικεφαλής τεχνολογίας (CTO) της OpenAI, Μίρα Μουράτι, το νέο μοντέλο σχεδιάστηκε για να καταργήσει τη «συμπεριφορά του πρόχειρου» (clipboard mentality) – την ανάγκη δηλαδή του χρήστη να κάνει συνεχώς copy-paste κείμενα ή να περιμένει δευτερόλεπτα για να λάβει μια απάντηση. Το GPT-4o αντιλαμβάνεται τη ροή μιας συζήτησης πολύ καλύτερα, θυμάται προηγούμενες αλληλεπιδράσεις με εντυπωσιακή ευαισθησία στο πλαίσιο (context) και μπορεί να διακοπεί την ώρα που μιλάει, ακριβώς όπως συμβαίνει σε έναν διάλογο με άνθρωπο.

Η επανάσταση του Real-Time ήχου και της όρασης

Το πιο εντυπωσιακό χαρακτηριστικό του νέου μοντέλου είναι ο τρόπος που διαχειρίζεται τον ήχο και την όραση. Τα προηγούμενα μοντέλα μετέτρεπαν τον ήχο σε κείμενο, τον επεξεργάζονταν και τον μετέτρεπαν ξανά σε ήχο, διαδικασία που δημιουργούσε χαρακτηριστικές καθυστερήσεις 2-3 δευτερολέπτων. Το GPT-4o, αντίθετα, λειτουργεί ως ένα ενιαίο πολυμεσικό δίκτυο. Αντιδρά σε σχεδόν 320 milliseconds (ms), κατανοεί τον τόνο, το ηχόχρωμα, ακόμα και το συναίσθημα στη φωνή του χρήστη.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Ταυτόχρονα, μέσω της χρήσης βίντεο και εικόνας, η τεχνητή νοημοσύνη της OpenAI μπορεί να «δει» τι συμβαίνει γύρω σας. Μπορείτε να μοιραστείτε την οθόνη του υπολογιστή σας ή να χρησιμοποιήσετε την κάμερα του κινητού σας για να της ζητήσετε να λύσει μια μαθηματική εξίσωση που γράψατε σε ένα χαρτί ή να αναλύσει ένα γράφημα.

«Δημοκρατία» στην ΤΝ: Διευρυμένη πρόσβαση και νέα εφαρμογή για Η/Υ

Η επιχειρηματική στρατηγική της OpenAI είναι εξίσου επιθετική με την τεχνολογική της υπεροχή. Το GPT-4o, παρότι είναι δύο φορές πιο γρήγορο και κοστίζει 50% λιγότερο στη λειτουργία του (μέσω API) συγκριτικά με το GPT-4 Turbo, προσφέρεται πλέον δωρεάν. Φυσικά, οι συνδρομητές επί πληρωμή διατηρούν το πλεονέκτημα των πενταπλάσιων ορίων χρήσης.

Τέλος, η εταιρεία λανσάρει μια νέα, Native Desktop εφαρμογή (αρχικά για Mac) και ένα πιο καθαρό περιβάλλον χρήσης (UI).

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Πηγή: Business Insider