Η Apple χρησιμοποιεί το Vision Pro για να εκπαιδεύσει ανθρωποειδή ρομπότ με δεδομένα ανθρώπινης προοπτικής

Η νέα έρευνα της Apple, που περιγράφεται λεπτομερώς στην "ανθρωποειδική πολιτική ~ ανθρώπινη πολιτική", εισάγει έναν πρωτοποριακό τρόπο για την εκπαίδευση ανθρωποειδών ρομπότ. Αυτή η καινοτόμος προσέγγιση, μια συνεργασία με κορυφαία πανεπιστήμια, χρησιμοποιεί ανθρώπινες διαδηλώσεις πρώτου προσώπου, που συχνά συλλαμβάνεται με ένα Apple Vision Pro, για να κάνει το ρομπότ να μαθαίνει πιο αποτελεσματική και προσιτή. Είναι ένα σημαντικό άλμα από τις παραδοσιακές, πολύπλοκες μεθόδους διδασκαλίας ρομπότ.

Η βασική ιδέα είναι να συλλέξουν εγωκεντρικές ανθρώπινες διαδηλώσεις, οι οποίες είναι βίντεο ανθρώπων που εκτελούν καθήκοντα από τη δική τους προοπτική. Αυτό έρχεται σε αντίθεση με την ακριβή και εργατική διαδικασία συγκέντρωσης μόνο δεδομένων εκπαίδευσης που παράγονται από ρομπότ. Συνδυάζοντας πάνω από 25.000 ανθρώπινες και 1.500 διαδηλώσεις ρομπότ σε ένα ενοποιημένο σύνολο δεδομένων που ονομάζεται PH2D, η Apple στοχεύει να δημιουργήσει μια ενιαία πολιτική AI που κατανοεί τόσο τις ενέργειες του ανθρώπου όσο και του ρομπότ, βελτιώνοντας σημαντικά την αποτελεσματικότητα.

Για να επιτευχθεί αυτό, η Apple ανέπτυξε μια συγκεκριμένη εφαρμογή για το Vision Pro. Χρησιμοποιεί την κάμερα του ακουστικού και το Arkit για να συλλάβει ακριβείς κινήσεις 3D κεφαλής και χεριών, παρέχοντας τις λεπτομερείς ρομπότ δεδομένων δράσης. Για να γίνει αυτό το προσβάσιμο, η Apple δημιούργησε επίσης μια βάση για μια μίνι στερεοφωνική κάμερα ZED, επιτρέποντας παρόμοια υψηλής ποιότητας λήψη δεδομένων με πιο προσιτά ακουστικά όπως το Meta Quest 3.

Αυτή η νέα μέθοδος βελτιώνει δραστικά την αποτελεσματικότητα της κατάρτισης. Ενώ η παραδοσιακή τηλεόραση μπορεί να πάρει ηλικίες, η προσέγγιση της Apple καταγράφει πλήρη διαδηλώσεις σε δευτερόλεπτα, μειώνοντας το κόστος και ενισχύοντας την επεκτασιμότητα. Είναι ενδιαφέρον ότι τα βίντεο ανθρώπινης επίδειξης επιβραδύνονται κατά ένα συντελεστή τεσσάρων κατά τη διάρκεια της κατάρτισης για να ταιριάζουν με τις ταχύτητες ρομπότ, απλοποιώντας τη διαδικασία μάθησης χωρίς επιπλέον προσαρμογές.

Στο επίκεντρο αυτού του συστήματος υπάρχει το μοντέλο μετασχηματιστή ανθρώπινης δράσης (HAT). Το HAT επεξεργάζεται τόσο ανθρώπινες όσο και ρομπότ σε μια ενοποιημένη μορφή, μαθαίνοντας καθολικούς κανόνες για καθήκοντα χειραγώγησης. Αυτή η ολοκληρωμένη προσέγγιση επιτρέπει στα ρομπότ να κυριαρχούν πιο αποτελεσματικά τα νέα και τα άγνωστα καθήκοντα, απαιτώντας λιγότερα δεδομένα από την παραδοσιακή κατάρτιση μόνο ρομπότ.

Η μελέτη "Humanoid Policy ~ Human Policy" παρουσιάζει μια κεντρική στιγμή στην ΑΙ και τη ρομποτική, αποδεικνύοντας πώς οι ανθρώπινες ιδέες μπορούν να επιταχύνουν την ανάπτυξη εξελιγμένων ανθρωποειδών ρομπότ.

Περισσότερη ανάγνωση:Η μετασχηματιστική επίδραση της Apple Silicon στη σειρά Mac: η προοπτική του Doug Brooks

Δείτε το πλήρες χαρτίεδώ.