Η Apple εκπαίδευσε μια τεχνητή νοημοσύνη για να αναγνωρίζει τις χειρονομίες από δεδομένα αισθητήρων


Στη νέα μελέτη, η Apple δίδαξε ένα μοντέλο τεχνητής νοημοσύνης να αναγνωρίζει τις χειρονομίες που δεν αποτελούσαν μέρος του αρχικού συνόλου της εκπαίδευσης. Εδώ είναι οι λεπτομέρειες.

Τι είναι το ΗΜΓ;

Η Apple δημοσίευσε μια νέα μελέτη στο ιστολόγιο Machine Learning Research, που ονομάζεται EMBridge: Ενίσχυση της γενίκευσης χειρονομιών από σήματα EMG μέσω της εκμάθησης πολλαπλής αναπαράστασης. Η μελέτη αυτή θα παρουσιαστεί στο Συνέδριο ICLR 2026 τον Απρίλιο.

Σε αυτό, οι ερευνητές εξηγούν πώς εκπαίδευσαν ένα μοντέλο τεχνητής νοημοσύνης να αναγνωρίζει τις χειρονομίες, ακόμη και όταν αυτές οι συγκεκριμένες χειρονομίες δεν ήταν μέρος του αρχικού του δεδομένων.

Για να το πετύχουν αυτό, ανέπτυξαν το EMBridge, «ένα διατροπικό πλαίσιο μάθησης αναπαράστασης που γεφυρώνει το χάσμα τροπικότητας μεταξύ ΗΜΓ και στάσης».

Το EMG, ή Ηλεκτρομυογραφία, μετρά την ηλεκτρική δραστηριότητα που παράγεται από τους μύες κατά τη σύσπαση. Οι πρακτικές εφαρμογές του εκτείνονται από την ιατρική διάγνωση και τη φυσικοθεραπεία έως τον έλεγχο προσθετικών άκρων.

Πιο πρόσφατα (αν και σίγουρα δεν πρόκειται για νέο τομέα), έχει διερευνηθεί ευρύτερα σε wearables και συστήματα AR/VR.

Τα γυαλιά Ray-Ban Display της Meta, για παράδειγμα, χρησιμοποιούν τεχνολογία EMG με τη μορφή αυτού που η Meta ονομάζει Neural Band, μια συσκευή που φοριέται στον καρπό που «ερμηνεύει τα μυϊκά σήματα για να πλοηγηθεί στα χαρακτηριστικά της Meta Ray-Ban Display», σύμφωνα με την περιγραφή της εταιρείας.

Στη μελέτη της Apple, τα σήματα EMG που χρησιμοποιούνται για την προπόνηση δεν ανιχνεύτηκαν από συσκευή που φοριέται στον καρπό. Αντίθετα, οι ερευνητές χρησιμοποίησαν δύο σύνολα δεδομένων:

  • emg2pose:”[…] ένα σύνολο δεδομένων EMG ανοιχτού κώδικα μεγάλης κλίμακας που περιέχει 370 ώρες sEMG και συγχρονισμένα δεδομένα πόζας χεριού σε 193 συναινούντες χρήστες, 29 διαφορετικές ομάδες συμπεριφοράς που περιλαμβάνουν ποικίλο εύρος διακριτών και συνεχών κινήσεων των χεριών, όπως το να κάνεις μια γροθιά ή να μετρήσεις ως το πέντε. Οι ετικέτες πόζας χεριού δημιουργούνται χρησιμοποιώντας ένα σύστημα λήψης κίνησης υψηλής ανάλυσης. Το πλήρες σύνολο δεδομένων περιέχει πάνω από 80 εκατομμύρια ετικέτες πόζας και είναι παρόμοιας κλίμακας με τα μεγαλύτερα ισοδύναμα όρασης υπολογιστή. Κάθε χρήστης ολοκλήρωσε τέσσερις συνεδρίες εγγραφής ανά κατηγορία χειρονομιών, καθεμία με διαφορετική τοποθέτηση ζώνης EMG. Κάθε συνεδρία διήρκεσε 45-120 δευτερόλεπτα, κατά τη διάρκεια των οποίων οι χρήστες εκτελούσαν επανειλημμένα ένα συνδυασμό 3-5 παρόμοιων χειρονομιών ή απεριόριστων κινήσεων ελεύθερης μορφής. Χρησιμοποιούμε μη επικαλυπτόμενα παράθυρα 2 δευτερολέπτων ως ακολουθίες εισόδου. Το EMG είναι κανονικοποιημένο με στιγμιότυπο, φιλτράρεται με διέλευση ζώνης (2–250 Hz) και φιλτράρεται με εγκοπή στα 60 Hz.
  • NinaPro DB2: “Χρησιμοποιήσαμε δύο σύνολα δεδομένων NinaPro EMG για μια πιο ολοκληρωμένη αξιολόγηση του EMBridge. Συγκεκριμένα, το Ninapro DB2 χρησιμοποιείται για προ-προπόνηση , η οποία περιλαμβάνει δεδομένα ζευγών στάσεων EMG από 40 άτομα. Περιλαμβάνει 49 χειρονομίες (συμπεριλαμβανομένων βασικών κάμψεων των δακτύλων, λειτουργικές λαβές και συνδυασμένες κινήσεις EMG που εκτελούνται από συνδυασμένες κινήσεις 40). 12 ηλεκτρόδια τοποθετημένα στο αντιβράχιο με ρυθμό δειγματοληψίας 2 kHz, μαζί με δεδομένα κινηματικής χεριού που καταγράφονται από ένα γάντι δεδομένων Για την κατάντη ταξινόμηση χειρονομιών, χρησιμοποιούμε το NinaPro DB7, το οποίο περιέχει δεδομένα από 20 μη ακρωτηριασμένα άτομα που συλλέγονται με την ίδια συσκευή ΗΜΓ και το ίδιο σύνολο χειρονομιών με το DB2.

Με όλα αυτά, είναι εύκολο να δούμε πώς το EMBridge της Apple θα μπορούσε να ανοίξει το δρόμο για ένα μελλοντικό μοντέλο Apple Watch (ή άλλα wearables) για τον έλεγχο συσκευών όπως Apple Vision Pro, Mac, iPhone και άλλα φορητά, συμπεριλαμβανομένων των φημολογούμενων επερχόμενων έξυπνων γυαλιών του.

Στην πράξη, από νέες μεθόδους αλληλεπίδρασης έως βελτιώσεις προσβασιμότητας, οι δυνατότητες θα μπορούσαν να είναι σημαντικές.

Ομολογουμένως, η ίδια η μελέτη προφανώς δεν αναφέρει συγκεκριμένα επερχόμενα προϊόντα ή εφαρμογές της Apple, αλλά αναφέρει τα εξής:

Μια πιθανή πρακτική εφαρμογή του πλαισίου μας είναι η φορητή αλληλεπίδραση ανθρώπου-υπολογιστή. Σε
Σενάρια όπως το VR/AR και οι εφαρμογές ελέγχου προσθετικών, μια συσκευή που φοριέται στον καρπό πρέπει να συνάγει συνεχώς χειρονομίες από το EMG για να οδηγεί ένα εικονικό avatar ή ένα ρομποτικό χέρι.

Τι είναι το EMBridge;

Το EMBridge ήταν ο τρόπος των ερευνητών να γεφυρώσουν το χάσμα μεταξύ των πραγματικών μυϊκών σημάτων ΗΜΓ και των δομημένων δεδομένων στάσης χεριών.

Εκπαιδευμένο χρησιμοποιώντας ένα διατροπικό πλαίσιο, το μοντέλο προ-εκπαιδεύτηκε αρχικά σε δεδομένα ΗΜΓ και στάσης χεριού ξεχωριστά.

Στη συνέχεια, οι ερευνητές ευθυγράμμισαν τις δύο αναπαραστάσεις, ώστε ο κωδικοποιητής EMG να μπορεί να μάθει από τον κωδικοποιητή πόζας. Αυτό επέτρεψε στο EMBridge να μάθει να αναγνωρίζει μοτίβα χειρονομιών από σήματα ΗΜΓ.

Μόλις έγινε αυτό, εκπαίδευσαν το σύστημα χρησιμοποιώντας ανακατασκευή μάσκας πόζας, κρύβοντας τμήματα των δεδομένων πόζας και ζητώντας από το μοντέλο να τα ανακατασκευάσει χρησιμοποιώντας μόνο τις πληροφορίες που εξάγονται από σήματα ΗΜΓ.

Το αποτέλεσμα, όπως εξηγούν οι ερευνητές:

«Από όσο γνωρίζουμε, το EMBridge είναι το πρώτο πλαίσιο εκμάθησης αναπαράστασης πολλαπλών τρόπων που επιτυγχάνει ταξινόμηση χειρονομιών μηδενικής λήψης από φορητά σήματα EMG, δείχνοντας δυνατότητες για αναγνώριση χειρονομιών σε πραγματικό κόσμο σε φορητές συσκευές».

Για να μειώσουν τα λάθη προπόνησης που προκαλούνται από παρόμοιες χειρονομίες που αντιμετωπίζονται ως αρνητικές, οι ερευνητές έμαθαν στο μοντέλο να αναγνωρίζει πότε οι στάσεις αντιπροσωπεύουν παρόμοιες διαμορφώσεις χεριών, επιτρέποντάς του να δημιουργεί μαλακούς στόχους για αυτές τις στάσεις αντί να τους αντιμετωπίζει ως εντελώς άσχετους.

Αυτό βοήθησε στη δομή του χώρου αναπαράστασης του μοντέλου, βελτιώνοντας την ικανότητά του να γενικεύει σε χειρονομίες που δεν είχε ξαναδεί.

Οι συγγραφείς αξιολόγησαν το EMBridge σε δύο σημεία αναφοράς, το emg2pose και το NinaPro, και διαπίστωσαν ότι ξεπερνούσε σταθερά τις υπάρχουσες μεθόδους, ιδιαίτερα στην αναγνώριση χειρονομιών μηδενικής λήψης (ή, που δεν είχε ξαναδεί). Είναι σημαντικό ότι το έκανε μόνο με το 40% των δεδομένων εκπαίδευσης.

Ένας σημαντικός περιορισμός που σημειώνεται στο έγγραφο είναι ότι το μοντέλο βασίζεται σε σύνολα δεδομένων που περιέχουν τόσο σήματα ΗΜΓ όσο και συγχρονισμένα δεδομένα στάσης χεριού. Αυτό σημαίνει ότι η εκπαίδευσή του εξακολουθεί να εξαρτάται από εξειδικευμένα σύνολα δεδομένων που μπορεί να είναι δύσκολο να συλλεχθούν.

Ωστόσο, η μελέτη είναι ενδιαφέρουσα, ιδιαίτερα σε μια εποχή που ο έλεγχος συσκευών με βάση το EMG φαίνεται να αυξάνεται.

Για τις πλήρεις τεχνικές λεπτομέρειες για το EMBridge, συμπεριλαμβανομένων των στοιχείων Q-Former, MPRL και CASCLE, ακολουθήστε αυτόν τον σύνδεσμο.

Αξίζει να το δείτε στο Amazon

Προσθέστε το 9to5Mac ως προτιμώμενη πηγή στο Google
Προσθέστε το 9to5Mac ως προτιμώμενη πηγή στο Google

FTC: Χρησιμοποιούμε συνδέσμους θυγατρικών που κερδίζουν αυτόματα εισόδημα. Περισσότερο.



Via: 9to5mac.com

Dimitris Marizas
Dimitris Marizashttps://starlinkgreece.gr
Μεταφράζω bits και bytes σε απλά ελληνικά. Λατρεύω την τεχνολογία που λύνει προβλήματα και αναζητώ πάντα το επόμενο "big thing" πριν γίνει mainstream.

Related Articles

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Stay Connected

0ΥποστηρικτέςΚάντε Like
0ΑκόλουθοιΑκολουθήστε

Latest Articles