Το νέο μοντέλο της Apple αναδημιουργεί τρισδιάστατα αντικείμενα με ρεαλιστικά εφέ φωτισμού


Οι ερευνητές της Apple δημιούργησαν ένα μοντέλο τεχνητής νοημοσύνης που αναδομεί ένα τρισδιάστατο αντικείμενο από μία μόνο εικόνα, διατηρώντας παράλληλα τις αντανακλάσεις, τα τονισμένα σημεία και άλλα εφέ σε διαφορετικές γωνίες θέασης. Εδώ είναι οι λεπτομέρειες.

Λίγο πλαίσιο

Ενώ η έννοια του λανθάνοντος χώρου στη μηχανική μάθηση δεν είναι ακριβώς νέα, έχει γίνει πιο δημοφιλής από ποτέ τα τελευταία χρόνια, με την έκρηξη των μοντέλων AI που βασίζονται στην αρχιτεκτονική των μετασχηματιστών και, πιο πρόσφατα, στα παγκόσμια μοντέλα.

Με λίγα λόγια (και διατρέχουμε τον κίνδυνο να είμαστε ελαφρώς ανακριβείς για να εξηγήσουμε τη μεγαλύτερη εικόνα), ο “λανθάνον χώρος” ή “ενσωμάτωση χώρου” είναι όροι που περιγράφουν τι συμβαίνει όταν:

  1. Συγκεντρώστε τις πληροφορίες σε αριθμητικές αναπαραστάσεις των εννοιών τους.
  2. Οργανώστε αυτούς τους αριθμούς σε έναν πολυδιάστατο χώρο, καθιστώντας δυνατό τον υπολογισμό των αποστάσεων μεταξύ τους για κάθε διαφορετική διάσταση.

Αν αυτό εξακολουθεί να ακούγεται πολύ αφηρημένο, ένα κλασικό παράδειγμα είναι να λάβετε τη μαθηματική αναπαράσταση του συμβολικού “βασιλιάς”, να αφαιρέσετε τη μαθηματική αναπαράσταση του συμβολικού “άνδρας”, προσθέστε τη μαθηματική αναπαράσταση του συμβολικού “γυναίκα” και θα καταλήξετε στη γενική πολυδιάστατη περιοχή του συμβολικού “βασίλισσα”.

Πρακτικά, η αποθήκευση πληροφοριών ως μαθηματικών αναπαραστάσεων σε λανθάνον χώρο καθιστά ταχύτερη και λιγότερο υπολογιστικά δαπανηρή τη μέτρηση των αποστάσεων μεταξύ τους και την εκτίμηση της πιθανότητας αυτού που θα δημιουργηθεί.

Ακολουθεί ένα σύντομο βίντεο που εξηγεί τον λανθάνοντα χώρο χρησιμοποιώντας μια διαφορετική αναλογία:

Αν και τα παραπάνω παραδείγματα επικεντρώνονται στην αποθήκευση κειμένου σε λανθάνον χώρο, η ίδια ιδέα μπορεί να εφαρμοστεί σε πολλούς άλλους τύπους δεδομένων. Κάτι που μας φέρνει στη μελέτη της Apple.

LiTo: Επιφανειακό Φως Πεδίου Tokenization

Στη νέα μελέτη της Apple, με τίτλο LiTo: Επιφανειακό Φως Πεδίου Tokenizationοι ερευνητές «προτείνουν μια τρισδιάστατη λανθάνουσα αναπαράσταση που μοντελοποιεί από κοινού τη γεωμετρία των αντικειμένων και την εμφάνιση που εξαρτάται από την προβολή».

Με άλλα λόγια, δημιούργησαν έναν τρόπο να αναπαραστήσουν, στον λανθάνοντα χώρο, όχι μόνο πώς να ανακατασκευαστεί ένα τρισδιάστατο αντικείμενο, αλλά και πώς το φως που αλληλεπιδρά μαζί του θα πρέπει να εμφανίζεται από διαφορετικές γωνίες.

Όπως το εξηγούν:

Οι περισσότερες προηγούμενες εργασίες επικεντρώνονται είτε στην ανακατασκευή της τρισδιάστατης γεωμετρίας είτε στην πρόβλεψη διάχυτης εμφάνισης ανεξάρτητης από την προβολή, και έτσι αγωνίζονται να καταγράψουν ρεαλιστικά εφέ που εξαρτώνται από την προβολή. Η προσέγγισή μας αξιοποιεί ότι οι εικόνες βάθους RGB παρέχουν δείγματα ενός επιφανειακού πεδίου φωτός. Κωδικοποιώντας τυχαία υποδείγματα αυτού του πεδίου φωτός της επιφάνειας σε ένα συμπαγές σύνολο λανθάνοντων διανυσμάτων, το μοντέλο μας μαθαίνει να αντιπροσωπεύει τόσο τη γεωμετρία όσο και την εμφάνιση μέσα σε έναν ενοποιημένο τρισδιάστατο λανθάνοντα χώρο. Αυτή η αναπαράσταση αναπαράγει εφέ που εξαρτώνται από την προβολή, όπως κατοπτρικές επισημάνσεις και αντανακλάσεις Fresnel υπό περίπλοκο φωτισμό.

Επιπλέον, οι ερευνητές κατάφεραν να εκπαιδεύσουν το μοντέλο ώστε να μπορεί να τα κάνει όλα αυτά από μία μόνο εικόνα, αντί για τις πιο κοινές μεθόδους που απαιτούν εικόνες από διαφορετικές γωνίες για να επιτρέψουν την 3D ανακατασκευή.

Ενώ ολόκληρη η μέθοδος είναι εξαιρετικά τεχνική και εξηγείται λεπτομερώς στη μελέτη, η βασική ιδέα είναι στην πραγματικότητα σχετικά απλή, μόλις καταλάβετε πώς λειτουργεί ο λανθάνον χώρος:

  • Πρώτον, ένας κωδικοποιητής συμπιέζει τις πληροφορίες για το αντικείμενο σε μια συμπαγή αναπαράσταση σε λανθάνον χώρο. Έτσι, αντί να αποθηκεύει κάθε ορατή λεπτομέρεια, μαθαίνει μια συμπυκνωμένη μαθηματική περιγραφή του σχήματος του αντικειμένου και του πώς το φως αλληλεπιδρά με την επιφάνειά του.
  • Στη συνέχεια, ένας αποκωδικοποιητής κάνει το αντίστροφο. Ανακατασκευάζει το πλήρες τρισδιάστατο αντικείμενο από αυτή τη συμπαγή αναπαράσταση, δημιουργώντας τόσο τη γεωμετρία όσο και την αναπαράσταση του τρόπου με τον οποίο τα εφέ φωτισμού, όπως οι αντανακλάσεις και τα τονισμένα σημεία, θα πρέπει να εμφανίζονται από διαφορετικές γωνίες θέασης.

Εκπαίδευση LiTo

Για να εκπαιδεύσουν το μοντέλο, οι ερευνητές επέλεξαν χιλιάδες αντικείμενα που αποδόθηκαν από 150 διαφορετικές γωνίες θέασης και 3 συνθήκες φωτισμού.

Στη συνέχεια, αντί να τροφοδοτήσει όλες αυτές τις πληροφορίες απευθείας στο μοντέλο, το σύστημα επέλεξε τυχαία μικρά υποσύνολα αυτών των δειγμάτων και τα συμπίεσε σε μια λανθάνουσα αναπαράσταση.

Στη συνέχεια, ο αποκωδικοποιητής εκπαιδεύτηκε να ανακατασκευάζει το πλήρες αντικείμενο και την εμφάνισή του κάτω από διαφορετικές γωνίες και συνθήκες φωτός, ακριβώς από αυτό το υποσύνολο των δεδομένων.

Κατά τη διάρκεια της εκπαίδευσης, το σύστημα έμαθε μια λανθάνουσα αναπαράσταση που αποτύπωνε τόσο τη γεωμετρία του αντικειμένου όσο και πώς αλλάζει η εμφάνισή του ανάλογα με την κατεύθυνση θέασης.

Μόλις έγινε αυτό, εκπαίδευσαν ένα ακόμη μοντέλο που παίρνει μια ενιαία εικόνα ενός αντικειμένου και προβλέπει τη λανθάνουσα αναπαράσταση που αντιστοιχεί σε αυτό. Στη συνέχεια, ο αποκωδικοποιητής ανακατασκευάζει το πλήρες τρισδιάστατο αντικείμενο, συμπεριλαμβανομένου του τρόπου με τον οποίο αλλάζει η εμφάνισή του καθώς ποικίλλει η γωνία θέασης.

Ακολουθούν μερικές συγκρίσεις ανακατασκευής μεταξύ του LiTo και ενός μοντέλου που ονομάζεται TRELLIS, όπως δημοσίευσε η Apple στο σελίδα του έργου:

Φροντίστε να δείτε τη σελίδα του έργουόπου μπορείτε επίσης να φορτώσετε δίπλα-δίπλα διαδραστικές συγκρίσεις μεταξύ LiTo και TRELLIS, όπως φαίνεται στην επιλεγμένη εικόνα για αυτήν την ανάρτηση.

Και για την πλήρη μελέτη, ακολουθήστε αυτόν τον σύνδεσμο.

Αξίζει να το δείτε στο Amazon

Προσθέστε το 9to5Mac ως προτιμώμενη πηγή στο Google
Προσθέστε το 9to5Mac ως προτιμώμενη πηγή στο Google

FTC: Χρησιμοποιούμε συνδέσμους θυγατρικών που κερδίζουν αυτόματα εισόδημα. Περισσότερο.



Via: 9to5mac.com

Dimitris Marizas
Dimitris Marizashttps://starlinkgreece.gr
Μεταφράζω bits και bytes σε απλά ελληνικά. Λατρεύω την τεχνολογία που λύνει προβλήματα και αναζητώ πάντα το επόμενο "big thing" πριν γίνει mainstream.

Related Articles

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Stay Connected

0ΥποστηρικτέςΚάντε Like
0ΑκόλουθοιΑκολουθήστε

Latest Articles