Όταν ο Κινέζος ιδρυτής ποσοτικών αμοιβαίων κεφαλαίων κινδύνου Liang Wenfeng αποφάσισε να ασχοληθεί με την έρευνα για την τεχνητή νοημοσύνη, πήρε 10.000 τσιπ Nvidia και συγκέντρωσε μια ομάδα νέων, φιλόδοξων ταλέντων. Δύο χρόνια αργότερα, η DeepSeek έκανε την έκρηξη μπροστά στα μάτια όλων μας.
Στις 20 Ιανουαρίου, η DeepSeek, ένα σχετικά άγνωστο ερευνητικό εργαστήριο τεχνητής νοημοσύνης στην Κίνα, κυκλοφόρησε ένα μοντέλο ανοιχτού κώδικα που έγινε γρήγορα το αντικείμενο συζήτησης στη Silicon Valley. Σύμφωνα με άρθρο που συντάχθηκε από την εταιρεία, η DeepSeek-R1 ξεπερνά τα κορυφαία μοντέλα του κλάδου, όπως το OpenAI o1, σε πολλά μαθηματικά και συλλογιστικά σημεία αναφοράς. Στην πραγματικότητα, σε πολλές μετρήσεις που έχουν σημασία – ικανότητα, κόστος, διαφάνεια – η DeepSeek ανταγωνίζεται τους γίγαντες της Δυτικής Τεχνητής Νοημοσύνης επί ίσοις οροις.
Η επιτυχία της DeepSeek αποτελεί μια ακούσια έκβαση του τεχνολογικού ψυχρού πολέμου μεταξύ των ΗΠΑ και της Κίνας. Οι έλεγχοι των εξαγωγών των ΗΠΑ έχουν περιορίσει σοβαρά την ικανότητα των κινεζικών τεχνολογικών εταιρειών να ανταγωνίζονται στην τεχνητή νοημοσύνη με δυτικό τρόπο – δηλαδή κλιμακώνοντας απεριόριστα, αγοράζοντας περισσότερα τσιπ και εκπαιδεύοντας τα μοντέλα AI για μεγαλύτερο χρονικό διάστημα. Ως αποτέλεσμα, οι περισσότερες κινεζικές εταιρείες έχουν επικεντρωθεί στις υπάρχουσες εφαρμογές αντί να κατασκευάζουν τα δικά τους μοντέλα. Όμως με την τελευταία της κυκλοφορία, η DeepSeek αποδεικνύει ότι υπάρχει ένας άλλος τρόπος για να κερδίσει κανείς την κουρσα: ανανεώνοντας τη θεμελιώδη δομή των μοντέλων AI και χρησιμοποιώντας περιορισμένους πόρους πιο αποτελεσματικά.
«Σε αντίθεση με πολλές κινεζικές εταιρείες τεχνητής νοημοσύνης που βασίζονται, σε μεγάλο βαθμό, στην πρόσβαση σε προηγμένο υλικό, η DeepSeek έχει επικεντρωθεί στη μεγιστοποίηση της βελτιστοποίησης πόρων βάσει λογισμικού», εξηγεί η Marina Zhang, αναπληρώτρια καθηγήτρια στο Πανεπιστήμιο Τεχνολογίας του Σίδνεϊ, η οποία μελετά τις κινεζικές καινοτομίες. «Η DeepSeek έχει υιοθετήσει μεθόδους ανοιχτού κώδικα, συγκεντρώνοντας συλλογική τεχνογνωσία και ενισχύοντας τη συνεργατική καινοτομία. Αυτή η προσέγγιση όχι μόνο μετριάζει τους περιορισμούς πόρων, αλλά και επιταχύνει την ανάπτυξη τεχνολογιών αιχμής, ξεχωρίζοντας τη DeepSeek από τους υπόλοιπους ανταγωνιστές».
Ποιος κρύβεται λοιπόν πίσω από αυτή την startup της τεχνητής νοημοσύνης; Και γιατί ξαφνικά κυκλοφορεί ένα κορυφαίο μοντέλο στον κλάδο και το προσφέρει δωρεάν; Το WIRED μίλησε με ειδικούς στον κλάδο της τεχνητής νοημοσύνης της Κίνας και διάβασε λεπτομερείς συνεντεύξεις με τον ιδρυτή της DeepSeek Liang Wenfeng για να συνθέσει την ιστορία πίσω από τη μετεωρική άνοδο της εταιρείας.
Ένα αστέρι αμοιβαίων κεφαλαίων κινδύνου στην Κίνα
Ακόμη και στην κινεζική βιομηχανία AI, η DeepSeek είναι ένας αντισυμβατικός παίκτης. Ξεκίνησε ως Fire-Flyer, ένας κλάδος έρευνας βαθιάς μάθησης της High-Flyer, ενός από τα ποσοτικά αμοιβαία κεφάλαια κινδύνου της Κίνας με τις καλύτερες επιδόσεις. Ιδρύθηκε το 2015, αναδείχθηκε γρήγορα στην Κίνα, και έγινε το πρώτο ποσοτικό αμοιβαίο κεφάλαιο κινδύνου που συγκέντρωσε πάνω από 100 δισεκατομμύρια RMB (περίπου 15 δις δολ). Από το 2021, ο αριθμός έχει πέσει σε περίπου 8 δις δολ, αν και το High-Flyer παραμένει ένα από τα πιο σημαντικά ποσοτικά αμοιβαία κεφάλαια κινδύνου στη χώρα.
Για χρόνια, η High-Flyer ασχολήθηκε με τα γραφικά (GPU) και κατασκεύαζε υπερυπολογιστές Fire-Flyer για να αναλύσει οικονομικά δεδομένα. Στη συνέχεια το 2023, ο Liang, ο οποίος έχει μεταπτυχιακό στην επιστήμη των υπολογιστών, αποφάσισε να διαθέσει τους πόρους του ταμείου σε μια νέα εταιρεία που ονομάστηκε DeepSeek με σκοπό να κατασκευάσει τα δικά της μοντέλα αιχμής – ελπίζοντας να αναπτύξει τεχνητή γενική νοημοσύνη.
Τολμηρό όραμα – όμωςκατά κάποιο τρόπο, λειτούργησε. «Η DeepSeek αντιπροσωπεύει μια νέα γενιά κινεζικών εταιρειών τεχνολογίας που δίνουν προτεραιότητα στη μακροπρόθεσμη τεχνολογική πρόοδο έναντι της γρήγορης εμπορευματοποίησης», λέει η Zhang.
Ο Liang είπε στην κινεζική τεχνολογική έκδοση 36Kr ότι η απόφαση καθοδηγήθηκε από την επιστημονική περιέργεια και όχι από την επιθυμία για κέρδος. «Δεν θα μπορούσα να βρω έναν εμπορικό λόγο (για την ίδρυση της DeepSeek) ακόμα κι αν μου το ζητήσετε», εξήγησε. «Επειδή δεν αξίζει τον κόπο εμπορικά. Η βασική επιστημονική έρευνα έχει πολύ χαμηλή αναλογία απόδοσης επένδυσης. Όταν οι πρώτοι επενδυτές της OpenAI της έδωσαν χρήματα, σίγουρα δεν σκέφτονταν πόση απόδοση θα είχαν. Αντίθετα, ίσχυε ότι ήθελαν πραγματικά να κάνουν το όραμα πραγματικότητα».
Σήμερα, η DeepSeek είναι μία από τις μοναδικές κορυφαίες εταιρείες τεχνητής νοημοσύνης στην Κίνα που δεν βασίζεται σε χρηματοδότηση από τεχνολογικούς γίγαντες όπως η Baidu, η Alibaba ή η ByteDance.
Μια νεαρή ομάδα ιδιοφυών που ήθελαν να αποδείξουν την αξία τους
Σύμφωνα με τον Liang, όταν συγκέντρωσε την ερευνητική ομάδα της DeepSeek, δεν έψαχνε για έμπειρους μηχανικούς για να κατασκευάσει ένα προϊόν που απευθύνεται στους καταναλωτές. Αντίθετα, εστίασε σε διδακτορικούς φοιτητές από τα κορυφαία πανεπιστήμια της Κίνας, συμπεριλαμβανομένων των πανεπιστημίων του Πεκίνου και του Πανεπιστημίου Tsinghua, που ήταν πρόθυμοι να αποδείξουν την αξία τους. Πολλοί είχαν δημοσιεύσει έρευνα σε κορυφαία επιστημονικά περιοδικά και κέρδισαν βραβεία σε διεθνή ακαδημαϊκά συνέδρια, αλλά δεν είχαν εμπειρία στον κλάδο, σύμφωνα με την κινεζική τεχνολογική έκδοση QBitAI.
«Οι βασικές τεχνικές θέσεις μας πληρούνται κυρίως από άτομα που αποφοίτησαν φέτος ή τα τελευταία ένα ή δύο χρόνια», είπε ο Liang στο 36Kr το 2023. Η στρατηγική πρόσληψης βοήθησε στη δημιουργία μιας συνεργατικής εταιρικής κουλτούρας όπου οι άνθρωποι ήταν ελεύθεροι να χρησιμοποιούν άφθονους υπολογιστικούς πόρους για να συνεχίσουν ανορθόδοξα ερευνητικά έργα. Είναι ένας εντελώς διαφορετικός τρόπος λειτουργίας από καθιερωμένες εταιρείες Διαδικτύου στην Κίνα, όπου οι ομάδες συχνά ανταγωνίζονται για πόρους. Ένα πρόσφατο παράδειγμα: Η ByteDance κατηγόρησε έναν πρώην ασκούμενο – έναν επιστημονα κύρους με ακαδημαϊκα βραβεία – ότι σαμποτάρισε τη δουλειά των συναδέλφων του προκειμένου να προσελκύσει περισσότερους πόρους για την ομάδα του.
Ο Liang είπε ότι οι φοιτητές μπορεί να είναι πιο κατάλληλοι για έρευνα με υψηλές επενδύσεις και χαμηλά κέρδη. «Οι περισσότεροι άνθρωποι, όταν είναι νέοι, μπορούν να αφοσιωθούν πλήρως σε μια αποστολή χωρίς ωφελιμιστικούς λόγους», εξήγησε. Η πρότασή του στους υποψήφιους για πρόσληψη ήταν ότι η DeepSeek δημιουργήθηκε για να «απαντησει τις πιο δύσκολες ερωτήσεις στον κόσμο».
Το γεγονός ότι αυτοί οι νέοι ερευνητές είναι σχεδόν εξ ολοκλήρου μορφωμένοι στην Κίνα ενισχύει την ορμή τους, λένε οι ειδικοί. «Αυτή η νεότερη γενιά καθοδηγείται επίσης από ένα αίσθημα πατριωτισμού, ιδιαίτερα καθώς συνειδητοποιεί τους περιορισμούς των ΗΠΑ σε σημείο ασφυξίας σε κρίσιμες τεχνολογίες υλικού και λογισμικού», εξηγεί η Zhang. «Η αποφασιστικότητά τους να ξεπεράσουν αυτά τα εμπόδια αντανακλά όχι μόνο την προσωπική φιλοδοξία αλλά και μια ευρύτερη δέσμευση για την προώθηση της θέσης της Κίνας ως παγκόσμιου ηγέτη στην καινοτομία».
Καινοτομία που γεννήθηκε από μια κρίση
Τον Οκτώβριο του 2022, η κυβέρνηση των ΗΠΑ άρχισε να επιβάλει ελέγχους εξαγωγών που περιόρισαν σοβαρά τις κινεζικές εταιρείες τεχνητής νοημοσύνης από την πρόσβαση σε τσιπ αιχμής όπως το H100 της Nvidia. Η κίνηση παρουσίασε πρόβλημα για την DeepSeek. Η εταιρεία είχε ξεκινήσει με ένα απόθεμα 10.000 H100, αλλά χρειαζόταν περισσότερα για να ανταγωνιστεί εταιρείες όπως η OpenAI και η Meta. «Το πρόβλημα που αντιμετωπίσαμε δεν ήταν ποτέ η χρηματοδότηση, αλλά ο έλεγχος των εξαγωγών σε προηγμένα τσιπ», είπε ο Liang στην 36Kr σε μια δεύτερη συνέντευξη το 2024.
Η DeepSeek έπρεπε να βρει πιο αποτελεσματικές μεθόδους για να εκπαιδεύσει τα μοντέλα της. «Βελτιστοποίησαν την αρχιτεκτονική των μοντέλων τους χρησιμοποιώντας μια σειρά από μηχανολογικά κόλπα – προσαρμοσμένα σχήματα επικοινωνίας μεταξύ τσιπ, μείωση του μεγέθους των πεδίων για εξοικονόμηση μνήμης και καινοτόμο χρήση της προσέγγισης συνδυασμού μοντέλων», λέει η Wendy Chang, μηχανικός λογισμικού που στράφηκε στην πολιτική ανάλυση στο Mercator Institute for China Studies. «Πολλές από αυτές τις προσεγγίσεις δεν είναι νέες ιδέες, αλλά ο επιτυχής συνδυασμός τους για την παραγωγή ενός μοντέλου αιχμής είναι ένα αξιοσημείωτο κατόρθωμα».
Η DeepSeek έχει επίσης σημειώσει σημαντική πρόοδο στα Multi-head Latent Attention (MLA) και Mixture-of-Experts, δύο τεχνικά σχέδια που κάνουν τα μοντέλα DeepSeek πιο οικονομικά, απαιτώντας λιγότερους υπολογιστικούς πόρους για την εκπαίδευση των μοντέλων. Στην πραγματικότητα, το πιο πρόσφατο μοντέλο της DeepSeek είναι τόσο αποτελεσματικό που απαιτησε το ένα δέκατο της υπολογιστικής ισχύος του συγκρίσιμου μοντέλου Llama 3.1 της Meta για να εκπαιδευτεί, σύμφωνα με το ερευνητικό ίδρυμα Epoch AI.
Η προθυμία της DeepSeek να μοιραστεί αυτές τις καινοτομίες με το κοινό της έχει κερδίσει σε σημαντικό βαθμό την εύνοια της παγκόσμιας ερευνητικής κοινότητας τεχνητής νοημοσύνης. Για πολλές κινεζικές εταιρείες τεχνητής νοημοσύνης, η ανάπτυξη μοντέλων ανοιχτού κώδικα είναι ο μόνος τρόπος για να ανταποκριθούν στις δυτικές ομολόγους τους, επειδή προσελκύει περισσότερους χρήστες και συνεισφέροντες, κάτι που με τη σειρά του βοηθά τα μοντέλα να αναπτυχθούν. «Έχουν πλέον αποδείξει ότι τα μοντέλα αιχμής μπορούν να κατασκευαστούν χρησιμοποιώντας λιγότερα – αν και πολλά – χρήματα και ότι οι τρέχοντες κανόνες κατασκευής μοντέλων αφήνουν άφθονο χώρο για βελτιστοποίηση», λέει η Chang. «Είναι βέβαιο ότι θα δούμε πολύ περισσότερες προσπάθειες προς αυτή την κατεύθυνση στο μέλλον».
Η τελευταία είδηση θα μπορούσε να προκαλέσει προβλήματα στους τρέχοντες ελέγχους εξαγωγών των ΗΠΑ που επικεντρώνονται στη δημιουργία σημείων συμφόρησης στους υπολογιστικούς πόρους. «Οι υπάρχουσες εκτιμήσεις για το πόση υπολογιστική ισχύ τεχνητής νοημοσύνης έχει η Κίνα και τι μπορούν να επιτύχουν με αυτήν, θα μπορούσαν να ανατραπούν», καταλήγει η Chang.
Πηγή: Wired
VIA: Πηγή Άρθρου
Greek Live Channels Όλα τα Ελληνικά κανάλια: Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση; Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο. Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ
Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.