Τι πρέπει να ξέρετε
- Η Google ανακοίνωσε το Android Bench για να μετρήσει πόσο καλά τα μοντέλα AI εκτελούν πραγματικές εργασίες ανάπτυξης εφαρμογών Android.
- Το Gemini 3.1 Pro βρίσκεται στην κορυφή του leaderboard Android Bench, ξεπερνώντας τα μοντέλα Claude Opus και GPT Codex.
- Το σημείο αναφοράς δοκιμάζει μοντέλα AI χρησιμοποιώντας πραγματικές προκλήσεις κωδικοποίησης Android με διαφορετικά επίπεδα δυσκολίας.
Δεν είναι πλέον μόνο η δημιουργία εικόνων και βίντεο από κείμενο. Τώρα μπορείτε ακόμη και να δημιουργήσετε εφαρμογές που λειτουργούν χρησιμοποιώντας απλώς μια προτροπή. Τούτου λεχθέντος, δεν έχει εξίσου καλή απόδοση κάθε μοντέλο τεχνητής νοημοσύνης που ισχυρίζεται ότι δημιουργεί εφαρμογές και η Google θέλει να ορίσει ένα σημείο αναφοράς για το ποια μοντέλα λειτουργούν πραγματικά καλύτερα.
Η κωδικοποίηση Vibe έγινε γρήγορα μια από τις τάσεις του 2026, με περισσότερους ανθρώπους να προσπαθούν να δημιουργήσουν τις δικές τους εφαρμογές και υπηρεσίες χρησιμοποιώντας AI. Τίποτα δεν παρουσιάστηκε πρόσφατα α εργαλείο που επιτρέπει στους χρήστες να δημιουργούν μικρές εφαρμογές χρησιμοποιώντας προτροπές.
Ωστόσο, όποιος έχει εργαστεί με την ανάπτυξη Android ξέρει ότι χρειάζονται περισσότερα από την απλή πληκτρολόγηση μερικών προτροπών και η Google θέλει να επισημάνει ποια μοντέλα τεχνητής νοημοσύνης είναι πραγματικά ικανά να χειριστούν αυτές τις εργασίες.
Για να το κάνει αυτό, η Google έχει εισήχθη ένα νέο leaderboard που ονομάζεται Android Bench. Είναι ένα σημείο αναφοράς που έχει σχεδιαστεί για την αξιολόγηση μοντέλων μεγάλων γλωσσών ειδικά για ανάπτυξη Android. Το εργαλείο μετρά πόσο καλά τα μοντέλα τεχνητής νοημοσύνης εκτελούν εργασίες ανάπτυξης του Android σε πραγματικό κόσμο, δοκιμάζοντάς τα σε ένα σύνολο προκλήσεων με διαφορετικά επίπεδα δυσκολίας.
Σύμφωνα με την Google, τα μοντέλα που δοκιμάστηκαν κατάφεραν να ολοκληρώσουν με επιτυχία μεταξύ 16% και 72% των εργασιών. Το μοντέλο που απέδωσε καλύτερα ήταν το Gemini 3.1 Pro Preview της Google με βαθμολογία 72,2%. Το Claude Opus 4.6 ακολούθησε με βαθμολογία 66,6%, ενώ το GPT 5.2 Codex τερμάτισε τρίτο με 62,5%.
Τα αποτελέσματα δείχνουν ότι τα μοντέλα AI είναι ήδη αρκετά ικανά να βοηθήσουν στην ανάπτυξη Android. Η Google λέει ότι ο στόχος του Android Bench είναι «να κλείσει το χάσμα μεταξύ της ιδέας και του ποιοτικού κώδικα». Μακροπρόθεσμα, η εταιρεία πιστεύει ότι οι άνθρωποι θα μπορούσαν να δημιουργήσουν εφαρμογές Android απλά περιγράφοντας αυτό που θέλουν.
Για να διασφαλίσει τη διαφάνεια, η Google έχει επίσης δημοσιοποιήσει τη μεθοδολογία, τα δεδομένα δεδομένων και τα εργαλεία δοκιμών διαθέσιμο στο GitHub.
Λήψη του Android Central
Μπορεί να μην έχει μεγάλη σημασία για τον μέσο χρήστη, αλλά η συγκριτική αξιολόγηση των LLMs ειδικά για την ανάπτυξη Android είναι εξαιρετική για την κοινότητα των προγραμματιστών. Διευκολύνει τον εντοπισμό των μοντέλων που είναι πραγματικά χρήσιμα για τη δημιουργία εφαρμογών αντί να βασίζεστε σε εικασίες ή να δοκιμάζετε πολλά εργαλεία πριν βρείτε ένα που λειτουργεί καλά.
Via: androidcentral.com

