Η εφαρμογή σημειώσεων Granola με τεχνητή νοημοσύνη, αξίας 250 εκατομμυρίων δολαρίων, έχει γίνει ένα δημοφιλές εργαλείο μεταξύ των ιδρυτών της βιομηχανίας τεχνολογίας και των VC. Ωστόσο, ένας προγραμματιστής πιστεύει ότι υπάρχει ζήτηση για μια πιο ιδιωτική, τοπική εναλλακτική λύση που είναι διαθέσιμη με εφάπαξ χρέωση και χωρίς συνδρομή. Αυτό οδήγησε στη δημιουργία μιας νέας εφαρμογής Mac που ονομάζεται Ταλάτ.
Γιορκσάιρ, προγραμματιστής με έδρα την Αγγλία Νικ ΠέινΟ , που αυτοαποκαλείται σπασίκλας υπολογιστών, λέει ότι η ιδέα να δημιουργηθεί ένα τοπικό σημειωματάριο τεχνητής νοημοσύνης προέκυψε κυρίως λόγω μιας σειράς ευτυχισμένων ατυχημάτων.
«Νομίζω ότι το Granola είναι φοβερό· είναι ένα λαμπρό παράδειγμα του τι μπορείτε να κάνετε με μια εφαρμογή Electron [a framework for building desktop applications] δόθηκε αρκετή αγάπη και φροντίδα», είπε στο TechCrunch. «Όταν το δοκίμασα για πρώτη φορά, με γοήτευσε που κατάφερε να ηχογραφήσει τον ήχο του συστήματος στο Mac μου χωρίς να εγγράψει βίντεο, που ήταν η τυπική λύση εκείνη την εποχή. Αυτό οδήγησε σε έναν τόνο έρευνας, ανακαλύπτοντας ένα σχετικά νέο και κακώς τεκμηριωμένο API της Apple.”
Για να διευκολύνει την εργασία με αυτό το API (Core Audio Taps, το οποίο επιτρέπει στους προγραμματιστές να αξιοποιούν τις ροές ήχου ενός Mac), ο Payne αποφάσισε να δημιουργήσει μια βιβλιοθήκη ήχου ανοιχτού κώδικα, AudioTee.
«Κατά τη διάρκεια εκείνης της περιόδου, σιγά-σιγά συνέθεζα μια εργαλειοθήκη, αλλά ποτέ δεν βρήκα κάτι που να αισθάνθηκα ότι θα μπορούσε να σταθεί από μόνο του ως προϊόν και όχι απλώς ως ένα μοντέρνο τεχνολογικό demo», είπε ο Payne. “Τα υπερσύγχρονα μοντέλα μεταγραφής που φιλοξενούνται – οι ίδιοι πάροχοι όπως η Granola χρησιμοποιούν – είναι απίστευτα και είναι πολύ ωραίο να βλέπεις την ομιλία σου να ξετυλίγεται στην οθόνη σε σχεδόν πραγματικό χρόνο. Αλλά πάντα με ενοχλούσε που η ανταλλαγή δεν απαιτούσε μόνο τα δεδομένα μου, αλλά και τα δεδομένα ήχου, την πραγματική μου φωνή”, πρόσθεσε.
Στη συνέχεια, έπεσε πάνω σε μια εργαλειοθήκη λογισμικού που ονομάζεται FluidAudioένα πλαίσιο Swift που επιτρέπει την πλήρη τοπική, χαμηλής καθυστέρησης ήχου AI σε συσκευές Apple. Σας επιτρέπει να εκτελείτε μικρά, γρήγορα μοντέλα μεταγραφής απευθείας στο Neural Engine του Mac — το αποκλειστικό υλικό της Apple για επεξεργασία AI.
Αυτό ήταν το κομμάτι που έκανε τον Payne να συνειδητοποιήσει ότι θα μπορούσε να μετατρέψει την έρευνά του σε πραγματικό προϊόν – ένα προϊόν όπου ο ήχος σας δεν φεύγει ποτέ από το Mac σας και οι μεταγραφές σας δεν αποθηκεύονται σε διακομιστές άλλης εταιρείας.
Ταλάτπου ήταν χτισμένο παράλληλα Ο επί χρόνια φίλος και πρώην συνάδελφος του Πέιν, Μάικ Φράνκλιν, είναι το αποτέλεσμα του ενδιαφέροντος του Πέιν για τον ηχητικό χώρο. Το αποτέλεσμα είναι μια εφάπαξ αγορά 20 MB που δεν απαιτεί τη δημιουργία λογαριασμού ή ακόμη και την κοινή χρήση δεδομένων αναλυτικών στοιχείων με τους προγραμματιστές. Επίσης, δεν υπάρχουν τρέχουσες χρεώσεις.
Ενώ ορισμένοι σημειωτές τεχνητής νοημοσύνης μπορεί να έχουν περισσότερα κουδούνια και σφυρίχτρες, το Talat προσφέρει ένα βελτιωμένο σύνολο χαρακτηριστικών. Καταγράφει ήχο από το μικρόφωνο του υπολογιστή σας όταν βρίσκεστε σε εφαρμογές συσκέψεων όπως το Zoom, το Teams, το Meet και άλλες, και τον μεταγράφει σε πραγματικό χρόνο. Η εφαρμογή προσπαθεί να εκχωρήσει ηχεία σε πραγματικό χρόνο, αλλά μπορείτε να τα εκχωρήσετε ξανά ανάλογα με τις ανάγκες. Μπορείτε επίσης να κρατήσετε σημειώσεις, καθώς και να επεξεργαστείτε, να διαγράψετε ή να χωρίσετε τμήματα μεταγραφής. Όταν τελειώσει η σύσκεψη, ένα τοπικό LLM δημιουργεί μια περίληψη με βασικά σημεία, αποφάσεις και στοιχεία ενεργειών.
Οι σημειώσεις, οι μεταγραφές και οι περιλήψεις μπορούν επίσης να αναζητηθούν στο Talat.
Εκτός από τη γωνία απορρήτου, ο Payne είπε ότι στόχος είναι να δοθούν στους χρήστες περισσότερες επιλογές.
«Στεινόμαστε στη διαμόρφωση και αφήνουμε τους χρήστες να ελέγχουν πού πηγαίνουν τα δεδομένα τους: επιλέξτε το δικό σας LLM, αυτόματη εξαγωγή σε [notetaking app] Οψιδιανός, webhook που απομακρύνουν δεδομένα όταν τελειώνει μια συνάντηση, MCP διακομιστή», που είναι ένας τυποποιημένος τρόπος για τα εργαλεία τεχνητής νοημοσύνης να συνδέονται με εξωτερικές πηγές δεδομένων, «για να το τραβούν κατά παραγγελία», εξήγησε.
Κάτω από την κουκούλα, η τεχνητή νοημοσύνη είναι ένα μείγμα — «κυρίως ραμμένο και αφηρημένο πίσω από το FluidAudio», σημείωσε ο Payne, το οποίο πιστώνει ότι έκανε μεγάλο μέρος της άρσης βαρέων. Για το κομμάτι της σύνοψης, η εφαρμογή ορίζει από προεπιλογή ένα μοντέλο Al που ονομάζεται Qwen3-4B-4bit, το οποίο μπορεί να λειτουργήσει ακόμη και σε αρκετά μέτριο υλικό.
Ωστόσο, οι χρήστες μπορούν να επιλέξουν να το αλλάξουν σε οποιονδήποτε πάροχο LLM cloud της επιλογής τους ή μπορούν να επιλέξουν ανάμεσα σε δύο παραλλαγές Parakeet – μοντέλα αναγνώρισης ομιλίας που αναπτύχθηκαν από τη Nvidia – ή να το δείξουν στο Ollama (ένα εργαλείο για την εκτέλεση μοντέλων τεχνητής νοημοσύνης τοπικά), δίνοντάς τους περισσότερο έλεγχο στην εμπειρία. Με τον καιρό, το Talat θα προσθέσει υποστήριξη για περισσότερες ενσωματωμένες επιλογές και θα έχει ενσωματώσεις για άλλες εφαρμογές, όπως το Google Calendar και το Notion.
Κατά την κυκλοφορία, οι χρήστες με υπολογιστές Mac της σειράς M (αυτοί που διαθέτουν επεξεργαστές της Apple, ξεκινώντας από τον M1) μπορούν να κατεβάσουν την εφαρμογή και να τη δοκιμάσουν δωρεάν με 10 ώρες ηχογραφήσεων προτού αποφασίσουν να αγοράσουν.
Ταλάτ είναι διαθέσιμο για $49 ενώ βρίσκεται σε αυτήν την έκδοση προέκδοσης, η οποία είναι ακόμα υπό ενεργό ανάπτυξη.
Όταν η εφαρμογή φτάσει σε έκδοση 1.0, η τιμή θα αυξηθεί στα 99 $.
Ο Payne και ο Franklin κάνουν bootstrapping Talat και σχεδιάζουν να διατηρήσουν το βασικό προϊόν μια εφάπαξ αγορά στο μέλλον.
Via: techcrunch.com
