Μεγάλα μοντέλα γλώσσας και ανάπτυξη αξιολόγησης – Finetune Generate, ChatGPT και πέρα

Του Τσαρλς Φόστερ και Τζέσι Χάμερ

Εισαγωγή

Από το 2021, στο Finetune έχουμε δει τις δυνατότητες των Μεγάλων Γλωσσικών Μοντέλων (LLM) να μεταμορφώσουν τον τρόπο με τον οποίο εργάζονται οι επαγγελματίες στην εκπαίδευση και την αξιολόγηση. Ο δραματικός ρυθμός προόδου σε αυτόν τον χώρο σημαίνει ότι οι έννοιες μπορούν να μεταβούν από ένα ερευνητικό παιχνίδι τη μια εβδομάδα σε ένα viral προϊόν την επόμενη.

Τότε δεν ήταν έκπληξη να δούμε πόσο ενθουσιασμένη ήταν η ανταπόκριση στο ChatGPT: σε ένα demo, όλοι κατάλαβαν ότι βρισκόμαστε στο κατώφλι για κάτι σπουδαίο. Δεδομένου του σημερινού ενθουσιασμού και της αβεβαιότητας, θα μπορούσε κανείς να αναρωτηθεί: πώς ταιριάζει το Finetune Generate σε αυτό το τοπίο; Αν μπορούσα απλώς να ζητήσω από ένα γενικό chatbot να μου γράψει, γιατί θα χρειαζόμουν κάτι άλλο;

Μας αρέσει να σκεφτόμαστε τα Large Language Models ως βασικά μοντέλα : συστήματα AI των οποίων η εκτεταμένη και ποικίλη εκπαίδευση τα επιτρέπει να λειτουργούν ως το θεμέλιο για ένα ευρύ φάσμα περιπτώσεων χρήσης. Μερικοί οργανισμοί, όπως οι Anthropic, EleutherAI και OpenAI (ο προγραμματιστής του ChatGPT) εκπαιδεύουν αυτά τα γιγάντια μοντέλα και τα καθιστούν διαθέσιμα σε άλλους για χρήση. Αλλά τα ίδια τα μοντέλα είναι απλώς το βασικό στρώμα: έχουν πολύ μεγαλύτερες δυνατότητες όταν υφαίνονται σε ένα μεγαλύτερο σύστημα, προσαρμοσμένο για μια συγκεκριμένη εφαρμογή. Ακριβώς όπως και άλλες τεχνολογίες γενικής χρήσης, όπως ο Ιστός, μπορεί να χρειαστεί μια ολόκληρη γενιά ερευνητών και επιχειρηματιών που χτίζουν συστήματα πάνω από αυτό, για να αξιοποιήσει τις δυνατότητές του. Σε μια συνέντευξη με τον Ezra Klein, ο Διευθύνων Σύμβουλος του OpenAI Sam Altman εξέφρασε ένα παρόμοιο συναίσθημα:

Αυτό στο οποίο πιστεύω ότι δεν είμαστε οι καλύτεροι στον κόσμο, ούτε θέλουμε να αποσπάσουμε πραγματικά την προσοχή μας [από], είναι όλα τα υπέροχα προϊόντα που θα κατασκευαστούν πάνω από [μεγάλα γλωσσικά μοντέλα]. Και έτσι σκεφτόμαστε τον ρόλο μας ως προς τον τρόπο κατασκευής των πιο ικανών συστημάτων τεχνητής νοημοσύνης στον κόσμο και στη συνέχεια να τα κάνουμε διαθέσιμα σε οποιονδήποτε ακολουθεί τους κανόνες μας για να δημιουργήσει όλα αυτά τα συστήματα πάνω από αυτά.

Άλτμαν, 2023

Συνδυάζοντας τα LLM με πιο παραδοσιακές τεχνολογίες, όπως βάσεις γνώσεων και διεπαφές ανθρώπινου κύκλου, μπορούμε να δημιουργήσουμε ώριμες τεχνολογικές στοίβες ή παραγωγικές εφαρμογές , που μας επιτρέπουν να απελευθερώσουμε τις δυνατότητες των LLM για τη δημιουργία έξυπνων εργαλείων σε όλους τους τομείς εφαρμογών . Το Generate και το ChatGPT είναι δύο πρώιμα παραδείγματα αυτών.

Έχοντας κατά νου αυτό το πλαίσιο, ας συγκρίνουμε το ChatGPT και το Finetune Generate ως εφαρμογές παραγωγής και οι δύο βασισμένες στο GPT-3, από την άποψη της ανάπτυξης αντικειμένων.

Στόχοι Σχεδιασμού

Τόσο το ChatGPT όσο και το Finetune Generate προορίζονται να παρέχουν μια πιο διαισθητική διεπαφή για τους χρήστες να αλληλεπιδρούν με μοντέλα παραγωγής όπως το GPT-3. Από εκεί και πέρα, οι δύο εφαρμογές είναι αρκετά διαφορετικές. Το OpenAI έχει αποστολή να δημιουργήσει ασφαλή συστήματα τεχνητής νοημοσύνης γενικής χρήσης για όλους και κατασκεύασε το ChatGPT για να δώσει στο ευρύ κοινό μια γεύση του τι μπορούν να κάνουν τα μοντέλα γλώσσας με τη φυσική γλώσσα και να χρησιμεύσει ως sandbox για τους κατασκευαστές για να δοκιμάσουν νέες ιδέες.

Στη Finetune, παρόλο που ασχολούμαστε με την ευρύτερη ερευνητική κοινότητα γύρω από καινοτομίες γλωσσικών μοντέλων (δείτε τη συνεργασία μας με το OpenAI για βελτιώσεις στη σημασιολογική αναζήτηση), ο στόχος μας με το Generate δεν ήταν πρωτίστως να δημιουργήσουμε νέα συστήματα γενικής χρήσης, αλλά μάλλον να δημιουργήσουμε τα καλύτερα εργαλείο για τη σύνταξη αντικειμένων με τη βοήθεια AI. Αυτός είναι ο λόγος για τον οποίο το Generate έχει δημιουργηθεί ειδικά με γνώμονα τους συγγραφείς αντικειμένων, γύρω από τις βέλτιστες πρακτικές, τη γλώσσα και τις ροές εργασίας τους. Όλοι οι σχεδιαστικοί περιορισμοί μας βασίστηκαν στη δέσμευση με μια ευρεία ποικιλία πρώτων χρηστών. Κάθε μοντέλο Δημιουργίας που κατασκευάζουμε έχει σχεδιαστεί για να αντικατοπτρίζει τη μοναδική δομή κάθε αξιολόγησης και παρέχει στο χρήστη τους συγκεκριμένους ελέγχους που απαιτούνται για την εργασία του. Επιπλέον, ολόκληρες ομάδες συγγραφέων αντικειμένων μπορούν να συνεργαστούν για την ανάπτυξη στοιχείων χρησιμοποιώντας το Generate, με ενσωματωμένη λειτουργικότητα που επιτρέπει τη διαχείριση αδειών και τη δομημένη εξαγωγή σε μορφές όπως το QTI.

Ιδιαιτερότητα

Τα μεγάλα γλωσσικά μοντέλα περνούν από μια αρχική φάση εκπαίδευσης που ονομάζεται προκατάρτιση , όπου σε μια μεγάλη συνεδρία μαθαίνουν από εκατομμύρια σελίδες από τον Ιστό, βιβλία και άλλες πηγές. Λόγω του πόσο ακριβός είναι ο υπολογισμός της μάθησης από αυτές τις εισροές, οι γνώσεις τους συνήθως σταθεροποιούνται στη συνέχεια. Δεδομένου ότι είναι ένα λεπτό περιτύλιγμα διαλόγου πάνω από το GPT-3, το ChatGPT έχει ομοίως μια σταθερή βάση γνώσεων που δεν μπορεί να τροποποιηθεί. Εάν, ας πούμε, ένας τεχνικός ήθελε βοήθεια σχετικά με κάποιο ιδιόκτητο σύστημα, ένα τέτοιο μοντέλο πιθανότατα δεν θα του ήταν χρήσιμο, επειδή το μοντέλο δεν έχει τρόπο να μάθει νέο αντικείμενο.

Οι συνεργάτες της Finetune εκτελούν τη γκάμα από το K-12 στην τριτοβάθμια εκπαίδευση έως την αδειοδότηση και την πιστοποίηση και καλύπτουν μια μεγάλη ποικιλία τομέων.

Ως εκ τούτου, είναι πολύ σημαντικό για εμάς τα μοντέλα που κατασκευάζουμε για αυτούς να μαθαίνουν από το μοναδικό τους περιεχόμενο—ακόμα κι αν αυτό το περιεχόμενο είναι εξαιρετικά εξειδικευμένο ή πρωτότυπο—και να μπορεί να ενημερώνεται με νέα υλικά καθώς θα είναι διαθέσιμα .

Για να γίνει αυτό δυνατό, η ομάδα Ε&Α της τεχνητής νοημοσύνης έχει βελτιώσει τις δικές μας μεθόδους για να ενσωματώσει αποτελεσματικά νέες γνώσεις στα γλωσσικά μοντέλα και να τις στοχεύσει στις συγκεκριμένες κατευθυντήριες γραμμές μιας αξιολόγησης. Επιπλέον, το Generate μαθαίνει δυναμικά με την πάροδο του χρόνου να στοχεύει καλύτερα στοιχεία στο συγκεκριμένο περιεχόμενο και στυλ των εργασιών κάθε πελάτη. Καθ 'όλη τη διάρκεια αυτού του έτους σχεδιάζουμε να αναπτύξουμε πολλά ακόμη χαρακτηριστικά που θα συνεχίσουν να βελτιώνουν τον έλεγχο και την προσαρμοστικότητα των μοντέλων μας, από τη στόχευση βασικών φράσεων έως τον ακριβή έλεγχο της γνωστικής πολυπλοκότητας και όχι μόνο.

Ασφάλεια

Ως πειραματική επίδειξη, το ChatGPT έχει σκοπό να αποσπάσει σχόλια σχετικά με τον τρόπο με τον οποίο οι άνθρωποι αλληλεπιδρούν με τα μοντέλα γλώσσας, έτσι ώστε το OpenAI να μπορεί να βελτιώσει τη θεμελιώδη τεχνολογία που υποστηρίζει τα API του. Εξαιτίας αυτού, όταν οι χρήστες μιλούν με το ChatGPT, αυτές οι αλληλεπιδράσεις αποθηκεύονται και ενδέχεται να μπουν σε μελλοντικά σύνολα δεδομένων εκπαίδευσης, για να βοηθήσουν στην εκπαίδευση της επόμενης γενιάς μοντέλων. Αυτό σημαίνει ότι αν αναπτύξετε ένα στοιχείο αξιολόγησης με το ChatGPT, τα μελλοντικά μοντέλα μπορεί να το γνωρίζουν ή να το έχουν απομνημονεύσει, εκθέτοντας ενδεχομένως τα στοιχεία και το στυλ του αντικειμένου σας με τρόπους που δεν είχατε σκοπό, διακινδυνεύοντας την ασφάλειά τους.

Η ασφάλεια είναι ένα βασικό μέλημα στην ανάπτυξη αντικειμένων.

Το Generate διατηρεί τα στοιχεία ασφαλισμένα, περιφραγμένα, με κάθε πελάτη να έχει πρόσβαση μόνο στα μοντέλα του .

Ακόμη και σε έναν μόνο πελάτη, οι χρήστες μπορούν να περιοριστούν στην πρόσβαση μόνο σε συγκεκριμένα δημιουργημένα στοιχεία. Με το Generate, οι πελάτες είναι πάντα οι ιδιοκτήτες των ειδών που παράγουν, ανεξάρτητα από το αν απλώς δοκιμάζουν ένα αρχικό μοντέλο ή έχουν υιοθετήσει το εργαλείο σε κλίμακα.

Εμπιστοσύνη & Υποστήριξη

Πολλά από αυτά που καθιστούν δύσκολη την παραγωγική χρήση ενός LLM είναι ότι είναι ουσιαστικά τυχαία : κάντε του την ίδια ερώτηση δύο φορές και θα σας δώσει δύο διαφορετικές απαντήσεις. Αυτό έρχεται σε αντίθεση με αυτό που συνήθως περιμένουμε από τα εργαλεία μας: βασιζόμαστε σε αυτά να είναι αξιόπιστα. Αυτό οδηγεί σε ένα από τα πιο επίμονα προβλήματα με το ChatGPT και με άλλα εργαλεία LLM, δηλαδή ότι είναι δύσκολο να εμπιστευτείς τις εξόδους τους όταν δεν ξέρεις γιατί επιλέχθηκαν αυτές οι έξοδοι. Βασίστηκε σε γεγονότα που το μοντέλο ανακαλεί, ή ψέματα που κατασκεύασε το μοντέλο, ή ακόμη και λογοκλοπή από κάποια αόρατη πηγή;

Τα πρότυπα εμπιστοσύνης εντός της εκπαίδευσης και της αξιολόγησης είναι υψηλά, πολύ υψηλότερα από ό,τι για τα περιστασιακά chatbot. Οι πελάτες θέλουν να γνωρίζουν ότι τα προϊόντα που παράγουν μέσω του Generate είναι πραγματικά νέα, βασίζονται στα δικά τους υλικά και είναι έγκυρα.

Οι ομάδες μέτρησης και AI R&D συνεργάζονται με κάθε πελάτη για να δημιουργήσουν μοντέλα προσαρμοσμένα στις ανάγκες του και να ενσωματώσουν τα σχόλιά τους σε συνεχείς βελτιώσεις μοντέλων .

Πραγματοποιούμε επίσης μη αυτόματους και αυτοματοποιημένους ελέγχους για να επαληθεύσουμε ότι οι προτάσεις που κάνει το Generate ταιριάζουν με τις προδιαγραφές του πελάτη. Σύντομα θα κυκλοφορήσουμε μια νέα δυνατότητα που θα επιτρέπει στους χρήστες να διασταυρώνουν εύκολα τα δημιουργημένα στοιχεία με τα υλικά αναφοράς, ώστε να μπορούν να έχουν άμεση διαβεβαίωση ότι τα στοιχεία που παράγουν είναι στην πραγματικότητα γειωμένα.

Σύναψη

Αυτή είναι μια συναρπαστική στιγμή όπου θα δημιουργηθούν εκατοντάδες παραγωγικές εφαρμογές, όλες επιδιώκοντας διαφορετικές πιθανές περιπτώσεις χρήσης για LLM. Καθώς τα εξερευνάτε ως κάποιος που ενδιαφέρεται βαθιά για την ποιότητα της αξιολόγησης στην εκπαίδευση, την πιστοποίηση και την αδειοδότηση, συνιστούμε να έχετε πάντα υπόψη σας τις ακόλουθες ερωτήσεις:

Για ποιον έχει σχεδιαστεί αυτή η εφαρμογή;
Είναι το μοντέλο που χρησιμοποιεί αυτή η εφαρμογή εκπαιδευμένο ειδικά για τις ανάγκες του οργανισμού μου, συμπεριλαμβανομένων των αναγκών ασφάλειας;
Πώς θα χρησιμοποιηθούν τα δεδομένα που παρέχω;
Θέλω να επενδύσω χρόνο και χρήμα για να κάνω ένα ακατέργαστο μοντέλο γενικού σκοπού χρησιμοποιήσιμο (π.χ. την κατάλληλη διεπαφή χρήστη) και αξιόπιστο από τους ειδικούς μας στο θέμα (ΜΜΕ) ώστε να ενσωματωθεί στη ροή εργασιών μας και στην περίπτωση χρήσης υψηλού στοιχήματος;

Είμαστε ακόμη στις πρώτες μέρες αυτής της βαθιάς εντυπωσιακής τεχνολογίας, αλλά ήδη γίνεται εμφανής η έκταση των δυνατοτήτων που θα επιτρέψουν οι παραγωγικές εφαρμογές σε πολλούς κλάδους. Το ίδιο ισχύει και για τις φωνές της προσοχής που εκφράζονται από τον Gary Marcus του NYU και άλλους.

Στη Finetune είμαστε πολύ ενθουσιασμένοι που συνεχίζουμε να επιδεικνύουμε περισσότερες δυνατότητες στο τρίτο έτος μας που θα κάνουν το Generate ακόμα πιο αποδοτικό, ακόμα πιο αξιόπιστο και ακόμη πιο χρήσιμο σε ολόκληρο το τοπίο μάθησης και αξιολόγησης .