Di Charles Foster e Jesse Hamer
Introduzione
Dal 2021, in Finetune abbiamo visto il potenziale dei Large Language Models (LLM) per trasformare il modo in cui i professionisti dell'istruzione e della valutazione lavorano. Il ritmo drammatico dei progressi in questo spazio ha fatto sì che i concetti possano passare da un giocattolo di ricerca una settimana a un prodotto virale la successiva.
Non è stata una sorpresa vedere quanto sia stata eccitante la risposta a ChatGPT: in una demo, tutti hanno capito che siamo sulla soglia di qualcosa di grandioso. Data l'attuale eccitazione e incertezza, ci si potrebbe chiedere: come si inserisce Finetune Generate in questo panorama? Se potessi semplicemente chiedere a un chatbot generico di scrivere per me, perché dovrei aver bisogno di qualcos'altro?
Ci piace pensare ai Large Language Model come modelli di base : sistemi di intelligenza artificiale la cui formazione estesa e diversificata consente loro di fungere da fondamento per un'ampia gamma di casi d'uso. Alcune organizzazioni, tra cui Anthropic, EleutherAI e OpenAI (lo sviluppatore di ChatGPT), addestrano questi modelli giganti e li rendono disponibili per l'uso da parte di altri. Ma i modelli stessi sono solo lo strato di base: hanno un potenziale molto maggiore quando vengono intrecciati in un sistema più ampio, su misura per un'applicazione specifica. Proprio come altre tecnologie di uso generale come il Web, potrebbe essere necessaria un'intera generazione di ricercatori e imprenditori che costruiscano sistemi su di esso, affinché realizzi il suo potenziale. In un'intervista con Ezra Klein, il CEO di OpenAI Sam Altman ha espresso un sentimento simile:
Ciò in cui penso che non siamo i migliori al mondo, né vogliamo davvero distogliere la nostra attenzione [da], sono tutti i prodotti meravigliosi che saranno costruiti su [grandi modelli linguistici]. E quindi pensiamo al nostro ruolo come a capire come costruire i sistemi di intelligenza artificiale più capaci al mondo e poi renderli disponibili a chiunque segua le nostre regole per costruire tutti questi sistemi su di essi.
2023, 2024
Combinando gli LLM con tecnologie più tradizionali come basi di conoscenza e interfacce human-in-the-loop, possiamo creare stack tecnologici maturi, o applicazioni generative , che ci consentono di liberare le capacità degli LLM per creare strumenti intelligenti in tutti i tipi di aree applicative. Generate e ChatGPT sono due dei primi esempi di questi.
Con questo framework in mente, confrontiamo ChatGPT e Finetune Generate come applicazioni generative, entrambe basate su GPT-3, dal punto di vista dello sviluppo degli elementi.
Obiettivi di progettazione
Sia ChatGPT che Finetune Generate sono pensati per fornire un'interfaccia più intuitiva per gli utenti per interagire con modelli generativi come GPT-3. Oltre a ciò, le due applicazioni sono piuttosto diverse. OpenAI ha la missione di costruire sistemi di intelligenza artificiale sicuri e di uso generale per tutti, e ha creato ChatGPT per dare al grande pubblico un assaggio di ciò che i modelli linguistici sono in grado di fare con il linguaggio naturale, e per fungere da sandbox per i costruttori per testare nuove idee.
In Finetune, sebbene ci impegniamo con la più ampia comunità di ricerca sulle innovazioni dei modelli linguistici (vedi la nostra collaborazione con OpenAI sui miglioramenti alla ricerca semantica), il nostro obiettivo con Generate non era principalmente quello di creare nuovi sistemi generici, ma piuttosto di creare il miglior strumento possibile per la scrittura di elementi assistita dall'intelligenza artificiale. Ecco perché Generate è stato creato specificamente pensando agli scrittori di elementi, alle loro best practice, al linguaggio e ai flussi di lavoro. Tutti i nostri vincoli di progettazione si basavano sul coinvolgimento di un'ampia varietà di early adopter. Ogni modello Generate che creiamo è progettato per riflettere la struttura unica di ogni valutazione e fornisce all'utente i controlli specifici necessari per il suo compito. Inoltre, interi team di scrittori di elementi possono collaborare allo sviluppo di elementi utilizzando Generate, con funzionalità integrate per consentire la gestione delle autorizzazioni e l'esportazione strutturata in formati come QTI.
Specificità
I grandi modelli linguistici attraversano una fase di formazione iniziale chiamata pre-formazione , in cui in una lunga sessione apprendono da milioni di pagine dal web, libri e altre fonti. A causa di quanto sia costoso il calcolo dell'apprendimento da quegli input, la loro conoscenza è in genere fissata in un secondo momento. Poiché è un sottile wrapper di dialogo su GPT-3, ChatGPT ha allo stesso modo una base di conoscenza fissa che non può essere modificata. Se, ad esempio, un tecnico volesse aiuto riguardo a un sistema proprietario, un tale modello probabilmente non gli sarebbe utile, perché il modello non ha modo di apprendere nuovi argomenti.
I partner di Finetune spaziano dall'istruzione primaria e secondaria a quella superiore, fino alle licenze e certificazioni, e abbracciano un'ampia gamma di settori.
Pertanto, è fondamentale per noi che i modelli che costruiamo per loro debbano imparare dai loro contenuti unici, anche se altamente specializzati o innovativi, e debbano essere aggiornabili con nuovi materiali non appena diventano disponibili .
Per rendere possibile tutto questo, il nostro team di ricerca e sviluppo AI ha perfezionato i nostri metodi per incorporare in modo efficiente nuove conoscenze nei modelli linguistici e indirizzarli alle linee guida specifiche di una valutazione. Inoltre, Generate apprende dinamicamente nel tempo per indirizzare meglio gli elementi al contenuto e allo stile specifici delle attività di ciascun cliente. Nel corso di quest'anno abbiamo in programma di lanciare diverse altre funzionalità che continueranno a migliorare la controllabilità e l'adattabilità dei nostri modelli, dal targeting delle frasi chiave al controllo dettagliato sulla complessità cognitiva e oltre.
Sicurezza
Come demo sperimentale, ChatGPT è pensato per ottenere feedback su come le persone interagiscono con i modelli linguistici, in modo che OpenAI possa migliorare la tecnologia fondamentale che supporta le sue API. Per questo motivo, quando gli utenti parlano con ChatGPT, tali interazioni vengono memorizzate e potrebbero essere inserite in futuri set di dati di training, per aiutare ad addestrare la prossima generazione di modelli. Ciò significa che se sviluppi un elemento di valutazione con ChatGPT, i modelli futuri potrebbero esserne a conoscenza o averlo memorizzato, esponendo potenzialmente i tuoi elementi e lo stile degli elementi in modi non previsti, mettendo a rischio la loro sicurezza.
La sicurezza è una preoccupazione fondamentale nello sviluppo degli articoli.
Generate mantiene gli articoli protetti e isolati, consentendo a ciascun cliente di accedere solo ai propri modelli .
Anche all'interno di un singolo cliente, gli utenti possono essere limitati ad accedere solo a specifici elementi generati. Con Generate, i clienti sono sempre i proprietari di qualsiasi elemento producano, indipendentemente dal fatto che stiano solo provando un modello iniziale o abbiano adottato lo strumento su larga scala.
Fiducia e supporto
Gran parte di ciò che rende difficile usare in modo produttivo un LLM è che è fondamentalmente casuale : ponetegli la stessa domanda due volte e vi darà due risposte diverse. Ciò va contro ciò che di solito ci aspettiamo dai nostri strumenti: contiamo sulla loro affidabilità. Ciò porta a uno dei problemi più persistenti con ChatGPT e con altri strumenti LLM, ovvero che è difficile fidarsi dei loro output quando non si sa perché sono stati scelti. Si basava su fatti che il modello richiama, o su falsità inventate dal modello, o addirittura plagiate da qualche fonte invisibile?
Gli standard di fiducia nell'ambito dell'istruzione e della valutazione sono elevati, molto più alti rispetto ai chatbot casuali. I clienti vogliono sapere che gli articoli che producono tramite Generate sono davvero nuovi, si basano sui loro materiali e sono validi.
I nostri team di ricerca e sviluppo in ambito di misurazione e intelligenza artificiale collaborano con ciascun cliente per creare modelli su misura per le sue esigenze e per integrare il suo feedback nei continui miglioramenti dei modelli .
Eseguiamo anche controlli manuali e automatici per verificare che i suggerimenti di Generate corrispondano alle specifiche del cliente. Presto lanceremo una nuova funzionalità che consentirà agli utenti di fare facilmente riferimenti incrociati tra gli elementi generati e i materiali di riferimento, in modo che possano avere la certezza immediata che gli elementi che producono siano fondati sui fatti.
Conclusione
Questo è un momento emozionante in cui verranno sviluppate centinaia di applicazioni generative, tutte mirate a diversi potenziali casi d'uso per gli LLM. Mentre le esplori come qualcuno che ha a cuore la qualità della valutazione nell'istruzione, nella certificazione e nell'abilitazione, ti consigliamo di tenere sempre a mente le seguenti domande:
- A chi è rivolta questa applicazione?
- Il modello utilizzato da questa applicazione è stato appositamente studiato per soddisfare le esigenze della mia organizzazione, comprese quelle di sicurezza?
- Come verranno utilizzati i dati da me forniti?
- Voglio investire tempo e denaro per realizzare un modello generico grezzo utilizzabile (ad esempio l'interfaccia utente appropriata) e ritenuto affidabile dai nostri esperti in materia (SME) da integrare nel nostro flusso di lavoro e nei casi d'uso ad alto rischio?
Siamo ancora agli inizi di questa tecnologia profondamente impressionante, ma l'entità delle capacità che le applicazioni generative consentiranno in molteplici settori sta già diventando evidente. Così come le voci di cautela espresse da Gary Marcus della NYU e altri.
Noi di Finetune siamo entusiasti di continuare a presentare nel nostro terzo anno altre funzionalità che renderanno Generate ancora più performante, ancora più affidabile e ancora più utile nell'intero panorama dell'apprendimento e della valutazione .