Di Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta e Safat Siddiqui
Introduzione
Negli ultimi mesi, abbiamo assistito a un'esplosione di interesse per i modelli linguistici di grandi dimensioni (LLM) come GPT-4 e per il modo in cui Finetune sta sfruttando la tecnologia. Tutti sono alla ricerca: team affermati che cercano di testare tecnologie emergenti, startup emergenti che cercano di trasformare la ricerca in prodotti trasformativi e operatori improvvisati che cercano di fare soldi facili in questa corsa all'oro. Tuttavia, con questa esplosione di interesse, stiamo anche assistendo a un'esplosione di confusione. Le persone si chiedono: "Come mi muovo in questo nuovo territorio?", "A cosa dovrei prestare attenzione?", "Come posso ottenere un valore reale da questo cambiamento di paradigma tecnologico?"
Avendo lavorato con gli LLM ben prima dell'hype, vorremmo fare un po' di chiarezza. Abbiamo visto quanto possono essere potenti gli strumenti che integrano questa tecnologia. Attraverso la pre-formazione su milioni di pagine di testo per apprendere associazioni concettuali complesse, più una guida aggiuntiva e più granulare (attraverso metodi come "fine-tuning", "reinforcement learning on human feedback" e "prompt engineering"), i modelli di trasformatori possono essere resi utili per tutti i tipi di attività. Ma ciò che spesso sorprende i nuovi arrivati nello spazio è che rendere effettivamente gli LLM utili per svolgere un lavoro reale non è facile, specialmente in aree in cui la qualità conta .
Un approccio basato sui principi
In Finetune, per diversi anni abbiamo sfruttato gli LLM per aumentare i flussi di lavoro di generazione e tagging dei contenuti dei nostri partner. Attraverso queste partnership e attraverso le dure lezioni che derivano dall'esperienza nel mondo reale, abbiamo scoperto che la tecnologia ha un impatto maggiore quando è combinata con un framework basato su principi. Ciò che conta è farlo bene , piuttosto che farlo semplicemente in fretta .
Perché non farlo nel modo più semplice? Bene, diciamo che chiedi a GPT-4 di comporre un nuovo sonetto "shakespeariano" o di scrivere una domanda di verifica su un argomento particolare. A prima vista, il risultato sembrerà spesso accettabile. Ma ricorda: questi modelli agiscono come abili imitatori. Guarda oltre la superficie di quel sonetto e vedrai un nucleo vuoto: la maggior parte delle convinzioni sottostanti, dell'intelletto e dell'atteggiamento di Shakespeare sono completamente omessi. Allo stesso modo, esamina quella domanda di verifica e vedrai problemi importanti: nessuna attenzione prestata a nessun costrutto sottostante, o a come si potrebbe campionare in modo ottimale il dominio per supportare inferenze di competenza , o a qualsiasi scopo che guida il test. In sintesi, manca di validità psicometrica!
Per integrare la validità e tutto ciò che i professionisti del nostro settore desiderano, è necessario andare oltre il modello linguistico grezzo attraverso una sintesi tra scienza della misurazione e dell'apprendimento, psicometria e intelligenza artificiale .
Ecco alcuni principi fondamentali di come appare tale sintesi:
- Progettare per il flusso di lavoro, non per l'intelligenza artificiale
- Mettere al centro l'essere umano nel ciclo
- Costruire l'affidabilità attraverso la trasparenza
Progettare per il flusso di lavoro, non per l'intelligenza artificiale
Non basta avere un LLM integrato in un'applicazione: l'attenzione deve essere rivolta a fornire all'utente gli strumenti di intelligenza artificiale che meglio supportano il suo lavoro. Diffidate dei provider che vantano un'integrazione con un modello particolare e cercate quelli che tengono il passo con i progressi dell'intelligenza artificiale, soprattutto essendo LLM-agnostici . Dopo tutto, modelli particolari vanno e vengono: GPT-3 ha avuto il suo momento di gloria e poi è diventato un vecchio cappello. Oggi ci sono una miriade di opzioni, sia note come GPT-4 e Claude, sia meno note come GPT-NeoX , FLAN e modelli ottimizzati.
Questo desiderio di concentrarsi sul flusso di lavoro è il motivo per cui in Finetune progettiamo modelli di intelligenza artificiale adatti al lavoro che devono supportare. Non appena iniziamo a lavorare con un cliente, il nostro team di misurazione raccoglie artefatti chiave per descrivere, organizzare e dare priorità ai costrutti chiave per le loro valutazioni e ai modelli di progettazione necessari per misurarli. Ciò si traduce in un set strutturato di specifiche di test e di elementi, consentendo ai nostri scienziati di intelligenza artificiale di incorporarlo nel processo di sviluppo del modello. Prima del rilascio, i team di misurazione e intelligenza artificiale eseguono diverse iterazioni di garanzia della qualità per confermare che gli output del modello testano i costrutti corretti ai livelli appropriati di complessità cognitiva e che gli elementi aderiscano sia alle linee guida per la scrittura dei test sia alle best practice nella valutazione .
Mettere al centro l'essere umano nel ciclo
Mentre molti si limitano a parlare del valore dell'input dell'utente, pochi lo vivono davvero. Gli esperti in materia (SME) dovrebbero essere partner alla pari nello sviluppo del modello, insieme agli scienziati dei dati e ad altri stakeholder. Inoltre, la convalida non dovrebbe fermarsi all'implementazione. Gli LLM come GPT-4 smettono di apprendere dopo la formazione iniziale, quindi gli sviluppatori di applicazioni devono sviluppare modi per dare il controllo all'utente e per stare al passo con le esigenze dei loro utenti. Anche sul campo, i modelli di intelligenza artificiale dovrebbero ricevere continui miglioramenti, per assicurarsi che l'utente sia sempre al posto di guida.
Ad esempio, il feedback degli SME ci aiuta a determinare quali costrutti dovrebbero essere misurati dai contenuti generati dall'IA, quali parti del contenuto hanno più bisogno di aiuto, cosa costituisce un'alta qualità e come il modello migliora nel tempo. Ci incontriamo regolarmente con i clienti durante la creazione del modello per discutere dei progressi e delle aree di miglioramento e per sollecitare il feedback degli SME. Inoltre, con una funzionalità che chiamiamo Learn , gli SME sono in grado di contrassegnare i migliori elementi generati dall'IA, restituendoli al volano di auto-miglioramento dell'IA. Invece di diventare stantii, attraverso il feedback degli SME i tuoi modelli possono migliorare nel tempo.
Costruire l'affidabilità attraverso la trasparenza
Senza trasparenza, come puoi fidarti dell'output di un LLM? Questi modelli sono spesso opachi e inclini a fare affermazioni false e convincenti. Qualsiasi strumento supportato da LLM dovrebbe avere capacità integrate per tracciare gli output del modello fino a una fonte attendibile. Inoltre, la necessità di fiducia va oltre la fiducia nel sistema di intelligenza artificiale, comprendendo la fiducia nella sicurezza dei dati e nella privacy.
Questa fiducia è stata molto importante per noi. Per Generate, ci ha motivato a creare funzionalità come la ricerca di riferimenti assistita dall'IA e la capacità di generare direttamente dai materiali di riferimento. Allo stesso modo, sul nostro prodotto di tagging AI, Catalog, abbiamo dovuto sviluppare metodi per far sì che i nostri sistemi AI prendessero decisioni di tagging in modo sistematico e con spiegazioni, tra cui una ripartizione Rationale e Catalog Score. Proprio come un SME umano fidato che assegna un tag dovrebbe essere in grado di spiegare il processo di pensiero alla base della decisione, così dovrebbe fare anche un sistema AI fidato. Sul fronte della sicurezza e della privacy dei dati, i modelli che sviluppiamo sono isolati in base al cliente e sono sintonizzati solo sui dati di quel cliente. In questo modo, i modelli possono apprendere i dettagli di come un cliente specifico svolge il proprio lavoro, senza timore di perdite.
Conclusione
Oltre ai notevoli miglioramenti qualitativi di cui hanno goduto gli LLM negli ultimi mesi, i miglioramenti all'accessibilità sono stati altrettanto sbalorditivi. Siamo entrati in un'era in cui la competenza in materia di intelligenza artificiale non è più una barriera all'ingresso per interagire con gli LLM. Detto questo, la differenza tra interagire con un LLM e creare un prodotto di qualità con un LLM è netta quanto la differenza tra avere una padella e offrire un'esperienza culinaria a 5 stelle su larga scala: quest'ultima è possibile solo con un team di esperti dedicati che implementano un design basato su principi incentrato sull'esperienza utente.
In Finetune, raccomandiamo tre principi semplici, ma che riteniamo necessari, a cui tutti i prodotti, non solo Generate o Catalog, dovrebbero attenersi se vogliono sfruttare efficacemente la potenza degli LLM. Progettando per il flusso di lavoro, anziché per l'IA , si garantisce che la qualità dell'esperienza utente abbia la priorità sulla commerciabilità di qualsiasi LLM che abbia clamore in quel particolare giorno. Concentrando l'essere umano nel ciclo , si riconosce che, indipendentemente dalla potenza del particolare LLM, l'esperienza della PMI è sempre richiesta per sfruttare gli LLM su larga scala. Costruendo affidabilità attraverso la trasparenza , si dimostra rispetto per il cliente enfatizzando la trasparenza sia nel processo decisionale dell'LLM che nella sicurezza dei dati. Alla base di ciascuno di questi principi c'è un tema centrale: che un LLM, come qualsiasi modello di IA, è uno strumento. In Finetune siamo orgogliosi non solo della nostra competenza in materia di intelligenza artificiale e misurazione, ma anche dei nostri quasi tre anni di esperienza nell'utilizzo di questi potenti strumenti di intelligenza artificiale per offrire un'esperienza utente di alta qualità: progettata per amplificare , piuttosto che sostituire, le competenze dei nostri clienti.