De Charles Foster și Jesse Hamer
Introducere
Din 2021, la Finetune am văzut potențialul modelelor lingvistice mari (LLM) pentru a transforma modul în care lucrează profesioniștii din educație și evaluare. Ritmul dramatic de progres în acest spațiu a făcut ca conceptele să treacă de la o jucărie de cercetare într-o săptămână, la un produs viral în următoarea.
Atunci nu a fost o surpriză să văd cât de entuziasmat a fost răspunsul la ChatGPT: într-o demonstrație, toată lumea a înțeles că ne aflăm în pragul unui lucru grozav. Având în vedere entuziasmul și incertitudinea actuală, cineva s-ar putea întreba: cum se potrivește Finetune Generate în acest peisaj? Dacă aș putea doar să cer unui chatbot generic să-mi scrie în locul meu, de ce aș avea nevoie de altceva?
Ne place să ne gândim la modelele de limbaj mari ca modele de bază : sisteme AI a căror pregătire extinsă și diversă le permite să acționeze ca bază pentru o gamă largă de cazuri de utilizare. Câteva organizații, inclusiv Anthropic, EleutherAI și OpenAI (dezvoltatorul ChatGPT) antrenează aceste modele gigantice și le pun la dispoziție pentru utilizarea altora. Dar modelele în sine sunt doar stratul de bază: au un potențial mult mai mare atunci când sunt țesute într-un sistem mai mare, adaptat pentru o anumită aplicație. La fel ca alte tehnologii de uz general, cum ar fi Web-ul, poate fi nevoie de o întreagă generație de cercetători și antreprenori care construiesc sisteme pe deasupra, pentru ca acesta să-și realizeze potențialul. Într-un interviu cu Ezra Klein, CEO-ul OpenAI, Sam Altman, a exprimat un sentiment similar:
Ceea ce cred că nu suntem cei mai buni din lume și nici nu vrem să ne distragem atenția [de la], sunt toate produsele minunate care vor fi construite pe deasupra [modelelor lingvistice mari]. Așa că ne gândim la rolul nostru de a descoperi cum să construim cele mai capabile sisteme AI din lume și apoi să le punem la dispoziție oricui respectă regulile noastre pentru a construi toate aceste sisteme pe deasupra lor.
Altman, 2023
Prin combinarea LLM-urilor cu tehnologii mai tradiționale, cum ar fi bazele de cunoștințe și interfețele „human-in-the-loop”, putem crea stive de tehnologie mature sau aplicații generative , care ne permit să eliberăm capacitățile LLM-urilor de a crea instrumente inteligente în tot felul de domenii de aplicație. . Generate și ChatGPT sunt două exemple timpurii ale acestora.
Având în vedere acest cadru, să comparăm ChatGPT și Finetune Generate ca aplicații generative, ambele construite pe GPT-3, din punctul de vedere al dezvoltării articolelor.
Obiective de proiectare
Atât ChatGPT, cât și Finetune Generate sunt menite să ofere o interfață mai intuitivă pentru ca utilizatorii să interacționeze cu modele generative precum GPT-3. Dincolo de asta, cele două aplicații sunt destul de diferite. OpenAI are misiunea de a construi sisteme AI sigure, de uz general pentru toți, și a creat ChatGPT pentru a oferi publicului larg o idee despre ceea ce modelele de limbaj sunt capabile să facă cu limbajul natural și pentru a servi ca un sandbox pentru constructori pentru a testa noi idei.
La Finetune, deși ne angajăm cu comunitatea de cercetare mai largă în ceea ce privește inovațiile modelelor lingvistice (vezi colaborarea noastră cu OpenAI pentru îmbunătățirea căutării semantice), scopul nostru cu Generate nu a fost în primul rând să construim noi sisteme de uz general, ci mai degrabă să construim cele mai bune instrument posibil pentru scrierea articolelor asistată de AI. Acesta este motivul pentru care Generate este construit special având în vedere scriitorii de articole, în jurul celor mai bune practici, limbajului și fluxurilor de lucru ale acestora. Toate constrângerile noastre de proiectare s-au bazat pe implicarea cu o mare varietate de primitori. Fiecare model Generate pe care îl construim este conceput pentru a reflecta structura unică a fiecărei evaluări și oferă utilizatorului controalele specifice necesare pentru sarcina sa. Mai mult, echipe întregi de scriitori de articole pot colabora la dezvoltarea articolelor folosind Generate, cu funcționalitate încorporată pentru a permite gestionarea permisiunilor și exportul structurat în formate precum QTI.
Specificitate
Modelele lingvistice mari trec printr-o fază inițială de instruire numită pretraining , în care într-o sesiune lungă învață din milioane de pagini de pe web, cărți și alte surse. Din cauza cât de costisitoare este calculul învățării din acele intrări, cunoștințele lor sunt de obicei fixate ulterior. Deoarece este un înveliș subțire de dialog peste GPT-3, ChatGPT are în mod similar o bază de cunoștințe fixă care nu poate fi modificată. Dacă, să zicem, un tehnician ar dori ajutor cu privire la un sistem proprietar, un astfel de model probabil că nu i-ar fi de ajutor, deoarece modelul nu are nicio modalitate de a învăța subiecte noi.
Partenerii Finetune acoperă o gamă variată de la K-12 până la învățământul superior până la licență și certificare și se întind pe o mare varietate de domenii.
Ca atare, este esențial pentru noi ca modelele pe care le construim pentru ei să învețe din conținutul lor unic – chiar dacă acel conținut este foarte specializat sau nou – și trebuie să fie actualizate cu materiale noi pe măsură ce devin disponibile .
Pentru a face acest lucru posibil, echipa noastră de cercetare și dezvoltare AI și-a perfecționat propriile metode pentru a încorpora eficient noile cunoștințe în modelele lingvistice și pentru a le direcționa către liniile directoare specifice ale unei evaluări. Mai mult, Generate învață în mod dinamic în timp să vizeze mai bine articolele către conținutul și stilul specific al sarcinilor fiecărui client. Pe parcursul acestui an, intenționăm să lansăm mai multe funcții care vor continua să îmbunătățească controlabilitatea și adaptabilitatea modelelor noastre, de la direcționarea expresiilor cheie la controlul fin asupra complexității cognitive și nu numai.
Securitate
Ca demonstrație experimentală, ChatGPT este menit să obțină feedback cu privire la modul în care oamenii interacționează cu modelele lingvistice, astfel încât OpenAI să poată îmbunătăți tehnologia fundamentală care susține API-urile sale. Din acest motiv, atunci când utilizatorii vorbesc cu ChatGPT, acele interacțiuni sunt stocate și pot ajunge în seturi de date de antrenament viitoare, pentru a ajuta la formarea următoarei generații de modele. Aceasta înseamnă că, dacă dezvoltați un articol de evaluare cu ChatGPT, modelele viitoare ar putea să știe despre el sau să-l fi memorat, expunând eventual articolele și stilul articolului în moduri pe care nu le-ați intenționat, riscând securitatea acestora.
Securitatea este o preocupare cheie în dezvoltarea articolelor.
Generate păstrează articolele securizate, închise, fiecare client accesând doar modelele sale .
Chiar și în cadrul unui singur client, utilizatorii pot fi restricționați să acceseze numai articole specifice generate. Cu Generate, clienții sunt întotdeauna proprietarii oricăror articole pe care le produc, indiferent dacă doar încearcă un model inițial sau au adoptat instrumentul la scară.
Încredere și sprijin
Ceea ce face dificilă utilizarea productivă a unui LLM este că este în mod fundamental aleatoriu : pune-i aceeași întrebare de două ori și îți va oferi două răspunsuri diferite. Acest lucru este în contradicție cu ceea ce ne așteptăm de obicei de la instrumentele noastre: ne bazăm pe ele pentru a fi de încredere. Acest lucru duce la una dintre cele mai persistente probleme cu ChatGPT și cu alte instrumente LLM, și anume că este greu să ai încredere în rezultatele lor când nu știi de ce au fost alese acele ieșiri. S-a bazat pe fapte pe care modelul le amintește, sau pe falsuri pe care modelul le-a inventat, sau chiar a fost plagiat dintr-o sursă nevăzută?
Standardele de încredere în educație și evaluare sunt înalte, mult mai ridicate decât pentru chatboții ocazionali. Clienții doresc să știe că articolele pe care le produc prin Generate sunt cu adevărat noi, se bazează pe propriile materiale și sunt valabile.
Echipele noastre de măsurare și cercetare și dezvoltare AI lucrează cu fiecare client pentru a crea modele adaptate nevoilor acestuia și pentru a încorpora feedback-ul lor în îmbunătățirile continue ale modelului .
De asemenea, efectuăm verificări manuale și automate pentru a verifica dacă sugestiile pe care Generate le face se potrivesc cu specificațiile clientului. În curând, vom lansa o nouă funcție care va permite utilizatorilor să facă referințe încrucișate cu ușurință la articolele generate cu materiale de referință, astfel încât să poată avea asigurarea imediată că articolele pe care le produc sunt bazate în fapt.
Concluzie
Acesta este un moment interesant în care vor fi construite sute de aplicații generative, toate urmărind diferite cazuri de utilizare potențiale pentru LLM. Pe măsură ce îi explorați ca pe cineva căruia îi pasă profund de calitatea evaluării în educație, certificare și licență, vă recomandăm să aveți întotdeauna în vedere următoarele întrebări:
- Pentru cine este concepută această aplicație?
- Modelul pe care îl folosește această aplicație este instruit special pentru ceea ce are nevoie organizația mea, inclusiv nevoile noastre de securitate?
- Cum vor fi folosite datele pe care le furnizez?
- Vreau să investesc timp și bani pentru a face un model brut de utilizare generală utilizabil (de exemplu, interfața de utilizare adecvată) și în care experții noștri în materie (IMM-uri) au încredere pentru a fi integrat în fluxul nostru de lucru și în cazul de utilizare cu mize mari?
Ne aflăm încă în primele zile ale acestei tehnologii profund impresionante, dar deja amploarea capabilităților pe care aplicațiile generative le vor permite în mai multe industrii devine evidentă. La fel sunt și vocile de precauție exprimate de Gary Marcus de la NYU și alții.
La Finetune suntem foarte încântați să continuăm să prezentăm mai multe funcții în al treilea an, care vor face Generate și mai performant, chiar mai fiabil și chiar mai util în întregul peisaj de învățare și evaluare .