De Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta și Safat Siddiqui
Introducere
În ultimele luni, am asistat la o explozie a interesului pentru modelele mari de limbaj (LLM) precum GPT-4 și pentru modul în care Finetune folosește tehnologia. Toată lumea este atentă: echipe consacrate care caută să testeze tehnologia emergentă, startup-uri în ascensiune care doresc să transforme cercetarea în produse transformatoare și operatorii de zbor de noapte care doresc să câștige bani rapid în această goană aurului. Cu toate acestea, cu această explozie de interes, asistăm și la o explozie de confuzie. Oamenii se întreabă: „Cum navighez pe acest nou teren?”, „La ce ar trebui să mă uit?”, „Cum pot obține valoare reală din această schimbare de paradigmă tehnologică?”
După ce am lucrat cu LLM cu mult înainte de hype, am dori să oferim puțină claritate. Am văzut cât de puternice pot fi instrumentele care integrează această tehnologie. Prin pre-instruire pe milioane de pagini de text pentru a învăța asocieri conceptuale complexe, plus îndrumări suplimentare, mai granulare (prin metode precum „reglare fină”, „învățare prin consolidare pe feedback-ul uman” și „inginerie promptă”), modelele de transformatoare pot să fie utilă pentru tot felul de sarcini. Dar ceea ce este adesea o realizare surprinzătoare pentru noii veniți în spațiu este că nu este ușor să faci LLM-uri utile pentru a face o muncă reală, mai ales în zonele în care calitatea contează .
O abordare bazată pe principii
La Finetune, de câțiva ani am folosit LLM-urile pentru a spori generarea de conținut și fluxurile de lucru de etichetare ale partenerilor noștri. Prin aceste parteneriate și prin lecțiile dure care vin odată cu experiența din lumea reală, am descoperit că tehnologia are cel mai mare impact atunci când este combinată cu un cadru bazat pe principii. Ceea ce contează este să o faci corect , mai degrabă decât să o faci rapid .
De ce nu o faci pur și simplu pe calea ușoară? Ei bine, să presupunem că cereți doar GPT-4 să compună un nou sonet „Shakespearian” sau să scrieți o întrebare de test pe un anumit subiect. La prima vedere, rezultatul va părea adesea acceptabil. Dar amintiți-vă: aceste modele acționează ca niște imitatori iscusiți. Priviți dincolo de suprafața acelui sonet și veți vedea un nucleu gol: majoritatea credințelor, intelectului și atitudinii de bază ale lui Shakespeare sunt complet omise. De asemenea, inspectați acea întrebare de test și veți vedea probleme majore: nicio atenție acordată niciunui construct de bază sau modului în care s-ar putea eșantiona în mod optim domeniul pentru a susține inferențe de competență sau oricărui scop care conduce testul. În concluzie, îi lipsește validitatea psihomometrică!
Pentru a consolida validitatea și tot ceea ce își doresc profesioniștii din industria noastră, trebuie să depășim modelul de limbaj brut printr-o sinteză între știința de măsurare și învățare, psihomometrie și AI .
Iată câteva principii de bază despre cum arată această sinteză:
- Design pentru fluxul de lucru, nu pentru AI
- Centrați umanul în buclă
- Construiți încrederea prin transparență
Design pentru fluxul de lucru, nu pentru AI
Doar a avea un LLM integrat într-o aplicație nu este suficient: accentul trebuie să fie pe oferirea utilizatorului de instrumente AI care îi sprijină cel mai bine munca. Fiți atenți la furnizorii care se laudă cu o integrare cu un anumit model și căutați-i pe cei care țin pasul cu progresul AI, în special prin faptul că sunt agnostici LLM . La urma urmei, anumite modele vin și pleacă: GPT-3 a avut ziua la soare și apoi a fost pălărie veche. Astăzi există o multitudine de opțiuni, atât bine cunoscute precum GPT-4 și Claude, cât și mai puțin cunoscute, cum ar fi GPT-NeoX , FLAN și modele reglate fin.
Această dorință de a se concentra asupra fluxului de lucru este motivul pentru care, la Finetune, am proiectat modele AI pentru a se potrivi cu munca pe care trebuie să o susțină. De îndată ce începem să lucrăm cu un client, echipa noastră de măsurare colectează artefacte cheie pentru a descrie, organiza și prioritiza constructele cheie pentru evaluările lor și modelele de proiectare necesare pentru a le măsura. Acest lucru are ca rezultat un set structurat de specificații pentru teste și articole, permițând oamenilor noștri de știință AI să încorporeze acest lucru în procesul de dezvoltare a modelului. Înainte de lansare, echipele de măsurare și IA trec prin mai multe iterații de asigurare a calității pentru a confirma rezultatele modelului testează constructele corecte la nivelurile adecvate de complexitate cognitivă și că articolele respectă atât liniile directoare de scriere a testelor, cât și cele mai bune practici în evaluare .
Centrați umanul în buclă
În timp ce mulți sunt de acord cu valoarea contribuțiilor utilizatorilor, puțini trăiesc de fapt asta. Experții în domeniu (IMM-urile) ar trebui să fie parteneri egali în dezvoltarea modelelor, alături de oamenii de știință de date și alte părți interesate. De asemenea, validarea nu ar trebui să se oprească la implementare. LLM-urile precum GPT-4 încetează să învețe după formarea lor inițială, astfel încât dezvoltatorii de aplicații trebuie să dezvolte modalități de a oferi control utilizatorului și de a ține pasul cu nevoile utilizatorilor lor. Chiar și pe teren, modelele AI ar trebui să primească îmbunătățiri continue, pentru a se asigura că utilizatorul este întotdeauna pe scaunul șoferului.
De exemplu, feedback-ul de la IMM-uri ne ajută să stabilim ce constructe ar trebui măsurate prin conținutul generat de IA, cu ce părți ale conținutului au nevoie cel mai mult de ajutor, ce reprezintă calitatea înaltă și cum se îmbunătățește modelul în timp. Ne întâlnim în mod regulat cu clienții pe parcursul construirii modelului pentru a discuta progresul și domeniile de îmbunătățire și pentru a solicita feedback IMM-urilor. De asemenea, cu o funcție pe care o numim Aflați , IMM-urile pot semnala cele mai bune articole generate de AI, introducându-le înapoi în volantul de auto-îmbunătățire a AI. În loc să devină învechite, prin feedback-ul IMM-urilor, modelele dvs. se pot îmbunătăți în timp.
Construiți încrederea prin transparență
Fără transparență, cum poți avea încredere în rezultatul unui LLM? Aceste modele sunt adesea opace și predispuse să facă declarații false încrezătoare. Orice instrument acceptat de LLM ar trebui să aibă capabilități încorporate pentru a urmări rezultatele modelului înapoi la o sursă de încredere. Mai mult, nevoia de încredere depășește încrederea în sistemul AI, cuprinzând încrederea în securitatea și confidențialitatea datelor.
Această încredere a fost destul de importantă pentru noi. Pentru Generate, ne-a motivat să construim funcții precum căutarea de referințe asistată de AI și capacitatea de a genera generarea direct din materiale de referință. De asemenea, pe produsul nostru de etichetare AI, Catalog, a trebuit să dezvoltăm metode pentru ca sistemele noastre AI să ia decizii de etichetare în mod sistematic și cu explicații, inclusiv o defalcare a Justiției și a Scorului de catalog. Așa cum un IMM uman de încredere care atribuie o etichetă ar trebui să fie capabil să explice procesul de gândire din spatele deciziei, la fel ar trebui și un sistem AI de încredere. În ceea ce privește securitatea datelor și confidențialitatea, modelele pe care le dezvoltăm sunt izolate pentru fiecare client și sunt reglate doar pe datele de la acel client. În acest fel, modelele pot afla detaliile despre cum un anumit client își face munca, fără teama de scurgeri.
Concluzie
Pe lângă îmbunătățirile calitative remarcabile de care s-au bucurat LLM-urile în ultimele luni, îmbunătățirile aduse accesibilității au fost la fel de uluitoare. Am intrat într-o eră în care expertiza AI nu mai reprezintă o barieră la intrare pentru interacțiunea cu LLM. Acestea fiind spuse, diferența dintre interacțiunea cu un LLM și construirea unui produs de calitate cu un LLM este la fel de mare ca diferența dintre a avea o tigaie și a oferi o experiență de mese de 5 stele la scară: aceasta din urmă este posibilă doar cu o echipă de dedicată. experți care implementează un design bazat pe principii centrat pe experiența utilizatorului.
La Finetune, vă recomandăm trei principii simple – dar, credem noi, necesare – la care ar trebui să le respecte orice produs – nu doar Generați sau Catalog – dacă doresc să valorifice eficient puterea LLM-urilor. Prin proiectarea pentru fluxul de lucru, în loc de AI , se asigură că calitatea experienței utilizatorului este prioritizată mai presus de comercializarea oricărui LLM se întâmplă să aibă hype în acea zi anume. Prin centrarea omului în buclă , se recunoaște că, indiferent de puterea unui anumit LLM, expertiza IMM-ului este întotdeauna necesară pentru valorificarea LLM-urilor la scară. Prin construirea încrederii prin transparență , se demonstrează respectul față de client, punând accent pe transparență atât în luarea deciziilor LLM, cât și în securitatea datelor. Sub fiecare dintre aceste principii se află o temă centrală: că un LLM – ca orice model AI – este un instrument. La Finetune, suntem mândri nu numai de experiența noastră în AI și Măsurare, ci și de experiența noastră de aproape trei ani în folosirea acestor instrumente AI puternice pentru a oferi o experiență utilizator de înaltă calitate: una concepută pentru a amplifica , mai degrabă decât a înlocui, expertiza clienților noștri.