Autori Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta i Safat Siddiqui
Uvod
Proteklih mjeseci svjedočili smo eksploziji interesa za velike jezične modele (LLM) kao što je GPT-4 i za način na koji Finetune iskorištava tehnologiju. Svi su u potrazi: etablirani timovi koji žele isprobati tehnologiju u nastajanju, startupi u usponu koji istraživanje žele pretvoriti u transformativne proizvode i operativni operateri koji žele brzo zaraditi u ovoj zlatnoj groznici. Međutim, s ovom eksplozijom interesa, također vidimo eksploziju zbunjenosti. Ljudi se pitaju: "Kako da se snađem na ovom novom terenu?", "Na što trebam paziti?", "Kako mogu izvući stvarnu vrijednost iz ove tehnološke promjene paradigme?"
Budući da smo radili s LLM-ima puno prije pompe, htjeli bismo ponuditi malo jasnoće. Vidjeli smo koliko moćni mogu biti alati koji integriraju ovu tehnologiju. Kroz prethodnu obuku na milijunima stranica teksta za učenje složenih konceptualnih asocijacija, plus dodatne, detaljnije smjernice (kroz metode kao što su "fino podešavanje", "učenje pojačanja na ljudskim povratnim informacijama" i "brzo projektiranje"), modeli transformatora mogu biti korisni za sve vrste zadataka. Ali ono što je često iznenađujuća spoznaja za novopridošlice u svemiru jest da zapravo nije lako učiniti LLM-ove korisnima za obavljanje stvarnog posla, posebno u područjima gdje se kvaliteta računa .
Principijelan pristup
U Finetuneu smo nekoliko godina koristili LLM-ove kako bismo poboljšali generiranje sadržaja i tijekove rada naših partnera. Kroz ta partnerstva i kroz teške lekcije koje dolaze s iskustvom iz stvarnog svijeta, otkrili smo da je tehnologija najučinkovitija kada se kombinira s načelnim okvirom. Ono što je važno činiti to kako treba, a ne samo brzo .
Zašto to jednostavno ne učinite na jednostavan način? Pa, recimo da samo tražite od GPT-4 da sklada novi "Shakespeareov" sonet ili da napiše ispitno pitanje o određenoj temi. Na prvi pogled rezultat će se često činiti prihvatljivim. Ali zapamtite: ovi se modeli ponašaju kao vješti imitatori. Pogledajte preko površine tog soneta i vidjet ćete šuplju srž: većina Shakespeareovih temeljnih uvjerenja, intelekta i stava potpuno je izostavljena. Isto tako, pregledajte to ispitno pitanje i vidjet ćete glavne probleme: nije se obraćala pažnja na bilo koju temeljnu konstrukciju ili na to kako bi se moglo optimalno uzorkovati domenu da bi se poduprli zaključci o stručnosti ili bilo kojoj svrsi pokretanja testa. Ukratko, nedostaje joj psihometrijska valjanost!
Kako bi se izgradila valjanost i sve ostalo što profesionalci u našoj industriji žele, treba ići dalje od sirovog jezičnog modela kroz sintezu između znanosti o mjerenju i učenju, psihometrije i umjetne inteligencije .
Evo nekih temeljnih načela kako ta sinteza izgleda:
- Dizajnirajte za tijek rada, a ne za AI
- Centrirajte čovjeka u petlju
- Izgradite pouzdanost kroz transparentnost
Dizajnirajte za tijek rada, a ne za AI
Samo integriranje LLM-a u aplikaciju nije dovoljno: fokus mora biti na tome da se korisniku daju alati umjetne inteligencije koji najbolje podržavaju njegov rad. Budite oprezni s pružateljima koji se mogu pohvaliti integracijom s jednim određenim modelom i potražite one koji prate napredak umjetne inteligencije, osobito ako su agnostici za LLM . Naposljetku, određeni modeli dolaze i odlaze: GPT-3 je imao svoj dan na suncu, a onda je bio star. Danas postoji mnoštvo opcija, kako dobro poznatih poput GPT-4 i Claude, tako i manje poznatih poput GPT-NeoX , FLAN i fino podešenih modela.
Ova želja da se usredotočimo na tijek rada razlog je zašto u Finetuneu dizajniramo AI modele kako bi odgovarali poslu koji trebaju podržati. Čim započnemo rad s kupcem, naš tim za mjerenje prikuplja ključne artefakte kako bi opisao, organizirao i odredio prioritete ključnih konstrukata za njihove procjene i obrazaca dizajna potrebnih za njihovo mjerenje. To rezultira strukturiranim skupom specifikacija testova i stavki, što omogućuje našim AI znanstvenicima da to ugrade u proces razvoja modela. Prije izdavanja, timovi za mjerenje i umjetnu inteligenciju prolaze kroz nekoliko iteracija osiguranja kvalitete kako bi potvrdili da rezultati modela testiraju ispravne konstrukcije na odgovarajućim razinama kognitivne složenosti te da se stavke pridržavaju i smjernica za pisanje testova i najboljih praksi u ocjenjivanju .
Centrirajte čovjeka u petlju
Dok mnogi na riječima govore o vrijednosti korisničkog unosa, malo ih zapravo to i živi. Stručnjaci za predmet (SME) trebali bi biti ravnopravni partneri u razvoju modela, zajedno sa znanstvenicima za podatke i drugim dionicima. Također, provjera valjanosti ne bi trebala stati na implementaciji. LLM kao što je GPT-4 prestaju učiti nakon početne obuke, tako da programeri aplikacija moraju razviti načine da daju kontrolu korisniku i da održe korak s potrebama svojih korisnika. Čak i na terenu, modeli s umjetnom inteligencijom trebali bi dobivati stalna poboljšanja kako bi bili sigurni da je korisnik uvijek na vozačevom mjestu.
Na primjer, povratne informacije od malih i srednjih poduzeća pomažu nam odrediti koje konstrukcije treba mjeriti sadržajem generiranim umjetnom inteligencijom, s kojim dijelovima sadržaja im je najpotrebnija pomoć, što predstavlja visoku kvalitetu i kako se model poboljšava tijekom vremena. Redovito se sastajemo s klijentima tijekom izgradnje modela kako bismo razgovarali o napretku i područjima za poboljšanje te zatražili povratne informacije od malih i srednjih poduzeća. Također, sa značajkom koju zovemo Learn , mala i srednja poduzeća mogu označiti najbolje stavke koje je generirala umjetna inteligencija, vraćajući ih natrag u zamašnjak za samopoboljšanje umjetne inteligencije. Umjesto da stale, putem povratnih informacija malih i srednjih poduzeća vaši modeli s vremenom mogu postati bolji.
Izgradite pouzdanost kroz transparentnost
Bez transparentnosti, kako možete vjerovati rezultatima LLM-a? Ti su modeli često neprozirni i skloni davanju samouvjerenih lažnih izjava. Svaki alat koji podržava LLM trebao bi imati ugrađene mogućnosti za praćenje rezultata modela do pouzdanog izvora. Štoviše, potreba za povjerenjem nadilazi povjerenje u sustav umjetne inteligencije, obuhvaćajući povjerenje u sigurnost podataka i privatnost.
To nam je povjerenje bilo vrlo važno. Za Generate, to nas je motiviralo da izgradimo značajke kao što je traženje referenci uz pomoć umjetne inteligencije i mogućnost generiranja izravno iz referentnih materijala. Isto tako, na našem proizvodu za označavanje s umjetnom inteligencijom, Catalog, morali smo razviti metode kako bi naši sustavi s umjetnom inteligencijom donosili odluke o označavanju sustavno i uz objašnjenja, uključujući raščlambu ocjene Rationale i Catalog Score. Baš kao što pouzdani ljudski MSP koji dodjeljuje oznaku treba moći objasniti misaoni proces koji stoji iza odluke, isto bi trebao biti i pouzdani AI sustav. Što se tiče sigurnosti podataka i privatnosti, modeli koje razvijamo izolirani su za svakog kupca i usklađeni su samo s podacima tog kupca. Na taj način modeli mogu naučiti pojedinosti o tome kako određeni kupac obavlja svoj posao, bez straha od curenja informacija.
Zaključak
Osim izvanrednih kvalitativnih poboljšanja u kojima su LLM-ovi uživali posljednjih mjeseci, poboljšanja pristupačnosti bila su jednako zapanjujuća. Ušli smo u eru u kojoj stručnost AI više nije prepreka za ulazak u interakciju s LLM-ima. Ipak, razlika između interakcije s LLM-om i izrade kvalitetnog proizvoda s LLM-om je velika kao i razlika između posjedovanja tave i pružanja velikog iskustva objedovanja s 5 zvjezdica: potonje je moguće samo s timom predanih stručnjaci koji implementiraju principijelni dizajn usmjeren oko korisničkog iskustva.
U Finetuneu preporučujemo tri jednostavna—a ipak, vjerujemo, neophodna—načela kojih bi se svi proizvodi — ne samo Generate ili Catalog — trebali pridržavati ako žele učinkovito iskoristiti snagu LLM-a. Dizajniranjem za radni tijek, umjesto AI-a , osigurava se da je kvaliteta korisničkog iskustva prioritet iznad tržišnosti bilo kojeg LLM-a koji taj određeni dan ima hype. Usmjeravanjem čovjeka u petlju priznaje se da je, bez obzira na snagu određenog LLM-a, stručnost malog i srednjeg poduzeća uvijek potrebna za iskorištavanje LLM-a na razmjeru. Gradeći pouzdanost kroz transparentnost , pokazuje se poštovanje prema korisniku naglašavanjem transparentnosti u donošenju odluka LLM-a i sigurnosti podataka. Ispod svakog od ovih principa nalazi se središnja tema: da je LLM – kao i svaki model umjetne inteligencije – alat. U Finetuneu smo ponosni ne samo na svoju stručnost u AI i mjerenju, već i na svoje gotovo trogodišnje iskustvo u korištenju ovih moćnih AI alata kako bismo pružili visokokvalitetno korisničko iskustvo: ono koje je osmišljeno da pojača , a ne zamijeni, stručnost naših kupaca.