Avtor : Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta in Safat Siddiqui

Uvod

V preteklih mesecih smo bili priča eksploziji zanimanja za velike jezikovne modele (LLM), kot je GPT-4, in za to, kako Finetune izkorišča tehnologijo. Vsi so na preži: uveljavljene ekipe, ki želijo preizkusiti nastajajočo tehnologijo, vzpenjajoča se podjetja, ki želijo raziskave spremeniti v transformativne izdelke, in hitri operaterji, ki želijo hitro zaslužiti v tej zlati mrzlici. Vendar pa s to eksplozijo zanimanja vidimo tudi eksplozijo zmede. Ljudje se sprašujejo: »Kako naj krmarim po tem novem terenu?«, »Na kaj moram biti pozoren?«, »Kako lahko pridobim pravo vrednost iz te tehnološke spremembe paradigme?«

Ker smo z LLM-ji sodelovali že veliko pred navdušenjem, bi radi ponudili nekaj jasnosti. Videli smo, kako močna so lahko orodja, ki vključujejo to tehnologijo. S predhodnim usposabljanjem na milijonih strani besedila za učenje zapletenih konceptualnih asociacij in dodatnim, bolj razdrobljenim vodenjem (z metodami, kot so »natančna nastavitev«, »okrepitveno učenje na podlagi človeških povratnih informacij« in »hitro inženirstvo«), lahko modeli transformatorjev biti uporaben za vse vrste nalog. Toda tisto, kar je za novince v vesolju pogosto presenetljivo, je, da dejansko narediti LLM uporabne za opravljanje resničnega dela ni enostavno, zlasti na področjih, kjer šteje kakovost .

Načelen pristop

Pri Finetune že nekaj let izkoriščamo LLM za izboljšanje delovnih tokov ustvarjanja vsebine in označevanja naših partnerjev. S temi partnerstvi in težkimi lekcijami, ki jih prinašajo izkušnje iz resničnega sveta, smo ugotovili, da je tehnologija najučinkovitejša v kombinaciji z načelnim okvirom. Pomembno je, da to storite pravilno in ne le hitro .

Zakaj ne bi tega naredili na enostaven način? No, recimo, da prosite GPT-4, naj sestavi nov »Shakespearjev« sonet ali napiše testno vprašanje o določeni temi. Na prvi pogled se bo rezultat pogosto zdel sprejemljiv. Vendar ne pozabite: ti modeli delujejo kot spretni imitatorji. Poglejte čez površino tega soneta in videli boste votlo jedro: večina Shakespearovih temeljnih prepričanj, intelekta in odnosa je popolnoma izpuščenih. Podobno preglejte to testno vprašanje in videli boste velike težave: nobene pozornosti ni bilo posvečeno nobenemu osnovnemu konstruktu ali temu, kako bi lahko optimalno vzorčili domeno , da bi podprli sklepanje o strokovnosti , ali kateremu koli namenu , ki vodi test. Skratka, nima psihometrične veljavnosti!

Da bi zgradili veljavnost in vse ostalo, kar želijo strokovnjaki v naši industriji, je treba preseči model surovega jezika s sintezo med merjenjem in učenjem znanosti, psihometrije in umetne inteligence .

Tukaj je nekaj osnovnih načel, kako ta sinteza izgleda:

  1. Zasnova za potek dela, ne za AI
  2. Centrirajte človeka v zanki
  3. Gradite zaupanja vredno s preglednostjo

Zasnova za potek dela, ne za AI

Zgolj vključitev LLM v aplikacijo ni dovolj: osredotočiti se je treba na to, da uporabniku ponudimo orodja AI, ki najbolje podpirajo njegovo delo. Bodite previdni pri ponudnikih, ki se ponašajo z integracijo z enim določenim modelom, in poiščite tiste, ki so v koraku z napredkom umetne inteligence, zlasti če so neodvisni od LLM . Konec koncev, določeni modeli pridejo in gredo: GPT-3 je imel svoj dan na soncu in potem je bil star klobuk. Danes obstaja ogromno možnosti, tako dobro znanih, kot sta GPT-4 in Claude, kot manj znanih, kot so GPT-NeoX , FLAN in natančno nastavljeni modeli.

Ta želja po osredotočenju na potek dela je razlog, zakaj pri Finetune oblikujemo modele AI, ki ustrezajo delu, ki ga morajo podpirati. Takoj ko začnemo delati s stranko, naša ekipa za merjenje zbere ključne artefakte za opis, organizacijo in prednostno razvrstitev ključnih konstruktov za njihove ocene in načrtovalske vzorce, potrebne za njihovo merjenje. Posledica tega je strukturiran nabor specifikacij testov in predmetov, kar našim znanstvenikom za umetno inteligenco omogoča, da to vključijo v proces razvoja modela. Pred objavo gredo ekipe za merjenje in umetno inteligenco skozi več iteracij zagotavljanja kakovosti, da potrdijo, da rezultati modela testirajo pravilne konstrukte na ustreznih ravneh kognitivne kompleksnosti in da elementi upoštevajo smernice za pisanje testov in najboljše prakse pri ocenjevanju .

Centrirajte človeka v zanki

Medtem ko mnogi govorijo o vrednosti uporabniškega vnosa, le redki to dejansko živijo. Strokovnjaki za zadeve (MSP) bi morali biti enakovredni partnerji pri razvoju modelov, poleg podatkovnih znanstvenikov in drugih zainteresiranih strani. Poleg tega se validacija ne sme ustaviti pri uvajanju. LLM-ji, kot je GPT-4, se prenehajo učiti po začetnem usposabljanju, zato morajo razvijalci aplikacij razviti načine, kako dati nadzor uporabniku in slediti potrebam svojih uporabnikov. Tudi na terenu bi morali biti modeli AI deležni nenehnih izboljšav, da bi zagotovili, da je uporabnik vedno na voznikovem sedežu.

Povratne informacije MSP nam na primer pomagajo določiti, katere konstrukte je treba meriti z vsebino, ustvarjeno z umetno inteligenco, pri katerih delih vsebine najbolj potrebujejo pomoč, kaj pomeni visoko kakovost in kako se model sčasoma izboljšuje. Med gradnjo modela se redno srečujemo s strankami, da razpravljamo o napredku in področjih za izboljšave ter pridobimo povratne informacije MSP. S funkcijo, ki ji pravimo Učenje , lahko mala in srednja podjetja označijo najboljše predmete, ustvarjene z umetno inteligenco, in jih vrnejo nazaj v vztrajnik za samoizboljšanje umetne inteligence. Namesto da zastarajo, se lahko s povratnimi informacijami MSP vaši modeli sčasoma izboljšajo.

Gradite zaupanja vredno s preglednostjo

Kako lahko brez preglednosti zaupate rezultatom LLM? Ti modeli so pogosto nepregledni in nagnjeni k dajanju samozavestnih lažnih izjav. Vsako orodje, ki ga podpira LLM, bi moralo imeti vgrajene zmožnosti za sledenje izhodom modela nazaj do zaupanja vrednega vira. Poleg tega potreba po zaupanju presega zaupanje v sistem umetne inteligence in vključuje zaupanje v varnost podatkov in zasebnost.

To zaupanje je bilo za nas zelo pomembno. Za Generate nas je motiviralo, da smo zgradili funkcije, kot sta iskanje referenčnih podatkov s pomočjo umetne inteligence in možnost ustvarjanja neposredno iz referenčnih materialov. Podobno smo morali pri našem izdelku za označevanje z umetno inteligenco, Catalog, razviti metode, s katerimi bi naši sistemi z umetno inteligenco sprejemali odločitve o označevanju sistematično in z razlagami, vključno z razčlenitvijo utemeljitve in ocene kataloga. Tako kot bi moralo biti zaupanja vredno človeško MSP, ki dodeli oznako, sposobno razložiti miselni proces v ozadju odločitve, bi moral biti tudi zaupanja vreden sistem umetne inteligence. Kar zadeva varnost podatkov in zasebnost, so modeli, ki jih razvijamo, ločeni za vsako stranko in so prilagojeni samo podatki te stranke. Na ta način se lahko modeli naučijo podrobnosti o tem, kako določena stranka opravlja svoje delo, brez strahu pred uhajanjem.

Zaključek

Poleg izjemnih kvalitativnih izboljšav, ki so jih LLM-ji uživali v zadnjih mesecih, so bile izboljšave dostopnosti enako osupljive. Vstopili smo v dobo, ko strokovno znanje in izkušnje umetne inteligence niso več vstopna ovira za interakcijo z LLM. Kljub temu je razlika med interakcijo z LLM in ustvarjanjem kakovostnega izdelka z LLM tako očitna kot razlika med tem, da imate ponev in zagotavljanjem 5-zvezdične izkušnje obedovanja v velikem obsegu: slednje je mogoče le z ekipo predanih strokovnjaki, ki izvajajo načelno zasnovo, osredotočeno na uporabniško izkušnjo.

Pri Finetune priporočamo tri preprosta načela, a menimo, da so potrebna, ki bi se jih morali držati kateri koli izdelki, ne le Generate ali Catalog, če želijo učinkovito izkoristiti moč LLM. Z načrtovanjem za potek dela, namesto za AI , se zagotovi, da je kakovost uporabniške izkušnje prednostna pred tržnostjo katerega koli LLM-ja, ki ima na ta določen dan hype. Z osredotočanjem človeka v zanko priznavamo, da je ne glede na moč posameznega LLM vedno potrebno strokovno znanje MSP za izkoriščanje LLM v velikem obsegu. Z gradnjo zanesljivosti s preglednostjo izkazujemo spoštovanje do stranke s poudarjanjem preglednosti tako pri odločanju LLM kot pri varnosti podatkov. Pod vsakim od teh načel je osrednja tema: da je LLM – kot vsak model AI – orodje. Pri Finetune smo ponosni ne le na naše strokovno znanje in izkušnje na področju umetne inteligence in meritev, temveč tudi na naše skoraj triletne izkušnje pri uporabi teh zmogljivih orodij umetne inteligence, da bi zagotovili visokokakovostno uporabniško izkušnjo: takšno, ki je zasnovana tako, da izboljša , namesto da nadomesti, strokovnost naših strank.