Veliki jezikovni modeli in razvoj ocenjevanja – Finetune Generate, ChatGPT in več

Avtorja Charles Foster in Jesse Hamer

Uvod

Od leta 2021 smo pri Finetune videli potencial velikih jezikovnih modelov (LLM) za preoblikovanje načina dela strokovnjakov v izobraževanju in ocenjevanju. Dramatičen tempo napredka v tem prostoru je pomenil, da lahko koncepti en teden preidejo iz raziskovalne igrače v virusni izdelek naslednji teden.

Potem ni bilo presenečenje, ko smo videli, kako navdušen je bil odziv na ChatGPT: v eni predstavitvi so vsi razumeli, da stojimo na pragu nečesa velikega. Glede na sedanje vznemirjenje in negotovost se lahko kdo vpraša: kako se Finetune Generate prilega tej pokrajini? Če bi lahko samo prosil splošnega klepetalnega robota, da piše namesto mene, zakaj bi potreboval kaj drugega?

O velikih jezikovnih modelih radi razmišljamo kot o temeljnih modelih : sistemi umetne inteligence, katerih obsežno in raznoliko usposabljanje jim omogoča, da delujejo kot temelj za širok nabor primerov uporabe. Nekaj organizacij, vključno z Anthropic, EleutherAI in OpenAI (razvijalec ChatGPT), usposablja te velikanske modele in jih daje na voljo drugim za uporabo. Toda modeli sami so le osnovna plast: imajo veliko večji potencial, če so vtkani v večji sistem, prilagojen za specifično uporabo. Tako kot pri drugih tehnologijah splošnega namena, kot je splet, bo morda potrebna cela generacija raziskovalcev in podjetnikov, ki bodo nad njo gradili sisteme, da bo uresničila svoj potencial. V intervjuju z Ezro Klein je generalni direktor OpenAI Sam Altman izrazil podobno mnenje:

Kar mislim, da nismo najboljši na svetu, niti nočemo zares preusmeriti naše pozornosti [od], so vsi čudoviti izdelki, ki bodo zgrajeni na vrhu [velikih jezikovnih modelov]. In tako razmišljamo o naši vlogi, da ugotovimo, kako zgraditi najzmogljivejše sisteme umetne inteligence na svetu in jih nato dati na voljo vsakomur, ki sledi našim pravilom za izgradnjo vseh teh sistemov na njih.

Altman, 2023

S kombiniranjem LLM-jev z bolj tradicionalnimi tehnologijami, kot so baze znanja in vmesniki človek-in-the-loop, lahko ustvarimo zrele tehnološke nize ali generativne aplikacije , ki nam omogočajo, da sprostimo zmogljivosti LLM-jev za ustvarjanje pametnih orodij na vseh področjih uporabe. . Generate in ChatGPT sta dva zgodnja primera teh.

S tem okvirom v mislih primerjajmo ChatGPT in Finetune Generate kot generativni aplikaciji, ki sta zgrajeni na GPT-3, s stališča razvoja elementov.

Cilji oblikovanja

Oba, ChatGPT in Finetune Generate, sta namenjena zagotavljanju bolj intuitivnega vmesnika za uporabnike za interakcijo z generativnimi modeli, kot je GPT-3. Poleg tega sta obe aplikaciji precej različni. OpenAI ima poslanstvo zgraditi varne sisteme umetne inteligence za splošne namene za vse in zgradil ChatGPT, da bi širši javnosti ponudil okus, kaj so jezikovni modeli sposobni narediti z naravnim jezikom, in služil kot peskovnik za graditelje, da preizkušajo nove ideje.

Čeprav pri Finetune sodelujemo s širšo raziskovalno skupnostjo glede inovacij jezikovnih modelov (oglejte si naše sodelovanje z OpenAI pri izboljšavah semantičnega iskanja), naš cilj z Generate ni bil predvsem izdelava novih sistemov za splošne namene, temveč izgradnja najboljših možno orodje za pisanje predmetov s pomočjo umetne inteligence. Zato je Generate izdelan posebej z mislijo na pisce postavk, glede na njihove najboljše prakse, jezik in potek dela. Vse naše omejitve oblikovanja so temeljile na sodelovanju s številnimi prvimi uporabniki. Vsak model Generate, ki ga zgradimo, je zasnovan tako, da odraža edinstveno strukturo vsake ocene in daje uporabniku posebne kontrole, potrebne za njegovo nalogo. Poleg tega lahko celotne ekipe piscev elementov sodelujejo pri razvoju elementov z uporabo Generate z vgrajeno funkcionalnostjo, ki omogoča upravljanje dovoljenj in strukturiran izvoz v formate, kot je QTI.

Specifičnost

Veliki jezikovni modeli gredo skozi začetno fazo usposabljanja, imenovano predusposabljanje , kjer se v eni dolgi seji učijo iz milijonov strani iz spleta, knjig in drugih virov. Zaradi tega, kako drag je izračun učenja na podlagi teh vložkov, se njihovo znanje nato običajno popravi. Ker je tanek ovoj dialoga na vrhu GPT-3, ima ChatGPT podobno fiksno bazo znanja, ki je ni mogoče spreminjati. Če bi recimo tehnik želel pomoč glede nekega lastniškega sistema, mu tak model verjetno ne bi bil v pomoč, ker se model ne more naučiti nove snovi.

Partnerji Finetune upravljajo vse od K-12 do visokošolskega izobraževanja do licenciranja in certificiranja ter obsegajo široko paleto področij.

Zato je za nas ključnega pomena, da se morajo modeli, ki jih gradimo zanje, učiti iz njihove edinstvene vsebine – tudi če je ta vsebina zelo specializirana ali nova – in jih je treba posodabljati z novimi materiali, ko so na voljo .

Da bi to omogočili, je naša skupina za raziskave in razvoj umetne inteligence izpopolnila lastne metode za učinkovito vključitev novega znanja v jezikovne modele in njihovo usmerjanje v posebne smernice ocenjevanja. Poleg tega se Generate sčasoma dinamično nauči bolje ciljati elemente na specifično vsebino in slog nalog vsake stranke. Skozi to leto načrtujemo uvedbo več dodatnih funkcij, ki bodo še naprej izboljševale nadzor in prilagodljivost naših modelov, od ciljanja na ključne fraze do natančnega nadzora nad kognitivno kompleksnostjo in več.

Varnost

Kot eksperimentalna predstavitev naj bi ChatGPT pridobil povratne informacije o tem, kako ljudje komunicirajo z jezikovnimi modeli, tako da lahko OpenAI izboljša temeljno tehnologijo, ki podpira njegove API-je. Zaradi tega se te interakcije, ko se uporabniki pogovarjajo s ChatGPT, shranijo in lahko pridejo v prihodnje nabore podatkov za usposabljanje za pomoč pri usposabljanju naslednje generacije modelov. To pomeni, da če s ChatGPT razvijete ocenjevalni element, bodo prihodnji modeli morda vedeli zanj ali so si ga zapomnili, kar lahko razkrije vaše predmete in slog elementa na načine, ki jih niste nameravali, s čimer tvegate njihovo varnost.

Varnost je ključna skrb pri razvoju elementov.

Generate ohranja predmete varne, zaprte, pri čemer ima vsaka stranka dostop samo do svojih modelov .

Tudi znotraj ene same stranke je uporabnikom mogoče omejiti dostop samo do določenih ustvarjenih elementov. Z Generate so kupci vedno lastniki vseh predmetov, ki jih proizvedejo, ne glede na to, ali samo preizkušajo začetni model ali so orodje sprejeli v večjem obsegu.

Zaupanje in podpora

Veliko tega, kar otežuje produktivno uporabo LLM, je, da je načeloma naključen : dvakrat ga postavite isto vprašanje in dalo vam bo dva različna odgovora. To je v nasprotju s tem, kar običajno pričakujemo od naših orodij: računamo, da so zanesljiva. To vodi do ene najbolj vztrajnih težav s ChatGPT in drugimi LLM orodji, in sicer, da je težko zaupati njihovim rezultatom, če ne veste , zakaj so bili ti rezultati izbrani. Ali je temeljilo na dejstvih, ki se jih model spominja, ali na neresnicah, ki si jih je model izmislil, ali celo plagiat iz nekega nevidnega vira?

Standardi za zaupanje v izobraževanju in ocenjevanju so visoki, veliko višji kot pri priložnostnih klepetalnih robotih. Stranke želijo vedeti, da so predmeti, ki jih proizvajajo prek Generate, resnično novi, temeljijo na njihovih materialih in so veljavni.

Naše ekipe za merjenje in raziskave in razvoj AI sodelujejo z vsako stranko, da ustvarijo modele, prilagojene njihovim potrebam, in vključijo njihove povratne informacije v stalne izboljšave modela .

Izvajamo tudi ročna in samodejna preverjanja, da preverimo, ali se predlogi Generate ujemajo s specifikacijami stranke. Kmalu bomo uvedli novo funkcijo, ki bo uporabnikom omogočila preprosto navzkrižno primerjavo ustvarjenih elementov z referenčnimi materiali, tako da bodo lahko imeli takojšnje zagotovilo, da so izdelki, ki jih proizvajajo, dejansko utemeljeni.

Zaključek

To je vznemirljiv čas, v katerem bo izdelanih na stotine generativnih aplikacij, ki bodo vse sledile različnim potencialnim primerom uporabe za LLM. Ko jih raziskujete kot nekdo, ki mu je zelo mar za kakovost ocenjevanja v izobraževanju, certificiranju in licenciranju, priporočamo, da vedno upoštevate naslednja vprašanja:

Komu je namenjena ta aplikacija?
Ali je model, ki ga uporablja ta aplikacija, usposobljen posebej za potrebe moje organizacije, vključno z našimi varnostnimi potrebami?
Kako bodo uporabljeni podatki, ki jih posredujem?
Ali želim vložiti čas in denar, da naredim neobdelan splošni model uporaben (npr. ustrezen uporabniški vmesnik) in zaupam našim strokovnjakom za zadeve (SME), da se vključi v naš potek dela in primer uporabe z velikimi vložki?

Še vedno smo v zgodnjih dneh te izjemno impresivne tehnologije, vendar že postaja očiten obseg zmogljivosti, ki jih bodo generativne aplikacije omogočile v več panogah. Enako velja za previdnost, ki so jo izrazili Gary Marcus z NYU in drugi.

Pri Finetune smo zelo veseli, da bomo v našem tretjem letu še naprej predstavljali več funkcij, zaradi katerih bo Generate še bolj zmogljiv, še bolj zanesljiv in še bolj koristen v celotnem okolju učenja in ocenjevanja .