Autori Charles Foster i Jesse Hamer
Uvod
Od 2021. u Finetuneu vidimo potencijal velikih jezičnih modela (LLM) za transformaciju načina rada stručnjaka u obrazovanju i ocjenjivanju. Dramatičan tempo napretka u ovom prostoru značio je da koncepti mogu prijeći iz istraživačke igračke jednog tjedna u viralni proizvod sljedećeg.
Tada nije bilo iznenađenje vidjeti koliko je uzbuđen bio odgovor na ChatGPT: u jednoj demonstraciji svi su shvatili da stojimo na pragu nečeg velikog. S obzirom na sadašnje uzbuđenje i neizvjesnost, netko bi se mogao zapitati: kako se Finetune Generate uklapa u ovaj krajolik? Kad bih samo mogao zamoliti generičkog chatbota da piše umjesto mene, zašto bi mi bilo što drugo?
Volimo razmišljati o modelima velikih jezika kao o temeljnim modelima : AI sustavi čija im opsežna i raznolika obuka omogućuje da djeluju kao temelj za širok raspon slučajeva upotrebe. Nekoliko organizacija, uključujući Anthropic, EleutherAI i OpenAI (programer ChatGPT-a) obučava ove divovske modele i stavlja ih na raspolaganje drugima za korištenje. Ali sami modeli samo su osnovni sloj: oni imaju puno veći potencijal kada su utkani u veći sustav, skrojeni za određenu primjenu. Baš kao i kod drugih tehnologija opće namjene kao što je Web, možda će biti potrebna cijela generacija istraživača i poduzetnika koji će izgraditi sustave na njoj kako bi ostvarila svoj potencijal. U intervjuu s Ezrom Kleinom, izvršni direktor OpenAI-ja Sam Altman izrazio je sličan osjećaj:
Ono u čemu mislim da nismo najbolji na svijetu, niti želimo skrenuti pozornost [od] svega su prekrasni proizvodi koji će biti izgrađeni na [modelima velikih jezika]. I tako razmišljamo o našoj ulozi da smislimo kako izgraditi najsposobnije AI sustave na svijetu i zatim ih učiniti dostupnima svima koji slijede naša pravila za izgradnju svih ovih sustava povrh njih.
Altman, 2023
Kombiniranjem LLM-a s tradicionalnijim tehnologijama kao što su baze znanja i sučelja s ljudskim pristupom, možemo stvoriti zrele tehnološke nizove ili generativne aplikacije koje nam omogućuju da oslobodimo mogućnosti LLM-a za stvaranje pametnih alata u svim vrstama područja primjene . Generate i ChatGPT dva su rana primjera toga.
Imajući ovaj okvir na umu, usporedimo ChatGPT i Finetune Generate kao generativne aplikacije, obje izgrađene na GPT-3, sa stajališta razvoja predmeta.
Ciljevi dizajna
I ChatGPT i Finetune Generate namijenjeni su pružanju intuitivnijeg sučelja za interakciju korisnika s generativnim modelima poput GPT-3. Osim toga, dvije aplikacije su prilično različite. OpenAI ima misiju izgraditi sigurne sustave umjetne inteligencije opće namjene za sve i izgradio je ChatGPT kako bi široj javnosti dao okus onoga što jezični modeli mogu učiniti s prirodnim jezikom i poslužio kao pješčanik za graditelje da testiraju nove ideje.
U Finetuneu, iako surađujemo sa širom istraživačkom zajednicom oko inovacija jezičnih modela (pogledajte našu suradnju s OpenAI-jem na poboljšanjima semantičkog pretraživanja), naš cilj s Generateom nije prvenstveno bio izgraditi nove sustave opće namjene, već izgraditi najbolje moguć alat za pisanje predmeta uz pomoć umjetne inteligencije. Zato je Generate napravljen posebno imajući na umu pisce stavki, oko njihovih najboljih praksi, jezika i radnih procesa. Sva naša ograničenja dizajna temeljila su se na suradnji s velikim brojem ranih korisnika. Svaki model Generate koji gradimo osmišljen je tako da odražava jedinstvenu strukturu svake procjene i daje korisniku specifične kontrole potrebne za njegov zadatak. Štoviše, cijeli timovi pisaca stavki mogu surađivati na razvoju stavki koristeći Generate, s ugrađenom funkcionalnošću koja omogućuje upravljanje dozvolama i strukturirani izvoz u formate kao što je QTI.
Specifičnost
Veliki jezični modeli prolaze kroz početnu fazu obuke koja se naziva predtrening , gdje u jednoj dugoj sesiji uče iz milijuna stranica s weba, knjiga i drugih izvora. Zbog toga koliko je skupo računanje učenja iz tih inputa, njihovo se znanje obično naknadno fiksira. Budući da je to tanki omotač dijaloga na vrhu GPT-3, ChatGPT na sličan način ima fiksnu bazu znanja koja se ne može mijenjati. Ako bi, recimo, tehničar želio pomoć u vezi s nekim vlasničkim sustavom, takav mu model vjerojatno ne bi bio od pomoći, jer model nema načina da nauči novu temu.
Finetuneovi partneri upravljaju rasponom od K-12 preko visokog obrazovanja do licenciranja i certifikacije, i obuhvaćaju širok raspon domena.
Kao takvo, za nas je ključno da modeli koje gradimo za njih moraju učiti iz njihovog jedinstvenog sadržaja—čak i ako je taj sadržaj visoko specijaliziran ili nov—i moraju se moći ažurirati novim materijalima čim postanu dostupni .
Kako bismo to učinili mogućim, naš tim za istraživanje i razvoj umjetne inteligencije poboljšao je vlastite metode za učinkovito uključivanje novih znanja u jezične modele i njihovo usmjeravanje prema specifičnim smjernicama procjene. Štoviše, Generate dinamički uči s vremenom kako bolje usmjeriti artikle prema specifičnom sadržaju i stilu zadataka svakog kupca. Tijekom ove godine planiramo uvesti još nekoliko značajki koje će nastaviti poboljšavati upravljivost i prilagodljivost naših modela, od ciljanja ključnih fraza do precizne kontrole nad kognitivnom složenošću i šire.
Sigurnost
Kao eksperimentalna demonstracija, ChatGPT je namijenjen za dobivanje povratnih informacija o tome kako ljudi stupaju u interakciju s jezičnim modelima, tako da OpenAI može poboljšati temeljnu tehnologiju koja podržava njegove API-je. Zbog toga, kada korisnici razgovaraju s ChatGPT-om, te se interakcije pohranjuju i mogu se naći u budućim skupovima podataka za obuku, kako bi se pomoglo u obuci sljedeće generacije modela. To znači da ako razvijete stavku procjene s ChatGPT-om, budući modeli mogu znati za nju ili su je zapamtili, potencijalno izlažući vaše stavke i stil stavke na načine koje niste namjeravali, riskirajući njihovu sigurnost.
Sigurnost je ključna briga u razvoju proizvoda.
Generate drži predmete sigurnima, ograđenima, pri čemu svaki kupac pristupa samo svojim modelima .
Čak i unutar jednog kupca, korisnicima se može ograničiti pristup samo određenim generiranim stavkama. Uz Generate, kupci su uvijek vlasnici bilo kojeg predmeta koji proizvedu, bez obzira na to jesu li samo isprobali početni model ili su usvojili alat u većem broju.
Povjerenje i podrška
Mnogo toga što otežava produktivno korištenje LLM-a je to što je u osnovi nasumičan : dvaput postavite isto pitanje i dat će vam dva različita odgovora. To je suprotno onome što obično očekujemo od naših alata: računamo na njihovu pouzdanost. To dovodi do jednog od najupornijih problema s ChatGPT-om i drugim LLM alatima, naime teško je vjerovati njihovim rezultatima kada ne znate zašto su ti rezultati odabrani. Je li se temeljio na činjenicama kojih se model prisjeća, ili na neistinama koje je model izmislio, ili čak plagijatu iz nekog nevidljivog izvora?
Standardi povjerenja u obrazovanju i ocjenjivanju su visoki, puno viši nego za povremene chatbotove. Kupci žele znati da su predmeti koje proizvode putem Generatea doista novi, da se temelje na njihovim vlastitim materijalima i da su valjani.
Naši timovi za mjerenje i istraživanje i razvoj umjetne inteligencije rade sa svakim kupcem kako bi stvorili modele prilagođene njihovim potrebama i uključili njihove povratne informacije u stalna poboljšanja modela .
Također provodimo ručne i automatizirane provjere kako bismo provjerili odgovaraju li prijedlozi koje Generate daje specifikacijama korisnika. Uskoro ćemo pokrenuti novu značajku koja će korisnicima omogućiti jednostavno unakrsno upućivanje generiranih stavki s referentnim materijalima, tako da se mogu odmah uvjeriti da su stavke koje proizvode utemeljene na činjenicama.
Zaključak
Ovo je uzbudljivo vrijeme u kojem će se izraditi stotine generativnih aplikacija, a sve traže različite potencijalne slučajeve upotrebe za LLM. Dok ih istražujete kao netko kome je jako stalo do kvalitete ocjenjivanja u obrazovanju, certificiranju i licenciranju, preporučujemo da uvijek imate na umu sljedeća pitanja:
- Kome je namijenjena ova aplikacija?
- Je li model koji ova aplikacija koristi posebno obučen za ono što moja organizacija treba, uključujući naše sigurnosne potrebe?
- Kako će se koristiti podaci koje dam?
- Želim li uložiti vrijeme i novac da neobrađeni model opće namjene učinim upotrebljivim (npr. odgovarajuće korisničko sučelje) i da ga naši stručnjaci za predmet (SME) povjere da se integrira u naš tijek rada i veliki ulog?
Još uvijek smo u ranim danima ove duboko impresivne tehnologije, ali već sada postaje očit opseg mogućnosti koje će generativne aplikacije omogućiti u više industrija. Isto tako i glasovi opreza koje su izrazili Gary Marcus s NYU-a i drugi.
U Finetuneu smo vrlo uzbuđeni što nastavljamo predstavljati više značajki u našoj trećoj godini koje će Generate učiniti još učinkovitijim, još pouzdanijim i još korisnijim u cijelom okruženju učenja i ocjenjivanja .