Gan Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta, a Safat Siddiqui
Rhagymadrodd
Yn ystod y misoedd diwethaf, rydym wedi gweld ffrwydrad o ddiddordeb mewn modelau iaith mawr (LLMs) fel GPT-4 ac yn y modd y mae Finetune yn harneisio’r dechnoleg. Mae pawb yn wyliadwrus: timau sefydledig sy'n ceisio profi technoleg sy'n dod i'r amlwg, cwmnïau newydd cynyddol sy'n edrych i droi ymchwil yn gynhyrchion trawsnewidiol, a gweithredwyr hedfan-y-nos yn ceisio gwneud arian cyflym yn y rhuthr aur hwn. Fodd bynnag, gyda’r ffrwydrad o ddiddordeb hwn, rydym hefyd yn gweld ffrwydrad o ddryswch. Mae pobl yn gofyn: “Sut mae llywio’r tir newydd hwn?”, “Beth ddylwn i fod yn edrych amdano?”, “Sut alla i gael gwir werth o’r newid patrwm technolegol hwn?”
Ar ôl gweithio gyda LLMs ymhell cyn yr hype, hoffem gynnig rhywfaint o eglurder. Rydym wedi gweld pa mor bwerus y gall offer sy'n integreiddio'r dechnoleg hon fod. Trwy rag-hyfforddiant ar filiynau o dudalennau o destun i ddysgu cysylltiadau cysyniadol cymhleth, ynghyd â chanllawiau ychwanegol, mwy gronynnog (trwy ddulliau fel “cywiro”, “dysgu atgyfnerthu ar adborth dynol”, a “pheirianneg prydlon”), gall modelau trawsnewidyddion cael eu gwneud yn ddefnyddiol ar gyfer pob math o dasgau. Ond yr hyn sy'n aml yn syndod i newydd-ddyfodiaid yn y gofod yw nad yw'n hawdd gwneud LLMs yn ddefnyddiol ar gyfer gwneud gwaith go iawn, yn enwedig mewn meysydd lle mae ansawdd yn cyfrif .
Agwedd egwyddorol
Yn Finetune, ers sawl blwyddyn rydym wedi trosoledd LLMs i ychwanegu at gynhyrchu cynnwys a llifoedd gwaith tagio ein partneriaid. Trwy'r partneriaethau hynny, a thrwy'r gwersi caled sy'n dod gyda phrofiad yn y byd go iawn, rydym wedi canfod bod y dechnoleg yn cael yr effaith fwyaf o'i chyfuno â fframwaith egwyddorol. Ei wneud yn iawn , yn hytrach na'i wneud yn gyflym yn unig yw'r hyn sy'n bwysig.
Beth am wneud hyn yn ffordd hawdd? Wel, dywedwch eich bod chi'n gofyn i GPT-4 gyfansoddi soned newydd “Shakespearean”, neu ysgrifennu cwestiwn prawf ar bwnc penodol. Ar yr olwg gyntaf, bydd yr allbwn yn aml yn ymddangos yn dderbyniol. Ond cofiwch: mae'r modelau hyn yn ymddwyn fel dynwaredwyr medrus. Edrychwch heibio wyneb y soned honno ac fe welwch graidd gwag: mae'r rhan fwyaf o gredoau, deallusrwydd ac agwedd sylfaenol Shakespeare yn cael eu gadael allan yn llwyr. Yn yr un modd, archwiliwch y cwestiwn prawf hwnnw a byddwch yn gweld materion mawr: dim sylw'n cael ei roi i unrhyw luniad sylfaenol , neu i sut y gellid samplu'r parth yn y ffordd orau bosibl i gefnogi casgliadau hyfedredd , neu i unrhyw ddiben gyrru'r prawf. Yn gryno, nid oes ganddo ddilysrwydd seicometrig!
Er mwyn ymgorffori dilysrwydd a phopeth arall y mae gweithwyr proffesiynol yn ein diwydiant ei eisiau, mae angen mynd y tu hwnt i'r model iaith amrwd trwy synthesis rhwng mesur a dysgu gwyddoniaeth, seicometrig, ac AI .
Dyma rai egwyddorion craidd o sut olwg sydd ar y synthesis hwnnw:
- Dyluniad ar gyfer y llif gwaith, nid ar gyfer yr AI
- Canolbwyntiwch y dynol yn y ddolen
- Adeiladu dibynadwyedd trwy dryloywder
Dyluniad ar gyfer y llif gwaith, nid ar gyfer yr AI
Nid yw integreiddio LLM mewn rhaglen yn ddigon yn unig: rhaid canolbwyntio ar roi'r offer deallusrwydd artiffisial i'r defnyddiwr sy'n cefnogi eu gwaith orau. Byddwch yn wyliadwrus o ddarparwyr sy'n brolio integreiddio ag un model penodol, a chwiliwch am rai sy'n cadw i fyny â chynnydd AI, yn enwedig trwy fod yn LLM-agnostig . Wedi'r cyfan, mae modelau penodol yn mynd a dod: cafodd GPT-3 ei ddiwrnod yn yr haul ac yna roedd yn hen het. Heddiw mae yna gyfoeth o opsiynau, yn adnabyddus fel GPT-4 a Claude, ac yn llai adnabyddus fel GPT-NeoX , FLAN , a modelau wedi'u mireinio.
Yr awydd hwn i ganolbwyntio ar y llif gwaith yw pam yn Finetune, rydym wedi bod yn dylunio modelau AI i gyd-fynd â'r gwaith y mae angen iddynt ei gefnogi. Cyn gynted ag y byddwn yn dechrau gweithio gyda chwsmer, mae ein tîm Mesur yn casglu arteffactau allweddol i ddisgrifio, trefnu a blaenoriaethu'r lluniadau allweddol ar gyfer eu hasesiadau a'r patrymau dylunio sydd eu hangen i'w mesur. Mae hyn yn arwain at set strwythuredig o fanylebau prawf ac eitem, gan alluogi ein gwyddonwyr AI i ymgorffori hyn yn y broses datblygu model. Cyn eu rhyddhau, mae'r timau Mesur ac AI yn mynd trwy sawl fersiwn o sicrwydd ansawdd i gadarnhau bod allbynnau'r model yn profi'r lluniadau cywir ar y lefelau priodol o gymhlethdod gwybyddol , a bod yr eitemau'n cadw at ganllawiau ysgrifennu prawf ac arferion gorau wrth asesu .
Canolbwyntiwch y dynol yn y ddolen
Er bod llawer yn talu gwefusau gwasanaeth i werth mewnbwn defnyddwyr, ychydig mewn gwirionedd yn byw hynny allan. Dylai arbenigwyr pwnc (BBaCh) fod yn bartneriaid cyfartal wrth ddatblygu modelau, ochr yn ochr â gwyddonwyr data a rhanddeiliaid eraill. Hefyd, ni ddylai dilysu ddod i ben wrth ddefnyddio. Mae LLMs fel GPT-4 yn rhoi'r gorau i ddysgu ar ôl eu hyfforddiant cychwynnol, felly mae angen i ddatblygwyr rhaglenni ddatblygu ffyrdd o roi rheolaeth i'r defnyddiwr a chadw i fyny ag anghenion eu defnyddwyr. Hyd yn oed allan yn y maes, dylai modelau AI fod yn cael gwelliannau parhaus, i sicrhau bod y defnyddiwr bob amser yn sedd y gyrrwr.
Er enghraifft, mae adborth gan fusnesau bach a chanolig yn ein helpu i benderfynu pa luniadau y dylid eu mesur yn ôl cynnwys a gynhyrchir gan AI, pa rannau o'r cynnwys y mae angen cymorth arnynt fwyaf, beth yw ansawdd uchel, a sut mae'r model yn gwella dros amser. Rydym yn cyfarfod yn rheolaidd â chwsmeriaid trwy gydol y broses o adeiladu modelau i drafod cynnydd a meysydd i'w gwella ac i ofyn am adborth BBaChau. Hefyd, gyda nodwedd rydyn ni'n ei galw'n Learn , mae busnesau bach a chanolig yn gallu tynnu sylw at yr eitemau gorau a gynhyrchir gan AI, gan eu bwydo'n ôl i'r olwyn hedfan hunan-wella AI. Yn hytrach na mynd yn hen, trwy adborth gan fusnesau bach a chanolig, gall eich modelau wella dros amser.
Adeiladu dibynadwyedd trwy dryloywder
Heb dryloywder, sut allwch chi ymddiried yn allbwn LLM? Mae'r modelau hyn yn aml yn afloyw ac yn dueddol o wneud datganiadau ffug hyderus. Dylai fod gan unrhyw offeryn a gefnogir gan LLM alluoedd mewnol i olrhain allbynnau'r model yn ôl i ffynhonnell y gellir ymddiried ynddi. Ar ben hynny, mae'r angen am ymddiriedaeth yn mynd y tu hwnt i ymddiriedaeth yn y system AI, gan gwmpasu ymddiriedaeth mewn diogelwch data a phreifatrwydd.
Mae'r ymddiriedolaeth hon wedi bod yn eithaf pwysig i ni. Ar gyfer Generate, fe wnaeth ein cymell i adeiladu nodweddion fel chwilio cyfeiriol gyda chymorth AI a'r gallu i gynhyrchu'n uniongyrchol o ddeunyddiau cyfeirio. Yn yr un modd, ar ein cynnyrch tagio AI, Catalog, roedd yn rhaid i ni ddatblygu dulliau ar gyfer cael ein systemau AI i wneud penderfyniadau tagio yn systematig a chydag esboniadau, gan gynnwys dadansoddiad Rhesymeg a Sgôr Catalog. Yn union fel y dylai BBaCh dynol dibynadwy sy'n aseinio tag allu esbonio'r broses feddwl y tu ôl i'r penderfyniad, felly hefyd system AI y gellir ymddiried ynddi. O ran diogelwch data a phreifatrwydd, mae'r modelau a ddatblygwn yn cael eu hynysu fesul cwsmer a dim ond ar ddata'r cwsmer hwnnw y cânt eu tiwnio. Y ffordd honno, gall y modelau ddysgu sut mae cwsmer penodol yn gwneud ei waith, heb ofni gollyngiadau.
Casgliad
Ar wahân i'r gwelliannau ansoddol rhyfeddol y mae LLMs wedi'u mwynhau yn ystod y misoedd diwethaf, mae'r gwelliannau i hygyrchedd wedi bod yr un mor syfrdanol. Rydym wedi cychwyn ar oes lle nad yw arbenigedd deallusrwydd artiffisial bellach yn rhwystr i fynediad ar gyfer rhyngweithio â LLMs. Wedi dweud hynny, mae'r gwahaniaeth rhwng rhyngweithio ag LLM ac adeiladu cynnyrch o ansawdd gyda LLM mor amlwg â'r gwahaniaeth rhwng cael padell ffrio a darparu profiad bwyta 5-seren ar raddfa fawr: dim ond gyda thîm o bobl ymroddedig y mae'r olaf yn bosibl. arbenigwyr yn gweithredu cynllun egwyddorol sy'n canolbwyntio ar brofiad y defnyddiwr.
Yn Finetune, rydym yn argymell tair egwyddor syml—ond eto, rydym yn credu, yn angenrheidiol—y dylai unrhyw gynhyrchion—nid Cynhyrchu neu Gatalog yn unig—lynu wrthynt os ydynt am drosoli pŵer LLMs yn effeithiol. Trwy ddylunio ar gyfer y llif gwaith, yn lle'r AI , mae rhywun yn sicrhau bod ansawdd profiad y defnyddiwr yn cael ei flaenoriaethu uwchlaw marchnadwyedd pa un bynnag LLM sy'n digwydd bod â hype ar y diwrnod penodol hwnnw. Wrth ganoli'r dynol yn y ddolen , mae rhywun yn cydnabod, waeth beth yw pŵer yr LLM penodol, bod angen arbenigedd y BBaCh bob amser ar gyfer trosoledd LLMs ar raddfa. Trwy feithrin dibynadwyedd trwy dryloywder , mae rhywun yn dangos parch at y cwsmer trwy bwysleisio tryloywder wrth wneud penderfyniadau LLM a diogelwch data. O dan bob un o'r egwyddorion hyn mae thema ganolog: bod LLM - fel unrhyw fodel AI - yn offeryn. Yn Finetune, rydym yn falch nid yn unig o'n harbenigedd mewn AI a Mesur, ond hefyd o'n bron i dair blynedd o brofiad o drosoli'r offer AI pwerus hyn er mwyn darparu profiad defnyddiwr o ansawdd uchel: un wedi'i gynllunio i ymhelaethu , yn hytrach na disodli, arbenigedd ein cwsmeriaid.