Gan Charles Foster
Yn Finetune, rydym yn adeiladu atebion AI i fynd i'r afael â rhai o'r problemau mwyaf heriol mewn technoleg addysg, gan gynnwys cynhyrchu cynnwys awtomataidd a dosbarthu adnoddau dysgu wedi'u pweru gan AI ac argymhellion. Oherwydd bod yn rhaid i'n hoffer ymdrin â phynciau o K-12 trwy ddatblygu'r gweithlu, rydym yn buddsoddi'n helaeth mewn dulliau sy'n ein galluogi i ehangu ehangder a dyfnder yr hyn y mae ein modelau yn ei gwmpasu. Elfennau allweddol y dull hwn yw dulliau hyblyg o hyfforddi rhwydweithiau niwral arbenigol mewn meysydd lle mae modelau pwrpas cyffredinol yn annigonol. Yn y blogbost hwn, hoffwn rannu ychydig o'n taith yn archwilio'r dulliau hyn.
Coethder
Mae mireinio nodweddiadol modelau iaith niwral yn golygu optimeiddio eu holl baramedrau hyfforddadwy ar yr un pryd, a all redeg i biliynau lawer ar gyfer rhwydweithiau fel GPT-J. Ar raddfeydd fel y rhain, nid yw'r prosesau mireinio a chasglu yn ddibwys, sy'n ei gwneud yn anodd defnyddio'r rhain yn eang. Yn ein hymchwiliadau ein hunain, roedd rhai materion allweddol i’w gweld ar y mwyaf:
- Yn syml, mae rhedeg y modelau trawsnewidyddion hyn eisoes yn pwyso yn erbyn terfynau cof GPU (VRAM), ac yn ystod y mireinio mae perthynas uniongyrchol rhwng nifer y paramedrau sy'n cael eu hoptimeiddio a faint o gof ychwanegol a ddefnyddir.
- Trwy addasu'r holl baramedrau yn y rhwydwaith, gellir amharu ar y llif gwybodaeth a ddysgwyd yn ystod yr hyfforddiant ymlaen llaw, gan arwain at anghofio a cholli galluoedd ychydig o ergydion.
- Byddai gwasanaethu model aml-gigabeit wedi'i deilwra ar gyfer pob achos defnydd yn creu hwyrni annerbyniol a beichiau cost.
Roedd y pryderon cyfunol hyn yn ein hysgogi i archwilio dulliau eraill o’r llenyddiaeth ddiweddar i diwnio ein modelau iaith niwral. Yn ffodus, o fewn y flwyddyn ddiwethaf mae’r maes ymchwil prosesu iaith naturiol wedi datblygu llu o ddulliau i leihau’r gost o addasu ymddygiad modelau iaith sydd wedi’u hyfforddi ymlaen llaw.
Tiwnio Prydlon
Enw’r dull gwreiddiol a ddilynwyd gennym yw Tiwnio’n Brydlon neu Anogwr Meddal (Lester et al. 2021). Yn y dull hwn, mae paramedrau'r rhwydwaith o hyfforddiant ymlaen llaw yn cael eu rhewi. Yn lle hynny, rydyn ni'n rhagamcanu nifer fach o fectorau mewnosod dysgadwy (10 i 20 fel arfer) o flaen y tocynnau anogwr mewnbwn, ac yn tiwnio'r mewnosodiadau hyn gyda'r amcan modelu iaith arferol ar set ddata mireinio. Nid yw'r mewnosodiadau hyn yn cynrychioli arwyddion iaith; gallwn feddwl amdanynt yn lle hynny fel storfa ddwys o gyd-destun y gall y rhwydwaith gyflyru arno—drwy'r mecanwaith sylw —gan ei fod yn gwneud rhagfynegiadau am y tocynnau yn y dilyniant.
Mae tiwnio prydlon yn ychwanegu cost amser rhedeg bach yn unig i'r model, gan fod yr ysgogiadau meddal yn yr ystod kilobyte a gellir eu rhedeg trwy'r rhwydwaith ochr yn ochr. Mae'r nodweddion hyn yn eu gwneud yn ddeniadol ar gyfer gwasanaethu llawer o ddefnyddwyr cydamserol, fel y mae defnydd diweddar o'r dechneg mewn adrodd straeon AI wedi nodi. Fodd bynnag, mae integreiddio ysgogiadau meddal i fframweithiau poblogaidd fel trawsnewidyddion HuggingFace yn gymhleth, gan fod y rhyngwynebau wedi'u cynllunio'n bennaf i weithredu ar ddilyniannau o fynegeion tocyn yn hytrach na fectorau trwchus. Yn ogystal, wrth i fwy o gyd-destun gael ei ychwanegu rhwng yr ysgogiad meddal a'r genhedlaeth, rydym yn dechrau gweld anghydbwysedd rhwng cryfder cyflyru ar yr anogwr meddal ac ar y cyd-destun tocyn. Roedd cadw'r gallu i ychwanegu cannoedd o docynnau cyd-destun yn hyblyg ar amser rhedeg yn bwysig i ni, gan ei fod yn darparu ysgogiadau manwl ychwanegol i'w rheoli yn y broses awduro eitemau. Os ydym am arwain y model i ganolbwyntio ar gynnwys o dudalen benodol mewn gwerslyfr, neu i ysgrifennu eitem darllen a deall, neu i ddarparu enghreifftiau prin, mae cyd-destun ffurf hir yn bwysig.
Addasyddion Safle Isel (LoRA)
Yn ddiweddarach fe wnaethom drosglwyddo i ddull o'r enw LoRA neu Low Rank Adapters (Hu et al. 2021). Datblygwyd y dechneg hon gan ymchwilwyr yn Microsoft sy'n gweithio ar fodelau maint GPT-3, ac mae'n adeiladu ar ddulliau addasydd cynharach. Os ydym yn meddwl am drawsnewidydd fel un sy'n mireinio ei gyflyrau cudd tocyn yn raddol gyda phob haen weddilliol, y cysyniad o addasydd yw ychwanegu delta bach sy'n dibynnu ar fewnbwn (wedi'i gychwyn i no-op) at y cuddiau hynny ar haen benodol. Mae'r hwb ysgafn hwn wedyn yn gallu modiwleiddio ei ymddygiad i lawr yr afon trwy, dyweder, bwysleisio'r rhannau o'r mewnbwn sy'n berthnasol i'r dasg.
Mae addaswyr rheng isel yn fath o addasydd sy'n targedu is-ofod safle isel, sy'n lleihau nifer y paramedrau newydd y mae angen i ni eu hyfforddi (o D 2 i 2 × D × r, lle mae D yn y miloedd). Yn yr un modd ag anogaeth feddal, rydym yn cadw paramedrau gwreiddiol y rhwydwaith wedi'u rhewi i gadw pa bynnag wybodaeth sydd ynddynt o'r hyfforddiant ymlaen llaw, a dim ond y paramedrau addasydd newydd hyn sy'n cael eu haddasu. Yn ein profion mewnol, rydym wedi gweld dangosyddion da gan LoRA. Y tu hwnt i'n galluogi i diwnio modelau mawr ar gyllidebau caledwedd bach, mae modelau gyda haenau addasydd rhyngddynt hefyd yn cadw llawer o'u gallu ychydig o ergydion gwreiddiol tra'n dal i addasu i'r parth targed. Yn nodedig, mae integreiddio addaswyr rheng isel i fframweithiau eraill yn syml, oherwydd gallwn gyfnewid yr haenau llinellol presennol â haenau llinol + addasydd yn ôl yr angen.
Symud Ymlaen
I roi blas ar y math o welliannau yr ydym wedi'u gweld yn ein harchwiliadau, isod rydym yn rhannu detholiad bach o genedlaethau o fodelau sydd wedi'u hyfforddi gyda gwahanol ddulliau tiwnio. Cynhyrchwyd yr holl eitemau hyn gan ddefnyddio'r un tri awgrym mewnbwn yn ymwneud â darparu gofal nyrsio: roedd y cyntaf yn canolbwyntio ar flaenoriaethu anghenion cleientiaid lluosog a'r ail yn canolbwyntio ar weithredu mewn tîm.
Item #1: A nurse is assessing a client who is scheduled for outpatient surgery. Which of the following patients would the nurse evaluate next? (A) A patient with type 1 diabetes (B) A patient with acute pancreatitis (C) A patient who requires intravenous antibiotic therapy (D) A patient with Crohn's disease Item #2: A client is admitted to the hospital with the diagnosis of congestive heart failure. The client's mother is refusing treatment. Which of the following actions should the nurse take? (A) Notify the provider of the situation. (B) Check the patient's medication list. (C) Check the client's medical chart. (D) Notify the client's doctor of the client's condition.
Item #3: A nurse is evaluating a patient on the pediatric unit. The client is scheduled for a diagnostic workup, including a chest radiograph. Which of the following patients should the nurse be planning to evaluate next? (A) A child who has pneumonia and is experiencing fever (B) A child who has a rash and is not responding to a medication (C) A child who has a fever and has a temperature >100.4 (D) A child who has a fever and a rash Item #4: A client with renal failure is in the hospital and is scheduled to undergo a renal transplant. The client has a strong belief that the transplant surgeon is incompetent. The client refuses to allow a doctor from another hospital to perform the transplant. Which of the following actions should the charge nurse take? (A) Take a statement from the client that the transplant surgeon is competent and give it to the transplant surgeon. (B) Ask the client for a signed statement to back up her assertion. (C) Contact the transplant surgeon and find out why the client refuses to allow the surgeon from another hospital to perform the transplant. (D) Inform the transplant surgeon that the client is refusing the transplant.
Item #5: A nurse is planning to assign clients to various bedside stations. Which of the following clients should the nurse assign to the bedside station closest to the nurses' station? (A) A client who has a suspected diagnosis of a pulmonary embolism and requires a computed tomography (CT) scan (B) A client who needs assistance with a bowel movement (C) A client who has an emergency indication for a chest X-ray (D) A client who requires a chest X-ray because she has a cough Item #6: An LPN is caring for a client with an indwelling urinary catheter and is asking the nurse to help her clean the catheter. Which of the following actions should the nurse take? (A) Explain to the client that she will need to provide the cleaning solution and will need to obtain the client's consent for the procedure. (B) Ask the LPN for assistance. (C) Offer to help the client clean the catheter. (D) Assure the LPN that the nurse will assist her.
Gallwn sylwi, er bod yr eitemau gorau o'r model gwaelodlin yn rhugl i raddau helaeth ac yn rhesymegol gydlynol, maent yn tueddu i fod heb eu cyfyngu'n ddigonol (fel yn #1) neu'n galw am ychydig iawn o wybodaeth am y maes nyrsio (fel yn #3). O'u cymharu â'r eitemau gwaelodlin, mae eitemau o'r modelau tiwnio prydlon ac addaswyr rheng isel yn cynnwys mwy o fanylion yn eu hysgogiadau, eu coesau a'u hopsiynau. Mae’r pwnc dan sylw yn berthnasol i’r maes, gan alw am wybodaeth benodol ym maes rheoli gofal nyrsio yn hytrach na dibynnu ar wybodaeth gefndirol yn unig. Ar ben hynny, mae gan yr eitemau o'r model addasydd rheng isel ffurf fwy cyson. Er enghraifft, mae'r eitemau'n cyfeirio'n gyson at y “cleient” yn hytrach na'r “claf”, yn unol â'r iaith fyddai'n debygol o ymddangos mewn asesiadau (cymharer #5 i #1 a #3). Mae hefyd yn olrhain cyfeiriadau at unigolion lluosog yn llwyddiannus o fewn senario (cymharer #6 i #4).
Gall gwelliannau i gwmpas y parth, cysondeb arddull, a chydlyniad rhesymegol droi'n welliannau sylweddol o ran defnyddioldeb modelau iaith niwral. Dim ond y dechrau yw hyn: wrth i'r dechnoleg aeddfedu, bydd hyd yn oed mwy o ddulliau'n cael eu darganfod i greu modelau iaith naturiol rheoladwy, wedi'u haddasu ar raddfa fawr. Ac wrth i'r dulliau hynny gael eu darganfod, byddwn yn parhau i ymgorffori'r gorau o'r byd academaidd, diwydiant, ac ymchwil annibynnol i gynhyrchion Finetune.
Diolch yn ddiffuant i Nick Koprowicz, Jesse Hamer, Saad Khan, ac Ogden Morse am ddarparu adborth caredig, defnyddiol wrth ddatblygu'r blogbost hwn.
Cyfeiriadau
Hu, EJ, Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Addasiad gradd isel o fodelau iaith mawr. arXiv rhagargraffiad arXiv:2106.09685.
Lester, B., Al-Rfou, R., & Constant, N. (2021). Pŵer graddfa ar gyfer tiwnio prydlon sy'n effeithlon o ran paramedr. arXiv rhagargraffiad arXiv:2104.08691.