ചാൾസ് ഫോസ്റ്റർ എഴുതിയത്

Finetune-ൽ, സ്വയമേവയുള്ള ഉള്ളടക്ക നിർമ്മാണവും AI- പവർഡ് ലേണിംഗ് റിസോഴ്‌സ് വർഗ്ഗീകരണവും ശുപാർശകളും ഉൾപ്പെടെ വിദ്യാഭ്യാസ സാങ്കേതികവിദ്യയിലെ ഏറ്റവും വെല്ലുവിളി നിറഞ്ഞ ചില പ്രശ്‌നങ്ങൾ പരിഹരിക്കുന്നതിന് ഞങ്ങൾ AI പരിഹാരങ്ങൾ നിർമ്മിക്കുന്നു. ഞങ്ങളുടെ ടൂളുകൾ കെ-12 മുതൽ തൊഴിൽ ശക്തി വികസനം വഴി സ്പാനുകൾ കൈകാര്യം ചെയ്യേണ്ട വിഷയമായതിനാൽ, ഞങ്ങളുടെ മോഡലുകൾ കവർ ചെയ്യുന്നതിൻ്റെ വീതിയും ആഴവും അളക്കാൻ അനുവദിക്കുന്ന രീതികളിൽ ഞങ്ങൾ വളരെയധികം നിക്ഷേപിക്കുന്നു. പൊതുവായ ഉദ്ദേശ്യ മാതൃകകൾ അപര്യാപ്തമായ ഡൊമെയ്‌നുകളിൽ പ്രത്യേക ന്യൂറൽ നെറ്റ്‌വർക്കുകളെ പരിശീലിപ്പിക്കുന്നതിനുള്ള വഴക്കമുള്ള രീതികളാണ് ഈ സമീപനത്തിൻ്റെ പ്രധാന ഘടകങ്ങൾ. ഈ ബ്ലോഗ് പോസ്റ്റിൽ, ഈ രീതികൾ പര്യവേക്ഷണം ചെയ്യുന്ന ഞങ്ങളുടെ യാത്രയുടെ ഒരു ഭാഗം പങ്കിടാൻ ഞാൻ ആഗ്രഹിക്കുന്നു.

ശരിയാക്കുക

ന്യൂറൽ ലാംഗ്വേജ് മോഡലുകളുടെ സാധാരണ ഫൈൻ-ട്യൂണിംഗിൽ അവയുടെ പരിശീലിപ്പിക്കാവുന്ന എല്ലാ പാരാമീറ്ററുകളും ഒരേസമയം ഒപ്റ്റിമൈസ് ചെയ്യുന്നത് ഉൾപ്പെടുന്നു, ഇത് GPT-J പോലുള്ള നെറ്റ്‌വർക്കുകൾക്കായി കോടിക്കണക്കിന് പ്രവർത്തിക്കും. ഇതുപോലുള്ള സ്കെയിലുകളിൽ, സൂക്ഷ്മമായ ട്യൂണിംഗും അനുമാന പ്രക്രിയകളും നിസ്സാരമല്ലാത്തതിനാൽ ഇവയുടെ വ്യാപകമായ വിന്യാസം ബുദ്ധിമുട്ടാക്കുന്നു. ഞങ്ങളുടെ സ്വന്തം അന്വേഷണത്തിൽ, ചില പ്രധാന പ്രശ്നങ്ങൾ ഏറ്റവും വലുതായി തോന്നി:

  • ട്രാൻസ്ഫോർമർ മോഡലുകൾ പ്രവർത്തിപ്പിക്കുന്നത് ഇതിനകം തന്നെ GPU മെമ്മറിയുടെ (VRAM) പരിധിക്ക് എതിരായി അമർത്തുന്നു, കൂടാതെ മികച്ച ട്യൂണിംഗ് സമയത്ത് ഒപ്റ്റിമൈസ് ചെയ്യുന്ന പാരാമീറ്ററുകളുടെ എണ്ണവും അധിക മെമ്മറിയുടെ അളവും തമ്മിൽ നേരിട്ട് ബന്ധമുണ്ട്.
  • നെറ്റ്‌വർക്കിലെ എല്ലാ പാരാമീറ്ററുകളും പരിഷ്‌ക്കരിക്കുന്നതിലൂടെ, പ്രീ-ട്രെയിനിംഗ് സമയത്ത് പഠിച്ച വിവരങ്ങളുടെ ഒഴുക്ക് തടസ്സപ്പെട്ടേക്കാം, ഇത് കുറച്ച് ഷോട്ട് കഴിവുകൾ മറക്കുന്നതിനും നഷ്ടപ്പെടുന്നതിനും ഇടയാക്കും.
  • ഓരോ ഉപയോഗ കേസിനും ഇഷ്‌ടാനുസൃതമാക്കിയ മൾട്ടി-ജിഗാബൈറ്റ് മോഡൽ നൽകുന്നത് അസ്വീകാര്യമായ കാലതാമസവും ചെലവ് ഭാരവും സൃഷ്ടിക്കും.

ഈ സംയോജിത ആശങ്കകൾ ഞങ്ങളുടെ ന്യൂറൽ ഭാഷാ മാതൃകകൾ ട്യൂൺ ചെയ്യുന്നതിന് സമീപകാല സാഹിത്യത്തിൽ നിന്ന് മറ്റ് രീതികൾ പര്യവേക്ഷണം ചെയ്യാൻ ഞങ്ങളെ പ്രേരിപ്പിച്ചു. ഭാഗ്യവശാൽ, കഴിഞ്ഞ ഒരു വർഷത്തിനുള്ളിൽ നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് ഗവേഷണ മേഖല, പ്രീ-ട്രെയിൻഡ് ലാംഗ്വേജ് മോഡലുകളുടെ സ്വഭാവം ഇഷ്‌ടാനുസൃതമാക്കുന്നതിനുള്ള ചെലവ് കുറയ്ക്കുന്നതിനുള്ള ഒരു കൂട്ടം രീതികൾ വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്.

പ്രോംപ്റ്റ് ട്യൂണിംഗ്

ഞങ്ങൾ പിന്തുടരുന്ന യഥാർത്ഥ സമീപനത്തെ പ്രോംപ്റ്റ് ട്യൂണിംഗ് അല്ലെങ്കിൽ സോഫ്റ്റ് പ്രോംപ്റ്റിംഗ് (Lester et al. 2021) എന്ന് വിളിക്കുന്നു. ഈ രീതിയിൽ, പ്രീ-ട്രെയിനിംഗിൽ നിന്നുള്ള നെറ്റ്‌വർക്കിൻ്റെ പാരാമീറ്ററുകൾ ഫ്രീസുചെയ്‌തിരിക്കുന്നു. പകരം, ഇൻപുട്ട് പ്രോംപ്റ്റ് ടോക്കണുകൾക്ക് മുന്നിൽ ഞങ്ങൾ കുറച്ച് പഠിക്കാനാകുന്ന എംബഡിംഗ് വെക്‌ടറുകൾ (സാധാരണയായി 10 മുതൽ 20 വരെ) മുൻകൂട്ടി തയ്യാറാക്കി, മികച്ച ട്യൂണിംഗ് ഡാറ്റാസെറ്റിൽ സാധാരണ ഭാഷാ മോഡലിംഗ് ലക്ഷ്യത്തോടെ ഈ എംബെഡിംഗുകൾ ട്യൂൺ ചെയ്യുന്നു. ഈ ഉൾച്ചേർക്കലുകൾ ഭാഷയുടെ ടോക്കണുകളെ പ്രതിനിധീകരിക്കുന്നില്ല; ശ്രദ്ധാ സംവിധാനം വഴി നെറ്റ്‌വർക്കിന് വ്യവസ്ഥ ചെയ്യാൻ കഴിയുന്ന സന്ദർഭത്തിൻ്റെ സാന്ദ്രമായ ഒരു ശേഖരമായി നമുക്ക് അവയെ കണക്കാക്കാം.


സോഫ്റ്റ് പ്രോംപ്റ്റുകൾ കിലോബൈറ്റ് പരിധിയിലായതിനാൽ സമാന്തരമായി നെറ്റ്‌വർക്കിലൂടെ പ്രവർത്തിപ്പിക്കാൻ കഴിയുന്നതിനാൽ പ്രോംപ്റ്റ് ട്യൂണിംഗ് മോഡലിന് ഒരു ചെറിയ റൺടൈം ചെലവ് മാത്രമേ ചേർക്കൂ. AI സ്റ്റോറിടെല്ലിംഗിലെ സാങ്കേതികതയുടെ സമീപകാല വിന്യാസങ്ങൾ സൂചിപ്പിക്കുന്നത് പോലെ, ഈ സവിശേഷതകൾ നിരവധി ഒരേസമയം ഉപയോക്താക്കൾക്ക് സേവനം നൽകുന്നതിന് അവരെ ആകർഷകമാക്കുന്നു. എന്നിരുന്നാലും, ഹഗ്ഗിംഗ്‌ഫേസിൻ്റെ ട്രാൻസ്‌ഫോർമറുകൾ പോലുള്ള ജനപ്രിയ ചട്ടക്കൂടുകളിലേക്ക് സോഫ്റ്റ് പ്രോംപ്റ്റുകൾ സംയോജിപ്പിക്കുന്നത് സങ്കീർണ്ണമാണ്, കാരണം ഇൻ്റർഫേസുകൾ ഡെൻസ് വെക്‌ടറുകളേക്കാൾ ടോക്കൺ സൂചികകളുടെ ശ്രേണിയിൽ പ്രവർത്തിക്കാൻ രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നു. കൂടാതെ, സോഫ്റ്റ് പ്രോംപ്റ്റിനും ജനറേഷനും ഇടയിൽ കൂടുതൽ സന്ദർഭം ചേർക്കുമ്പോൾ, സോഫ്റ്റ് പ്രോംപ്റ്റിലെയും ടോക്കൺ സന്ദർഭത്തിലെയും കണ്ടീഷനിംഗിൻ്റെ ശക്തി തമ്മിലുള്ള അസന്തുലിതാവസ്ഥ ഞങ്ങൾ കാണാൻ തുടങ്ങുന്നു. റൺടൈമിൽ നൂറുകണക്കിന് ടോക്കണുകൾ അയവോടെ ചേർക്കാനുള്ള കഴിവ് നിലനിർത്തുന്നത് ഞങ്ങൾക്ക് പ്രധാനമാണ്, കാരണം ഇത് ഇനത്തിൻ്റെ രചനാ പ്രക്രിയയിൽ നിയന്ത്രണക്ഷമതയുടെ കൂടുതൽ സൂക്ഷ്മമായ ലിവറുകൾ നൽകുന്നു. ഒരു പാഠപുസ്തകത്തിലെ ഒരു പ്രത്യേക പേജിൽ നിന്നുള്ള ഉള്ളടക്കത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നതിനോ അല്ലെങ്കിൽ ഒരു വായനാ ഗ്രഹണ ഇനം രചിക്കുന്നതിനോ അല്ലെങ്കിൽ കുറച്ച് ഉദാഹരണങ്ങൾ നൽകുന്നതിനോ മോഡലിനെ നയിക്കാൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, ദൈർഘ്യമേറിയ സാന്ദർഭികവൽക്കരണം പ്രധാനമാണ്.

കുറഞ്ഞ റാങ്ക് അഡാപ്റ്ററുകൾ (ലോറ)

ഞങ്ങൾ പിന്നീട് LoRA അല്ലെങ്കിൽ ലോ റാങ്ക് അഡാപ്റ്ററുകൾ (Hu et al. 2021) എന്ന രീതിയിലേക്ക് മാറി. GPT-3 വലിപ്പത്തിലുള്ള മോഡലുകളിൽ പ്രവർത്തിക്കുന്ന മൈക്രോസോഫ്റ്റിലെ ഗവേഷകരാണ് ഈ സാങ്കേതികത വികസിപ്പിച്ചെടുത്തത്, മുമ്പത്തെ അഡാപ്റ്റർ സമീപനങ്ങളിൽ ഇത് നിർമ്മിക്കുന്നു. ഓരോ അവശിഷ്ട ലെയറിലും ഒരു ട്രാൻസ്ഫോർമർ അതിൻ്റെ ടോക്കൺ ലാറ്റൻ്റ് സ്റ്റേറ്റുകൾ ക്രമാനുഗതമായി പരിഷ്കരിക്കുന്നതായി ഞങ്ങൾ കരുതുന്നുവെങ്കിൽ, ഒരു നിശ്ചിത ലെയറിലുള്ള ആ ലേറ്റൻ്റുകളിലേക്ക് ഒരു ചെറിയ, ഇൻപുട്ട്-ആശ്രിത ഡെൽറ്റ (ഒരു നോ-ഓപ്പിലേക്ക് ആരംഭിച്ചത്) ചേർക്കുന്നതാണ് അഡാപ്റ്ററിൻ്റെ ആശയം. ഈ സൗമ്യമായ നഡ്ജിന്, ടാസ്‌ക്കിന് പ്രസക്തമായ ഇൻപുട്ടിൻ്റെ ഭാഗങ്ങൾ ഊന്നിപ്പറയുന്നതിലൂടെ, അതിൻ്റെ സ്വഭാവം താഴേയ്‌ക്ക് മോഡുലേറ്റ് ചെയ്യാൻ കഴിയും.


ലോ റാങ്ക് അഡാപ്റ്ററുകൾ താഴ്ന്ന റാങ്കിലുള്ള സബ്‌സ്‌പെയ്‌സിനെ ടാർഗെറ്റുചെയ്യുന്ന ഒരു തരം അഡാപ്റ്ററാണ്, ഇത് നമുക്ക് പരിശീലിപ്പിക്കേണ്ട പുതിയ പാരാമീറ്ററുകളുടെ എണ്ണം കുറയ്ക്കുന്നു (D 2 മുതൽ 2 × D × r വരെ, ഇവിടെ D ആയിരക്കണക്കിന് ആണ്). സോഫ്റ്റ് പ്രോംപ്റ്റിംഗ് പോലെ, പ്രീ-ട്രെയിനിംഗിൽ നിന്ന് അടങ്ങിയിരിക്കുന്ന ഏത് അറിവും സംരക്ഷിക്കുന്നതിനായി ഞങ്ങൾ നെറ്റ്‌വർക്കിൻ്റെ ഒറിജിനൽ പാരാമീറ്ററുകൾ ഫ്രീസുചെയ്‌തു, ഈ പുതിയ അഡാപ്റ്റർ പാരാമീറ്ററുകൾ മാത്രം ക്രമീകരിക്കുക. ഞങ്ങളുടെ ആന്തരിക പരിശോധനകളിൽ, ലോറയിൽ നിന്നുള്ള നല്ല സൂചകങ്ങൾ ഞങ്ങൾ കണ്ടു. ചെറിയ ഹാർഡ്‌വെയർ ബജറ്റുകളിൽ വലിയ മോഡലുകൾ ട്യൂൺ ചെയ്യാൻ ഞങ്ങളെ പ്രാപ്‌തമാക്കുന്നതിനുമപ്പുറം, അഡാപ്റ്റർ ലെയറുകളുള്ള മോഡലുകൾ ടാർഗെറ്റ് ഡൊമെയ്‌നുമായി പൊരുത്തപ്പെടുമ്പോൾ തന്നെ അവയുടെ യഥാർത്ഥ കുറച്ച്-ഷോട്ട് കഴിവ് നിലനിർത്തുന്നു. ശ്രദ്ധേയമായി, ലോ-റാങ്ക് അഡാപ്റ്ററുകൾ മറ്റ് ചട്ടക്കൂടുകളിലേക്ക് സംയോജിപ്പിക്കുന്നത് ലളിതമാണ്, കാരണം ആവശ്യാനുസരണം ലീനിയർ + അഡാപ്റ്റർ ലെയറുകൾ ഉപയോഗിച്ച് നിലവിലുള്ള ലീനിയർ ലെയറുകൾ നമുക്ക് സ്വാപ്പ് ചെയ്യാം.

മുന്നോട്ട് നീങ്ങുന്നു

ഞങ്ങളുടെ പര്യവേക്ഷണങ്ങളിൽ ഞങ്ങൾ കണ്ട തരത്തിലുള്ള മെച്ചപ്പെടുത്തലുകൾക്ക് ഒരു രസം നൽകുന്നതിന്, വ്യത്യസ്ത ട്യൂണിംഗ് സമീപനങ്ങൾ ഉപയോഗിച്ച് പരിശീലിപ്പിച്ച മോഡലുകളിൽ നിന്നുള്ള തലമുറകളുടെ ഒരു ചെറിയ നിര ഞങ്ങൾ ചുവടെ പങ്കിടുന്നു. നഴ്സിംഗ് കെയർ ഡെലിവറിയുമായി ബന്ധപ്പെട്ട ഒരേ മൂന്ന് ഇൻപുട്ട് പ്രോംപ്റ്റുകൾ ഉപയോഗിച്ചാണ് ഈ ഇനങ്ങളെല്ലാം സൃഷ്ടിച്ചത്: ആദ്യത്തേത് ഒന്നിലധികം ക്ലയൻ്റുകളുടെ ആവശ്യങ്ങൾക്ക് മുൻഗണന നൽകുന്നതിലും രണ്ടാമത്തേത് ഒരു ടീം ക്രമീകരണത്തിൽ നടപടിയെടുക്കുന്നതിലും ശ്രദ്ധ കേന്ദ്രീകരിച്ചു.

Item #1: A nurse is assessing a client who is scheduled for outpatient surgery. Which of the following patients would the nurse evaluate next? (A) A patient with type 1 diabetes (B) A patient with acute pancreatitis (C) A patient who requires intravenous antibiotic therapy (D) A patient with Crohn's disease Item #2: A client is admitted to the hospital with the diagnosis of congestive heart failure. The client's mother is refusing treatment. Which of the following actions should the nurse take? (A) Notify the provider of the situation. (B) Check the patient's medication list. (C) Check the client's medical chart. (D) Notify the client's doctor of the client's condition.

Item #3: A nurse is evaluating a patient on the pediatric unit. The client is scheduled for a diagnostic workup, including a chest radiograph. Which of the following patients should the nurse be planning to evaluate next? (A) A child who has pneumonia and is experiencing fever (B) A child who has a rash and is not responding to a medication (C) A child who has a fever and has a temperature >100.4 (D) A child who has a fever and a rash Item #4: A client with renal failure is in the hospital and is scheduled to undergo a renal transplant. The client has a strong belief that the transplant surgeon is incompetent. The client refuses to allow a doctor from another hospital to perform the transplant. Which of the following actions should the charge nurse take? (A) Take a statement from the client that the transplant surgeon is competent and give it to the transplant surgeon. (B) Ask the client for a signed statement to back up her assertion. (C) Contact the transplant surgeon and find out why the client refuses to allow the surgeon from another hospital to perform the transplant. (D) Inform the transplant surgeon that the client is refusing the transplant.

Item #5: A nurse is planning to assign clients to various bedside stations. Which of the following clients should the nurse assign to the bedside station closest to the nurses' station? (A) A client who has a suspected diagnosis of a pulmonary embolism and requires a computed tomography (CT) scan (B) A client who needs assistance with a bowel movement (C) A client who has an emergency indication for a chest X-ray (D) A client who requires a chest X-ray because she has a cough Item #6: An LPN is caring for a client with an indwelling urinary catheter and is asking the nurse to help her clean the catheter. Which of the following actions should the nurse take? (A) Explain to the client that she will need to provide the cleaning solution and will need to obtain the client's consent for the procedure. (B) Ask the LPN for assistance. (C) Offer to help the client clean the catheter. (D) Assure the LPN that the nurse will assist her.

അടിസ്ഥാന മോഡലിൽ നിന്നുള്ള ഏറ്റവും മികച്ച ഇനങ്ങൾ വലിയ തോതിൽ ഒഴുക്കുള്ളതും യുക്തിസഹമായി യോജിച്ചതുമാണെങ്കിലും, അവ നിയന്ത്രണ വിധേയമാകാൻ പ്രവണത കാണിക്കുന്നു (#1-ൽ ഉള്ളത് പോലെ) അല്ലെങ്കിൽ നഴ്‌സിംഗ് ഡൊമെയ്‌നിനെക്കുറിച്ച് വളരെ കുറച്ച് അറിവ് ആവശ്യമാണ് (#3-ൽ ഉള്ളത് പോലെ). അടിസ്ഥാന ഇനങ്ങളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, പ്രോംപ്റ്റ് ട്യൂണിംഗ്, ലോ-റാങ്ക് അഡാപ്റ്റർ മോഡലുകൾ എന്നിവയിൽ നിന്നുള്ള ഇനങ്ങൾ അവയുടെ ഉത്തേജനം, കാണ്ഡം, ഓപ്ഷനുകൾ എന്നിവയിൽ കൂടുതൽ വിശദാംശങ്ങൾ ഉൾക്കൊള്ളുന്നു. വിഷയം ഡൊമെയ്‌നിന് പ്രസക്തമാണ്, പശ്ചാത്തല പരിജ്ഞാനത്തെ മാത്രം ആശ്രയിക്കുന്നതിനുപകരം നഴ്സിംഗ് പരിചരണത്തിൻ്റെ മാനേജ്‌മെൻ്റിൽ പ്രത്യേക അറിവ് ആവശ്യപ്പെടുന്നു. മാത്രമല്ല, താഴ്ന്ന റാങ്കിലുള്ള അഡാപ്റ്റർ മോഡലിൽ നിന്നുള്ള ഇനങ്ങൾക്ക് കൂടുതൽ സ്ഥിരതയുള്ള രൂപമുണ്ട്. ഉദാഹരണത്തിന്, മൂല്യനിർണ്ണയത്തിൽ ദൃശ്യമാകാൻ സാധ്യതയുള്ള ഭാഷയ്ക്ക് അനുസൃതമായി, ഇനങ്ങൾ "രോഗി" എന്നതിന് വിപരീതമായി "ക്ലയൻ്റ്" എന്ന് സ്ഥിരമായി പരാമർശിക്കുന്നു (#5 മുതൽ #1, #3 എന്നിവ താരതമ്യം ചെയ്യുക). ഒരു സാഹചര്യത്തിൽ ഒന്നിലധികം വ്യക്തികളിലേക്കുള്ള റഫറൻസുകളും ഇത് വിജയകരമായി ട്രാക്ക് ചെയ്യുന്നു (#6 മുതൽ #4 വരെ താരതമ്യം ചെയ്യുക).

ഡൊമെയ്ൻ കവറേജ്, ശൈലീപരമായ സ്ഥിരത, ലോജിക്കൽ കോഹറൻസ് എന്നിവയിലെ മെച്ചപ്പെടുത്തലുകൾ ന്യൂറൽ ലാംഗ്വേജ് മോഡലുകളുടെ ഉപയോഗക്ഷമതയിൽ കാര്യമായ മെച്ചപ്പെടുത്തലുകളായി മാറും. ഇത് ഒരു തുടക്കം മാത്രമാണ്: സാങ്കേതികവിദ്യ പക്വത പ്രാപിക്കുമ്പോൾ, ഇഷ്‌ടാനുസൃതമാക്കിയതും നിയന്ത്രിക്കാവുന്നതുമായ സ്വാഭാവിക ഭാഷാ മോഡലുകൾ സ്‌കെയിലിൽ സൃഷ്‌ടിക്കാൻ കൂടുതൽ രീതികൾ കണ്ടെത്തും. ആ രീതികൾ കണ്ടെത്തുന്നതിനനുസരിച്ച്, അക്കാദമിയ, വ്യവസായം, സ്വതന്ത്ര ഗവേഷണം എന്നിവയിൽ നിന്നുള്ള മികച്ചത് ഞങ്ങൾ Finetune ഉൽപ്പന്നങ്ങളിൽ ഉൾപ്പെടുത്തുന്നത് തുടരും.

ഈ ബ്ലോഗ് പോസ്റ്റിൻ്റെ വികസനത്തിൽ ദയയും സഹായകരവുമായ ഫീഡ്‌ബാക്ക് നൽകിയതിന് നിക്ക് കോപ്രോവിക്‌സ്, ജെസ്സി ഹാമർ, സാദ് ഖാൻ, ഓഗ്‌ഡൻ മോഴ്‌സ് എന്നിവർക്ക് ആത്മാർത്ഥമായ നന്ദി.

റഫറൻസുകൾ

Hu, EJ, Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). ലോറ: വലിയ ഭാഷാ മോഡലുകളുടെ താഴ്ന്ന നിലവാരത്തിലുള്ള അനുരൂപീകരണം. arXiv പ്രീപ്രിൻ്റ് arXiv:2106.09685.

Lester, B., Al-Rfou, R., & Constant, N. (2021). പാരാമീറ്റർ കാര്യക്ഷമമായ പ്രോംപ്റ്റ് ട്യൂണിംഗിനുള്ള സ്കെയിലിൻ്റെ ശക്തി. arXiv പ്രീപ്രിൻ്റ് arXiv:2104.08691.