Oleh Charles Foster
Di Finetune, kami membangun solusi AI untuk mengatasi beberapa masalah paling menantang dalam teknologi pendidikan, termasuk pembuatan konten otomatis dan klasifikasi serta rekomendasi sumber belajar bertenaga AI. Karena materi pelajaran yang harus ditangani oleh alat kami mencakup mulai dari K-12 hingga pengembangan tenaga kerja, kami berinvestasi besar dalam metode yang memungkinkan kami untuk meningkatkan cakupan dan kedalaman cakupan model kami. Komponen utama dari pendekatan ini adalah metode fleksibel untuk melatih jaringan saraf khusus dalam domain yang model serbagunanya tidak memadai. Dalam posting blog ini, saya ingin berbagi sedikit perjalanan kami dalam mengeksplorasi metode ini.
Penyetelan halus
Penyetelan halus model bahasa neural yang umum melibatkan pengoptimalan semua parameter yang dapat dilatih secara bersamaan, yang dapat mencapai miliaran untuk jaringan seperti GPT-J. Pada skala seperti ini, proses penyetelian halus dan inferensi tidak mudah, sehingga sulit untuk diterapkan secara luas. Dalam penyelidikan kami sendiri, beberapa masalah utama tampak paling menonjol:
- Menjalankan model transformator ini saja sudah menekan batas memori GPU (VRAM), dan selama penyempurnaan ada hubungan langsung antara jumlah parameter yang dioptimalkan dan jumlah memori tambahan yang dipakai.
- Dengan memodifikasi semua parameter dalam jaringan, aliran informasi yang dipelajari selama pra-pelatihan dapat terganggu, sehingga menyebabkan lupa dan hilangnya kemampuan beberapa kali tembakan.
- Melayani model multi-gigabyte yang disesuaikan untuk setiap kasus penggunaan akan menciptakan latensi dan beban biaya yang tidak dapat diterima.
Kekhawatiran gabungan ini memotivasi kami untuk mengeksplorasi metode lain dari literatur terkini untuk menyempurnakan model bahasa neural kami. Untungnya, dalam setahun terakhir bidang penelitian pemrosesan bahasa alami telah mengembangkan sejumlah metode untuk memangkas biaya penyesuaian perilaku model bahasa yang telah dilatih sebelumnya.
Penyetelan Cepat
Pendekatan asli yang kami gunakan disebut Prompt Tuning atau Soft Prompting (Lester et al. 2021). Dalam metode ini, parameter jaringan dari pra-pelatihan dibekukan. Sebagai gantinya, kami menambahkan sejumlah kecil vektor penyematan yang dapat dipelajari (biasanya 10 hingga 20) di depan token perintah input, dan menyetel penyematan ini dengan tujuan pemodelan bahasa yang biasa pada kumpulan data penyetelan halus. Penyematan ini tidak mewakili token bahasa; kami dapat menganggapnya sebagai penyimpanan konteks yang padat yang dapat dikondisikan oleh jaringan—melalui mekanisme perhatian —saat membuat prediksi tentang token dalam urutan tersebut.
Penyetelan prompt hanya menambahkan sedikit biaya waktu proses ke model, karena soft prompt berada dalam kisaran kilobyte dan dapat dijalankan melalui jaringan secara paralel. Fitur-fitur ini membuatnya menarik untuk melayani banyak pengguna bersamaan, seperti yang ditunjukkan oleh penerapan teknik baru-baru ini dalam penceritaan AI . Namun, mengintegrasikan soft prompt ke dalam kerangka kerja populer seperti transformer HuggingFace itu rumit, karena antarmuka sebagian besar dirancang untuk beroperasi pada urutan indeks token daripada vektor padat. Selain itu, karena lebih banyak konteks ditambahkan antara soft prompt dan pembuatan, kami mulai melihat ketidakseimbangan antara kekuatan pengondisian pada soft prompt dan pada konteks token. Mempertahankan kemampuan untuk secara fleksibel menambahkan ratusan token konteks saat runtime penting bagi kami, karena menyediakan tuas kontrol yang lebih rinci dalam proses penulisan item. Jika kami ingin memandu model untuk fokus pada konten dari halaman tertentu buku teks, atau untuk menulis item pemahaman bacaan, atau untuk memberikan contoh beberapa contoh, kontekstualisasi bentuk panjang penting.
Adaptor Peringkat Rendah (LoRA)
Kami kemudian beralih ke metode yang disebut LoRA atau Low Rank Adapters (Hu et al. 2021). Teknik ini dikembangkan oleh para peneliti di Microsoft yang mengerjakan model berukuran GPT-3, dan dibangun berdasarkan pendekatan adapter sebelumnya. Jika kita menganggap transformer sebagai penyempurnaan progresif status laten tokennya dengan setiap lapisan residual, konsep adapter adalah menambahkan delta kecil yang bergantung pada input (diinisialisasi ke no-op) ke laten tersebut pada lapisan tertentu. Dorongan halus ini kemudian dapat memodulasi perilakunya di hilir dengan, misalnya, menekankan bagian input yang relevan dengan tugas.
Adaptor peringkat rendah adalah jenis adaptor yang menargetkan subruang peringkat rendah, yang mengurangi jumlah parameter baru yang perlu kita latih (dari D 2 hingga 2 × D × r, di mana D dalam ribuan). Seperti halnya soft prompting, kami menahan parameter asli jaringan dalam keadaan beku untuk mempertahankan pengetahuan apa pun yang dikandungnya dari pra-pelatihan, dan hanya menyesuaikan parameter adaptor baru ini. Dalam pengujian internal kami, kami telah melihat indikator yang baik dari LoRA. Selain memungkinkan kami untuk menyetel model besar pada anggaran perangkat keras kecil, model dengan lapisan adaptor yang disisipkan juga mempertahankan banyak kemampuan beberapa bidikan aslinya sambil tetap beradaptasi dengan domain target. Khususnya, mengintegrasikan adaptor peringkat rendah ke dalam kerangka kerja lain sangatlah mudah, karena kami dapat dengan mudah menukar lapisan linier yang ada dengan lapisan linier + adaptor sesuai kebutuhan.
Bergerak Maju
Untuk memberikan gambaran tentang jenis peningkatan yang telah kami lihat dalam eksplorasi kami, di bawah ini kami bagikan beberapa pilihan generasi dari model yang dilatih dengan pendekatan penyetelan yang berbeda. Semua item ini dibuat menggunakan tiga perintah masukan yang sama yang berkaitan dengan pemberian perawatan keperawatan: yang pertama difokuskan pada memprioritaskan kebutuhan banyak klien dan yang kedua pada mengambil tindakan dalam pengaturan tim.
Item #1: A nurse is assessing a client who is scheduled for outpatient surgery. Which of the following patients would the nurse evaluate next? (A) A patient with type 1 diabetes (B) A patient with acute pancreatitis (C) A patient who requires intravenous antibiotic therapy (D) A patient with Crohn's disease Item #2: A client is admitted to the hospital with the diagnosis of congestive heart failure. The client's mother is refusing treatment. Which of the following actions should the nurse take? (A) Notify the provider of the situation. (B) Check the patient's medication list. (C) Check the client's medical chart. (D) Notify the client's doctor of the client's condition.
Item #3: A nurse is evaluating a patient on the pediatric unit. The client is scheduled for a diagnostic workup, including a chest radiograph. Which of the following patients should the nurse be planning to evaluate next? (A) A child who has pneumonia and is experiencing fever (B) A child who has a rash and is not responding to a medication (C) A child who has a fever and has a temperature >100.4 (D) A child who has a fever and a rash Item #4: A client with renal failure is in the hospital and is scheduled to undergo a renal transplant. The client has a strong belief that the transplant surgeon is incompetent. The client refuses to allow a doctor from another hospital to perform the transplant. Which of the following actions should the charge nurse take? (A) Take a statement from the client that the transplant surgeon is competent and give it to the transplant surgeon. (B) Ask the client for a signed statement to back up her assertion. (C) Contact the transplant surgeon and find out why the client refuses to allow the surgeon from another hospital to perform the transplant. (D) Inform the transplant surgeon that the client is refusing the transplant.
Item #5: A nurse is planning to assign clients to various bedside stations. Which of the following clients should the nurse assign to the bedside station closest to the nurses' station? (A) A client who has a suspected diagnosis of a pulmonary embolism and requires a computed tomography (CT) scan (B) A client who needs assistance with a bowel movement (C) A client who has an emergency indication for a chest X-ray (D) A client who requires a chest X-ray because she has a cough Item #6: An LPN is caring for a client with an indwelling urinary catheter and is asking the nurse to help her clean the catheter. Which of the following actions should the nurse take? (A) Explain to the client that she will need to provide the cleaning solution and will need to obtain the client's consent for the procedure. (B) Ask the LPN for assistance. (C) Offer to help the client clean the catheter. (D) Assure the LPN that the nurse will assist her.
Kita dapat mengamati bahwa, sementara item terbaik dari model dasar sebagian besar lancar dan koheren secara logis, item tersebut cenderung kurang dibatasi (seperti pada #1) atau memerlukan sedikit pengetahuan tentang domain keperawatan (seperti pada #3). Dibandingkan dengan item dasar, item dari model penyetelan cepat dan adaptor peringkat rendah mengandung detail yang lebih besar dalam stimulus, batang, dan opsinya. Pokok bahasan relevan dengan domain, yang memerlukan pengetahuan khusus dalam manajemen perawatan keperawatan daripada hanya mengandalkan pengetahuan latar belakang saja. Selain itu, item dari model adaptor peringkat rendah memiliki bentuk yang lebih konsisten. Misalnya, item secara konsisten merujuk pada "klien" dan bukan "pasien", sesuai dengan bahasa yang mungkin muncul dalam penilaian (bandingkan #5 dengan #1 dan #3). Model ini juga berhasil melacak referensi ke beberapa individu dalam satu skenario (bandingkan #6 dengan #4).
Peningkatan cakupan domain, konsistensi gaya, dan koherensi logis dapat menghasilkan peningkatan signifikan dalam kegunaan model bahasa neural. Ini baru permulaan: seiring dengan semakin matangnya teknologi, lebih banyak metode akan ditemukan untuk menciptakan model bahasa alami yang dapat disesuaikan dan terkendali dalam skala besar. Dan seiring ditemukannya metode tersebut, kami akan terus menggabungkan yang terbaik dari akademisi, industri, dan penelitian independen ke dalam produk Finetune.
Terima kasih yang tulus kepada Nick Koprowicz, Jesse Hamer, Saad Khan, dan Ogden Morse karena telah memberikan masukan yang baik dan bermanfaat dalam pengembangan postingan blog ini.
Referensi
Hu, EJ, Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Adaptasi tingkat rendah dari model bahasa besar. arXiv preprint arXiv:2106.09685.
Lester, B., Al-Rfou, R., & Constant, N. (2021). Kekuatan skala untuk penyetelan prompt yang efisien terhadap parameter. arXiv preprint arXiv:2104.08691.