Του Τσαρλς Φόστερ
Στη Finetune, χτίζουμε λύσεις τεχνητής νοημοσύνης για να αντιμετωπίσουμε μερικά από τα πιο δύσκολα προβλήματα στην εκπαιδευτική τεχνολογία, συμπεριλαμβανομένης της αυτοματοποιημένης παραγωγής περιεχομένου και της ταξινόμησης και προτάσεων πόρων μάθησης με τεχνητή νοημοσύνη. Επειδή το θέμα που τα εργαλεία μας πρέπει να χειρίζονται εκτάσεις από το K-12 έως την ανάπτυξη εργατικού δυναμικού, επενδύουμε πολλά σε μεθόδους που μας επιτρέπουν να κλιμακώσουμε το εύρος και το βάθος αυτού που καλύπτουν τα μοντέλα μας. Βασικά στοιχεία αυτής της προσέγγισης είναι οι ευέλικτες μέθοδοι για την εκπαίδευση εξειδικευμένων νευρωνικών δικτύων σε τομείς όπου τα μοντέλα γενικής χρήσης είναι ανεπαρκή. Σε αυτήν την ανάρτηση ιστολογίου, θα ήθελα να μοιραστώ ένα κομμάτι από το ταξίδι μας εξερευνώντας αυτές τις μεθόδους.
μικρορύθμιση
Η τυπική ρύθμιση των μοντέλων νευρωνικών γλωσσών περιλαμβάνει την ταυτόχρονη βελτιστοποίηση όλων των εκπαιδεύσιμων παραμέτρων τους, οι οποίες μπορεί να ανέλθουν σε πολλά δισεκατομμύρια για δίκτυα όπως το GPT-J. Σε κλίμακες σαν κι αυτές, τόσο οι διαδικασίες μικρορύθμισης όσο και οι διαδικασίες εξαγωγής συμπερασμάτων είναι μη τετριμμένες, καθιστώντας δύσκολη την ευρεία ανάπτυξη τους. Στις δικές μας έρευνες, μερικά βασικά ζητήματα φάνηκαν να είναι μεγαλύτερα:
- Η απλή εκτέλεση αυτών των μοντέλων μετασχηματιστών πιέζει ήδη τα όρια της μνήμης GPU (VRAM) και κατά τη λεπτομέρεια υπάρχει άμεση σχέση μεταξύ του αριθμού των παραμέτρων που βελτιστοποιούνται και της ποσότητας πρόσθετης μνήμης που καταναλώνεται.
- Τροποποιώντας όλες τις παραμέτρους στο δίκτυο, η ροή πληροφοριών που μαθαίνεται κατά την προ-εκπαίδευση μπορεί να διαταραχθεί, με αποτέλεσμα να ξεχαστούν και να χαθούν οι δυνατότητες λίγων βολών.
- Η εξυπηρέτηση ενός προσαρμοσμένου μοντέλου πολλών gigabyte για κάθε περίπτωση χρήσης θα δημιουργούσε απαράδεκτη καθυστέρηση και επιβάρυνση κόστους.
Αυτές οι συνδυασμένες ανησυχίες μας παρακίνησαν να εξερευνήσουμε άλλες μεθόδους από την πρόσφατη βιβλιογραφία για να συντονίσουμε τα μοντέλα νευρωνικής γλώσσας μας. Ευτυχώς, τον περασμένο χρόνο, η ερευνητική σφαίρα επεξεργασίας φυσικής γλώσσας ανέπτυξε μια σειρά μεθόδων για τη μείωση του κόστους προσαρμογής της συμπεριφοράς προεκπαιδευμένων μοντέλων γλώσσας.
Άμεσος συντονισμός
Η αρχική προσέγγιση που ακολουθήσαμε ονομάζεται Prompt Tuning ή Soft Prompting (Lester et al. 2021). Σε αυτή τη μέθοδο, οι παράμετροι του δικτύου από την προεκπαίδευση διατηρούνται παγωμένες. Αντίθετα, τοποθετούμε έναν μικρό αριθμό διανυσμάτων ενσωμάτωσης που μπορούν να μάθουν (συνήθως 10 έως 20) μπροστά από τα διακριτικά εντολών εισόδου και συντονίζουμε αυτές τις ενσωματώσεις με τον συνηθισμένο στόχο μοντελοποίησης γλώσσας σε ένα σύνολο δεδομένων λεπτομερούς ρύθμισης. Αυτές οι ενσωματώσεις δεν αντιπροσωπεύουν διακριτικά της γλώσσας. Μπορούμε να τα σκεφτούμε αντ 'αυτού ως ένα πυκνό απόθεμα περιβάλλοντος στο οποίο μπορεί να εξαρτηθεί το δίκτυο —μέσω του μηχανισμού προσοχής— καθώς κάνει προβλέψεις για τα διακριτικά της ακολουθίας.
Ο συντονισμός προτροπής προσθέτει μόνο ένα μικρό κόστος χρόνου εκτέλεσης στο μοντέλο, καθώς τα μαλακά μηνύματα είναι στην περιοχή των kilobyte και μπορούν να εκτελεστούν μέσω του δικτύου παράλληλα. Αυτά τα χαρακτηριστικά τα καθιστούν ελκυστικά για την εξυπηρέτηση πολλών ταυτόχρονων χρηστών, όπως έχουν δείξει οι πρόσφατες αναπτύξεις της τεχνικής στην αφήγηση ιστοριών AI . Ωστόσο, η ενσωμάτωση μαλακών προτροπών σε δημοφιλή πλαίσια όπως οι μετασχηματιστές του HuggingFace είναι πολύπλοκη, καθώς οι διεπαφές έχουν σχεδιαστεί σε μεγάλο βαθμό για να λειτουργούν σε ακολουθίες δεικτών διακριτικών και όχι πυκνών διανυσμάτων. Επιπλέον, καθώς προστίθεται περισσότερο πλαίσιο μεταξύ της soft prompt και της δημιουργίας, αρχίζουμε να βλέπουμε ανισορροπίες μεταξύ της ισχύος της προετοιμασίας στην soft prompt και στο token context. Η διατήρηση της δυνατότητας να προσθέτουμε ευέλικτα εκατοντάδες διακριτικά περιβάλλοντος κατά το χρόνο εκτέλεσης ήταν σημαντική για εμάς, καθώς παρέχει πρόσθετους λεπτομερείς μοχλούς ελέγχου στη διαδικασία σύνταξης στοιχείων. Αν θέλουμε να καθοδηγήσουμε το μοντέλο ώστε να επικεντρωθεί στο περιεχόμενο μιας συγκεκριμένης σελίδας ενός σχολικού βιβλίου ή να συντάξει ένα αντικείμενο κατανόησης ανάγνωσης ή να παράσχει λίγα παραδείγματα, η μακροσκελής διαμόρφωση συμφραζομένων έχει σημασία.
Προσαρμογείς χαμηλής κατάταξης (LoRA)
Αργότερα μεταβήκαμε σε μια μέθοδο που ονομάζεται LoRA ή Low Rank Adapters (Hu et al. 2021). Αυτή η τεχνική αναπτύχθηκε από ερευνητές της Microsoft που εργάζονται σε μοντέλα μεγέθους GPT-3 και βασίζεται σε παλαιότερες προσεγγίσεις προσαρμογέων. Αν σκεφτούμε ότι ένας μετασχηματιστής βελτιώνει προοδευτικά τις λανθάνουσες καταστάσεις του με κάθε υπολειπόμενο στρώμα, η ιδέα ενός προσαρμογέα είναι να προσθέσει ένα μικρό, εξαρτώμενο από την είσοδο δέλτα (αρχικοποιημένο σε ένα no-op) σε αυτά τα λανθάνοντα σε ένα δεδομένο επίπεδο. Αυτή η απαλή ώθηση μπορεί στη συνέχεια να διαμορφώσει τη συμπεριφορά της κατάντη δίνοντας, για παράδειγμα, έμφαση στα μέρη της εισόδου που σχετίζονται με την εργασία.
Οι προσαρμογείς χαμηλής κατάταξης είναι ένα είδος προσαρμογέα που στοχεύει έναν υποχώρο χαμηλής κατάταξης, ο οποίος μειώνει τον αριθμό των νέων παραμέτρων που πρέπει να εκπαιδεύσουμε (από D 2 σε 2 × D × r, όπου το D είναι χιλιάδες). Όπως και με την soft prompting, κρατάμε παγωμένες τις αρχικές παραμέτρους του δικτύου για να διατηρήσουμε τις γνώσεις που περιέχουν από την προεκπαίδευση και προσαρμόζουμε μόνο αυτές τις νέες παραμέτρους προσαρμογέα. Στις εσωτερικές μας δοκιμές, έχουμε δει καλούς δείκτες από το LoRA. Πέρα από το να μας δίνουν τη δυνατότητα να συντονίζουμε μεγάλα μοντέλα με μικρούς προϋπολογισμούς υλικού, τα μοντέλα με διάσπαρτα επίπεδα προσαρμογέα διατηρούν επίσης μεγάλο μέρος της αρχικής τους ικανότητας λίγων λήψεων ενώ εξακολουθούν να προσαρμόζονται στον τομέα-στόχο. Σημειωτέον, η ενσωμάτωση προσαρμογέων χαμηλής κατάταξης σε άλλα πλαίσια είναι απλή, καθώς μπορούμε απλώς να αντικαταστήσουμε τα υπάρχοντα γραμμικά επίπεδα με επίπεδα γραμμικής + προσαρμογέα όπως απαιτείται.
Προχωρώντας προς τα εμπρός
Για να δώσουμε μια γεύση στο είδος των βελτιώσεων που έχουμε δει στις εξερευνήσεις μας, παρακάτω μοιραζόμαστε μια μικρή επιλογή γενεών από μοντέλα που έχουν εκπαιδευτεί με διαφορετικές προσεγγίσεις συντονισμού. Όλα αυτά τα στοιχεία δημιουργήθηκαν χρησιμοποιώντας τις ίδιες τρεις προτροπές εισόδου που σχετίζονται με την παροχή νοσηλευτικής φροντίδας: το πρώτο επικεντρώθηκε στην ιεράρχηση των αναγκών πολλών πελατών και το δεύτερο στην ανάληψη δράσης σε ομαδικό περιβάλλον.
Item #1: A nurse is assessing a client who is scheduled for outpatient surgery. Which of the following patients would the nurse evaluate next? (A) A patient with type 1 diabetes (B) A patient with acute pancreatitis (C) A patient who requires intravenous antibiotic therapy (D) A patient with Crohn's disease Item #2: A client is admitted to the hospital with the diagnosis of congestive heart failure. The client's mother is refusing treatment. Which of the following actions should the nurse take? (A) Notify the provider of the situation. (B) Check the patient's medication list. (C) Check the client's medical chart. (D) Notify the client's doctor of the client's condition.
Item #3: A nurse is evaluating a patient on the pediatric unit. The client is scheduled for a diagnostic workup, including a chest radiograph. Which of the following patients should the nurse be planning to evaluate next? (A) A child who has pneumonia and is experiencing fever (B) A child who has a rash and is not responding to a medication (C) A child who has a fever and has a temperature >100.4 (D) A child who has a fever and a rash Item #4: A client with renal failure is in the hospital and is scheduled to undergo a renal transplant. The client has a strong belief that the transplant surgeon is incompetent. The client refuses to allow a doctor from another hospital to perform the transplant. Which of the following actions should the charge nurse take? (A) Take a statement from the client that the transplant surgeon is competent and give it to the transplant surgeon. (B) Ask the client for a signed statement to back up her assertion. (C) Contact the transplant surgeon and find out why the client refuses to allow the surgeon from another hospital to perform the transplant. (D) Inform the transplant surgeon that the client is refusing the transplant.
Item #5: A nurse is planning to assign clients to various bedside stations. Which of the following clients should the nurse assign to the bedside station closest to the nurses' station? (A) A client who has a suspected diagnosis of a pulmonary embolism and requires a computed tomography (CT) scan (B) A client who needs assistance with a bowel movement (C) A client who has an emergency indication for a chest X-ray (D) A client who requires a chest X-ray because she has a cough Item #6: An LPN is caring for a client with an indwelling urinary catheter and is asking the nurse to help her clean the catheter. Which of the following actions should the nurse take? (A) Explain to the client that she will need to provide the cleaning solution and will need to obtain the client's consent for the procedure. (B) Ask the LPN for assistance. (C) Offer to help the client clean the catheter. (D) Assure the LPN that the nurse will assist her.
Μπορούμε να παρατηρήσουμε ότι, ενώ τα καλύτερα στοιχεία από το βασικό μοντέλο είναι σε μεγάλο βαθμό άπταιστα και λογικά συνεκτικά, τείνουν να είναι υποπεριορισμένα (όπως στο #1) ή απαιτούν πολύ λίγη γνώση του νοσηλευτικού τομέα (όπως στο #3). Σε σύγκριση με τα στοιχεία βάσης, τα στοιχεία από τα μοντέλα προσαρμογέα άμεσης ρύθμισης και χαμηλής κατάταξης περιέχουν περισσότερες λεπτομέρειες στα ερεθίσματα, τα στελέχη και τις επιλογές τους. Το θέμα είναι σχετικό με τον τομέα, ζητώντας ειδικές γνώσεις στη διαχείριση της νοσηλευτικής περίθαλψης αντί να βασίζεται μόνο σε βασικές γνώσεις. Επιπλέον, τα στοιχεία από το μοντέλο προσαρμογέα χαμηλής κατηγορίας έχουν πιο συνεπή μορφή. Για παράδειγμα, τα στοιχεία αναφέρονται με συνέπεια στον «πελάτη» σε αντίθεση με τον «ασθενή», σύμφωνα με τη γλώσσα που πιθανότατα θα εμφανιζόταν στις αξιολογήσεις (συγκρίνετε #5 με #1 και #3). Επίσης, παρακολουθεί επιτυχώς αναφορές σε πολλά άτομα σε ένα σενάριο (συγκρίνετε #6 έως #4).
Οι βελτιώσεις στην κάλυψη τομέα, η στυλιστική συνέπεια και η λογική συνοχή μπορούν να μεταφραστούν σε σημαντικές βελτιώσεις στη χρησιμότητα των μοντέλων νευρωνικής γλώσσας. Αυτή είναι μόνο η αρχή: καθώς η τεχνολογία ωριμάζει, θα ανακαλυφθούν ακόμη περισσότερες μέθοδοι για τη δημιουργία προσαρμοσμένων, ελεγχόμενων μοντέλων φυσικής γλώσσας σε κλίμακα. Και καθώς αυτές οι μέθοδοι ανακαλύπτονται, θα συνεχίσουμε να ενσωματώνουμε τα καλύτερα από τον ακαδημαϊκό χώρο, τη βιομηχανία και την ανεξάρτητη έρευνα στα προϊόντα Finetune.
Ευχαριστώ ειλικρινά τους Nick Koprowicz, Jesse Hamer, Saad Khan και Ogden Morse για την ευγενική, χρήσιμη ανατροφοδότηση στην ανάπτυξη αυτής της ανάρτησης ιστολογίου.
Αναφορές
Hu, EJ, Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Χαμηλή προσαρμογή μεγάλων γλωσσικών μοντέλων. arXiv προεκτύπωση arXiv:2106.09685.
Lester, B., Al-Rfou, R., & Constant, N. (2021). Η ισχύς κλίμακας για γρήγορο συντονισμό με απόδοση παραμέτρων. arXiv προεκτύπωση arXiv:2104.08691.