Autorzy : Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta i Safat Siddiqui

Wstęp

W ostatnich miesiącach byliśmy świadkami eksplozji zainteresowania dużymi modelami językowymi (LLM), takimi jak GPT-4, i tym, jak Finetune wykorzystuje tę technologię. Wszyscy są czujni: ugruntowane zespoły chcące przetestować nową technologię, rozwijające się startupy chcące przekształcić badania w produkty transformacyjne i operatorzy-krzaki chcący szybko zarobić na tej gorączce złota. Jednak wraz z tą eksplozją zainteresowania widzimy również eksplozję zamieszania. Ludzie pytają: „Jak poruszać się po tym nowym terenie?”, „Na co powinienem zwrócić uwagę?”, „Jak mogę uzyskać prawdziwą wartość z tej technologicznej zmiany paradygmatu?”

Pracując z LLM-ami na długo przed tym, zanim zrobił się wokół nich szum, chcielibyśmy dać trochę jasności. Widzieliśmy, jak potężne mogą być narzędzia integrujące tę technologię. Poprzez wstępne szkolenie na milionach stron tekstu w celu nauki złożonych skojarzeń koncepcyjnych, a także dodatkowe, bardziej szczegółowe wskazówki (za pomocą metod takich jak „dostrajanie”, „uczenie się przez wzmacnianie na podstawie ludzkiej informacji zwrotnej” i „szybka inżynieria”), modele transformatorów mogą być użyteczne do wszelkiego rodzaju zadań. Ale często zaskakującym odkryciem dla nowicjuszy w tej dziedzinie jest to, że faktyczne uczynienie LLM użytecznymi do wykonywania rzeczywistej pracy nie jest łatwe, szczególnie w obszarach, w których liczy się jakość .

Podejście oparte na zasadach

W Finetune od kilku lat wykorzystujemy LLM, aby rozszerzyć przepływy pracy naszych partnerów w zakresie generowania treści i tagowania. Dzięki tym partnerstwom i dzięki trudnym lekcjom, które wiążą się z doświadczeniem w świecie rzeczywistym, odkryliśmy, że technologia jest najbardziej wpływowa, gdy jest połączona z zasadniczą strukturą. Ważne jest, aby robić to dobrze , a nie tylko szybko .

Dlaczego po prostu nie zrobić tego w łatwy sposób? Cóż, powiedzmy, że po prostu prosisz GPT-4 o skomponowanie nowego „szekspirowskiego” sonetu lub napisanie pytania testowego na określony temat. Na pierwszy rzut oka wynik często wydaje się akceptowalny. Ale pamiętaj: te modele działają jak zręczni imitatorzy. Spójrz poza powierzchnię tego sonetu, a zobaczysz puste jądro: większość podstawowych przekonań, intelektu i postawy Szekspira jest całkowicie pominięta. Podobnie, zbadaj to pytanie testowe, a zobaczysz główne problemy: nie zwrócono uwagi na żadną podstawową konstrukcję lub na to, jak można optymalnie próbkować domenę , aby wesprzeć wnioski dotyczące kompetencji , lub na jakikolwiek cel napędzający test. Podsumowując, brakuje mu trafności psychometrycznej!

Aby zbudować wiarygodność i wszystko inne, czego oczekują profesjonaliści w naszej branży, należy wyjść poza surowy model językowy i dokonać syntezy pomiarów i nauki o uczeniu się, psychometrii i sztucznej inteligencji .

Oto kilka podstawowych zasad, na których opiera się ta synteza:

  1. Projektuj dla przepływu pracy, nie dla sztucznej inteligencji
  2. Umieść człowieka w centrum pętli
  3. Buduj zaufanie poprzez przejrzystość

Projektuj dla przepływu pracy, nie dla sztucznej inteligencji

Samo zintegrowanie LLM z aplikacją nie wystarczy: należy skupić się na zapewnieniu użytkownikowi narzędzi AI, które najlepiej wspierają jego pracę. Uważaj na dostawców, którzy chwalą się integracją z jednym konkretnym modelem i szukaj tych, którzy nadążają za postępem AI, zwłaszcza będąc niezależnymi od LLM . W końcu konkretne modele przychodzą i odchodzą: GPT-3 miał swój dzień w słońcu, a potem stał się przeżytkiem. Obecnie istnieje wiele opcji, zarówno dobrze znanych, takich jak GPT-4 i Claude, jak i mniej znanych, takich jak GPT-NeoX , FLAN i modele dostrojone.

To pragnienie skupienia się na przepływie pracy jest powodem, dla którego w Finetune projektujemy modele AI, aby pasowały do pracy, którą muszą wspierać. Gdy tylko rozpoczynamy pracę z klientem, nasz zespół ds. pomiarów zbiera kluczowe artefakty, aby opisać, zorganizować i ustalić priorytety kluczowych konstrukcji dla ich ocen oraz wzorców projektowych wymaganych do ich pomiaru. W rezultacie powstaje ustrukturyzowany zestaw specyfikacji testów i elementów, co umożliwia naszym naukowcom zajmującym się sztuczną inteligencją włączenie tego do procesu opracowywania modelu. Przed wydaniem zespoły ds. pomiarów i sztucznej inteligencji przechodzą przez kilka iteracji zapewniania jakości, aby potwierdzić, że wyniki modelu testują prawidłowe konstrukcje na odpowiednich poziomach złożoności poznawczej oraz że elementy są zgodne zarówno z wytycznymi dotyczącymi pisania testów , jak i najlepszymi praktykami w zakresie oceny .

Umieść człowieka w centrum pętli

Podczas gdy wielu oddaje deklaratywne przysługi wartości danych wejściowych użytkownika, niewielu faktycznie to realizuje. Eksperci przedmiotowi (SME) powinni być równymi partnerami w rozwoju modelu, obok naukowców zajmujących się danymi i innych interesariuszy. Ponadto walidacja nie powinna kończyć się na wdrożeniu. LLM, takie jak GPT-4, przestają się uczyć po początkowym szkoleniu, więc twórcy aplikacji muszą opracować sposoby, aby dać użytkownikowi kontrolę i nadążać za jego potrzebami. Nawet w terenie modele AI powinny być stale udoskonalane, aby mieć pewność, że użytkownik zawsze jest na miejscu kierowcy.

Na przykład informacje zwrotne od MŚP pomagają nam określić, które konstrukcje powinny być mierzone przez treści generowane przez AI, z którymi częściami treści potrzebują pomocy najbardziej, co stanowi wysoką jakość i jak model poprawia się z czasem. Regularnie spotykamy się z klientami w trakcie tworzenia modelu, aby omówić postępy i obszary wymagające poprawy oraz uzyskać informacje zwrotne od MŚP. Ponadto dzięki funkcji, którą nazywamy Learn , MŚP mogą oznaczać najlepsze elementy generowane przez AI, przekazując je z powrotem do koła zamachowego samodoskonalenia AI. Zamiast stawać się nieaktualnymi, dzięki informacjom zwrotnym od MŚP Twoje modele mogą z czasem stawać się lepsze.

Buduj zaufanie poprzez przejrzystość

Bez przejrzystości, jak można ufać wynikom LLM? Te modele są często nieprzejrzyste i podatne na składanie pewnych fałszywych oświadczeń. Każde narzędzie obsługiwane przez LLM powinno mieć wbudowane możliwości śledzenia wyników modelu z powrotem do zaufanego źródła. Co więcej, potrzeba zaufania wykracza poza zaufanie do systemu AI, obejmując zaufanie do bezpieczeństwa danych i prywatności.

To zaufanie było dla nas bardzo ważne. W przypadku Generate zmotywowało nas do zbudowania funkcji, takich jak wyszukiwanie referencji wspomagane przez AI i możliwość generowania bezpośrednio z materiałów referencyjnych. Podobnie w przypadku naszego produktu do tagowania AI, Catalog, musieliśmy opracować metody, dzięki którym nasze systemy AI będą podejmować decyzje dotyczące tagowania systematycznie i z wyjaśnieniami, w tym podziałem Rationale i Catalog Score. Podobnie jak zaufany ludzki SME, który przypisuje tag, powinien być w stanie wyjaśnić proces myślowy stojący za decyzją, tak samo powinien zrobić zaufany system AI. Jeśli chodzi o bezpieczeństwo i prywatność danych, opracowywane przez nas modele są izolowane na podstawie klienta i są dostrajane wyłącznie do danych od tego klienta. W ten sposób modele mogą poznać tajniki tego, jak konkretny klient wykonuje swoją pracę, bez obawy o wyciek.

Wniosek

Oprócz niezwykłych jakościowych ulepszeń, z których LLM-y korzystały w ostatnich miesiącach, równie zdumiewające były ulepszenia w zakresie dostępności. Weszliśmy w erę, w której wiedza specjalistyczna w zakresie AI nie stanowi już bariery wejścia w interakcję z LLM-ami. To powiedziawszy, różnica między interakcją z LLM-em a stworzeniem wysokiej jakości produktu z LLM-em jest tak wyraźna, jak różnica między posiadaniem patelni a dostarczaniem 5-gwiazdkowego doświadczenia kulinarnego na dużą skalę: to drugie jest możliwe tylko dzięki zespołowi oddanych ekspertów wdrażających zasadniczy projekt skoncentrowany wokół doświadczenia użytkownika.

W Finetune zalecamy trzy proste — ale naszym zdaniem konieczne — zasady, których powinny przestrzegać wszystkie produkty — nie tylko Generate lub Catalog — jeśli chcą skutecznie wykorzystać moc LLM. Projektując dla przepływu pracy, a nie dla AI , zapewnia się, że jakość doświadczenia użytkownika jest priorytetem ponad atrakcyjnością rynkową dowolnego LLM, który akurat jest popularny w danym dniu. Skupiając się na człowieku w pętli , uznaje się, że niezależnie od mocy konkretnego LLM, wiedza specjalistyczna MŚP jest zawsze wymagana do wykorzystania LLM na dużą skalę. Budując wiarygodność poprzez przejrzystość , okazuje się szacunek dla klienta, kładąc nacisk na przejrzystość zarówno w podejmowaniu decyzji LLM, jak i bezpieczeństwie danych. Pod każdą z tych zasad kryje się centralny temat: LLM — podobnie jak każdy model AI — jest narzędziem. W Finetune jesteśmy dumni nie tylko z naszej wiedzy specjalistycznej w zakresie sztucznej inteligencji i pomiarów, ale także z blisko trzyletniego doświadczenia w wykorzystywaniu tych potężnych narzędzi sztucznej inteligencji w celu zapewnienia użytkownikom wysokiej jakości obsługi: zaprojektowanej tak, aby wzmacniać , a nie zastępować wiedzę specjalistyczną naszych klientów.