Duże modele językowe i rozwój oceny – Finetune Generate, ChatGPT i nie tylko

Autorzy: Charles Foster i Jesse Hamer

Wstęp

Od 2021 r. w Finetune widzieliśmy potencjał Dużych Modeli Językowych (LLM) w zakresie transformacji sposobu pracy profesjonalistów w dziedzinie edukacji i oceny. Dramatyczne tempo postępu w tej przestrzeni oznacza, że koncepcje mogą przejść od zabawki badawczej w jednym tygodniu do wirusowego produktu w następnym.

Nie było więc zaskoczeniem, jak bardzo podekscytowana była reakcja na ChatGPT: w jednej demonstracji wszyscy zrozumieli, że stoimy u progu czegoś wielkiego. Biorąc pod uwagę obecne podekscytowanie i niepewność, można się zastanawiać: jak Finetune Generate wpisuje się w ten krajobraz? Jeśli mogę po prostu poprosić ogólnego chatbota, aby pisał za mnie, po co miałbym potrzebować czegoś innego?

Lubimy myśleć o dużych modelach językowych jako o modelach fundamentowych : systemach AI, których rozległe i różnorodne szkolenie pozwala im działać jako podstawa dla szerokiego zakresu przypadków użycia. Kilka organizacji, w tym Anthropic, EleutherAI i OpenAI (twórca ChatGPT), szkoli te gigantyczne modele i udostępnia je innym do użytku. Ale same modele są jedynie warstwą bazową: mają znacznie większy potencjał, gdy są wplecione w większy system, dostosowany do konkretnej aplikacji. Podobnie jak w przypadku innych technologii ogólnego przeznaczenia, takich jak sieć Web, może być potrzebne całe pokolenie badaczy i przedsiębiorców budujących na nim systemy, aby zrealizować jego potencjał. W wywiadzie z Ezrą Kleinem, dyrektor generalny OpenAI Sam Altman wyraził podobne zdanie:

Myślę, że nie jesteśmy najlepsi na świecie, ani nie chcemy od tego odwracać naszej uwagi [od] wszystkich wspaniałych produktów, które zostaną zbudowane na [dużych modelach językowych]. Dlatego myślimy o naszej roli, aby dowiedzieć się, jak zbudować najzdolniejsze systemy AI na świecie, a następnie udostępnić je każdemu, kto będzie przestrzegał naszych zasad, aby zbudować wszystkie te systemy na ich podstawie.

Altman, 2023

Łącząc LLM z bardziej tradycyjnymi technologiami, takimi jak bazy wiedzy i interfejsy typu „człowiek w pętli”, możemy tworzyć dojrzałe stosy technologiczne lub aplikacje generatywne , które pozwalają nam uwolnić możliwości LLM, aby tworzyć inteligentne narzędzia w różnych obszarach zastosowań. Generate i ChatGPT to dwa wczesne przykłady.

Mając na uwadze te ramy, porównajmy ChatGPT i Finetune Generate jako aplikacje generatywne, obie zbudowane na GPT-3, z punktu widzenia opracowywania elementów.

Cele projektowe

Zarówno ChatGPT, jak i Finetune Generate mają na celu zapewnienie użytkownikom bardziej intuicyjnego interfejsu do interakcji z modelami generatywnymi, takimi jak GPT-3. Poza tym te dwie aplikacje są zupełnie inne. OpenAI ma misję budowania bezpiecznych, uniwersalnych systemów AI dla wszystkich i zbudował ChatGPT, aby dać ogółowi społeczeństwa przedsmak tego, co modele językowe są w stanie zrobić z językiem naturalnym, i aby służyć jako piaskownica dla konstruktorów do testowania nowych pomysłów.

W Finetune, chociaż angażujemy się w szerszą społeczność badawczą wokół innowacji w modelach językowych (zobacz naszą współpracę z OpenAI nad ulepszeniami wyszukiwania semantycznego), naszym celem w Generate nie było przede wszystkim budowanie nowych systemów ogólnego przeznaczenia, ale raczej budowanie najlepszego możliwego narzędzia do pisania elementów wspomaganych przez AI. Dlatego Generate jest tworzony specjalnie z myślą o twórcach elementów, wokół ich najlepszych praktyk, języka i przepływów pracy. Wszystkie nasze ograniczenia projektowe opierały się na zaangażowaniu szerokiej gamy wczesnych użytkowników. Każdy model Generate, który budujemy, jest zaprojektowany tak, aby odzwierciedlał unikalną strukturę każdej oceny i zapewnia użytkownikowi określone elementy sterujące potrzebne do jego zadania. Ponadto całe zespoły twórców elementów mogą współpracować przy rozwijaniu elementów za pomocą Generate, z wbudowaną funkcjonalnością umożliwiającą zarządzanie uprawnieniami i ustrukturyzowany eksport do formatów takich jak QTI.

Specyficzność

Duże modele językowe przechodzą przez początkową fazę szkolenia zwaną pretraining , gdzie w jednej długiej sesji uczą się z milionów stron w sieci, książek i innych źródeł. Ze względu na to, jak kosztowne jest obliczenie uczenia się z tych danych wejściowych, ich wiedza jest zazwyczaj utrwalana na miejscu. Ponieważ jest to cienka powłoka dialogowa na GPT-3, ChatGPT ma podobnie stałą bazę wiedzy, której nie można zmienić. Jeśli na przykład technik chciałby uzyskać pomoc dotyczącą jakiegoś zastrzeżonego systemu, taki model prawdopodobnie nie byłby dla niego pomocny, ponieważ model nie ma możliwości nauczenia się nowego tematu.

Partnerzy Finetune reprezentują szeroki wachlarz dziedzin, od szkół K-12 po szkolnictwo wyższe, a także licencjonowanie i certyfikację.

W związku z tym niezwykle ważne jest dla nas, aby modele, które dla nich tworzymy, uczyły się na podstawie ich unikalnej treści — nawet jeśli ta treść jest wysoce specjalistyczna lub nowatorska — i dawały się aktualizować o nowe materiały w miarę ich pojawiania się .

Aby to umożliwić, nasz zespół ds. badań i rozwoju AI udoskonalił nasze własne metody, aby skutecznie włączać nową wiedzę do modeli językowych i kierować je do konkretnych wytycznych oceny. Co więcej, Generate dynamicznie uczy się z czasem, aby lepiej kierować elementy do konkretnej treści i stylu zadań każdego klienta. W tym roku planujemy wprowadzić kilka kolejnych funkcji, które będą nadal poprawiać sterowalność i adaptowalność naszych modeli, od kierowania frazami kluczowymi po szczegółową kontrolę nad złożonością poznawczą i nie tylko.

Bezpieczeństwo

Jako demo eksperymentalne, ChatGPT ma na celu uzyskanie informacji zwrotnej na temat tego, jak ludzie wchodzą w interakcje z modelami językowymi, aby OpenAI mogło ulepszyć podstawową technologię wspierającą jego API. Z tego powodu, gdy użytkownicy rozmawiają z ChatGPT, te interakcje są przechowywane i mogą trafić do przyszłych zestawów danych szkoleniowych, aby pomóc w szkoleniu następnej generacji modeli. Oznacza to, że jeśli opracujesz element oceny za pomocą ChatGPT, przyszłe modele mogą o nim wiedzieć lub go zapamiętać, potencjalnie ujawniając Twoje elementy i styl elementu w sposób, którego nie zamierzałeś, ryzykując ich bezpieczeństwo.

Bezpieczeństwo jest kluczową kwestią w procesie tworzenia produktu.

Generate zabezpiecza przedmioty, ogrodza je, a każdy klient ma dostęp tylko do swoich modeli .

Nawet w ramach jednego klienta użytkownicy mogą być ograniczeni do dostępu tylko do określonych wygenerowanych elementów. Dzięki Generate klienci są zawsze właścicielami wszystkich elementów, które produkują, niezależnie od tego, czy po prostu testują początkowy model, czy też przyjęli narzędzie na dużą skalę.

Zaufanie i wsparcie

Wiele z tego, co sprawia, że produktywne korzystanie z LLM jest trudne, to fakt, że jest ono zasadniczo losowe : zadaj mu to samo pytanie dwa razy, a otrzymasz dwie różne odpowiedzi. Jest to sprzeczne z tym, czego zwykle oczekujemy od naszych narzędzi: liczymy na ich niezawodność. Prowadzi to do jednego z najbardziej uporczywych problemów z ChatGPT i innymi narzędziami LLM, a mianowicie, że trudno jest zaufać ich wynikom, gdy nie wiesz, dlaczego te wyniki zostały wybrane. Czy opierały się one na faktach, które model przywołuje, czy też na fałszach, które model wymyślił, a może nawet na plagiacie z jakiegoś niewidzialnego źródła?

Standardy zaufania w edukacji i ocenie są wysokie, znacznie wyższe niż w przypadku zwykłych chatbotów. Klienci chcą wiedzieć, że przedmioty, które produkują za pośrednictwem Generate, są naprawdę nowatorskie, oparte na ich własnych materiałach i ważne.

Nasze zespoły ds. pomiarów oraz badań i rozwoju sztucznej inteligencji współpracują z każdym klientem w celu tworzenia modeli dostosowanych do jego potrzeb i uwzględniają jego uwagi w bieżącym udoskonalaniu modeli .

Wykonujemy również ręczne i automatyczne kontrole, aby zweryfikować, czy sugestie Generate są zgodne ze specyfikacjami klienta. Wkrótce wprowadzimy nową funkcję, która umożliwi użytkownikom łatwe porównywanie wygenerowanych elementów z materiałami referencyjnymi, dzięki czemu będą mogli mieć natychmiastową pewność, że tworzone przez nich elementy są oparte na faktach.

Wniosek

To ekscytujący czas, w którym powstaną setki aplikacji generatywnych, wszystkie dążące do różnych potencjalnych przypadków użycia LLM. Gdy je eksplorujesz jako ktoś, kto głęboko troszczy się o jakość oceny w edukacji, certyfikacji i licencjonowaniu, zalecamy, aby zawsze mieć na uwadze następujące pytania:

Dla kogo przeznaczona jest ta aplikacja?
Czy model, z którego korzysta ta aplikacja, został specjalnie przeszkolony pod kątem potrzeb mojej organizacji, w tym również naszych potrzeb w zakresie bezpieczeństwa?
W jaki sposób będą wykorzystane podane przeze mnie dane?
Czy chcę zainwestować czas i pieniądze w stworzenie surowego modelu ogólnego przeznaczenia, który będzie użyteczny (np. odpowiedni interfejs użytkownika) i któremu nasi eksperci merytoryczni (SME) zaufają, że można go zintegrować z naszym przepływem pracy i przypadkami użycia o dużym znaczeniu?

Nadal jesteśmy na wczesnym etapie rozwoju tej niezwykle imponującej technologii, ale już teraz staje się widoczny zakres możliwości, jakie aplikacje generatywne umożliwią w wielu branżach. Podobnie jak głosy ostrożności wyrażone przez Gary'ego Marcusa z NYU i innych.

W Finetune jesteśmy bardzo podekscytowani, że w trzecim roku działalności będziemy mogli zaprezentować kolejne funkcje, dzięki którym Generate stanie się jeszcze wydajniejszy, jeszcze bardziej niezawodny i jeszcze bardziej pomocny w całym środowisku uczenia się i oceniania .