Nagy nyelvi modellek és értékelésfejlesztés – Finetune Generate, ChatGPT és azon túl

Írta: Charles Foster és Jesse Hamer

Bevezetés

2021 óta a Finetune-nál látjuk a nagy nyelvi modellekben (LLM) rejlő lehetőségeket az oktatásban és az értékelésben dolgozó szakemberek munkájának átalakítására. Az ezen a téren elért drámai ütemű fejlődés azt jelentette, hogy a koncepciók egyik héten kutatójátékból, a másikon vírusos termékké válhatnak.

Ekkor nem volt meglepő, hogy milyen izgatott volt a ChatGPT-re adott válasz: az egyik demóban mindenki megértette, hogy valami nagyszerű dolog küszöbén állunk. A jelenlegi izgalom és bizonytalanság ismeretében felmerülhet a kérdés: hogyan illeszkedik a Finetune Generate ebbe a tájba? Ha megkérhetnék egy általános chatbotot, hogy írja meg helyettem, miért lenne szükségem másra?

Szeretjük a nagy nyelvi modelleket alapmodellnek tekinteni: olyan mesterséges intelligencia-rendszereket, amelyek kiterjedt és sokrétű képzése lehetővé teszi, hogy a felhasználási esetek széles körének alapjaként szolgáljanak. Néhány szervezet, köztük az Anthropic, az EleutherAI és az OpenAI (a ChatGPT fejlesztője) képezi ezeket az óriási modelleket, és elérhetővé teszi őket mások számára. Maguk a modellek azonban csupán az alapréteget jelentik: sokkal nagyobb potenciál rejlik bennük, ha egy nagyobb rendszerbe szőve, egy adott alkalmazásra szabják. Csakúgy, mint más általános célú technológiák, például a web, kutatók és vállalkozók egész generációjára lehet szükség, hogy rendszereket építsenek rá, hogy kiaknázza a benne rejlő lehetőségeket. Az OpenAI vezérigazgatója, Sam Altman egy Ezra Kleinnek adott interjújában hasonló érzést fogalmazott meg:

Amiben szerintem nem vagyunk a legjobbak a világon, és nem is akarjuk igazán elterelni a figyelmünket, az mind a csodálatos termékek, amelyek a [nagy nyelvi modellekre] épülnek majd. Így hát elgondolkodunk azon a szerepünkön, hogy kitaláljuk, hogyan építsük fel a világ legtehetősebb mesterségesintelligencia-rendszereit, majd tegyük elérhetővé azokat bárki számára, aki betartja a szabályainkat, hogy az összes rendszert rájuk építhesse.

Altman, 2023

Ha az LLM-eket hagyományosabb technológiákkal, például tudásbázisokkal és humán-in-the-loop felületekkel kombináljuk, kiforrott technológiai halmazokat vagy generatív alkalmazásokat hozhatunk létre, amelyek lehetővé teszik számunkra, hogy szabadjára engedjük az LLM-ek képességeit, hogy intelligens eszközöket hozzanak létre mindenféle alkalmazási területen. . A Generate és a ChatGPT két korai példa erre.

Ezt a keretet szem előtt tartva, hasonlítsuk össze a ChatGPT-t és a Finetune Generate-et mint generatív alkalmazásokat, amelyek a GPT-3-ra épülnek, az elemfejlesztés szempontjából.

Tervezési célok

Mind a ChatGPT, mind a Finetune Generate célja, hogy intuitívabb interfészt biztosítson a felhasználók számára az olyan generatív modellekkel, mint a GPT-3. Ezen túlmenően a két alkalmazás egészen más. Az OpenAI küldetése, hogy mindenki számára biztonságos, általános célú AI-rendszereket építsen, és a ChatGPT-t azért építette meg, hogy a nagyközönség ízelítőt adjon arról, mire képesek a nyelvi modellek a természetes nyelvvel, és homokozóként szolgáljon az építők számára az újdonságok kipróbálásához. ötleteket.

Noha a Finetune-nál együttműködünk a szélesebb kutatói közösséggel a nyelvi modell-innovációkkal kapcsolatban (lásd az OpenAI-val folytatott együttműködésünket a szemantikai keresés fejlesztése terén), a Generate-tel nem elsősorban új általános célú rendszerek építése volt a célunk, hanem a legjobbak építése. eszköz lehetséges az AI által támogatott elemíráshoz. Ezért a Generate kifejezetten a cikkírókat szem előtt tartva, bevált gyakorlataik, nyelvezetük és munkafolyamataik köré épül. Minden tervezési megkötésünk a korai alkalmazók széles körével való együttműködésen alapult. Minden általunk felépített Generate-modell úgy van kialakítva, hogy tükrözze az egyes értékelések egyedi felépítését, és megadja a felhasználónak a feladatához szükséges speciális vezérlőket. Ezen túlmenően, cikkírók egész csapata együttműködhet az elemek fejlesztésében a Generate használatával, amely beépített funkcionalitással teszi lehetővé az engedélykezelést és a strukturált exportálást olyan formátumokba, mint a QTI.

Specificitás

A nagy nyelvi modellek az előképzésnek nevezett kezdeti képzési fázison mennek keresztül, ahol egyetlen hosszú munkamenet során több millió oldalról tanulnak az internetről, könyvekből és más forrásokból. Tekintettel arra, hogy mennyire drága az ezekből a bemenetekből való tanulás kiszámítása, tudásukat jellemzően utólag rögzítik. Mivel ez egy vékony párbeszédburkoló a GPT-3 tetején, a ChatGPT hasonlóan rögzített tudásbázissal rendelkezik, amelyet nem lehet módosítani. Ha mondjuk egy technikus valamilyen szabadalmaztatott rendszerhez szeretne segítséget kérni, akkor egy ilyen modell valószínűleg nem lenne hasznos számára, mert a modell nem tud új tantárgyat tanulni.

A Finetune partnerei a K-12-től a felsőoktatáson át az engedélyezésig és a tanúsításig a skálát irányítják, és a tartományok széles skáláját felölelik.

Mint ilyen, kulcsfontosságú számunkra, hogy a számukra készített modelleknek tanulniuk kell egyedi tartalmukból – még akkor is, ha ez a tartalom nagyon speciális vagy újszerű –, és frissíthetőnek kell lenniük új anyagokkal, amint elérhetővé válnak .

Ennek lehetővé tétele érdekében AI K+F csapatunk finomította saját módszereinket annak érdekében, hogy az új ismereteket hatékonyan beépítsük a nyelvi modellekbe, és azokat az értékelés konkrét irányelveihez igazítsuk. Ezenkívül a Generate idővel dinamikusan megtanulja, hogy az elemeket az egyes ügyfelek feladatainak konkrét tartalmához és stílusához igazítsa. Az idei év során számos további funkció bevezetését tervezzük, amelyek tovább javítják modelljeink irányíthatóságát és alkalmazkodóképességét, a kulcsmondat-célzástól a kognitív komplexitás finom vezérléséig és azon túl.

Biztonság

Kísérleti demóként a ChatGPT célja, hogy visszajelzést kapjon arról, hogy az emberek hogyan kommunikálnak a nyelvi modellekkel, hogy az OpenAI javíthassa az API-it támogató alapvető technológiát. Emiatt, amikor a felhasználók beszélnek a ChatGPT-vel, ezek az interakciók tárolásra kerülnek, és bekerülhetnek a jövőbeli betanítási adatkészletekbe, hogy segítsék a modellek következő generációjának betanítását. Ez azt jelenti, hogy ha értékelőelemet fejleszt ki a ChatGPT-vel, a jövőbeli modellek tudhatnak róla vagy megjegyezték, ami potenciálisan olyan módon kiteheti az elemeit és az elemstílust, ahogyan nem Ön szándékozott, és ezzel kockáztatva a biztonságukat.

A biztonság kulcsfontosságú szempont a cikkfejlesztés során.

A Generate biztonságosan, elfalazva tartja a tárgyakat, és minden ügyfél csak a saját modelljéhez férhet hozzá .

Még egyetlen ügyfélen belül is korlátozható, hogy a felhasználók csak meghatározott generált elemekhez férhessenek hozzá. A Generate segítségével az ügyfelek mindig az általuk gyártott termékek tulajdonosai, függetlenül attól, hogy csak egy kezdeti modellt próbálnak ki, vagy az eszközt széles körben alkalmazzák.

Bizalom és támogatás

Az LLM produktív használatát nagyrészt megnehezíti, hogy alapvetően véletlenszerű : tedd fel kétszer ugyanazt a kérdést, és két különböző választ fog kapni. Ez ellentétes azzal, amit általában elvárunk eszközeinktől: számítunk rájuk, hogy megbízhatóak. Ez az egyik legmaradandóbb problémához vezet a ChatGPT-vel és más LLM-eszközökkel kapcsolatban, nevezetesen, hogy nehéz megbízni a kimeneteikben, ha nem tudjuk , miért választották ezeket a kimeneteket. Tényeken alapult, hogy a modell felidézi, vagy hamisságon, amit a modell kitalált, vagy akár valami láthatatlan forrásból plagizált?

Az oktatáson és értékelésen belüli bizalomra vonatkozó szabványok magasak, sokkal magasabbak, mint az alkalmi chatbotok esetében. Az ügyfelek tudni szeretnék, hogy a Generate szolgáltatáson keresztül általuk előállított termékek valóban újszerűek, saját anyagokon alapulnak és érvényesek.

Mérési és mesterséges intelligencia kutatás-fejlesztési csapataink minden egyes ügyfelünkkel együttműködve az igényeikre szabott modelleket készítenek, és visszajelzéseiket beépítik a modell folyamatos fejlesztésébe .

Manuális és automatikus ellenőrzéseket is végzünk annak ellenőrzésére, hogy a Generate által készített javaslatok megfelelnek-e az ügyfél specifikációinak. Hamarosan bevezetünk egy új funkciót, amely lehetővé teszi a felhasználók számára, hogy könnyen kereszthivatkozhassanak a létrehozott elemekre a referenciaanyagokra, így azonnal megbizonyosodhatnak arról, hogy az általuk gyártott elemek valóban megalapozottak.

Következtetés

Ez egy izgalmas időszak, amikor több száz generatív alkalmazást fognak kiépíteni, amelyek mindegyike az LLM-ek különböző lehetséges felhasználási lehetőségeit keresi. Miközben olyan emberként fedezi fel őket, aki nagyon törődik az értékelés minőségével az oktatásban, a minősítésben és az engedélyezésben, javasoljuk, hogy mindig tartsa szem előtt a következő kérdéseket:

Kinek készült ez az alkalmazás?
Az alkalmazás által használt modell kifejezetten arra lett kiképezve, amire a szervezetemnek szüksége van, beleértve a biztonsági szükségleteinket is?
Hogyan használják fel az általam megadott adatokat?
Szeretnék időt és pénzt fektetni egy nyers általános célú modell használhatóvá tételére (pl. a megfelelő felhasználói felület) és a téma szakértőink (kkv-k) által megbízhatóvá tételére, hogy integrálható legyen a munkafolyamatunkba és a nagy téttel járó használati esetünkbe?

Még mindig ennek a mélyen lenyűgöző technológiának az elején járunk, de már most nyilvánvalóvá válik, hogy a generatív alkalmazások milyen lehetőségeket tesznek lehetővé több iparágban. Ugyanígy az óvatosság hangja is, amelyet Gary Marcus (NYU) és mások is kifejeztek.

A Finetune-nál nagyon izgatottak vagyunk, hogy a harmadik évben is további funkciókat mutatunk be, amelyek a Generate-et még teljesítményesebbé, még megbízhatóbbá és még hasznosabbá teszik az egész tanulási és értékelési környezetben .