Szerző : Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta és Safat Siddiqui

Bevezetés

Az elmúlt hónapokban a nagy nyelvi modellek (LLM-ek), például a GPT-4 és a Finetune technológiai hasznosítása iránti érdeklődés robbanásszerű növekedésének lehettünk tanúi. Mindenki résen van: bevett csapatok, akik a feltörekvő technológiát szeretnék kipróbálni, feltörekvő startupok, akik a kutatást átalakuló termékekké kívánják alakítani, és az éjszakai szolgáltatók, akik gyorsan szeretnének pénzt keresni ebben az aranylázban. Ezzel a robbanásszerű érdeklődéssel azonban a zűrzavar robbanását is látjuk. Az emberek azt kérdezik: „Hogyan tudok eligazodni ezen az új terepen?”, „Mire kell figyelnem?”, „Hogyan hozhatok ki valódi értéket ebből a technológiai paradigmaváltásból?”

Mivel jóval a hírverés előtt dolgoztunk LLM-ekkel, szeretnénk egy kis világosságot adni. Láttuk, milyen hatékony eszközök lehetnek, amelyek integrálják ezt a technológiát. Az összetett fogalmi asszociációk elsajátítása érdekében több millió oldalas szöveg előképzése, valamint további, részletesebb útmutatás (például „finomhangolás”, „megerősített tanulás az emberi visszajelzés alapján” és „azonnali tervezés”) révén a transzformátormodellek hasznossá válnak mindenféle feladathoz. Az újoncok számára azonban gyakran meglepő felismerés az, hogy az LLM-eket ténylegesen hasznossá tenni a valódi munka elvégzéséhez nem könnyű, különösen azokon a területeken, ahol a minőség számít .

Elvi megközelítés

A Finetune-nál több éve kihasználjuk az LLM-eket, hogy bővítsük partnereink tartalomgeneráló és címkézési munkafolyamatait. Ezeken a partnerségeken és a valós tapasztalatokkal járó kemény leckéken keresztül azt találtuk, hogy a technológia akkor a leghatékonyabb, ha egy elvi keretrendszerrel kombináljuk. Az a fontos, hogy jól csináld , és ne csak gyorsan csináld .

Miért nem csinálod a legegyszerűbb módon? Tegyük fel, hogy csak megkéri a GPT-4-et egy új „shakespeare-i” szonette megalkotására, vagy írjon egy tesztkérdést egy adott témában. Első pillantásra a kimenet gyakran elfogadhatónak tűnik . De ne feledje: ezek a modellek ügyes megszemélyesítőként viselkednek. Nézzen túl a szonett felületén, és egy üreges magot fog látni: Shakespeare mögöttes hiedelmek, intellektusa és attitűdök többsége teljesen kimarad. Hasonlóképpen vizsgálja meg a tesztkérdést, és látni fogja a főbb problémákat: nem fordítanak figyelmet semmilyen mögöttes konstrukcióra , vagy arra, hogyan lehet optimálisan mintát venni a tartományból a jártasságra vonatkozó következtetések támogatása érdekében , vagy a teszt bármely más céljára . Összegezve, hiányzik a pszichometriai érvényesség!

Annak érdekében, hogy az érvényességet és minden mást beépítsünk, amit iparágunk szakemberei akarnak, túl kell lépnünk a nyers nyelvi modellen a mérési és tanulási tudomány, a pszichometria és a mesterséges intelligencia szintézisén keresztül .

Íme néhány alapelv, hogy hogyan néz ki ez a szintézis:

  1. Tervezés a munkafolyamathoz, nem az AI-hoz
  2. Középre állítsa az embert a hurokban
  3. Építsd meg a megbízhatóságot az átláthatóság révén

Tervezés a munkafolyamathoz, nem az AI-hoz

Nem elég csupán egy alkalmazásba integrálni az LLM-et: a hangsúlyt arra kell helyezni, hogy a felhasználó a munkáját legjobban támogató AI-eszközöket biztosítsa. Legyen óvatos azokkal a szolgáltatókkal, amelyek egy adott modellel integrálódnak, és keressenek olyan szolgáltatókat, amelyek lépést tartanak a mesterséges intelligencia fejlődésével, különösen azáltal, hogy LLM-agnosztikusak . Végül is bizonyos modellek jönnek és mennek: a GPT-3 napsütéses napja volt, aztán régi kalap volt. Manapság rengeteg opció áll rendelkezésre, mind a jól ismert, mint a GPT-4 és a Claude, mind a kevésbé ismertek, mint a GPT-NeoX , a FLAN és a finomhangolt modellek.

Ez a vágy, hogy a munkafolyamatra összpontosítsunk, az oka annak, hogy a Finetune-nál olyan mesterséges intelligencia-modelleket terveztünk, amelyek megfelelnek az általuk támogatott munkának. Amint megkezdjük a munkát egy ügyféllel, mérési csapatunk összegyűjti a kulcsfontosságú műtermékeket, hogy leírja, rendszerezze és rangsorolja az értékeléshez szükséges kulcsfontosságú konstrukciókat és a mérésükhöz szükséges tervezési mintákat. Ennek eredménye egy strukturált teszt- és tételspecifikáció, amely lehetővé teszi AI-tudósaink számára, hogy ezt beépítsék a modellfejlesztési folyamatba. A kiadás előtt a Measurement & AI csapatok számos minőségbiztosítási iteráción mennek keresztül, hogy megbizonyosodjanak arról, hogy a modell kimenetei a megfelelő konstrukciókat tesztelik a kognitív komplexitás megfelelő szintjén , és hogy az elemek megfelelnek a tesztírási irányelveknek és az értékelés bevált gyakorlatainak .

Középre állítsa az embert a hurokban

Míg sokan szájról beszélnek a felhasználói input értékére, kevesen élik meg ezt. A téma szakértőinek (kkv-knak) egyenrangú partnereknek kell lenniük a modellfejlesztésben, az adattudósok és más érdekelt felek mellett. Ezenkívül az érvényesítés nem állhat meg a telepítésnél. Az LLM-ek, mint például a GPT-4, a kezdeti betanítás után abbahagyják a tanulást, ezért az alkalmazásfejlesztőknek olyan módszereket kell kidolgozniuk, amelyek segítségével a felhasználó kezébe adhatják az irányítást, és lépést kell tartaniuk felhasználóik igényeivel. Az AI-modelleket még a terepen is folyamatosan fejleszteni kell, hogy a felhasználó mindig a vezetőülésben üljön.

Például a kkv-k visszajelzései segítenek meghatározni, hogy milyen konstrukciókat kell mérni a mesterséges intelligencia által generált tartalommal, a tartalom mely részeihez van leginkább szükségük segítségre, mi számít jó minőségnek, és hogyan javul a modell idővel. Rendszeresen találkozunk az ügyfelekkel a modellépítés során, hogy megvitassuk az előrehaladást és a fejlesztendő területeket, és kérjünk visszajelzést a kkv-któl. Ezenkívül az általunk Learn nek nevezett funkcióval a kkv-k megjelölhetik a legjobb mesterséges intelligencia által generált elemeket, és visszaadhatják őket a mesterséges intelligencia önfejlesztő lendkerékébe. Ahelyett, hogy elhasználódnának, a kkv-k visszajelzései révén a modellek idővel jobbá válhatnak.

Építsd meg a megbízhatóságot az átláthatóság révén

Átláthatóság nélkül hogyan bízhat meg egy LLM eredményében? Ezek a modellek gyakran átláthatatlanok, és hajlamosak magabiztos hamis állításokra. Minden LLM által támogatott eszköznek beépített képességekkel kell rendelkeznie a modell kimeneteinek megbízható forráshoz való visszakövetésére. Ezenkívül a bizalom szükségessége túlmutat az AI-rendszerbe vetett bizalomon, és magában foglalja az adatbiztonságba és a magánéletbe vetett bizalmat is.

Ez a bizalom nagyon fontos volt számunkra. A Generate esetében ez arra sarkallt bennünket, hogy olyan funkciókat építsünk ki, mint az AI által támogatott referenciakeresés és a közvetlenül referenciaanyagokból történő generálás lehetősége. Hasonlóképpen az AI címkézési termékünknél, a Katalógusnál is olyan módszereket kellett kidolgoznunk, amelyek segítségével mesterséges intelligenciarendszereink szisztematikusan és magyarázatokkal hoznak címkézési döntéseket, beleértve az indoklást és a katalógus pontszámok lebontását. Ahogyan egy megbízható emberi kkv-nak, aki címkét rendel hozzá, meg kell tudnia magyarázni a döntés mögött meghúzódó gondolkodási folyamatot, úgy egy megbízható mesterséges intelligencia rendszernek is. Az adatbiztonság és az adatvédelem terén az általunk kifejlesztett modellek ügyfelenkénti alapon vannak elkülönítve, és csak az adott ügyféltől származó adatokra hangolódnak. Így a modellek megtanulhatják a csínját-bínját egy adott ügyfél munkájának anélkül, hogy félnének a szivárgástól.

Következtetés

Eltekintve azoktól a figyelemreméltó minőségi javulásoktól, amelyekben az LLM-ek az elmúlt hónapokban részesültek, az akadálymentesítés terén elért javulás ugyanilyen megdöbbentő volt. Egy olyan korszakba léptünk, ahol a mesterséges intelligencia szakértelem már nem akadálya az LLM-ekkel való együttműködésnek . Ennek ellenére a különbség az LLM-mel való együttműködés és a minőségi termék LLM-mel való készítése között éppoly szembetűnő, mint a különbség a serpenyő birtoklása és a nagyszabású, 5 csillagos étkezési élmény között: ez utóbbi csak egy elkötelezett csapattal lehetséges. szakértők, akik a felhasználói élményre összpontosító elvi tervezést valósítanak meg.

A Finetune-nál három egyszerű – de úgy gondoljuk, hogy szükséges – elvet ajánlunk, amelyeket minden terméknek – nem csak a generálásnak vagy a katalógusnak – be kell tartania, ha hatékonyan ki akarja használni az LLM-ek erejét. Az AI helyett a munkafolyamathoz való tervezéssel biztosítható, hogy a felhasználói élmény minősége elsőbbséget élvezzen azon LLM piacképességénél, amely az adott napon felkapott LLM-nek. Azáltal, hogy az embert a hurokba helyezzük , elismerjük, hogy az adott LLM erejétől függetlenül a KKV szakértelmére mindig szükség van az LLM-ek nagyarányú kihasználásához. Az átláthatóságon keresztüli megbízhatóság kiépítésével az ügyfél tiszteletét tanúsítja azáltal, hogy hangsúlyozza az átláthatóságot mind az LLM-döntéshozatalban, mind az adatbiztonságban. Ezen alapelvek mindegyike alatt egy központi téma található: az LLM – mint minden AI-modell – egy eszköz. A Finetune-nál nem csak a mesterséges intelligencia és a mérés terén szerzett szakértelmünkre vagyunk büszkék, hanem arra is, hogy közel három éves tapasztalattal rendelkezünk ezeknek a hatékony AI-eszközöknek a kiaknázása terén, hogy kiváló minőségű felhasználói élményt nyújthassunk. ügyfeleink szakértelme.