Af Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta og Safat Siddiqui

Indledning

I de seneste måneder har vi været vidne til en eksplosion af interesse for store sprogmodeller (LLM'er) såsom GPT-4 og for, hvordan Finetune udnytter teknologien. Alle er på udkig: etablerede teams, der ønsker at teste nye teknologier, nye startups, der ønsker at omdanne forskning til transformative produkter, og fly-by-night-operatører, der ønsker at tjene en hurtig penge i denne guldfeber. Men med denne eksplosion af interesse ser vi også en eksplosion af forvirring. Folk spørger: "Hvordan navigerer jeg i dette nye terræn?", "Hvad skal jeg være opmærksom på?", "Hvordan kan jeg få reel værdi ud af dette teknologiske paradigmeskifte?"

Efter at have arbejdet med LLM'er siden længe før hypen, vil vi gerne tilbyde lidt klarhed. Vi har set, hvor kraftfulde værktøjer, der integrerer denne teknologi, kan være. Gennem fortræning på millioner af sider med tekst for at lære komplekse konceptuelle sammenhænge plus yderligere, mere detaljeret vejledning (gennem metoder som "finjustering", "forstærkende læring på menneskelig feedback" og "hurtig konstruktion"), kan transformatormodeller gøres brugbare til alle mulige opgaver. Men hvad der ofte er en overraskende erkendelse for nytilkomne i rummet, er, at det faktisk ikke er let at gøre LLM'er nyttige til at udføre rigtigt arbejde, især på områder, hvor kvalitet tæller .

En principiel tilgang

Hos Finetune har vi i flere år udnyttet LLM'er til at øge vores partneres indholdsgenerering og tagging-arbejdsgange. Gennem disse partnerskaber og gennem de hårde lektioner, der følger med oplevelsen i den virkelige verden, har vi fundet ud af, at teknologien er mest virkningsfuld, når den kombineres med en principiel ramme. At gøre det rigtigt , i stedet for blot at gøre det hurtigt, er det vigtige.

Hvorfor ikke bare gøre det på den nemme måde? Sig, at du bare beder GPT-4 om at komponere en ny "Shakespearesk" sonet eller skrive et testspørgsmål om et bestemt emne. Ved første øjekast vil output ofte virke acceptabelt. Men husk: disse modeller fungerer som dygtige efterlignere. Kig forbi overfladen af den sonnet, og du vil se en hul kerne: de fleste af Shakespeares underliggende overbevisninger, intellekt og holdning er fuldstændig udeladt. På samme måde skal du inspicere det testspørgsmål, og du vil se store problemer: ingen opmærksomhed på nogen underliggende konstruktion eller til, hvordan man optimalt kan sample domænet for at understøtte slutninger om færdigheder , eller til noget formål , der driver testen. Kort sagt mangler den psykometrisk validitet!

For at indbygge validitet og alt det andet, som fagfolk i vores branche ønsker, er man nødt til at gå ud over den rå sprogmodel gennem en syntese mellem måle- og læringsvidenskab, psykometri og AI .

Her er nogle kerneprincipper for, hvordan denne syntese ser ud:

  1. Design til arbejdsgangen, ikke til AI
  2. Centrer mennesket i løkken
  3. Opbyg troværdighed gennem gennemsigtighed

Design til arbejdsgangen, ikke til AI

Blot at have en LLM integreret i en applikation er ikke nok: fokus skal være på at give brugeren de AI-værktøjer, der bedst understøtter deres arbejde. Vær på vagt over for udbydere, der kan prale af en integration med én bestemt model, og opsøg dem, der holder trit med AI-fremskridt, især ved at være LLM-agnostiske . Når alt kommer til alt, kommer bestemte modeller og går: GPT-3 havde sin dag i solen, og så var det gammel hat. I dag er der et væld af muligheder, både velkendte som GPT-4 og Claude, og mindre kendte som GPT-NeoX , FLAN og finjusterede modeller.

Dette ønske om at fokusere på arbejdsgangen er grunden til, at vi hos Finetune har designet AI-modeller, så de passer til det arbejde, de skal understøtte. Så snart vi begynder at arbejde med en kunde, indsamler vores måleteam nøgleartefakter for at beskrive, organisere og prioritere nøglekonstruktionerne til deres vurderinger og de designmønstre, der kræves for at måle dem. Dette resulterer i et struktureret sæt af test- og emnespecifikationer, der gør det muligt for vores AI-forskere at inkorporere dette i modeludviklingsprocessen. Før udgivelsen gennemgår Måling- og AI-teamene adskillige iterationer af kvalitetssikring for at bekræfte, at modeloutput tester de korrekte konstruktioner på de passende niveauer af kognitiv kompleksitet , og at emnerne overholder både retningslinjer for testskrivning og bedste praksis i vurderingen .

Centrer mennesket i løkken

Mens mange taler mundheld om værdien af brugerinput, er det få, der rent faktisk lever det ud. Fageksperter (SMV'er) bør være ligeværdige partnere i modeludvikling sammen med dataforskere og andre interessenter. Desuden bør validering ikke stoppe ved udrulning. LLM'er som GPT-4 holder op med at lære efter deres indledende træning, så applikationsudviklere skal udvikle måder at give brugeren kontrol og holde trit med deres brugeres behov. Selv ude i marken bør AI-modeller få løbende forbedringer for at sikre, at brugeren altid er i førersædet.

For eksempel hjælper feedback fra SMV'er os med at bestemme, hvilke konstruktioner der skal måles ved AI-genereret indhold, hvilke dele af indholdet de har mest brug for hjælp til, hvad der udgør høj kvalitet, og hvordan modellen forbedres over tid. Vi mødes regelmæssigt med kunder under modelopbygningen for at diskutere fremskridt og forbedringsområder og for at indhente SMV-feedback. Med en funktion, vi kalder Learn , er SMV'er også i stand til at markere de bedste AI-genererede genstande og føre dem tilbage til AI-selvforbedrende svinghjul. I stedet for at blive forældet, kan dine modeller gennem SMV-feedback blive bedre med tiden.

Opbyg troværdighed gennem gennemsigtighed

Uden gennemsigtighed, hvordan kan du stole på outputtet fra en LLM? Disse modeller er ofte uigennemsigtige og tilbøjelige til at komme med sikre falske udsagn. Ethvert LLM-understøttet værktøj bør have indbyggede funktioner til at spore modeloutput tilbage til en pålidelig kilde. Desuden går behovet for tillid ud over tillid til AI-systemet, og omfatter tillid til datasikkerhed og privatliv.

Denne tillid har været meget vigtig for os. For Generate motiverede det os til at bygge funktioner som AI-assisteret referenceopslag og muligheden for at lave generering direkte fra referencematerialer. Ligeledes var vi på vores AI-tagging-produkt, Catalog, nødt til at udvikle metoder til at få vores AI-systemer til at tage tagging-beslutninger systematisk og med forklaringer, herunder en begrundelse og katalogscore. Ligesom en betroet menneskelig SMV, der tildeler et tag, bør være i stand til at forklare tankeprocessen bag beslutningen, bør et betroet AI-system også. På datasikkerheds- og privatlivsfronten er de modeller, vi udvikler, isoleret på kundebasis og er kun indstillet på data fra den pågældende kunde. På den måde kan modellerne lære ins og outs af, hvordan en specifik kunde udfører deres arbejde, uden frygt for lækage.

Konklusion

Bortset fra de bemærkelsesværdige kvalitative forbedringer, som LLM'er har haft i de seneste måneder, har forbedringerne af tilgængelighed været lige så forbløffende. Vi er gået ind i en æra, hvor AI-ekspertise ikke længere er en adgangsbarriere for interaktion med LLM'er. Når det er sagt, er forskellen mellem at interagere med en LLM og at bygge et kvalitetsprodukt med en LLM lige så stor som forskellen mellem at have en stegepande og levere en 5-stjernet madoplevelse i stor skala: Sidstnævnte er kun muligt med et team af dedikerede eksperter, der implementerer et principielt design centreret omkring brugeroplevelse.

Hos Finetune anbefaler vi tre enkle – men vi mener dog nødvendige – principper, som ethvert produkt – ikke kun Generer eller Katalog – bør overholde, hvis de ønsker at udnytte kraften i LLM'er effektivt. Ved at designe til workflowet, i stedet for AI , sikrer man, at kvaliteten af brugeroplevelsen prioriteres over omsætteligheden af den LLM, der tilfældigvis har hype på den pågældende dag. Ved at centrere mennesket i løkken , anerkender man, at uanset styrken af den særlige LLM, er SMV'ens ekspertise altid påkrævet for at udnytte LLM'er i stor skala. Ved at opbygge troværdighed gennem gennemsigtighed viser man respekt for kunden ved at lægge vægt på gennemsigtighed i både LLM-beslutningstagning og datasikkerhed. Under hvert af disse principper er et centralt tema: at en LLM – som enhver AI-model – er et værktøj. Hos Finetune er vi stolte af ikke kun vores ekspertise inden for AI og måling, men også af vores næsten tre års erfaring med at udnytte disse kraftfulde AI-værktøjer for at levere en brugeroplevelse af høj kvalitet: en designet til at forstærke , snarere end at erstatte, vores kunders ekspertise.