Af Charles Foster og Jesse Hamer

Indledning

Siden 2021 har vi hos Finetune set potentialet i Large Language Models (LLM'er) til at transformere den måde, fagfolk inden for uddannelse og vurdering arbejder på. Det dramatiske fremskridt i dette rum har betydet, at koncepter kan gå fra et forskningslegetøj den ene uge til et viralt produkt den næste.

Det var da ingen overraskelse at se, hvor begejstret responsen på ChatGPT var: i en demo forstod alle, at vi står på tærsklen til noget fantastisk. Givet den nuværende spænding og usikkerhed, kan man undre sig: hvordan passer Finetune Generate ind i dette landskab? Hvis jeg bare kunne bede en generisk chatbot om at skrive for mig, hvorfor skulle jeg så have brug for noget andet?

Vi kan godt lide at tænke på store sprogmodeller som grundmodeller : AI-systemer, hvis omfattende og forskelligartede træning lader dem fungere som grundlaget for en bred vifte af brugssager. Nogle få organisationer, herunder Anthropic, EleutherAI og OpenAI (udvikleren af ChatGPT) træner disse gigantiske modeller og gør dem tilgængelige for andre at bruge. Men selve modellerne er blot basislaget: de har meget større potentiale, når de er vævet ind i et større system, skræddersyet til en specifik anvendelse. Ligesom andre generelle teknologier som f.eks. nettet, kan det tage en hel generation af forskere og iværksættere at bygge systemer oven på det, før det kan realisere sit potentiale. I et interview med Ezra Klein udtrykte OpenAI CEO Sam Altman en lignende følelse:

Det, jeg tror, vi ikke er de bedste i verden til, og heller ikke ønsker at aflede vores opmærksomhed [fra], er alle de vidunderlige produkter, der vil blive bygget oven på [store sprogmodeller]. Og så tænker vi på vores rolle med at finde ud af, hvordan man bygger de mest dygtige AI-systemer i verden og derefter gør dem tilgængelige for enhver, der følger vores regler for at bygge alle disse systemer oven på dem.

Altman, 2023

Ved at kombinere LLM'er med mere traditionelle teknologier som vidensbaser og human-in-the-loop-grænseflader kan vi skabe modne teknologistacks eller generative applikationer , der giver os mulighed for at frigøre LLM'ernes muligheder for at skabe smarte værktøjer inden for alle mulige applikationsområder . Generate og ChatGPT er to tidlige eksempler på disse.

Med denne ramme i tankerne, lad os sammenligne ChatGPT og Finetune Generate som generative applikationer, begge bygget på GPT-3, ud fra et produktudviklingssynspunkt.

Designmål

Både ChatGPT og Finetune Generate er beregnet til at give en mere intuitiv grænseflade, så brugere kan interagere med generative modeller som GPT-3. Derudover er de to applikationer ret forskellige. OpenAI har en mission om at bygge sikre, generelle AI-systemer til alle og byggede ChatGPT for at give den brede offentlighed en forsmag på, hvad sprogmodeller er i stand til at gøre med naturligt sprog, og for at fungere som en sandkasse for bygherrer til at teste nye ideer.

Hos Finetune var vores mål med Generate ikke primært at bygge nye generelle systemer, men snarere at bygge de bedste, selvom vi engagerer os i det bredere forskningsmiljø omkring innovationer i sprogmodeller (se vores samarbejde med OpenAI om forbedringer af semantisk søgning). værktøj muligt til AI-assisteret vareskrivning. Derfor er Generate bygget specifikt med vareskribenter i tankerne, omkring deres bedste praksis, sprog og arbejdsgange. Alle vores designbegrænsninger var baseret på engagement med en lang række tidlige brugere. Hver Generate-model, som vi bygger, er designet til at afspejle den unikke struktur i hver vurdering og giver brugeren de specifikke kontroller, der er nødvendige for deres opgave. Desuden kan hele teams af vareskribenter samarbejde om at udvikle elementer ved hjælp af Generate, med indbygget funktionalitet for at tillade administration af tilladelser og struktureret eksport til formater som QTI.

Specificitet

Store sprogmodeller gennemgår en indledende træningsfase kaldet fortræning , hvor de i en lang session lærer fra millioner af sider fra nettet, bøger og andre kilder. På grund af hvor dyr beregningen af at lære fra disse input er, bliver deres viden typisk fastgjort på plads bagefter. Da det er en tynd dialogindpakning oven på GPT-3, har ChatGPT ligeledes en fast vidensbase, som ikke kan ændres. Hvis f.eks. en tekniker ville have hjælp til et eller andet proprietært system, ville en sådan model sandsynligvis ikke være nyttig for dem, fordi modellen ikke har nogen mulighed for at lære nyt emne.

Finetunes partnere kører spektret fra K-12 til videregående uddannelse til licensering og certificering og spænder over en bred vifte af domæner.

Som sådan er det afgørende for os, at de modeller, vi bygger til dem, skal lære af deres unikke indhold – også selvom indholdet er højt specialiseret eller nyt – og skal kunne opdateres med nye materialer, efterhånden som de bliver tilgængelige .

For at gøre dette muligt har vores AI R&D-team forfinet vores egne metoder til effektivt at inkorporere ny viden i sprogmodeller og målrette dem til de specifikke retningslinjer for en vurdering. Desuden lærer Generate dynamisk over tid for bedre at målrette emner til det specifikke indhold og stilen i hver kundes opgaver. I løbet af dette år planlægger vi at udrulle adskillige flere funktioner, der vil fortsætte med at forbedre kontrollerbarheden og tilpasningsevnen af vores modeller, fra nøglesætningsmålretning til finmasket kontrol over kognitiv kompleksitet og videre.

Sikkerhed

Som en eksperimentel demo er ChatGPT beregnet til at fremkalde feedback om, hvordan folk interagerer med sprogmodeller, så OpenAI kan forbedre den grundlæggende teknologi, der understøtter dets API'er. På grund af dette, når brugere taler med ChatGPT, gemmes disse interaktioner og kan finde vej til fremtidige træningsdatasæt for at hjælpe med at træne den næste generation af modeller. Det betyder, at hvis du udvikler et vurderingselement med ChatGPT, kan fremtidige modeller vide om det eller have lært det udenad, hvilket potentielt afslører dine elementer og elementstil på måder, du ikke havde til hensigt, hvilket risikerer deres sikkerhed.

Sikkerhed er en central bekymring inden for produktudvikling.

Generate holder varer sikret, afskærmet, hvor hver kunde kun har adgang til deres modeller .

Selv inden for en enkelt kunde kan brugere begrænses til kun at få adgang til specifikke genererede elementer. Med Generate er kunderne altid ejere af de varer, de producerer, uanset om de bare prøver en indledende model eller har taget værktøjet til sig i stor skala.

Tillid & Support

Meget af det, der gør det vanskeligt at bruge en LLM produktiv, er, at det grundlæggende er tilfældigt : Stil det samme spørgsmål to gange, og det vil give dig to forskellige svar. Dette strider imod, hvad vi normalt forventer af vores værktøjer: Vi regner med, at de er pålidelige. Dette fører til et af de mest vedvarende problemer med ChatGPT og med andre LLM-værktøjer, nemlig at det er svært at stole på deres output, når du ikke ved, hvorfor disse output blev valgt. Var det baseret på kendsgerninger, som modellen genkalder, eller løgnagtigheder, modellen opstod, eller endda plagieret fra en ukendt kilde?

Standarderne for tillid inden for uddannelse og vurdering er høje, meget højere end for casual chatbots. Kunder vil gerne vide, at varer, de producerer gennem Generate, virkelig er nye, er baseret på deres egne materialer og er gyldige.

Vores målings- og AI R&D-teams arbejder sammen med hver kunde for at skabe modeller, der er skræddersyet til deres behov, og for at inkorporere deres feedback i løbende modelforbedringer .

Vi udfører også manuelle og automatiserede kontroller for at verificere, at forslagene fra Generate stemmer overens med kundens specifikationer. Vi vil snart udrulle en ny funktion, der giver brugerne mulighed for nemt at krydshenvise genererede varer med referencematerialer, så de kan have øjeblikkelig sikkerhed for, at de varer, de producerer, faktisk er jordede.

Konklusion

Dette er en spændende tid, hvor hundredvis af generative applikationer vil blive bygget ud, som alle forfølger forskellige potentielle use cases for LLM'er. Når du udforsker dem som en, der bekymrer sig dybt om kvaliteten af vurdering i uddannelse, certificering og licens, anbefaler vi altid at have følgende spørgsmål i tankerne:

  • Hvem er denne applikation designet til?
  • Er den model, som denne applikation bruger, uddannet specifikt til, hvad min organisation har brug for, herunder vores sikkerhedsbehov?
  • Hvordan vil de data, jeg giver, blive brugt?
  • Ønsker jeg at investere tid og penge i at gøre en rå generel model anvendelig (f.eks. den relevante brugergrænseflade) og stole på af vores emneeksperter (SMV'er) til at blive integreret i vores arbejdsgange og høje indsatser?

Vi er stadig i de tidlige dage af denne dybt imponerende teknologi, men allerede nu er omfanget af kapaciteter, som generative applikationer vil muliggøre på tværs af flere industrier, ved at blive tydeligt. Det samme er forsigtighedsstemmerne udtrykt af Gary Marcus fra NYU og andre.

Hos Finetune er vi meget glade for at fortsætte med at vise flere funktioner i vores tredje år, som vil gøre Generate endnu mere effektiv, endnu mere pålidelig og endnu mere nyttig på tværs af hele lærings- og vurderingslandskabet .