Door Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta en Safat Siddiqui

Invoering

De afgelopen maanden hebben we een explosie van interesse gezien in grote taalmodellen (LLM's) zoals GPT-4 en in hoe Finetune de technologie inzet. Iedereen is op zoek: gevestigde teams die opkomende technologie willen testen, opkomende startups die onderzoek willen omzetten in transformatieve producten en fly-by-night operators die snel geld willen verdienen in deze goudkoorts. Maar met deze explosie van interesse zien we ook een explosie van verwarring. Mensen vragen zich af: "Hoe navigeer ik door dit nieuwe terrein?", "Waar moet ik op letten?", "Hoe kan ik echte waarde halen uit deze technologische paradigmaverschuiving?"

Omdat we al lang voor de hype met LLM's hebben gewerkt, willen we graag wat duidelijkheid bieden. We hebben gezien hoe krachtig tools kunnen zijn die deze technologie integreren. Door middel van pre-training op miljoenen pagina's tekst om complexe conceptuele associaties te leren, plus aanvullende, meer gedetailleerde begeleiding (via methoden als "fine-tuning", "reinforcement learning on human feedback" en "prompt engineering"), kunnen transformermodellen nuttig worden gemaakt voor allerlei taken. Maar wat vaak een verrassende realisatie is voor nieuwkomers in de ruimte, is dat het daadwerkelijk nuttig maken van LLM's voor het doen van echt werk niet eenvoudig is, vooral niet in gebieden waar kwaliteit telt .

Een principiële benadering

Bij Finetune maken we al jaren gebruik van LLM's om de contentgeneratie- en taggingworkflows van onze partners te verbeteren. Door die partnerschappen en door de harde lessen die voortkomen uit echte ervaringen, hebben we ontdekt dat de technologie het meest impactvol is in combinatie met een principieel raamwerk. Het is belangrijk om het goed te doen , in plaats van het alleen maar snel te doen .

Waarom zou je het niet gewoon op de makkelijke manier doen? Nou, stel dat je GPT-4 vraagt om een nieuw "Shakespeareaans" sonnet te schrijven, of om een toetsvraag over een bepaald onderwerp te schrijven. Op het eerste gezicht lijkt de uitkomst vaak acceptabel. Maar vergeet niet: deze modellen gedragen zich als bekwame imitators. Kijk voorbij het oppervlak van dat sonnet en je ziet een holle kern: de meeste onderliggende overtuigingen, het intellect en de houding van Shakespeare zijn volledig weggelaten. Bekijk die toetsvraag ook en je ziet grote problemen: er is geen aandacht besteed aan een onderliggend construct , of aan hoe je het domein optimaal kunt bemonsteren om gevolgtrekkingen van bekwaamheid te ondersteunen , of aan enig doel dat de toets aanstuurt. Kortom, het mist psychometrische validiteit!

Om validiteit en alle andere dingen die professionals in onze sector willen, in te bouwen, moet je verder gaan dan het ruwe taalmodel en een synthese creëren tussen meet- en leerwetenschappen, psychometrie en AI .

Hier zijn enkele kernprincipes van hoe die synthese eruitziet:

  1. Ontwerp voor de workflow, niet voor de AI
  2. Centreer de mens in de lus
  3. Bouw betrouwbaarheid op door transparantie

Ontwerp voor de workflow, niet voor de AI

Alleen een LLM integreren in een applicatie is niet genoeg: de focus moet liggen op het geven van de gebruiker de AI-tools die hun werk het beste ondersteunen. Wees op uw hoede voor aanbieders die bogen op een integratie met één bepaald model en zoek er een die gelijke tred houdt met de AI-voortgang, vooral door LLM-agnostisch te zijn. Bepaalde modellen komen en gaan tenslotte: GPT-3 had zijn tijd in de zon en daarna was het oud nieuws. Tegenwoordig zijn er een schat aan opties, zowel bekende als GPT-4 en Claude, als minder bekende als GPT-NeoX , FLAN en verfijnde modellen.

Deze wens om ons te richten op de workflow is de reden waarom we bij Finetune AI-modellen ontwerpen die passen bij het werk dat ze moeten ondersteunen. Zodra we met een klant aan de slag gaan, verzamelt ons Measurement-team belangrijke artefacten om de belangrijkste constructies voor hun beoordelingen en de ontwerppatronen die nodig zijn om ze te meten, te beschrijven, organiseren en prioriteren. Dit resulteert in een gestructureerde set van test- en itemspecificaties, waardoor onze AI-wetenschappers dit kunnen opnemen in het modelontwikkelingsproces. Vóór de release doorlopen de Measurement & AI-teams verschillende iteraties van kwaliteitsborging om te bevestigen dat de modeluitvoer de juiste constructies test op de juiste niveaus van cognitieve complexiteit , en dat de items voldoen aan zowel richtlijnen voor het schrijven van tests als aan best practices in beoordeling .

Centreer de mens in de lus

Terwijl velen lippendienst bewijzen aan de waarde van gebruikersinput, leven er maar weinigen dat ook echt na. Subject matter experts (SME's) zouden gelijkwaardige partners moeten zijn in de ontwikkeling van modellen, naast datawetenschappers en andere belanghebbenden. Validatie zou ook niet moeten stoppen bij de implementatie. LLM's zoals GPT-4 stoppen met leren na hun eerste training, dus applicatieontwikkelaars moeten manieren ontwikkelen om de gebruiker controle te geven en om bij te blijven met de behoeften van hun gebruikers. Zelfs in het veld zouden AI-modellen voortdurend verbeterd moeten worden, om ervoor te zorgen dat de gebruiker altijd aan het stuur zit.

Feedback van SME's helpt ons bijvoorbeeld te bepalen welke constructies gemeten moeten worden door AI-gegenereerde content, met welke delen van de content ze het meest hulp nodig hebben, wat hoge kwaliteit is en hoe het model in de loop van de tijd verbetert. We ontmoeten klanten regelmatig tijdens het bouwen van het model om de voortgang en verbeterpunten te bespreken en om feedback van SME's te vragen. Ook kunnen SME's met een functie die we Learn noemen de beste AI-gegenereerde items markeren en deze terugvoeren naar het AI-zelfverbeteringsvliegwiel. In plaats van dat ze verouderen, kunnen uw modellen door feedback van SME's in de loop van de tijd beter worden.

Bouw betrouwbaarheid op door transparantie

Hoe kun je de output van een LLM vertrouwen zonder transparantie? Deze modellen zijn vaak ondoorzichtig en geneigd om zelfverzekerde, valse uitspraken te doen. Elke LLM-ondersteunde tool zou ingebouwde mogelijkheden moeten hebben om de modeloutputs terug te leiden naar een vertrouwde bron. Bovendien gaat de behoefte aan vertrouwen verder dan vertrouwen in het AI-systeem, en omvat het vertrouwen in gegevensbeveiliging en privacy.

Dit vertrouwen is erg belangrijk voor ons geweest. Voor Generate motiveerde het ons om functies te bouwen zoals AI-ondersteunde referentieopzoekingen en de mogelijkheid om rechtstreeks vanuit referentiemateriaal te genereren. Op dezelfde manier moesten we voor ons AI-taggingproduct Catalog methoden ontwikkelen om onze AI-systemen systematisch taggingbeslissingen te laten nemen en met uitleg, inclusief een Rationale en Catalog Score-overzicht. Net zoals een vertrouwde menselijke SME die een tag toewijst, het denkproces achter de beslissing zou moeten kunnen uitleggen, geldt dat ook voor een vertrouwd AI-systeem. Op het gebied van gegevensbeveiliging en privacy worden de modellen die we ontwikkelen geïsoleerd op basis van per klant en worden ze alleen afgestemd op de gegevens van die klant. Op die manier kunnen de modellen de ins en outs leren van hoe een specifieke klant zijn werk doet, zonder angst voor lekken.

Conclusie

Afgezien van de opmerkelijke kwalitatieve verbeteringen die LLM's de afgelopen maanden hebben genoten, waren de verbeteringen in toegankelijkheid net zo verbazingwekkend. We zijn een tijdperk binnengegaan waarin AI-expertise niet langer een drempel vormt voor interactie met LLM's. Dat gezegd hebbende, het verschil tussen interactie met een LLM en het bouwen van een kwaliteitsproduct met een LLM is net zo groot als het verschil tussen het hebben van een koekenpan en het leveren van een 5-sterren dinerervaring op schaal: het laatste is alleen mogelijk met een team van toegewijde experts die een principieel ontwerp implementeren dat is gecentreerd rond gebruikerservaring.

Bij Finetune raden we drie eenvoudige - maar naar onze mening noodzakelijke - principes aan waaraan alle producten - niet alleen Generate of Catalog - zich moeten houden als ze de kracht van LLM's effectief willen benutten. Door te ontwerpen voor de workflow, in plaats van de AI , zorgt men ervoor dat de kwaliteit van de gebruikerservaring prioriteit krijgt boven de verkoopbaarheid van welke LLM dan ook die op die specifieke dag hype heeft. Door de mens centraal te stellen in de lus , erkent men dat ongeacht de kracht van de specifieke LLM, de expertise van de MKB-onderneming altijd vereist is om LLM's op schaal te benutten. Door betrouwbaarheid op te bouwen door transparantie , toont men respect voor de klant door transparantie te benadrukken in zowel LLM-besluitvorming als gegevensbeveiliging. Onder elk van deze principes zit een centraal thema: dat een LLM - net als elk AI-model - een hulpmiddel is. Bij Finetune zijn we niet alleen trots op onze expertise op het gebied van AI en metingen, maar ook op onze bijna drie jaar ervaring in het benutten van deze krachtige AI-tools om een hoogwaardige gebruikerservaring te leveren. Een ervaring die is ontworpen om de expertise van onze klanten te versterken in plaats van te vervangen.