Door Charles Foster en Jesse Hamer

Invoering

Sinds 2021 hebben we bij Finetune het potentieel van Large Language Models (LLM's) gezien om de manier waarop professionals in onderwijs en beoordeling werken te transformeren. Het dramatische tempo van vooruitgang op dit gebied heeft ertoe geleid dat concepten de ene week van een onderzoeksspeeltje kunnen veranderen in een viraal product de volgende.

Het was dan ook geen verrassing hoe enthousiast de respons op ChatGPT was: in één demo begreep iedereen dat we op de drempel van iets groots stonden. Gezien de huidige opwinding en onzekerheid, zou je je kunnen afvragen: hoe past Finetune Generate in dit landschap? Als ik gewoon een generieke chatbot kon vragen om mijn schrijfwerk voor me te doen, waarom zou ik dan nog iets anders nodig hebben?

We zien Large Language Models graag als basismodellen : AI-systemen waarvan de uitgebreide en diverse training ze als basis laat dienen voor een breed scala aan use cases. Een paar organisaties, waaronder Anthropic, EleutherAI en OpenAI (de ontwikkelaar van ChatGPT), trainen deze gigantische modellen en maken ze beschikbaar voor anderen om te gebruiken. Maar de modellen zelf vormen slechts de basislaag: ze hebben veel meer potentieel wanneer ze worden verweven in een groter systeem, afgestemd op een specifieke toepassing. Net als andere algemene technologieën zoals het web, kan het een hele generatie onderzoekers en ondernemers kosten om systemen erop te bouwen, voordat het zijn potentieel realiseert. In een interview met Ezra Klein uitte OpenAI CEO Sam Altman een soortgelijk sentiment:

Waar ik denk dat we niet de beste ter wereld in zijn, en waar we onze aandacht ook niet echt van willen afleiden, zijn al die geweldige producten die gebouwd zullen worden op [grote taalmodellen]. En dus denken we na over onze rol om erachter te komen hoe we de meest capabele AI-systemen ter wereld kunnen bouwen en ze vervolgens beschikbaar te maken voor iedereen die onze regels volgt om al deze systemen erop te bouwen.

Altman, 2023

Door LLM's te combineren met meer traditionele technologieën zoals kennisbanken en human-in-the-loop interfaces, kunnen we volwassen technologiestacks of generatieve applicaties creëren, waarmee we de mogelijkheden van LLM's kunnen ontketenen om slimme tools te creëren in allerlei toepassingsgebieden. Generate en ChatGPT zijn twee vroege voorbeelden hiervan.

Met dit framework in gedachten, vergelijken we ChatGPT en Finetune Generate als generatieve applicaties, beide gebouwd op GPT-3, vanuit het standpunt van itemontwikkeling.

Ontwerpdoelen

Zowel ChatGPT als Finetune Generate zijn bedoeld om gebruikers een intuïtievere interface te bieden om te interacteren met generatieve modellen zoals GPT-3. Verder zijn de twee applicaties behoorlijk verschillend. OpenAI heeft als missie om veilige, algemene AI-systemen voor iedereen te bouwen en heeft ChatGPT gebouwd om het grote publiek een voorproefje te geven van wat taalmodellen kunnen doen met natuurlijke taal en om te dienen als een sandbox voor bouwers om nieuwe ideeën uit te testen.

Bij Finetune werken we weliswaar samen met de bredere onderzoeksgemeenschap rondom taalmodelinnovaties (zie onze samenwerking met OpenAI voor verbeteringen aan semantisch zoeken), maar ons doel met Generate was niet primair om nieuwe algemene systemen te bouwen, maar om de best mogelijke tool te bouwen voor AI-ondersteund itemschrijven. Daarom is Generate specifiek gebouwd met itemschrijvers in gedachten, rondom hun best practices, taal en workflows. Al onze ontwerpbeperkingen waren gebaseerd op betrokkenheid bij een breed scala aan early adopters. Elk Generate-model dat we bouwen, is ontworpen om de unieke structuur van elke beoordeling te weerspiegelen en geeft de gebruiker de specifieke controles die nodig zijn voor hun taak. Bovendien kunnen hele teams van itemschrijvers samenwerken aan het ontwikkelen van items met behulp van Generate, met ingebouwde functionaliteit om toestemmingsbeheer en gestructureerde export naar formaten zoals QTI mogelijk te maken.

Specificiteit

Grote taalmodellen doorlopen een eerste trainingsfase, pretraining genaamd, waarin ze in één lange sessie leren van miljoenen pagina's van het web, boeken en andere bronnen. Omdat de berekening van het leren van die invoer zo duur is, wordt hun kennis meestal achteraf vastgelegd. Omdat het een dunne dialoogwrapper is bovenop GPT-3, heeft ChatGPT op dezelfde manier een vaste kennisbank die niet kan worden gewijzigd. Als bijvoorbeeld een technicus hulp wilde met betrekking tot een propriëtair systeem, zou zo'n model waarschijnlijk niet nuttig voor hem zijn, omdat het model geen manier heeft om nieuwe onderwerpen te leren.

De partners van Finetune bestrijken het hele spectrum van basis- en voortgezet onderwijs tot hoger onderwijs en licenties en certificeringen, en zijn actief in een breed scala aan domeinen.

Daarom is het voor ons van cruciaal belang dat de modellen die we voor hen bouwen, leren van hun unieke inhoud, zelfs als die inhoud zeer gespecialiseerd of nieuw is, en dat ze kunnen worden bijgewerkt met nieuw materiaal zodra dit beschikbaar komt .

Om dit mogelijk te maken, heeft ons AI R&D-team onze eigen methoden verfijnd om nieuwe kennis efficiënt in taalmodellen te verwerken en deze te richten op de specifieke richtlijnen van een beoordeling. Bovendien leert Generate dynamisch in de loop van de tijd om items beter te richten op de specifieke inhoud en stijl van de taken van elke klant. Gedurende dit jaar zijn we van plan om nog een aantal functies uit te rollen die de controleerbaarheid en aanpasbaarheid van onze modellen zullen blijven verbeteren, van het targeten van sleutelzinnen tot fijnmazige controle over cognitieve complexiteit en meer.

Beveiliging

Als experimentele demo is ChatGPT bedoeld om feedback te krijgen over hoe mensen omgaan met taalmodellen, zodat OpenAI de fundamentele technologie die zijn API's ondersteunt, kan verbeteren. Hierdoor worden interacties opgeslagen wanneer gebruikers met ChatGPT praten en kunnen ze hun weg vinden naar toekomstige trainingsdatasets, om de volgende generatie modellen te trainen. Dat betekent dat als u een beoordelingsitem ontwikkelt met ChatGPT, toekomstige modellen hiervan op de hoogte kunnen zijn of het hebben onthouden, waardoor uw items en itemstijl mogelijk op manieren worden blootgesteld die u niet had bedoeld, waardoor hun beveiliging in gevaar komt.

Veiligheid is een belangrijk aandachtspunt bij de ontwikkeling van artikelen.

Generate houdt items veilig en afgeschermd, waarbij elke klant alleen toegang heeft tot zijn of haar modellen .

Zelfs binnen één klant kunnen gebruikers worden beperkt tot alleen toegang tot specifieke gegenereerde items. Met Generate zijn klanten altijd de eigenaren van de items die ze produceren, ongeacht of ze een initieel model uitproberen of de tool op grote schaal hebben geadopteerd.

Vertrouwen en ondersteuning

Veel van wat het productief gebruiken van een LLM moeilijk maakt, is dat het fundamenteel willekeurig is: stel dezelfde vraag twee keer en je krijgt twee verschillende antwoorden. Dit gaat in tegen wat we doorgaans van onze tools verwachten: we rekenen erop dat ze betrouwbaar zijn. Dit leidt tot een van de meest hardnekkige problemen met ChatGPT en andere LLM-tools, namelijk dat het moeilijk is om hun outputs te vertrouwen als je niet weet waarom die outputs zijn gekozen. Was het gebaseerd op feiten die het model zich herinnert, of onwaarheden die het model heeft verzonnen, of zelfs geplagieerd uit een onzichtbare bron?

De normen voor vertrouwen binnen onderwijs en beoordeling zijn hoog, veel hoger dan voor casual chatbots. Klanten willen weten dat items die ze produceren via Generate echt nieuw zijn, gebaseerd zijn op hun eigen materialen en geldig zijn.

Onze R&D-teams voor metingen en kunstmatige intelligentie (AI) werken samen met elke klant om modellen te creëren die zijn afgestemd op hun behoeften. Hun feedback wordt verwerkt in voortdurende modelverbeteringen .

We voeren ook handmatige en geautomatiseerde controles uit om te verifiëren dat de suggesties die Generate doet, overeenkomen met de specificaties van de klant. We zullen binnenkort een nieuwe functie uitrollen waarmee gebruikers eenvoudig gegenereerde items kunnen kruisverwijzen met referentiematerialen, zodat ze direct de zekerheid hebben dat de items die ze produceren, feitelijk gegrond zijn.

Conclusie

Dit is een spannende tijd waarin honderden generatieve applicaties worden gebouwd, die allemaal verschillende potentiële use cases voor LLM's nastreven. Terwijl u ze onderzoekt als iemand die veel geeft om de kwaliteit van beoordeling in onderwijs, certificering en licentieverlening, raden we u aan om altijd de volgende vragen in gedachten te houden:

  • Voor wie is deze applicatie bedoeld?
  • Is het model dat deze applicatie gebruikt specifiek getraind voor de behoeften van mijn organisatie, inclusief onze beveiligingsbehoeften?
  • Hoe worden de door mij verstrekte gegevens gebruikt?
  • Wil ik tijd en geld investeren om een ruw, algemeen model bruikbaar te maken (bijvoorbeeld de juiste gebruikersinterface) en te vertrouwen op onze Subject Matter Experts (SMEs), zodat het kan worden geïntegreerd in onze workflow en belangrijke use cases?

We staan nog in de begindagen van deze enorm indrukwekkende technologie, maar de mate van mogelijkheden die generatieve applicaties in meerdere industrieën mogelijk zullen maken, wordt nu al duidelijk. Dat geldt ook voor de waarschuwende stemmen van Gary Marcus van NYU en anderen.

Bij Finetune zijn we erg enthousiast om in ons derde jaar nog meer functies te presenteren die Generate nog beter, betrouwbaarder en nuttiger maken voor het gehele leer- en beoordelingslandschap .