Von Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta und Safat Siddiqui

Einführung

In den letzten Monaten haben wir ein explosionsartig gestiegenes Interesse an großen Sprachmodellen (LLMs) wie GPT-4 und an der Art und Weise, wie Finetune diese Technologie nutzt, erlebt. Alle sind auf der Suche: etablierte Teams, die neue Technologien testen wollen, aufstrebende Startups, die ihre Forschung in bahnbrechende Produkte umsetzen wollen, und unseriöse Unternehmen, die bei diesem Goldrausch das schnelle Geld machen wollen. Mit diesem explosionsartigen Interesse erleben wir jedoch auch eine explosionsartige Zunahme der Verwirrung. Die Leute fragen: „Wie bewege ich mich in diesem neuen Terrain?“, „Worauf sollte ich achten?“, „Wie kann ich aus diesem technologischen Paradigmenwechsel einen echten Nutzen ziehen?“

Da wir schon lange vor dem Hype mit LLMs gearbeitet haben, möchten wir hier Klarheit schaffen. Wir haben gesehen, wie leistungsfähig Tools sein können, die diese Technologie integrieren. Durch Vortraining anhand von Millionen von Textseiten zum Erlernen komplexer konzeptioneller Zusammenhänge sowie zusätzlicher, detaillierterer Anleitung (durch Methoden wie „Feintuning“, „bestärkendes Lernen anhand von menschlichem Feedback“ und „Prompt Engineering“) können Transformer-Modelle für alle möglichen Aufgaben nützlich gemacht werden. Neulinge in diesem Bereich werden jedoch oft überrascht feststellen, dass es nicht einfach ist, LLMs für die tatsächliche Arbeit nützlich zu machen, insbesondere in Bereichen, in denen es auf Qualität ankommt .

Ein prinzipieller Ansatz

Bei Finetune nutzen wir seit mehreren Jahren LLMs, um die Workflows unserer Partner zur Inhaltserstellung und Tagging zu verbessern. Durch diese Partnerschaften und die harten Lektionen, die wir aus der Praxis mitnehmen, haben wir herausgefunden, dass die Technologie am wirkungsvollsten ist, wenn sie mit einem prinzipiellen Rahmen kombiniert wird. Es kommt darauf an, es richtig zu machen , und nicht nur schnell .

Warum machen Sie es sich nicht einfach so leicht? Nehmen wir an, Sie bitten GPT-4, ein neues „Shakespeare-Sonett“ zu verfassen oder eine Prüfungsfrage zu einem bestimmten Thema zu schreiben. Auf den ersten Blick scheint das Ergebnis oft akzeptabel. Aber denken Sie daran: Diese Modelle verhalten sich wie geschickte Imitatoren. Wenn Sie hinter die Oberfläche dieses Sonetts blicken, sehen Sie einen hohlen Kern: Die meisten der zugrunde liegenden Überzeugungen, der Intellekt und die Einstellung Shakespeares werden völlig außer Acht gelassen. Und wenn Sie sich diese Prüfungsfrage genauer ansehen, werden Sie große Probleme feststellen: Es wird weder auf irgendwelche zugrunde liegenden Konstrukte geachtet, noch darauf, wie man den Bereich optimal abtasten könnte , um Rückschlüsse auf die Kompetenz zu stützen , noch auf irgendeinen Zweck , der dem Test zugrunde liegt. Kurz gesagt: Es fehlt ihm an psychometrischer Validität!

Um Gültigkeit und alles andere, was die Fachleute unserer Branche wünschen, einzubauen, muss man über das reine Sprachmodell hinausgehen und eine Synthese zwischen Mess- und Lernwissenschaft, Psychometrie und KI herstellen .

Hier sind einige Kernprinzipien dieser Synthese:

  1. Entwerfen Sie für den Workflow, nicht für die KI
  2. Den Menschen in den Mittelpunkt stellen
  3. Vertrauen durch Transparenz schaffen

Entwerfen Sie für den Workflow, nicht für die KI

Es reicht nicht aus, einfach ein LLM in eine Anwendung zu integrieren: Der Fokus muss darauf liegen, dem Benutzer die KI-Tools bereitzustellen, die seine Arbeit optimal unterstützen. Seien Sie vorsichtig bei Anbietern, die mit einer Integration mit einem bestimmten Modell werben, und suchen Sie nach Anbietern, die mit dem KI-Fortschritt Schritt halten, insbesondere indem sie LLM-agnostisch sind. Schließlich kommen und gehen bestimmte Modelle: GPT-3 hatte seine große Zeit und war dann Schnee von gestern. Heute gibt es eine Fülle von Optionen, sowohl bekannte wie GPT-4 und Claude als auch weniger bekannte wie GPT-NeoX , FLAN und fein abgestimmte Modelle.

Dieser Wunsch, sich auf den Arbeitsablauf zu konzentrieren, ist der Grund, warum wir bei Finetune KI-Modelle so entwickeln, dass sie zu der Arbeit passen, die sie unterstützen müssen. Sobald wir mit einem Kunden zu arbeiten beginnen, sammelt unser Messteam wichtige Artefakte, um die wichtigsten Konstrukte für seine Bewertungen und die zu ihrer Messung erforderlichen Designmuster zu beschreiben, zu organisieren und zu priorisieren. Das Ergebnis ist ein strukturierter Satz von Test- und Itemspezifikationen, den unsere KI-Wissenschaftler in den Modellentwicklungsprozess integrieren können. Vor der Veröffentlichung durchlaufen die Mess- und KI-Teams mehrere Iterationen der Qualitätssicherung, um zu bestätigen, dass die Modellergebnisse die richtigen Konstrukte auf den entsprechenden Ebenen der kognitiven Komplexität testen und dass die Items sowohl den Richtlinien zum Schreiben von Tests als auch den Best Practices bei der Bewertung entsprechen.

Den Menschen in den Mittelpunkt stellen

Viele betonen zwar nur oberflächlich den Wert von Benutzereingaben, aber nur wenige leben dies auch wirklich. Fachexperten sollten neben Datenwissenschaftlern und anderen Beteiligten gleichberechtigte Partner bei der Modellentwicklung sein. Außerdem sollte die Validierung nicht mit der Bereitstellung aufhören. LLMs wie GPT-4 hören nach dem ersten Training auf zu lernen, daher müssen Anwendungsentwickler Wege finden, dem Benutzer die Kontrolle zu überlassen und mit den Bedürfnissen ihrer Benutzer Schritt zu halten. Auch im Feld sollten KI-Modelle kontinuierlich verbessert werden, um sicherzustellen, dass der Benutzer immer am Steuer sitzt.

Beispielsweise hilft uns das Feedback von KMUs dabei, zu bestimmen, welche Konstrukte anhand von KI-generierten Inhalten gemessen werden sollten, bei welchen Teilen der Inhalte sie am meisten Hilfe benötigen, was hohe Qualität ausmacht und wie sich das Modell mit der Zeit verbessert. Während der gesamten Modellerstellung treffen wir uns regelmäßig mit Kunden, um Fortschritte und Verbesserungsbereiche zu besprechen und um Feedback von KMUs einzuholen. Mit einer Funktion, die wir „ Lernen“ nennen, können KMUs außerdem die besten KI-generierten Elemente kennzeichnen und sie wieder in das Schwungrad der KI-Selbstverbesserung einspeisen. Anstatt zu veralten, können Ihre Modelle durch das Feedback von KMUs mit der Zeit besser werden.

Vertrauen durch Transparenz schaffen

Wie kann man den Ergebnissen eines LLM ohne Transparenz vertrauen? Diese Modelle sind oft undurchsichtig und neigen dazu, selbstbewusste falsche Aussagen zu treffen. Jedes LLM-gestützte Tool sollte über integrierte Funktionen verfügen, um die Modellergebnisse auf eine vertrauenswürdige Quelle zurückzuführen. Darüber hinaus geht das Vertrauensbedürfnis über das Vertrauen in das KI-System hinaus und umfasst auch Vertrauen in Datensicherheit und Datenschutz.

Dieses Vertrauen war für uns sehr wichtig. Für Generate motivierte es uns, Funktionen wie die KI-gestützte Referenzsuche und die Möglichkeit zur Generierung direkt aus Referenzmaterialien zu entwickeln. Ebenso mussten wir für unser KI-Tagging-Produkt Catalog Methoden entwickeln, damit unsere KI-Systeme Tagging-Entscheidungen systematisch und mit Erklärungen treffen, einschließlich einer Aufschlüsselung der Begründung und des Katalog-Scores. So wie ein vertrauenswürdiger menschlicher KMU, der ein Tag zuweist, in der Lage sein sollte, den Denkprozess hinter der Entscheidung zu erklären, sollte dies auch ein vertrauenswürdiges KI-System tun. In Bezug auf Datensicherheit und Datenschutz sind die von uns entwickelten Modelle auf Kundenbasis isoliert und nur auf die Daten dieses Kunden abgestimmt. Auf diese Weise können die Modelle die Arbeitsweise eines bestimmten Kunden im Detail erlernen, ohne dass sie einen Verlust befürchten müssen.

Abschluss

Abgesehen von den bemerkenswerten qualitativen Verbesserungen, die LLMs in den letzten Monaten erfahren haben, waren die Verbesserungen bei der Zugänglichkeit ebenso erstaunlich. Wir sind in eine Ära eingetreten, in der KI-Expertise kein Hindernis mehr für die Interaktion mit LLMs darstellt. Allerdings ist der Unterschied zwischen der Interaktion mit einem LLM und der Entwicklung eines Qualitätsprodukts mit einem LLM so groß wie der Unterschied zwischen einer Bratpfanne und der Bereitstellung eines 5-Sterne-Speiseerlebnisses im großen Maßstab: Letzteres ist nur mit einem Team engagierter Experten möglich, die ein prinzipielles Design umsetzen, bei dem die Benutzererfahrung im Mittelpunkt steht.

Wir bei Finetune empfehlen drei einfache – aber unserer Meinung nach notwendige – Prinzipien, die alle Produkte – nicht nur Generate oder Catalog – einhalten sollten, wenn sie die Leistungsfähigkeit von LLMs effektiv nutzen möchten. Indem man das Design auf den Arbeitsablauf statt auf die KI ausrichtet , stellt man sicher, dass die Qualität des Benutzererlebnisses Vorrang vor der Marktfähigkeit des LLM hat, das gerade angesagt ist. Indem man den Menschen in den Mittelpunkt stellt , erkennt man an, dass unabhängig von der Leistungsfähigkeit des jeweiligen LLMs immer die Expertise des KMU erforderlich ist, um LLMs in großem Maßstab zu nutzen. Indem man Vertrauenswürdigkeit durch Transparenz aufbaut , zeigt man Respekt gegenüber dem Kunden, indem man Transparenz sowohl bei der LLM-Entscheidungsfindung als auch bei der Datensicherheit betont. Jedem dieser Prinzipien liegt ein zentrales Thema zugrunde: dass ein LLM – wie jedes KI-Modell – ein Werkzeug ist. Bei Finetune sind wir nicht nur auf unsere Fachkompetenz im Bereich KI und Messung stolz, sondern auch auf unsere fast dreijährige Erfahrung in der Nutzung dieser leistungsstarken KI-Tools, um eine hochwertige Benutzererfahrung zu bieten, die darauf ausgelegt ist, die Fachkompetenz unserer Kunden zu erweitern und nicht zu ersetzen.