Von Charles Foster und Jesse Hamer
Einführung
Seit 2021 sehen wir bei Finetune das Potenzial von Large Language Models (LLMs), die Arbeitsweise von Fachkräften in den Bereichen Bildung und Bewertung zu verändern. Das rasante Tempo des Fortschritts in diesem Bereich hat dazu geführt, dass Konzepte in der einen Woche von einem Forschungsspielzeug zu einem viralen Produkt in der nächsten werden können.
Es war keine Überraschung, wie begeistert die Reaktion auf ChatGPT war: Schon nach einer Demo wurde jedem klar, dass wir an der Schwelle zu etwas Großem stehen. Angesichts der gegenwärtigen Aufregung und Unsicherheit könnte man sich fragen: Wie passt Finetune Generate in diese Landschaft? Wenn ich einfach einen generischen Chatbot bitten könnte, meine Texte für mich zu schreiben, warum sollte ich dann etwas anderes brauchen?
Wir betrachten Large Language Models gerne als Basismodelle : KI-Systeme, deren umfangreiches und vielfältiges Training sie als Grundlage für eine Vielzahl von Anwendungsfällen dienen lässt. Einige Organisationen, darunter Anthropic, EleutherAI und OpenAI (der Entwickler von ChatGPT), trainieren diese riesigen Modelle und stellen sie anderen zur Verfügung. Aber die Modelle selbst sind nur die Basisschicht: Sie haben ein viel größeres Potenzial, wenn sie in ein größeres System eingebunden werden, das auf eine bestimmte Anwendung zugeschnitten ist. Genau wie bei anderen Allzwecktechnologien wie dem Internet könnte es eine ganze Generation von Forschern und Unternehmern brauchen, die darauf aufbauend Systeme aufbauen, damit es sein Potenzial ausschöpfen kann. In einem Interview mit Ezra Klein drückte OpenAI-CEO Sam Altman eine ähnliche Meinung aus:
Ich denke, wir sind nicht die Besten der Welt und wollen unsere Aufmerksamkeit auch nicht davon abwenden, dass es all die wunderbaren Produkte gibt, die auf [großen Sprachmodellen] basieren. Deshalb denken wir darüber nach, dass unsere Aufgabe darin besteht, herauszufinden, wie wir die leistungsfähigsten KI-Systeme der Welt bauen und sie dann jedem zur Verfügung stellen können, der unsere Regeln befolgt, um all diese Systeme darauf aufzubauen.
Altman, 2023
Durch die Kombination von LLMs mit traditionelleren Technologien wie Wissensdatenbanken und Human-in-the-Loop-Schnittstellen können wir ausgereifte Technologie-Stacks oder generative Anwendungen erstellen, mit denen wir die Fähigkeiten von LLMs nutzen können, um intelligente Tools in allen möglichen Anwendungsbereichen zu erstellen. Generate und ChatGPT sind zwei frühe Beispiele hierfür.
Lassen Sie uns vor diesem Hintergrund ChatGPT und Finetune Generate als generative Anwendungen, die beide auf GPT-3 basieren, aus der Sicht der Artikelentwicklung vergleichen.
Designziele
Sowohl ChatGPT als auch Finetune Generate sollen Benutzern eine intuitivere Schnittstelle für die Interaktion mit generativen Modellen wie GPT-3 bieten. Darüber hinaus sind die beiden Anwendungen recht unterschiedlich. OpenAI hat die Mission, sichere, universelle KI-Systeme für alle zu entwickeln, und hat ChatGPT entwickelt, um der breiten Öffentlichkeit einen Vorgeschmack darauf zu geben, was Sprachmodelle mit natürlicher Sprache leisten können, und um Entwicklern als Sandbox zum Ausprobieren neuer Ideen zu dienen.
Obwohl wir bei Finetune mit der breiteren Forschungsgemeinschaft zu Innovationen bei Sprachmodellen zusammenarbeiten (siehe unsere Zusammenarbeit mit OpenAI zur Verbesserung der semantischen Suche), bestand unser Ziel mit Generate nicht in erster Linie darin, neue Allzwecksysteme zu entwickeln, sondern vielmehr darin, das bestmögliche Tool für das KI-gestützte Schreiben von Aufgaben zu entwickeln. Aus diesem Grund wurde Generate speziell für Aufgabenschreiber entwickelt, basierend auf ihren Best Practices, ihrer Sprache und ihren Arbeitsabläufen. Alle unsere Designbeschränkungen basierten auf der Zusammenarbeit mit einer Vielzahl von Early Adopters. Jedes von uns erstellte Generate-Modell ist so konzipiert, dass es die einzigartige Struktur jeder Bewertung widerspiegelt und dem Benutzer die spezifischen Steuerelemente bietet, die er für seine Aufgabe benötigt. Darüber hinaus können ganze Teams von Aufgabenschreibern mit Generate an der Entwicklung von Aufgaben zusammenarbeiten, mit integrierten Funktionen zur Berechtigungsverwaltung und zum strukturierten Export in Formate wie QTI.
Spezifität
Große Sprachmodelle durchlaufen eine anfängliche Trainingsphase, das sogenannte Vortraining , in der sie in einer langen Sitzung aus Millionen von Seiten aus dem Internet, aus Büchern und anderen Quellen lernen. Da das Lernen aus diesen Eingaben sehr aufwändig ist, ist ihr Wissen danach normalerweise fest vorgegeben. Da es sich bei ChatGPT um einen dünnen Dialog-Wrapper auf GPT-3 handelt, verfügt es ebenfalls über eine feste Wissensbasis, die nicht geändert werden kann. Wenn beispielsweise ein Techniker Hilfe zu einem proprietären System benötigt, wäre ein solches Modell für ihn wahrscheinlich nicht hilfreich, da das Modell keine Möglichkeit hat, neue Themen zu erlernen.
Die Partner von Finetune decken das gesamte Spektrum von der Grundschule bis zur Hochschulbildung sowie Lizenzierung und Zertifizierung ab und decken eine große Bandbreite an Domänen ab.
Daher ist es für uns von entscheidender Bedeutung, dass die Modelle, die wir für sie erstellen, aus ihren einzigartigen Inhalten lernen – selbst wenn diese Inhalte hochspezialisiert oder neuartig sind – und mit neuen Materialien aktualisierbar sind, sobald diese verfügbar sind .
Um dies zu ermöglichen, hat unser KI-Forschungs- und Entwicklungsteam unsere eigenen Methoden verfeinert, um neues Wissen effizient in Sprachmodelle zu integrieren und sie auf die spezifischen Richtlinien einer Bewertung auszurichten. Darüber hinaus lernt Generate im Laufe der Zeit dynamisch, um Elemente besser auf den spezifischen Inhalt und Stil der Aufgaben jedes Kunden auszurichten. Im Laufe dieses Jahres planen wir, mehrere weitere Funktionen einzuführen, die die Steuerbarkeit und Anpassungsfähigkeit unserer Modelle weiter verbessern werden, von der Ausrichtung auf Schlüsselphrasen bis hin zur feinkörnigen Kontrolle der kognitiven Komplexität und darüber hinaus.
Sicherheit
Als experimentelle Demo soll ChatGPT Feedback dazu erhalten, wie Menschen mit Sprachmodellen interagieren, damit OpenAI die grundlegende Technologie hinter seinen APIs verbessern kann. Wenn Benutzer mit ChatGPT sprechen, werden diese Interaktionen daher gespeichert und können in zukünftige Trainingsdatensätze einfließen, um die nächste Generation von Modellen zu trainieren. Das bedeutet, dass, wenn Sie mit ChatGPT ein Bewertungselement entwickeln, zukünftige Modelle davon wissen oder es auswendig gelernt haben könnten, wodurch Ihre Elemente und Ihr Elementstil möglicherweise auf eine Weise offengelegt werden, die Sie nicht beabsichtigt haben, und ihre Sicherheit gefährdet wird.
Sicherheit ist ein zentrales Anliegen bei der Artikelentwicklung.
Generate bewahrt die Elemente sicher und abgeschirmt auf, sodass jeder Kunde nur auf seine Modelle zugreifen kann .
Sogar innerhalb eines einzelnen Kunden kann der Zugriff auf bestimmte generierte Elemente beschränkt werden. Mit Generate sind Kunden immer Eigentümer der von ihnen erstellten Elemente, unabhängig davon, ob sie nur ein erstes Modell ausprobieren oder das Tool bereits in großem Maßstab eingeführt haben.
Vertrauen und Unterstützung
Was die produktive Nutzung eines LLMs erschwert, ist vor allem, dass es grundsätzlich zufällig ist: Stellen Sie ihm dieselbe Frage zweimal, und Sie erhalten zwei verschiedene Antworten. Dies widerspricht dem, was wir normalerweise von unseren Tools erwarten: Wir verlassen uns darauf, dass sie zuverlässig sind. Dies führt zu einem der hartnäckigsten Probleme mit ChatGPT und anderen LLM-Tools, nämlich dass es schwer ist, ihren Ergebnissen zu vertrauen, wenn Sie nicht wissen, warum diese Ergebnisse ausgewählt wurden. Basierten sie auf Fakten, an die sich das Modell erinnert, oder auf Unwahrheiten, die das Modell erfunden hat, oder wurden sie sogar aus einer unbekannten Quelle plagiiert?
Die Standards für Vertrauen in Bildung und Bewertung sind hoch, viel höher als bei normalen Chatbots. Kunden möchten wissen, dass die von ihnen über Generate erstellten Artikel wirklich neuartig sind, auf ihren eigenen Materialien basieren und gültig sind.
Unsere Forschungs- und Entwicklungsteams für Messung und künstliche Intelligenz arbeiten mit jedem Kunden zusammen, um auf seine Bedürfnisse zugeschnittene Modelle zu erstellen und sein Feedback in laufende Modellverbesserungen einfließen zu lassen .
Wir führen auch manuelle und automatisierte Prüfungen durch, um sicherzustellen, dass die Vorschläge von Generate den Kundenspezifikationen entsprechen. Wir werden in Kürze eine neue Funktion einführen, mit der Benutzer generierte Elemente problemlos mit Referenzmaterialien abgleichen können, sodass sie sofort sicher sein können, dass die von ihnen erstellten Elemente auf Fakten basieren.
Abschluss
Dies ist eine spannende Zeit, in der Hunderte generativer Anwendungen entwickelt werden, die alle unterschiedliche potenzielle Anwendungsfälle für LLMs verfolgen. Wenn Sie sich als jemand, dem die Qualität der Bewertung in Ausbildung, Zertifizierung und Lizenzierung sehr am Herzen liegt, mit diesen Anwendungen befassen, empfehlen wir Ihnen, immer die folgenden Fragen im Hinterkopf zu behalten:
- Für wen ist diese Anwendung gedacht?
- Ist das von dieser Anwendung verwendete Modell speziell auf die Anforderungen meiner Organisation, einschließlich unserer Sicherheitsanforderungen, trainiert?
- Wie werden die von mir angegebenen Daten verwendet?
- Möchte ich Zeit und Geld investieren, um ein grobes Allzweckmodell nutzbar zu machen (z. B. die entsprechende Benutzeroberfläche) und es auf die Vertrauenswürdigkeit unserer Fachexperten (SMEs) zu stützen, damit es in unseren Arbeitsablauf und wichtige Anwendungsfälle integriert werden kann?
Wir befinden uns noch in der Anfangsphase dieser äußerst beeindruckenden Technologie, aber schon jetzt wird deutlich, welche Möglichkeiten generative Anwendungen in zahlreichen Branchen eröffnen werden. Das gilt auch für die warnenden Stimmen von Gary Marcus von der NYU und anderen.
Wir bei Finetune freuen uns sehr, auch im dritten Jahr weitere Funktionen vorstellen zu können, die Generate noch leistungsfähiger, zuverlässiger und im gesamten Lern- und Bewertungsbereich noch hilfreicher machen.