Par Charles Foster et Jesse Hamer

Introduction

Depuis 2021, chez Finetune, nous avons constaté le potentiel des modèles linguistiques à grande échelle (LLM) pour transformer la façon dont les professionnels de l'éducation et de l'évaluation travaillent. Le rythme spectaculaire des progrès dans ce domaine signifie que les concepts peuvent passer d'un jouet de recherche une semaine à un produit viral la semaine suivante.

Il n’était donc pas surprenant de voir à quel point la réponse à ChatGPT était enthousiaste : en une seule démonstration, tout le monde a compris que nous étions au seuil de quelque chose de grand. Compte tenu de l’excitation et de l’incertitude actuelles, on peut se demander : comment Finetune Generate s’intègre-t-il dans ce paysage ? Si je pouvais simplement demander à un chatbot générique d’écrire pour moi, pourquoi aurais-je besoin d’autre chose ?

Nous aimons considérer les grands modèles de langage comme des modèles de base : des systèmes d’IA dont la formation étendue et diversifiée leur permet de servir de base à un large éventail de cas d’utilisation. Quelques organisations, dont Anthropic, EleutherAI et OpenAI (le développeur de ChatGPT), forment ces modèles géants et les mettent à disposition d’autres personnes. Mais les modèles eux-mêmes ne sont que la couche de base : ils ont un potentiel bien plus grand lorsqu’ils sont intégrés dans un système plus vaste, adapté à une application spécifique. Tout comme d’autres technologies à usage général telles que le Web, il faudra peut-être toute une génération de chercheurs et d’entrepreneurs pour construire des systèmes dessus, pour qu’ils réalisent leur potentiel. Dans une interview avec Ezra Klein, le PDG d’OpenAI, Sam Altman, a exprimé un sentiment similaire :

Je pense que nous ne sommes pas les meilleurs au monde, et nous ne voulons pas détourner notre attention de tous les merveilleux produits qui seront construits sur la base de [grands modèles de langage]. Nous pensons donc que notre rôle consiste à déterminer comment construire les systèmes d'IA les plus performants au monde, puis à les mettre à la disposition de quiconque respecte nos règles pour construire tous ces systèmes sur la base de ces systèmes.

Altman, 2023

En combinant les LLM avec des technologies plus traditionnelles comme les bases de connaissances et les interfaces homme-machine, nous pouvons créer des piles technologiques matures, ou des applications génératives , qui nous permettent de libérer les capacités des LLM pour créer des outils intelligents dans toutes sortes de domaines d'application. Generate et ChatGPT en sont deux exemples précoces.

Avec ce cadre en tête, comparons ChatGPT et Finetune Generate en tant qu'applications génératives toutes deux construites sur GPT-3, du point de vue du développement d'articles.

Objectifs de conception

ChatGPT et Finetune Generate ont tous deux pour objectif de fournir une interface plus intuitive aux utilisateurs pour interagir avec des modèles génératifs comme GPT-3. Au-delà de cela, les deux applications sont assez différentes. OpenAI a pour mission de créer des systèmes d'IA sûrs et polyvalents pour tous, et a créé ChatGPT pour donner au grand public un avant-goût de ce que les modèles de langage sont capables de faire avec le langage naturel, et pour servir de bac à sable aux développeurs pour tester de nouvelles idées.

Chez Finetune, bien que nous collaborions avec la communauté de recherche au sens large autour des innovations en matière de modèles de langage (voir notre collaboration avec OpenAI sur les améliorations de la recherche sémantique), notre objectif avec Generate n'était pas principalement de créer de nouveaux systèmes à usage général, mais plutôt de créer le meilleur outil possible pour la rédaction d'éléments assistée par l'IA. C'est pourquoi Generate est conçu spécifiquement pour les rédacteurs d'éléments, autour de leurs meilleures pratiques, de leur langage et de leurs flux de travail. Toutes nos contraintes de conception étaient basées sur l'engagement avec une grande variété d'adopteurs précoces. Chaque modèle Generate que nous construisons est conçu pour refléter la structure unique de chaque évaluation et donne à l'utilisateur les contrôles spécifiques nécessaires à sa tâche. De plus, des équipes entières de rédacteurs d'éléments peuvent collaborer au développement d'éléments à l'aide de Generate, avec des fonctionnalités intégrées permettant la gestion des autorisations et l'exportation structurée dans des formats tels que QTI.

Spécificité

Les grands modèles de langage passent par une phase de formation initiale appelée préformation , au cours de laquelle, au cours d'une longue session, ils apprennent à partir de millions de pages provenant du Web, de livres et d'autres sources. En raison du coût élevé du calcul de l'apprentissage à partir de ces entrées, leurs connaissances sont généralement fixées par la suite. Comme il s'agit d'une enveloppe de dialogue mince au-dessus de GPT-3, ChatGPT dispose également d'une base de connaissances fixe qui ne peut pas être modifiée. Si, par exemple, un technicien avait besoin d'aide concernant un système propriétaire, un tel modèle ne lui serait probablement pas utile, car le modèle n'a aucun moyen d'apprendre de nouveaux sujets.

Les partenaires de Finetune couvrent toute la gamme, de l'enseignement primaire et secondaire à l'enseignement supérieur en passant par l'octroi de licences et la certification, et couvrent une grande variété de domaines.

Il est donc essentiel pour nous que les modèles que nous construisons pour eux apprennent de leur contenu unique, même si ce contenu est hautement spécialisé ou nouveau, et qu’ils puissent être mis à jour avec de nouveaux matériaux dès qu’ils sont disponibles .

Pour rendre cela possible, notre équipe de R&D en IA a peaufiné nos propres méthodes pour intégrer efficacement de nouvelles connaissances dans les modèles linguistiques et les adapter aux directives spécifiques d'une évaluation. De plus, Generate apprend de manière dynamique au fil du temps pour mieux cibler les éléments en fonction du contenu et du style spécifiques des tâches de chaque client. Tout au long de cette année, nous prévoyons de déployer plusieurs autres fonctionnalités qui continueront d'améliorer la contrôlabilité et l'adaptabilité de nos modèles, du ciblage par phrases clés au contrôle précis de la complexité cognitive et au-delà.

Sécurité

En tant que démonstration expérimentale, ChatGPT est censé susciter des commentaires sur la façon dont les gens interagissent avec les modèles linguistiques, afin qu'OpenAI puisse améliorer la technologie fondamentale qui soutient ses API. De ce fait, lorsque les utilisateurs discutent avec ChatGPT, ces interactions sont stockées et peuvent être intégrées dans de futurs ensembles de données de formation, pour aider à former la prochaine génération de modèles. Cela signifie que si vous développez un élément d'évaluation avec ChatGPT, les futurs modèles peuvent le connaître ou l'avoir mémorisé, exposant potentiellement vos éléments et le style de vos éléments d'une manière que vous n'aviez pas prévue, mettant ainsi en péril leur sécurité.

La sécurité est une préoccupation majeure dans le développement d’articles.

Generate conserve les articles sécurisés, cloisonnés, chaque client accédant uniquement à ses modèles .

Même au sein d'un même client, les utilisateurs peuvent être limités à l'accès à des éléments générés spécifiques. Avec Generate, les clients sont toujours propriétaires des éléments qu'ils produisent, qu'ils testent simplement un modèle initial ou qu'ils aient adopté l'outil à grande échelle.

Confiance et soutien

L'une des difficultés majeures à utiliser un LLM est qu'il est fondamentalement aléatoire : posez-lui la même question deux fois et il vous donnera deux réponses différentes. Cela va à l'encontre de ce que nous attendons habituellement de nos outils : nous comptons sur leur fiabilité. Cela conduit à l'un des problèmes les plus persistants de ChatGPT et d'autres outils LLM, à savoir qu'il est difficile de faire confiance à leurs résultats lorsque vous ne savez pas pourquoi ces résultats ont été choisis. Étaient-ils basés sur des faits que le modèle rappelle, ou sur des faussetés inventées par le modèle, voire plagiées à partir d'une source invisible ?

Les normes de confiance dans le domaine de l'éducation et de l'évaluation sont élevées, bien plus élevées que pour les chatbots occasionnels. Les clients veulent savoir que les éléments qu'ils produisent via Generate sont vraiment nouveaux, qu'ils sont basés sur leurs propres matériaux et qu'ils sont valides.

Nos équipes de R&D en mesure et en IA travaillent avec chaque client pour créer des modèles adaptés à leurs besoins et pour intégrer leurs commentaires dans les améliorations continues des modèles .

Nous effectuons également des contrôles manuels et automatisés pour vérifier que les suggestions de Generate correspondent aux spécifications du client. Nous allons bientôt déployer une nouvelle fonctionnalité qui permettra aux utilisateurs de facilement croiser les éléments générés avec des documents de référence, afin qu'ils puissent avoir l'assurance immédiate que les éléments qu'ils produisent sont fondés sur des faits.

Conclusion

Nous vivons une période passionnante au cours de laquelle des centaines d’applications génératives seront développées, chacune visant à répondre à différents cas d’utilisation potentiels pour les LLM. Lorsque vous les explorez en tant que personne soucieuse de la qualité de l’évaluation dans l’éducation, la certification et l’octroi de licences, nous vous recommandons de toujours garder à l’esprit les questions suivantes :

  • À qui s'adresse cette application ?
  • Le modèle utilisé par cette application est-il spécifiquement formé pour répondre aux besoins de mon organisation, y compris nos besoins en matière de sécurité ?
  • Comment les données que je fournis seront-elles utilisées ?
  • Est-ce que je souhaite investir du temps et de l'argent pour créer un modèle brut à usage général utilisable (par exemple, l'interface utilisateur appropriée) et auquel nos experts en la matière (PME) font confiance pour être intégré dans notre flux de travail et dans notre cas d'utilisation à enjeux élevés ?

Nous n’en sommes qu’aux prémices de cette technologie extrêmement impressionnante, mais l’étendue des possibilités que les applications génératives permettront à de nombreux secteurs d’activité commence déjà à se faire sentir. C’est également le cas des voix prudentes exprimées par Gary Marcus de l’Université de New York et d’autres.

Chez Finetune, nous sommes très heureux de continuer à présenter davantage de fonctionnalités au cours de notre troisième année qui rendront Generate encore plus performant, encore plus fiable et encore plus utile dans l'ensemble du paysage de l'apprentissage et de l'évaluation .