Par Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta et Safat Siddiqui
Introduction
Ces derniers mois, nous avons assisté à une explosion d’intérêt pour les grands modèles de langage (LLM) tels que GPT-4 et pour la manière dont Finetune exploite cette technologie. Tout le monde est à l’affût : des équipes établies qui cherchent à tester des technologies émergentes, des startups en pleine croissance qui cherchent à transformer la recherche en produits transformateurs et des opérateurs éphémères qui cherchent à gagner rapidement de l’argent dans cette ruée vers l’or. Cependant, avec cette explosion d’intérêt, nous assistons également à une explosion de confusion. Les gens se demandent : « Comment m’orienter sur ce nouveau terrain ? », « À quoi dois-je faire attention ? », « Comment puis-je tirer une réelle valeur de ce changement de paradigme technologique ? »
Ayant travaillé avec les LLM bien avant le battage médiatique, nous aimerions apporter quelques éclaircissements. Nous avons vu à quel point les outils qui intègrent cette technologie peuvent être puissants. Grâce à une formation préalable sur des millions de pages de texte pour apprendre des associations conceptuelles complexes, ainsi qu'à des conseils supplémentaires plus précis (par des méthodes telles que le « réglage fin », « l'apprentissage par renforcement sur la rétroaction humaine » et « l'ingénierie rapide »), les modèles de transformateurs peuvent être utiles pour toutes sortes de tâches. Mais ce qui est souvent une constatation surprenante pour les nouveaux venus dans le domaine, c'est qu'il n'est pas facile de rendre les LLM utiles pour effectuer un travail réel, en particulier dans les domaines où la qualité compte .
Une approche fondée sur des principes
Chez Finetune, nous utilisons depuis plusieurs années les LLM pour améliorer les flux de production et de balisage de contenu de nos partenaires. Grâce à ces partenariats et aux leçons difficiles qui découlent de l'expérience du monde réel, nous avons constaté que la technologie a plus d'impact lorsqu'elle est associée à un cadre fondé sur des principes. Ce qui compte, c'est de bien faire les choses , plutôt que de simplement les faire vite .
Pourquoi ne pas procéder de la manière la plus simple ? Disons que vous demandez simplement à GPT-4 de composer un nouveau sonnet « shakespearien » ou d’écrire une question de test sur un sujet particulier. À première vue, le résultat semblera souvent acceptable. Mais rappelez-vous : ces modèles agissent comme des imitateurs habiles. Regardez au-delà de la surface de ce sonnet et vous verrez un noyau creux : la plupart des croyances sous-jacentes, de l’intellect et de l’attitude de Shakespeare sont complètement laissés de côté. De même, inspectez cette question de test et vous verrez des problèmes majeurs : aucune attention n’est accordée à une quelconque construction sous-jacente, ou à la manière dont on pourrait échantillonner de manière optimale le domaine pour soutenir les inférences de compétence , ou à tout objectif qui motive le test. En résumé, il manque de validité psychométrique !
Afin de renforcer la validité et tout ce que les professionnels de notre secteur souhaitent, il faut aller au-delà du modèle de langage brut grâce à une synthèse entre la science de la mesure et de l’apprentissage, la psychométrie et l’IA .
Voici quelques principes fondamentaux de ce à quoi ressemble cette synthèse :
- Concevoir pour le flux de travail, pas pour l'IA
- Centrer l'humain dans la boucle
- Renforcer la confiance grâce à la transparence
Concevoir pour le flux de travail, pas pour l'IA
Il ne suffit pas d’intégrer un LLM dans une application : il faut avant tout offrir à l’utilisateur les outils d’IA qui soutiennent au mieux son travail. Méfiez-vous des fournisseurs qui se vantent d’une intégration avec un modèle particulier et recherchez ceux qui suivent les progrès de l’IA, notamment en étant indépendants du LLM . Après tout, les modèles particuliers vont et viennent : GPT-3 a eu son heure de gloire, puis il est devenu obsolète. Aujourd’hui, il existe une multitude d’options, à la fois bien connues comme GPT-4 et Claude, et moins connues comme GPT-NeoX , FLAN et des modèles affinés.
C'est pour cette raison que chez Finetune, nous concevons des modèles d'IA adaptés au travail qu'ils doivent effectuer. Dès que nous commençons à travailler avec un client, notre équipe de mesure collecte des artefacts clés pour décrire, organiser et hiérarchiser les principaux éléments de leurs évaluations et les modèles de conception requis pour les mesurer. Cela donne lieu à un ensemble structuré de spécifications de tests et d'éléments, permettant à nos scientifiques en IA de les intégrer dans le processus de développement du modèle. Avant la publication, les équipes de mesure et d'IA passent par plusieurs itérations d'assurance qualité pour confirmer que les résultats du modèle testent les bonnes constructions aux niveaux appropriés de complexité cognitive et que les éléments adhèrent à la fois aux directives de rédaction des tests et aux meilleures pratiques en matière d'évaluation .
Centrer l'humain dans la boucle
Si beaucoup se félicitent de la valeur des contributions des utilisateurs, rares sont ceux qui en font réellement usage. Les experts en la matière doivent être des partenaires à part entière dans le développement des modèles, aux côtés des data scientists et des autres parties prenantes. En outre, la validation ne doit pas s'arrêter au déploiement. Les LLM comme GPT-4 arrêtent d'apprendre après leur formation initiale, les développeurs d'applications doivent donc développer des moyens de donner le contrôle à l'utilisateur et de répondre aux besoins de ces derniers. Même sur le terrain, les modèles d'IA doivent être continuellement améliorés, pour garantir que l'utilisateur soit toujours aux commandes.
Par exemple, les retours des PME nous aident à déterminer les éléments qui doivent être mesurés par le contenu généré par l’IA, les parties du contenu pour lesquelles elles ont le plus besoin d’aide, ce qui constitue une haute qualité et comment le modèle s’améliore au fil du temps. Nous rencontrons régulièrement les clients tout au long de la création du modèle pour discuter des progrès et des domaines à améliorer et pour solliciter les commentaires des PME. De plus, grâce à une fonctionnalité que nous appelons Learn , les PME sont en mesure de signaler les meilleurs éléments générés par l’IA et de les renvoyer dans le volant d’auto-amélioration de l’IA. Plutôt que de devenir obsolètes, grâce aux commentaires des PME, vos modèles peuvent s’améliorer au fil du temps.
Renforcer la confiance grâce à la transparence
Sans transparence, comment pouvez-vous faire confiance aux résultats d’un LLM ? Ces modèles sont souvent opaques et susceptibles de faire des déclarations fausses et trompeuses. Tout outil compatible avec un LLM doit disposer de capacités intégrées permettant de retracer les résultats du modèle jusqu’à une source fiable. De plus, le besoin de confiance va au-delà de la confiance dans le système d’IA, englobant la confiance dans la sécurité et la confidentialité des données.
Cette confiance a été très importante pour nous. Pour Generate, elle nous a motivés à créer des fonctionnalités telles que la recherche de référence assistée par l’IA et la possibilité de générer directement à partir de documents de référence. De même, sur notre produit de marquage par l’IA, Catalog, nous avons dû développer des méthodes pour que nos systèmes d’IA prennent des décisions de marquage de manière systématique et avec des explications, y compris une répartition des justifications et des scores de catalogue. Tout comme une PME humaine de confiance qui attribue une étiquette doit être en mesure d’expliquer le processus de réflexion derrière la décision, il en va de même pour un système d’IA de confiance. Sur le plan de la sécurité et de la confidentialité des données, les modèles que nous développons sont isolés pour chaque client et ne sont réglés que sur les données de ce client. De cette façon, les modèles peuvent apprendre les tenants et aboutissants de la façon dont un client spécifique fait son travail, sans crainte de fuite.
Conclusion
Outre les remarquables améliorations qualitatives dont ont bénéficié les LLM ces derniers mois, les progrès en matière d’accessibilité ont été tout aussi stupéfiants. Nous sommes entrés dans une ère où l’expertise en IA n’est plus un obstacle à l’interaction avec les LLM. Cela dit, la différence entre interagir avec un LLM et créer un produit de qualité avec un LLM est aussi flagrante que la différence entre avoir une poêle à frire et offrir une expérience culinaire 5 étoiles à grande échelle : cette dernière n’est possible qu’avec une équipe d’experts dédiés mettant en œuvre une conception fondée sur des principes et centrée sur l’expérience utilisateur.
Chez Finetune, nous recommandons trois principes simples, mais que nous considérons comme nécessaires, auxquels tous les produits, et pas seulement Generate ou Catalog, doivent adhérer s’ils veulent exploiter efficacement la puissance des LLM. En concevant en fonction du flux de travail, plutôt que de l’IA , on s’assure que la qualité de l’expérience utilisateur est prioritaire sur la commercialisation de la LLM qui fait fureur ce jour-là. En centrant l’humain dans la boucle , on reconnaît que quelle que soit la puissance de la LLM en question, l’expertise de la PME est toujours nécessaire pour exploiter les LLM à grande échelle. En renforçant la confiance grâce à la transparence , on démontre du respect pour le client en mettant l’accent sur la transparence dans la prise de décision et la sécurité des données. Derrière chacun de ces principes se cache un thème central : un LLM, comme tout modèle d’IA, est un outil. Chez Finetune, nous sommes fiers non seulement de notre expertise en IA et en mesure, mais également de nos près de trois ans d'expérience dans l'exploitation de ces puissants outils d'IA afin d'offrir une expérience utilisateur de haute qualité : conçue pour amplifier , plutôt que remplacer, l'expertise de nos clients.