Por Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta y Safat Siddiqui
Introducción
En los últimos meses, hemos sido testigos de una explosión de interés en los grandes modelos de lenguaje (LLM, por sus siglas en inglés) como GPT-4 y en cómo Finetune está aprovechando la tecnología. Todo el mundo está atento: equipos establecidos que buscan probar tecnología emergente, empresas emergentes en ascenso que buscan convertir la investigación en productos transformadores y operadores efímeros que buscan ganar dinero rápido en esta fiebre del oro. Sin embargo, con esta explosión de interés, también estamos viendo una explosión de confusión. La gente se pregunta: "¿Cómo puedo navegar en este nuevo terreno?", "¿A qué debo prestar atención?", "¿Cómo puedo obtener un valor real de este cambio de paradigma tecnológico?".
Como hemos trabajado con los LLM desde mucho antes de que se popularizaran, nos gustaría ofrecer algunas aclaraciones. Hemos visto lo poderosas que pueden ser las herramientas que integran esta tecnología. Mediante un entrenamiento previo en millones de páginas de texto para aprender asociaciones conceptuales complejas, además de una orientación adicional más granular (a través de métodos como el "ajuste fino", el "aprendizaje de refuerzo en la retroalimentación humana" y la "ingeniería rápida"), los modelos de transformadores pueden resultar útiles para todo tipo de tareas. Pero lo que suele sorprender a los recién llegados al espacio es que , en realidad, hacer que los LLM sean útiles para realizar un trabajo real no es fácil, especialmente en áreas donde la calidad cuenta .
Un enfoque basado en principios
En Finetune, durante varios años hemos aprovechado los LLM para mejorar los flujos de trabajo de etiquetado y generación de contenido de nuestros socios. A través de esas asociaciones y de las lecciones difíciles que nos brinda la experiencia en el mundo real, hemos descubierto que la tecnología tiene mayor impacto cuando se combina con un marco de principios. Hacerlo bien , en lugar de hacerlo rápido, es lo que importa.
¿Por qué no hacerlo de la manera más fácil? Bueno, digamos que le pides a GPT-4 que componga un nuevo soneto “shakesperiano” o que escriba una pregunta de prueba sobre un tema en particular. A primera vista, el resultado a menudo parecerá aceptable. Pero recuerda: estos modelos actúan como imitadores hábiles. Mira más allá de la superficie de ese soneto y verás un núcleo hueco: la mayoría de las creencias, el intelecto y la actitud subyacentes de Shakespeare se omiten por completo. Del mismo modo, inspecciona esa pregunta de prueba y verás problemas importantes: no se presta atención a ningún constructo subyacente, ni a cómo se podría muestrear de manera óptima el dominio para respaldar inferencias de competencia , ni a ningún propósito que impulse la prueba. En resumen, ¡carece de validez psicométrica!
Para incorporar validez y todo lo demás que desean los profesionales de nuestra industria, es necesario ir más allá del modelo de lenguaje puro a través de una síntesis entre la ciencia de la medición y el aprendizaje, la psicometría y la inteligencia artificial .
A continuación se presentan algunos principios básicos de cómo se ve dicha síntesis:
- Diseñe para el flujo de trabajo, no para la IA
- Centrar al ser humano en el ciclo
- Construir confianza a través de la transparencia
Diseñe para el flujo de trabajo, no para la IA
No basta con tener un LLM integrado en una aplicación: el enfoque debe estar en brindarle al usuario las herramientas de IA que mejor respalden su trabajo. Desconfíe de los proveedores que se jactan de una integración con un modelo en particular y busque aquellos que se mantengan al día con el progreso de la IA, especialmente siendo independientes del LLM . Después de todo, los modelos particulares van y vienen: GPT-3 tuvo su momento de gloria y luego pasó a ser cosa del pasado. Hoy en día, hay una gran cantidad de opciones, tanto conocidas como GPT-4 y Claude, como menos conocidas como GPT-NeoX , FLAN y modelos optimizados.
Este deseo de centrarnos en el flujo de trabajo es la razón por la que en Finetune hemos estado diseñando modelos de IA que se adapten al trabajo que necesitan respaldar. Tan pronto como comenzamos a trabajar con un cliente, nuestro equipo de medición recopila artefactos clave para describir, organizar y priorizar los constructos clave para sus evaluaciones y los patrones de diseño necesarios para medirlos. Esto da como resultado un conjunto estructurado de especificaciones de pruebas y elementos, lo que permite a nuestros científicos de IA incorporar esto al proceso de desarrollo del modelo. Antes del lanzamiento, los equipos de medición e IA pasan por varias iteraciones de control de calidad para confirmar que los resultados del modelo prueban los constructos correctos en los niveles apropiados de complejidad cognitiva y que los elementos se adhieren tanto a las pautas de redacción de pruebas como a las mejores prácticas en evaluación .
Centrar al ser humano en el ciclo
Si bien muchos hablan de la importancia de las aportaciones de los usuarios, pocos las ponen en práctica. Los expertos en la materia deberían ser socios en pie de igualdad en el desarrollo de modelos, junto con los científicos de datos y otras partes interesadas. Además, la validación no debe detenerse en la implementación. Los LLM como GPT-4 dejan de aprender después de su capacitación inicial, por lo que los desarrolladores de aplicaciones deben desarrollar formas de dar control al usuario y mantenerse al día con sus necesidades. Incluso en el campo, los modelos de IA deben recibir mejoras continuas para asegurarse de que el usuario siempre esté al mando.
Por ejemplo, los comentarios de los expertos en la materia nos ayudan a determinar qué elementos se deben medir con el contenido generado por IA, en qué partes del contenido necesitan más ayuda, qué constituye una alta calidad y cómo mejora el modelo con el tiempo. Nos reunimos periódicamente con los clientes durante la creación del modelo para analizar el progreso y las áreas de mejora y para solicitar comentarios de los expertos en la materia. Además, con una función que llamamos Learn , los expertos en la materia pueden marcar los mejores elementos generados por IA y reintroducirlos en el ciclo de automejora de la IA. En lugar de quedarse obsoletos, gracias a los comentarios de los expertos en la materia, sus modelos pueden mejorar con el tiempo.
Construir confianza a través de la transparencia
Sin transparencia, ¿cómo se puede confiar en los resultados de un LLM? Estos modelos suelen ser opacos y propensos a hacer afirmaciones falsas y confiables. Cualquier herramienta compatible con LLM debe tener capacidades integradas para rastrear los resultados del modelo hasta una fuente confiable. Además, la necesidad de confianza va más allá de la confianza en el sistema de IA, y abarca la confianza en la seguridad y privacidad de los datos.
Esta confianza ha sido muy importante para nosotros. En el caso de Generate, nos motivó a crear funciones como la búsqueda de referencias asistida por IA y la capacidad de generar directamente a partir de materiales de referencia. Del mismo modo, en nuestro producto de etiquetado de IA, Catalog, tuvimos que desarrollar métodos para que nuestros sistemas de IA tomaran decisiones de etiquetado de forma sistemática y con explicaciones, incluido un desglose de la justificación y la puntuación del catálogo. Así como un experto humano de confianza que asigna una etiqueta debe poder explicar el proceso de pensamiento detrás de la decisión, también lo debería hacer un sistema de IA de confianza. En lo que respecta a la seguridad y privacidad de los datos, los modelos que desarrollamos están aislados por cliente y solo se ajustan a los datos de ese cliente. De esa manera, los modelos pueden aprender los detalles de cómo un cliente específico hace su trabajo, sin temor a fugas.
Conclusión
Además de las notables mejoras cualitativas que han experimentado los LLM en los últimos meses, las mejoras en la accesibilidad han sido igualmente asombrosas. Hemos entrado en una era en la que la experiencia en IA ya no es una barrera de entrada para interactuar con los LLM. Dicho esto, la diferencia entre interactuar con un LLM y crear un producto de calidad con un LLM es tan marcada como la diferencia entre tener una sartén y ofrecer una experiencia gastronómica de 5 estrellas a gran escala: esto último solo es posible con un equipo de expertos dedicados que implementen un diseño basado en principios centrado en la experiencia del usuario.
En Finetune, recomendamos tres principios simples, pero creemos que necesarios, que cualquier producto, no solo Generate o Catalog, debe cumplir si desea aprovechar de manera efectiva el poder de los LLM. Al diseñar para el flujo de trabajo, en lugar de la IA , uno garantiza que la calidad de la experiencia del usuario se priorice por encima de la comercialización de cualquier LLM que tenga publicidad ese día en particular. Al centrar al ser humano en el circuito , uno reconoce que, independientemente del poder del LLM en particular, siempre se requiere la experiencia de la PYME para aprovechar los LLM a escala. Al generar confiabilidad a través de la transparencia , uno demuestra respeto por el cliente al enfatizar la transparencia tanto en la toma de decisiones de LLM como en la seguridad de los datos. Debajo de cada uno de estos principios hay un tema central: que un LLM, como cualquier modelo de IA, es una herramienta. En Finetune, estamos orgullosos no solo de nuestra experiencia en IA y medición, sino también de nuestros casi tres años de experiencia aprovechando estas poderosas herramientas de IA para brindar una experiencia de usuario de alta calidad: diseñada para amplificar , en lugar de reemplazar, la experiencia de nuestros clientes.