Por Charles Foster y Jesse Hamer

Introducción

Desde 2021, en Finetune hemos visto el potencial de los modelos de lenguaje extensos (LLM) para transformar la forma en que trabajan los profesionales de la educación y la evaluación. El vertiginoso ritmo de progreso en este ámbito ha hecho que los conceptos pasen de ser un juguete de investigación una semana a un producto viral la siguiente.

No fue una sorpresa ver cuán entusiasmada fue la respuesta a ChatGPT: en una demostración, todos entendieron que estábamos en el umbral de algo grandioso. Dada la emoción e incertidumbre actuales, uno podría preguntarse: ¿cómo encaja Finetune Generate en este panorama? Si pudiera pedirle a un chatbot genérico que escribiera por mí, ¿por qué necesitaría algo más?

Nos gusta pensar en los modelos de lenguaje de gran tamaño como modelos de base : sistemas de IA cuyo entrenamiento extenso y diverso les permite actuar como base para una amplia gama de casos de uso. Algunas organizaciones, entre ellas Anthropic, EleutherAI y OpenAI (el desarrollador de ChatGPT), entrenan estos modelos gigantes y los ponen a disposición de otros para que los utilicen. Pero los modelos en sí mismos son solo la capa base: tienen un potencial mucho mayor cuando se entrelazan en un sistema más grande, adaptado a una aplicación específica. Al igual que otras tecnologías de uso general como la Web, puede que se necesite toda una generación de investigadores y empresarios que construyan sistemas sobre ella para que se haga realidad su potencial. En una entrevista con Ezra Klein, el director ejecutivo de OpenAI, Sam Altman, expresó un sentimiento similar:

En lo que creo que no somos los mejores del mundo, ni queremos desviar nuestra atención, son todos los maravillosos productos que se construirán sobre los grandes modelos de lenguaje. Por eso pensamos en nuestro papel como en descubrir cómo construir los sistemas de IA más capaces del mundo y luego ponerlos a disposición de cualquiera que siga nuestras reglas para construir todos estos sistemas sobre ellos.

Altman, 2023

Al combinar los LLM con tecnologías más tradicionales, como bases de conocimiento e interfaces de interacción humana, podemos crear conjuntos de tecnologías maduras o aplicaciones generativas que nos permitan aprovechar las capacidades de los LLM para crear herramientas inteligentes en todo tipo de áreas de aplicación. Generate y ChatGPT son dos ejemplos tempranos de esto.

Con este marco en mente, comparemos ChatGPT y Finetune Generate como aplicaciones generativas, ambas creadas en GPT-3, desde el punto de vista del desarrollo de elementos.

Objetivos del diseño

Tanto ChatGPT como Finetune Generate tienen como objetivo proporcionar una interfaz más intuitiva para que los usuarios interactúen con modelos generativos como GPT-3. Más allá de eso, las dos aplicaciones son bastante diferentes. OpenAI tiene la misión de crear sistemas de IA seguros y de uso general para todos, y creó ChatGPT para brindar al público en general una muestra de lo que los modelos de lenguaje son capaces de hacer con el lenguaje natural y para que sirva como un espacio de pruebas para que los desarrolladores prueben nuevas ideas.

En Finetune, si bien colaboramos con la comunidad de investigación más amplia en torno a las innovaciones en modelos de lenguaje (consulte nuestra colaboración con OpenAI para mejorar la búsqueda semántica), nuestro objetivo con Generate no era principalmente crear nuevos sistemas de propósito general, sino más bien crear la mejor herramienta posible para la redacción de ítems asistida por IA. Es por eso que Generate está diseñado específicamente para los redactores de ítems, en torno a sus mejores prácticas, lenguaje y flujos de trabajo. Todas nuestras restricciones de diseño se basaron en la interacción con una amplia variedad de usuarios pioneros. Cada modelo de Generate que creamos está diseñado para reflejar la estructura única de cada evaluación y brinda al usuario los controles específicos necesarios para su tarea. Además, equipos completos de redactores de ítems pueden colaborar en el desarrollo de ítems utilizando Generate, con una funcionalidad incorporada que permite la gestión de permisos y la exportación estructurada a formatos como QTI.

Especificidad

Los modelos de lenguaje de gran tamaño pasan por una fase de entrenamiento inicial llamada preentrenamiento , en la que en una larga sesión aprenden de millones de páginas de la web, libros y otras fuentes. Debido a lo costoso que es el cálculo del aprendizaje a partir de esas entradas, su conocimiento suele quedar fijado posteriormente. Dado que es un envoltorio de diálogo delgado sobre GPT-3, ChatGPT tiene de manera similar una base de conocimiento fija que no se puede modificar. Si, por ejemplo, un técnico quisiera ayuda con respecto a algún sistema propietario, un modelo de ese tipo probablemente no le sería útil, porque el modelo no tiene forma de aprender nuevos temas.

Los socios de Finetune abarcan desde educación primaria y secundaria hasta educación superior, licencias y certificaciones, y abarcan una amplia variedad de dominios.

Por ello, para nosotros es fundamental que los modelos que construimos para ellos aprendan de su contenido único (incluso si ese contenido es altamente especializado o novedoso) y puedan actualizarse con nuevos materiales a medida que estén disponibles .

Para que esto sea posible, nuestro equipo de I+D de IA ha perfeccionado nuestros propios métodos para incorporar de manera eficiente nuevos conocimientos a los modelos de lenguaje y orientarlos a las pautas específicas de una evaluación. Además, Generate aprende dinámicamente con el tiempo para orientar mejor los elementos al contenido y estilo específicos de las tareas de cada cliente. A lo largo de este año, tenemos previsto implementar varias funciones más que seguirán mejorando la capacidad de control y la adaptabilidad de nuestros modelos, desde la selección de frases clave hasta el control detallado de la complejidad cognitiva y más allá.

Seguridad

Como demostración experimental, ChatGPT tiene como objetivo obtener comentarios sobre cómo interactúan las personas con los modelos de lenguaje, de modo que OpenAI pueda mejorar la tecnología fundamental que respalda sus API. Debido a esto, cuando los usuarios hablan con ChatGPT, esas interacciones se almacenan y pueden llegar a futuros conjuntos de datos de entrenamiento, para ayudar a entrenar la próxima generación de modelos. Eso significa que si desarrolla un elemento de evaluación con ChatGPT, los modelos futuros pueden saberlo o haberlo memorizado, lo que potencialmente expone sus elementos y el estilo de los elementos de formas que no pretendía, poniendo en riesgo su seguridad.

La seguridad es una preocupación clave en el desarrollo de artículos.

Generate mantiene los artículos seguros, separados y cada cliente tiene acceso únicamente a sus modelos .

Incluso dentro de un mismo cliente, los usuarios pueden tener acceso restringido a elementos generados únicamente de forma específica. Con Generate, los clientes siempre son los propietarios de los elementos que producen, sin importar si solo están probando un modelo inicial o si han adoptado la herramienta a gran escala.

Confianza y apoyo

Gran parte de lo que dificulta el uso productivo de un LLM es que es fundamentalmente aleatorio : si le haces la misma pregunta dos veces, obtendrás dos respuestas diferentes. Esto va en contra de lo que normalmente esperamos de nuestras herramientas: confiamos en que sean confiables. Esto conduce a uno de los problemas más persistentes con ChatGPT y con otras herramientas LLM, a saber, que es difícil confiar en sus resultados cuando no sabes por qué se eligieron esos resultados. ¿Se basó en hechos que el modelo recuerda, en falsedades que el modelo inventó o incluso en plagio de alguna fuente invisible?

Los estándares de confianza en el ámbito de la educación y la evaluación son altos, mucho más altos que en el caso de los chatbots casuales. Los clientes quieren saber que los artículos que producen a través de Generate son realmente novedosos, se basan en sus propios materiales y son válidos.

Nuestros equipos de I+D de medición e IA trabajan con cada cliente para crear modelos adaptados a sus necesidades e incorporar sus comentarios en las mejoras continuas del modelo .

También realizamos comprobaciones manuales y automatizadas para verificar que las sugerencias que genera Generate coincidan con las especificaciones del cliente. Pronto implementaremos una nueva función que permitirá a los usuarios comparar fácilmente los artículos generados con los materiales de referencia, de modo que puedan tener la seguridad inmediata de que los artículos que producen se basan en hechos.

Conclusión

Estamos viviendo un momento apasionante en el que se crearán cientos de aplicaciones generativas, todas ellas orientadas a diferentes casos de uso potenciales para los LLM. A medida que las explore como alguien a quien le preocupa profundamente la calidad de la evaluación en educación, certificación y licencias, le recomendamos que tenga siempre en mente las siguientes preguntas:

  • ¿Para quién está diseñada esta aplicación?
  • ¿El modelo que utiliza esta aplicación está capacitado específicamente para lo que necesita mi organización, incluidas nuestras necesidades de seguridad?
  • ¿Cómo se utilizarán los datos que facilito?
  • ¿Quiero invertir tiempo y dinero para hacer que un modelo de propósito general sin procesar sea utilizable (por ejemplo, la interfaz de usuario adecuada) y en el que nuestros expertos en la materia (SME) confíen para integrarlo en nuestro flujo de trabajo y caso de uso de alto riesgo?

Todavía estamos en las primeras etapas de esta impresionante tecnología, pero ya se está haciendo evidente el alcance de las capacidades que las aplicaciones generativas permitirán en múltiples industrias. También lo son las voces de cautela expresadas por Gary Marcus de la Universidad de Nueva York y otros.

En Finetune estamos muy emocionados de continuar mostrando más funciones en nuestro tercer año que harán que Generate sea aún más eficiente, más confiable y más útil en todo el panorama de aprendizaje y evaluación .