Por Charles Foster e Jesse Hamer

Introdução

Desde 2021, na Finetune, temos visto o potencial dos Large Language Models (LLMs) para transformar a maneira como os profissionais em educação e avaliação trabalham. O ritmo dramático de progresso neste espaço significou que os conceitos podem ir de um brinquedo de pesquisa em uma semana para um produto viral na semana seguinte.

Não foi nenhuma surpresa ver o quão animada foi a resposta ao ChatGPT: em uma demonstração, todos entenderam que estamos no limiar de algo grandioso. Dada a excitação e a incerteza atuais, alguém pode se perguntar: como o Finetune Generate se encaixa nesse cenário? Se eu pudesse simplesmente pedir a um chatbot genérico para escrever para mim, por que eu precisaria de mais alguma coisa?

Gostamos de pensar em Large Language Models como modelos de base : sistemas de IA cujo treinamento extenso e diverso permite que atuem como a base para uma ampla gama de casos de uso. Algumas organizações, incluindo Anthropic, EleutherAI e OpenAI (o desenvolvedor do ChatGPT) treinam esses modelos gigantes e os disponibilizam para outros usarem. Mas os modelos em si são apenas a camada base: eles têm um potencial muito maior quando entrelaçados em um sistema maior, adaptado para uma aplicação específica. Assim como outras tecnologias de uso geral, como a Web, pode levar uma geração inteira de pesquisadores e empreendedores construindo sistemas sobre ela, para que ela realize seu potencial. Em uma entrevista com Ezra Klein, o CEO da OpenAI, Sam Altman, expressou um sentimento semelhante:

O que eu acho que não somos os melhores do mundo, nem queremos realmente desviar nossa atenção [de], são todos os produtos maravilhosos que serão construídos em cima de [grandes modelos de linguagem]. E então pensamos sobre nosso papel como descobrir como construir os sistemas de IA mais capazes do mundo e então torná-los disponíveis para qualquer um que siga nossas regras para construir todos esses sistemas em cima deles.

Altman, 2023

Ao combinar LLMs com tecnologias mais tradicionais, como bases de conhecimento e interfaces human-in-the-loop, podemos criar pilhas de tecnologia maduras, ou aplicativos generativos , que nos permitem liberar as capacidades dos LLMs para criar ferramentas inteligentes em todos os tipos de áreas de aplicação. Generate e ChatGPT são dois exemplos iniciais disso.

Com essa estrutura em mente, vamos comparar o ChatGPT e o Finetune Generate como aplicativos generativos, ambos desenvolvidos no GPT-3, do ponto de vista do desenvolvimento de itens.

Objetivos do Design

Tanto o ChatGPT quanto o Finetune Generate têm como objetivo fornecer uma interface mais intuitiva para os usuários interagirem com modelos generativos como o GPT-3. Além disso, os dois aplicativos são bem diferentes. A OpenAI tem a missão de construir sistemas de IA seguros e de propósito geral para todos, e construiu o ChatGPT para dar ao público em geral uma amostra do que os modelos de linguagem são capazes de fazer com a linguagem natural, e para servir como uma sandbox para os construtores testarem novas ideias.

Na Finetune, embora nos envolvamos com a comunidade de pesquisa mais ampla em torno de inovações de modelos de linguagem (veja nossa colaboração com a OpenAI em melhorias na pesquisa semântica), nosso objetivo com o Generate não era principalmente construir novos sistemas de propósito geral, mas sim construir a melhor ferramenta possível para a escrita de itens assistida por IA. É por isso que o Generate é construído especificamente com os escritores de itens em mente, em torno de suas melhores práticas, linguagem e fluxos de trabalho. Todas as nossas restrições de design foram baseadas no envolvimento com uma ampla variedade de adotantes iniciais. Cada modelo Generate que construímos é projetado para refletir a estrutura única de cada avaliação e dá ao usuário os controles específicos necessários para sua tarefa. Além disso, equipes inteiras de escritores de itens podem colaborar no desenvolvimento de itens usando o Generate, com funcionalidade integrada para permitir o gerenciamento de permissões e exportação estruturada em formatos como QTI.

Especificidade

Grandes modelos de linguagem passam por uma fase inicial de treinamento chamada pré-treinamento , onde em uma longa sessão eles aprendem com milhões de páginas da web, livros e outras fontes. Devido ao quão caro é o cálculo do aprendizado dessas entradas, seu conhecimento é tipicamente fixado no lugar depois. Como é um fino wrapper de diálogo sobre o GPT-3, o ChatGPT similarmente tem uma base de conhecimento fixa que não pode ser alterada. Se, digamos, um técnico quisesse ajuda em relação a algum sistema proprietário, tal modelo provavelmente não seria útil para ele, porque o modelo não tem como aprender novos assuntos.

Os parceiros da Finetune abrangem desde o ensino fundamental e médio até o ensino superior, licenciamento e certificação, e abrangem uma ampla variedade de domínios.

Por isso, é essencial para nós que os modelos que construímos para eles aprendam com seu conteúdo exclusivo — mesmo que esse conteúdo seja altamente especializado ou inovador — e sejam atualizáveis com novos materiais à medida que forem disponibilizados .

Para tornar isso possível, nossa equipe de P&D de IA refinou nossos próprios métodos para incorporar eficientemente novos conhecimentos em modelos de linguagem e direcioná-los às diretrizes específicas de uma avaliação. Além disso, o Generate aprende dinamicamente ao longo do tempo para direcionar melhor os itens ao conteúdo e estilo específicos das tarefas de cada cliente. Ao longo deste ano, planejamos lançar vários outros recursos que continuarão a melhorar a controlabilidade e a adaptabilidade de nossos modelos, desde a segmentação de frases-chave até o controle refinado sobre a complexidade cognitiva e além.

Segurança

Como uma demonstração experimental, o ChatGPT tem como objetivo obter feedback sobre como as pessoas interagem com modelos de linguagem, para que a OpenAI possa melhorar a tecnologia fundamental que respalda suas APIs. Por isso, quando os usuários falam com o ChatGPT, essas interações são armazenadas e podem chegar a futuros conjuntos de dados de treinamento, para ajudar a treinar a próxima geração de modelos. Isso significa que se você desenvolver um item de avaliação com o ChatGPT, modelos futuros podem saber sobre ele ou tê-lo memorizado, potencialmente expondo seus itens e estilo de item de maneiras que você não pretendia, arriscando sua segurança.

A segurança é uma preocupação fundamental no desenvolvimento de itens.

O Generate mantém os itens seguros e isolados, com cada cliente acessando apenas seus modelos .

Mesmo dentro de um único cliente, os usuários podem ser restringidos a acessar apenas itens específicos gerados. Com o Generate, os clientes são sempre os donos de quaisquer itens que produzem, não importa se estão apenas testando um modelo inicial ou se adotaram a ferramenta em escala.

Confiança e Apoio

Muito do que torna o uso produtivo de um LLM difícil é que ele é fundamentalmente aleatório : faça a mesma pergunta duas vezes e ele lhe dará duas respostas diferentes. Isso vai contra o que geralmente esperamos de nossas ferramentas: contamos com elas para serem confiáveis. Isso leva a um dos problemas mais persistentes com o ChatGPT e com outras ferramentas LLM, ou seja, que é difícil confiar em suas saídas quando você não sabe por que essas saídas foram escolhidas. Foi baseado em fatos que o modelo lembra, ou falsidades que o modelo inventou, ou mesmo plagiou de alguma fonte invisível?

Os padrões de confiança na educação e avaliação são altos, muito mais altos do que para chatbots casuais. Os clientes querem saber se os itens que eles produzem por meio do Generate são realmente novos, são baseados em seus próprios materiais e são válidos.

Nossas equipes de P&D de medição e IA trabalham com cada cliente para criar modelos adaptados às suas necessidades e incorporar seu feedback em melhorias contínuas do modelo .

Também realizamos verificações manuais e automatizadas para verificar se as sugestões que o Generate faz correspondem às especificações do cliente. Em breve, lançaremos um novo recurso que permitirá aos usuários fazer facilmente referências cruzadas de itens gerados com materiais de referência, para que possam ter garantia imediata de que os itens que produzem são baseados em fatos.

Conclusão

Este é um momento emocionante em que centenas de aplicativos generativos serão desenvolvidos, todos buscando diferentes casos de uso em potencial para LLMs. Conforme você os explora como alguém que se importa profundamente com a qualidade da avaliação em educação, certificação e licenciamento, recomendamos sempre manter as seguintes perguntas em mente:

  • Para quem foi criado este aplicativo?
  • O modelo que este aplicativo usa é treinado especificamente para as necessidades da minha organização, incluindo nossas necessidades de segurança?
  • Como os dados que forneço serão usados?
  • Quero investir tempo e dinheiro para tornar um modelo bruto de propósito geral utilizável (por exemplo, a interface de usuário apropriada) e confiável para nossos especialistas no assunto (SMEs) para ser integrado ao nosso fluxo de trabalho e caso de uso de alto risco?

Ainda estamos nos primeiros dias dessa tecnologia profundamente impressionante, mas a extensão das capacidades que os aplicativos generativos permitirão em vários setores já está se tornando aparente. Assim também estão as vozes de cautela expressas por Gary Marcus da NYU e outros.

Na Finetune, estamos muito animados em continuar apresentando mais recursos em nosso terceiro ano que tornarão o Generate ainda mais eficiente, confiável e útil em todo o cenário de aprendizagem e avaliação .