Por Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta e Safat Siddiqui
Introdução
Nos últimos meses, testemunhamos uma explosão de interesse em modelos de linguagem grandes (LLMs), como GPT-4, e em como a Finetune está aproveitando a tecnologia. Todos estão atentos: equipes estabelecidas buscando testar tecnologias emergentes, startups em ascensão buscando transformar pesquisas em produtos transformadores e operadores de última hora buscando ganhar dinheiro rápido nessa corrida do ouro. No entanto, com essa explosão de interesse, também estamos vendo uma explosão de confusão. As pessoas estão perguntando: "Como navego neste novo terreno?", "O que devo procurar?", "Como posso obter valor real dessa mudança de paradigma tecnológico?"
Tendo trabalhado com LLMs desde bem antes do hype, gostaríamos de oferecer alguma clareza. Vimos o quão poderosas ferramentas que integram essa tecnologia podem ser. Por meio de pré-treinamento em milhões de páginas de texto para aprender associações conceituais complexas, além de orientação adicional e mais granular (por meio de métodos como "ajuste fino", "aprendizagem por reforço em feedback humano" e "engenharia rápida"), os modelos de transformadores podem ser úteis para todos os tipos de tarefas. Mas o que geralmente é uma percepção surpreendente para os novatos no espaço é que realmente tornar os LLMs úteis para fazer trabalho real não é fácil, especialmente em áreas onde a qualidade conta .
Uma abordagem baseada em princípios
Na Finetune, por vários anos, alavancamos LLMs para aumentar os fluxos de trabalho de geração e marcação de conteúdo de nossos parceiros. Por meio dessas parcerias e das lições difíceis que vêm com a experiência do mundo real, descobrimos que a tecnologia é mais impactante quando combinada com uma estrutura de princípios. Fazer certo , em vez de apenas fazer rápido, é o que importa.
Por que não fazer do jeito fácil? Bem, digamos que você apenas peça ao GPT-4 para compor um novo soneto "shakespeariano" ou para escrever uma questão de teste sobre um tópico específico. À primeira vista, a saída geralmente parecerá aceitável. Mas lembre-se: esses modelos agem como imitadores habilidosos. Olhe além da superfície desse soneto e verá um núcleo vazio: a maioria das crenças, intelecto e atitude subjacentes de Shakespeare são completamente deixados de fora. Da mesma forma, inspecione essa questão do teste e verá problemas importantes: nenhuma atenção dada a qualquer construção subjacente, ou a como alguém pode amostrar o domínio de forma otimizada para dar suporte a inferências de proficiência , ou a qualquer propósito que conduza o teste. Em suma, falta validade psicométrica!
Para desenvolver validade e tudo o mais que os profissionais do nosso setor desejam, é preciso ir além do modelo de linguagem bruta por meio de uma síntese entre ciência de medição e aprendizagem, psicometria e IA .
Aqui estão alguns princípios básicos de como é essa síntese:
- Design para o fluxo de trabalho, não para a IA
- Centralize o humano no loop
- Crie confiabilidade por meio da transparência
Design para o fluxo de trabalho, não para a IA
Apenas ter um LLM integrado a um aplicativo não é suficiente: o foco tem que ser dar ao usuário as ferramentas de IA que melhor suportam seu trabalho. Desconfie de provedores que se gabam de uma integração com um modelo específico e procure aqueles que acompanhem o progresso da IA, especialmente sendo agnósticos em relação ao LLM . Afinal, modelos específicos vêm e vão: o GPT-3 teve seu dia de glória e então virou chapéu velho. Hoje, há uma riqueza de opções, tanto bem conhecidas como GPT-4 e Claude, quanto menos conhecidas como GPT-NeoX , FLAN e modelos ajustados.
Esse desejo de focar no fluxo de trabalho é o motivo pelo qual na Finetune, temos projetado modelos de IA para se adequarem ao trabalho que eles precisam dar suporte. Assim que começamos a trabalhar com um cliente, nossa equipe de Medição coleta artefatos-chave para descrever, organizar e priorizar os principais construtos para suas avaliações e os padrões de design necessários para medi-los. Isso resulta em um conjunto estruturado de especificações de teste e item, permitindo que nossos cientistas de IA incorporem isso ao processo de desenvolvimento do modelo. Antes do lançamento, as equipes de Medição e IA passam por várias iterações de garantia de qualidade para confirmar que as saídas do modelo testam os construtos corretos nos níveis apropriados de complexidade cognitiva e que os itens aderem às diretrizes de escrita de teste e às melhores práticas em avaliação .
Centralize o humano no loop
Enquanto muitos prestam homenagem à boca para fora ao valor da contribuição do usuário, poucos realmente vivem isso. Especialistas no assunto (SMEs) devem ser parceiros iguais no desenvolvimento de modelos, ao lado de cientistas de dados e outras partes interessadas. Além disso, a validação não deve parar na implantação. LLMs como GPT-4 param de aprender após seu treinamento inicial, então os desenvolvedores de aplicativos precisam desenvolver maneiras de dar controle ao usuário e acompanhar as necessidades de seus usuários. Mesmo em campo, os modelos de IA devem receber melhorias contínuas, para garantir que o usuário esteja sempre no assento do motorista.
Por exemplo, o feedback de PMEs nos ajuda a determinar quais construções devem ser medidas pelo conteúdo gerado por IA, com quais partes do conteúdo elas mais precisam de ajuda, o que constitui alta qualidade e como o modelo melhora ao longo do tempo. Nós nos reunimos regularmente com os clientes durante a construção do modelo para discutir o progresso e as áreas para melhoria e para solicitar feedback de PMEs. Além disso, com um recurso que chamamos de Learn , as PMEs podem sinalizar os melhores itens gerados por IA, alimentando-os de volta ao volante de autoaperfeiçoamento de IA. Em vez de ficarem obsoletos, por meio do feedback de PMEs seus modelos podem melhorar ao longo do tempo.
Crie confiabilidade por meio da transparência
Sem transparência, como você pode confiar na saída de um LLM? Esses modelos são frequentemente opacos e propensos a fazer declarações falsas e confiantes. Qualquer ferramenta suportada por LLM deve ter capacidades incorporadas para rastrear as saídas do modelo de volta a uma fonte confiável. Além disso, a necessidade de confiança vai além da confiança no sistema de IA, abrangendo a confiança na segurança e privacidade dos dados.
Essa confiança tem sido muito importante para nós. Para o Generate, isso nos motivou a construir recursos como pesquisa de referência assistida por IA e a capacidade de gerar diretamente de materiais de referência. Da mesma forma, em nosso produto de marcação de IA, Catalog, tivemos que desenvolver métodos para que nossos sistemas de IA tomassem decisões de marcação sistematicamente e com explicações, incluindo uma análise de Rationale e Catalog Score. Assim como um SME humano confiável que atribui uma marcação deve ser capaz de explicar o processo de pensamento por trás da decisão, um sistema de IA confiável também deve. Na frente de segurança e privacidade de dados, os modelos que desenvolvemos são isolados por cliente e são ajustados apenas nos dados desse cliente. Dessa forma, os modelos podem aprender os detalhes de como um cliente específico faz seu trabalho, sem medo de vazamento.
Conclusão
Além das notáveis melhorias qualitativas que os LLMs têm desfrutado nos últimos meses, as melhorias na acessibilidade têm sido igualmente surpreendentes. Entramos em uma era em que a expertise em IA não é mais uma barreira de entrada para interagir com LLMs. Dito isso, a diferença entre interagir com um LLM e construir um produto de qualidade com um LLM é tão gritante quanto a diferença entre ter uma frigideira e entregar uma experiência gastronômica 5 estrelas em escala: esta última só é possível com uma equipe de especialistas dedicados implementando um design baseado em princípios centrado na experiência do usuário.
Na Finetune, recomendamos três princípios simples — mas, acreditamos, necessários — aos quais qualquer produto — não apenas Gerar ou Catalogar — deve aderir se quiser alavancar efetivamente o poder dos LLMs. Ao projetar para o fluxo de trabalho, em vez da IA , garante-se que a qualidade da experiência do usuário seja priorizada acima da comercialização de qualquer LLM que tenha hype naquele dia específico. Ao centralizar o humano no loop , reconhece-se que, independentemente do poder do LLM específico, a expertise da PME é sempre necessária para alavancar os LLMs em escala. Ao construir confiabilidade por meio da transparência , demonstra-se respeito pelo cliente enfatizando a transparência na tomada de decisões do LLM e na segurança de dados. Por baixo de cada um desses princípios, há um tema central: que um LLM — como qualquer modelo de IA — é uma ferramenta. Na Finetune, temos orgulho não apenas de nossa expertise em IA e Medição, mas também de nossos quase três anos de experiência no aproveitamento dessas poderosas ferramentas de IA para oferecer uma experiência de usuário de alta qualidade: projetada para ampliar , em vez de substituir, a expertise de nossos clientes.