作者:Sara Vispoel、Brad Bolender、Charles Foster、Jesse Hamer、Sierra Magnotta 和 Safat Siddiqui

介绍

在过去的几个月里,我们目睹了人们对 GPT-4 等大型语言模型 (LLM) 以及 Finetune 如何利用这项技术的兴趣激增。每个人都在关注:成熟的团队希望测试新兴技术,新兴的初创公司希望将研究成果转化为变革性产品,而那些一夜成名的运营商则希望在这场淘金热中赚快钱。然而,随着兴趣的激增,我们也看到了困惑的激增。人们在问:“我该如何驾驭这个新领域?”,“我应该注意什么?”,“我如何才能从这种技术范式转变中获得真正的价值?”

早在 LLM 被炒作之前,我们就已经开始研究它了,因此我们想澄清一下。我们已经看到了集成这项技术的工具有多么强大。通过对数百万页文本进行预训练以学习复杂的概念关联,再加上额外的、更精细的指导(通过“微调”、“基于人类反馈的强化学习”和“快速工程”等方法),Transformer 模型可以用于各种任务。但对于该领域的新手来说,一个经常令人惊讶的认识是,让 LLM 真正用于实际工作并不容易,尤其是在质量至关重要的领域

原则性方法

在 Finetune,我们多年来一直利用 LLM 来增强合作伙伴的内容生成和标记工作流程。通过这些合作伙伴关系以及从实际经验中吸取的惨痛教训,我们发现,当技术与原则性框架相结合时,其影响力最大。最重要的是做对了,而不仅仅是做快了

为什么不干脆用简单的方法做呢?好吧,假设你只是要求 GPT-4 创作一首新的“莎士比亚”十四行诗,或者就某个主题写一个测试题。乍一看,输出结果往往看起来可以接受。但请记住:这些模型就像熟练的模仿者。透过那首十四行诗的表面,你会看到一个空洞的核心:莎士比亚的大部分潜在信仰、智力和态度都被完全忽略了。同样,检查那道测试题,你会发现主要问题:没有关注任何潜在的构造,没有关注如何最佳地对该领域进行采样以支持对熟练程度的推断,也没有关注推动测试的任何目的。总之,它缺乏心理测量效度!

为了建立有效性以及我们行业专业人士想要的一切,我们需要通过测量和学习科学、心理测量和人工智能的综合来超越原始语言模型

以下是该综合体的一些核心原则:

  1. 为工作流程而设计,而不是为人工智能而设计
  2. 以人为本
  3. 通过透明度建立信任

为工作流程而设计,而不是为人工智能而设计

仅仅将 LLM 集成到应用程序中是不够的:重点必须放在为用户提供最能支持其工作的 AI 工具上。要警惕那些吹嘘与某一特定模型集成的提供商,并寻找那些能够跟上 AI 进步的提供商,尤其是那些与LLM 无关的提供商。毕竟,特定的模型来来去去:GPT-3 曾经风光无限,后来就过时了。如今,有很多选择,既有像 GPT-4 和 Claude 这样的知名模型,也有GPT-NeoXFLAN和微调模型等鲜为人知的模型。

正是出于这种对工作流程的关注,我们在 Finetune 一直致力于设计 AI 模型来适应它们需要支持的工作。一旦我们开始与客户合作,我们的测量团队就会收集关键工件,以描述、组织和确定其评估的关键构造以及测量它们所需的设计模式的优先级。这会产生一组结构化的测试和项目规范,使我们的 AI 科学家能够将其纳入模型开发过程。在发布之前,测量和 AI 团队会经过几次质量保证迭代,以确认模型输出在适当的认知复杂性级别测试了正确的构造,并且项目符合测试编写指南评估最佳实践

以人为本

虽然许多人口头上强调用户输入的价值,但实际上很少有人真正做到这一点。主题专家 (SME) 应该与数据科学家和其他利益相关者一起成为模型开发的平等合作伙伴。 此外,验证不应止步于部署。像 GPT-4 这样的 LLM 在初始训练后就会停止学习,因此应用程序开发人员需要开发将控制权交给用户并满足用户需求的方法。即使在现场,AI 模型也应该不断改进,以确保用户始终处于主导地位。

例如,来自 SME 的反馈有助于我们确定哪些结构应该通过 AI 生成的内容进行衡量、内容的哪些部分最需要帮助、什么是高质量以及模型如何随着时间的推移而改进。我们在整个模型构建过程中定期与客户会面,讨论进展和需要改进的领域,并征求 SME 的反馈。此外,通过我们称为“学习”的功能,SME 能够标记最佳的 AI 生成项目,将它们反馈到 AI 自我改进飞轮中。通过 SME 反馈,您的模型不会变得陈旧,而是可以随着时间的推移而变得更好。

通过透明度建立信任

如果没有透明度,你如何信任 LLM 的输出?这些模型通常不透明,容易做出自信的错误陈述。任何 LLM 支持的工具都应该具有内置功能,可以将模型输出追溯到可信来源。此外,对信任的需求不仅限于对 AI 系统的信任,还包括对数据安全和隐私的信任。

这种信任对我们来说非常重要。对于 Generate,它激励我们构建 AI 辅助参考查找等功能,以及直接从参考资料生成的能力。同样,在我们的 AI 标记产品 Catalog 上,我们必须开发方法,让我们的 AI 系统系统地做出标记决策并提供解释,包括理由和目录分数细分。就像分配标签的值得信赖的人类 SME 应该能够解释决策背后的思维过程一样,值得信赖的 AI 系统也应该如此。在数据安全和隐私方面,我们开发的模型是按每个客户隔离的,并且仅针对该客户的数据进行调整。这样,模型就可以了解特定客户如何开展工作的来龙去脉,而不必担心泄露。

结论

除了近几个月来 LLM 课程质量的显著提高之外,其可访问性也同样令人震惊。我们已经进入了一个 AI 专业知识不再是与 LLM 课程互动的障碍的时代。话虽如此,与 LLM 课程互动和使用 LLM 课程打造优质产品之间的区别,就像拥有一口煎锅和大规模提供五星级用餐体验之间的区别一样明显:后者只有由一支敬业的专家团队实施以用户体验为中心的原则性设计才有可能实现。

在 Finetune,我们推荐三项简单但我们认为必要的原则,任何产品(不仅仅是 Generate 或 Catalog)如果想有效利用 LLM 的强大功能,都应遵守这些原则。通过为工作流而不是 AI 进行设计,可以确保用户体验的质量优先于当天恰好炒作的 LLM 的市场性。通过以人为本,可以承认无论特定 LLM 的功能如何,SME 的专业知识始终是大规模利用 LLM 所必需的。通过通过透明度建立信任,可以强调 LLM 决策和数据安全的透明度,从而表现出对客户的尊重。每个原则之下都有一个中心主题:LLM(与任何 AI 模型一样)是一种工具。在 Finetune,我们不仅为我们在人工智能和测量方面的专业知识感到自豪,也为我们近三年利用这些强大的人工智能工具来提供高质量用户体验的经验感到自豪:旨在扩大而不是取代客户的专业知识。