作者: Charles Foster 和 Jesse Hamer

介绍

自 2021 年以来,我们在 Finetune 看到了大型语言模型 (LLM) 改变教育和评估专业人员工作方式的潜力。该领域的进步速度惊人,这意味着概念可以在一周内从研究玩具变成病毒式产品。

因此,看到 ChatGPT 的反响如此热烈也就不足为奇了:在一次演示中,每个人都明白我们正站在伟大事物的门槛上。考虑到目前的兴奋和不确定性,人们可能会想:Finetune Generate 如何适应这种形势?如果我可以让一个普通的聊天机器人帮我写作,我为什么还需要其他东西呢?

我们喜欢将大型语言模型视为基础模型:经过广泛而多样化的训练,AI 系统可以成为各种用例的基石。包括 Anthropic、EleutherAI 和 OpenAI(ChatGPT 的开发者)在内的一些组织训练这些巨型模型,并将它们提供给其他人使用。但模型本身仅仅是基础层:当它们被编织成更大的系统并针对特定应用量身定制时,它们的潜力会更大。就像 Web 等其他通用技术一样,可能需要整整一代研究人员和企业家在其基础上构建系统,才能发挥其潜力。在接受 Ezra Klein 采访时,OpenAI 首席执行官 Sam Altman 表达了类似的看法:

我认为我们并不是世界上最擅长的,我们也不想真正转移我们的注意力,因为我们关注的都是那些将建立在 [大型语言模型] 之上的出色产品。因此,我们认为我们的角色是弄清楚如何构建世界上最强大的人工智能系统,然后让任何遵守我们规则的人都可以在这些系统之上构建所有这些系统。

奥特曼,2023年

通过将 LLM 与知识库和人机交互界面等更传统的技术相结合,我们可以创建成熟的技术堆栈或生成应用程序,使我们能够释放 LLM 的功能,在各种应用领域创建智能工具。Generate 和 ChatGPT 就是其中两个早期的例子。

基于这个框架,让我们从项目开发的角度比较一下 ChatGPT 和 Finetune Generate 这两个基于 GPT-3 构建的生成应用程序。

设计目标

ChatGPT 和 Finetune Generate 都旨在为用户提供更直观的界面,以便与 GPT-3 等生成模型进行交互。除此之外,这两个应用程序有很大不同。OpenAI 的使命是为所有人构建安全、通用的 AI 系统,并构建了 ChatGPT,让公众体验语言模型能够用自然语言做什么,并作为构建者测试新想法的沙箱。

在 Finetune,尽管我们确实与更广泛的研究社区就语言模型创新展开合作(参见我们与 OpenAI 在语义搜索改进方面的合作),但我们对 Generate 的目标主要不是构建新的通用系统,而是构建最好的 AI 辅助项目编写工具。这就是为什么 Generate 是专门为项目编写者构建的,围绕他们的最佳实践、语言和工作流程。我们所有的设计约束都基于与各种早期采用者的接触。我们构建的每个 Generate 模型都旨在反映每个评估的独特结构,并为用户提供其任务所需的特定控制。此外,整个项目编写者团队都可以使用 Generate 协作开发项目,并具有内置功能以允许权限管理和结构化导出为 QTI 等格式。

特异性

大型语言模型会经历一个初始训练阶段,称为预训练,在这个漫长的训练过程中,模型会从网络、书籍和其他来源的数百万页内容中学习。由于从这些输入中学习的计算成本非常高,因此模型的知识通常在训练之后就固定下来了。由于 ChatGPT 是 GPT-3 上的一个薄对话包装器,因此它同样具有无法修改的固定知识库。如果某位技术人员需要有关某些专有系统的帮助,那么这样的模型可能对他们没有帮助,因为该模型无法学习新主题。

Finetune 的合作伙伴遍布从 K-12 到高等教育到许可和认证的各个领域。

因此,对于我们来说至关重要的是,我们为他们建立的模型必须从其独特的内容中学习 - 即使该内容高度专业化或新颖 - 并且必须随着新材料的出现而进行更新

为了实现这一目标,我们的 AI 研发团队改进了我们自己的方法,以便有效地将新知识融入语言模型,并使其符合评估的具体指导方针。此外,Generate 会随着时间的推移进行动态学习,以便更好地将项目定位到每个客户任务的特定内容和风格。今年,我们计划推出更多功能,继续提高我们模型的可控性和适应性,从关键短语定位到对认知复杂性的细粒度控制等等。

安全

作为一个实验性演示,ChatGPT 旨在收集人们如何与语言模型交互的反馈,以便 OpenAI 改进其 API 背后的基础技术。因此,当用户与 ChatGPT 交谈时,这些交互会被存储起来,并可能进入未来的训练数据集,以帮助训练下一代模型。这意味着,如果你用 ChatGPT 开发了一个评估项目,未来的模型可能会知道或记住它,这可能会以你意想不到的方式暴露你的项目和项目风格,从而危及它们的安全。

安全是产品开发中的一个关键关注点。

Generate 保证项目的安全,并将其隔离开来,以便每个客户只能访问自己的模型

即使是在单个客户中,也可以限制用户只能访问特定的生成项目。使用 Generate,客户始终是他们生产的任何项目的所有者,无论他们是在尝试初始模型还是已大规模采用该工具。

信任与支持

有效使用 LLM 的很大一部分困难在于它本质上是随机的:问它两次相同的问题,它会给你两个不同的答案。这违背了我们通常对我们的工具的期望:我们指望它们是可靠的。这导致了 ChatGPT 和其他 LLM 工具最持久的问题之一,即当你不知道为什么选择这些输出时,很难相信它们的输出。它是基于模型回忆的事实,还是模型编造的谎言,甚至是从一些看不见的来源剽窃来的?

教育和评估中的信任标准很高,远高于休闲聊天机器人。客户希望知道他们通过 Generate 生产的物品是否真正新颖、基于他们自己的材料并且有效。

我们的测量和人工智能研发团队与每位客户合作,创建满足他们需求的模型,并将他们的反馈纳入持续的模型改进中

我们还执行手动和自动检查,以验证 Generate 提出的建议是否符合客户的规格。我们很快将推出一项新功能,让用户能够轻松地将生成的项目与参考资料进行交叉引用,这样他们就可以立即确信他们生产的项目是基于事实的。

结论

这是一个激动人心的时刻,数百个生成应用程序将被构建出来,它们都在追求法学硕士的不同潜在用例。当您作为非常关心教育、认证和许可评估质量的人探索它们时,我们建议始终牢记以下问题:

  • 此应用程序是为谁设计的?
  • 该应用程序使用的模型是否经过专门训练,以满足我的组织的需求(包括我们的安全需求)?
  • 我提供的数据将会被如何使用?
  • 我是否愿意投入时间和金钱来制作一个可用的原始通用模型(例如适当的 UI)并得到我们的主题专家(SMEs)的信任,以便将其集成到我们的工作流程和高风险用例中?

虽然这项令人印象深刻的技术还处于起步阶段,但生成式应用在多个行业中所能发挥的作用范围已经显而易见。纽约大学的加里·马库斯 (Gary Marcus) 等人也发出了谨慎的声音。

在 Finetune,我们非常高兴在第三年继续展示更多功能,这些功能将使 Generate在整个学习和评估领域具有更高的性能、更高的可靠性和更大的帮助。