チャールズ・フォスターとジェシー・ハマー

導入

2021 年以来、Finetune では、教育と評価の専門家の働き方を変革する大規模言語モデル (LLM) の可能性を見出してきました。この分野の劇的な進歩のペースにより、ある概念は、ある週には研究用のおもちゃから、次の週にはバイラル製品へと変化する可能性があります。

ChatGPT に対する反応がいかに興奮していたかは、驚くには当たりません。1 回のデモで、誰もが私たちが何か素晴らしいものの入り口に立っていることを理解しました。現在の興奮と不確実性を考えると、Finetune Generate はこの状況にどのように適合するのか疑問に思う人もいるかもしれません。汎用チャットボットに代わりに文章を書いてもらうことができるのであれば、他に何か必要なのでしょうか。

私たちは、大規模言語モデルを基盤モデルとして考えています。つまり、広範囲かつ多様なトレーニングによって幅広いユースケースの基盤として機能する AI システムです。Anthropic、EleutherAI、OpenAI (ChatGPT の開発元) などのいくつかの組織は、これらの巨大モデルをトレーニングし、他の人が使用できるようにしています。しかし、モデル自体は単なるベース レイヤーです。特定のアプリケーションに合わせて調整された、より大規模なシステムに組み込むことで、モデルははるかに大きな可能性を秘めています。Web などの他の汎用テクノロジと同様に、その可能性を実現するには、研究者や起業家の世代全体がその上にシステムを構築する必要があるかもしれません。Ezra Klein とのインタビューで、OpenAI の CEO である Sam Altman は同様の意見を述べています。

私たちが世界一ではないと思うこと、また、本当に注意をそらしたくないことは、[大規模言語モデル]の上に構築されるすべての素晴らしい製品です。そのため、私たちの役割は、世界で最も有能な AI システムを構築する方法を見つけ出し、それを私たちのルールに従ってその上にすべてのシステムを構築するすべての人に提供できるようにすることだと考えています。

アルトマン、2023

LLM をナレッジ ベースやヒューマン イン ザ ループ インターフェイスなどの従来のテクノロジーと組み合わせることで、成熟したテクノロジー スタック、つまり生成アプリケーションを作成できます。これにより、LLM の機能を最大限活用して、あらゆるアプリケーション領域でスマート ツールを作成できます。Generate と ChatGPT は、その初期の例です。

このフレームワークを念頭に置いて、アイテム開発の観点から、GPT-3 上に構築された生成アプリケーションである ChatGPT と Finetune Generate を比較してみましょう。

設計目標

ChatGPT と Finetune Generate はどちらも、ユーザーが GPT-3 などの生成モデルと対話するための、より直感的なインターフェイスを提供することを目的としています。それ以外では、2 つのアプリケーションはまったく異なります。OpenAI は、すべての人にとって安全で汎用的な AI システムを構築することを使命としており、ChatGPT は、一般の人々に自然言語で言語モデルが何ができるかを体験してもらうため、また開発者が新しいアイデアをテストするためのサンドボックスとして機能するために構築されました。

Finetune では、言語モデルの革新に関する幅広い研究コミュニティと連携していますが (セマンティック検索の改善に関するOpenAI とのコラボレーションを参照)、Generate の主な目的は新しい汎用システムを構築することではなく、AI 支援による項目作成に最適なツールを構築することでした。そのため、Generate は項目作成者のベスト プラクティス、言語、ワークフローを中心に特に項目作成者を念頭に置いて構築されています。設計上の制約はすべて、さまざまな早期導入者との連携に基づいています。構築する各 Generate モデルは、各評価の固有の構造を反映するように設計されており、タスクに必要な特定のコントロールをユーザーに提供します。さらに、項目作成者のチーム全体が、権限管理や QTI などの形式への構造化エクスポートを可能にする組み込み機能を備えた Generate を使用して項目の開発に協力できます。

特異性

大規模言語モデルは、事前トレーニングと呼ばれる初期トレーニング段階を経て、1 回の長いセッションで、Web、書籍、その他のソースからの何百万ページもの情報から学習します。これらの入力から学習するための計算はコストがかかることから、その知識は通常、その後は固定されます。ChatGPT は GPT-3 の上にある薄いダイアログ ラッパーであるため、同様に修正できない固定された知識ベースを持っています。たとえば、技術者が何らかの独自のシステムに関する支援を求めた場合、そのようなモデルはおそらく役に立ちません。なぜなら、モデルには新しい主題を学習する方法がないからです。

Finetune のパートナーは、K-12 から高等教育、ライセンスおよび認証まで多岐にわたり、さまざまな分野にわたります。

そのため、私たちにとって重要なのは、彼らのために構築するモデルが、たとえそのコンテンツが高度に専門化されていたり、新しいものであったとしても、彼らの固有のコンテンツから学習し、新しい資料が利用可能になったときに更新可能である必要があるということです

これを実現するために、当社の AI 研究開発チームは、新しい知識を言語モデルに効率的に組み込み、評価の特定のガイドラインにターゲットを絞るための独自の方法を改良しました。さらに、Generate は時間の経過とともに動的に学習し、各顧客のタスクの特定のコンテンツとスタイルにアイテムをより適切にターゲットします。今年中、キーフレーズ ターゲティングから認知の複雑さのきめ細かな制御など、モデルの制御性と適応性を継続的に向上させるいくつかの機能を展開する予定です。

安全

ChatGPT は実験的なデモとして、人々が言語モデルとどのようにやりとりするかについてのフィードバックを引き出すことを目的としています。これにより、OpenAI は API を支える基礎技術を改善できます。このため、ユーザーが ChatGPT と会話すると、そのやりとりが保存され、将来のトレーニング データセットに組み込まれ、次世代のモデルのトレーニングに役立つ可能性があります。つまり、ChatGPT を使用して評価項目を開発すると、将来のモデルがそれを認識したり記憶したりして、意図しない方法で項目や項目スタイルが公開され、セキュリティが危険にさらされる可能性があります。

セキュリティはアイテム開発における重要な懸念事項です。

Generate はアイテムを安全に隔離し、各顧客が自分のモデルにのみアクセスできるようにします

単一の顧客内であっても、ユーザーは特定の生成されたアイテムのみにアクセスできるように制限できます。Generate を使用すると、初期モデルを試しているだけの場合でも、ツールを大規模に導入した場合でも、顧客は常に自分が生成したアイテムの所有者になります。

信頼とサポート

LLM を生産的に使用することが難しい理由の多くは、それが根本的にランダムであることです。同じ質問を 2 回すると、2 つの異なる答えが返されます。これは、私たちが通常ツールに期待すること、つまりツールが信頼できるものであることを期待していることに反しています。これにより、ChatGPT や他の LLM ツールの最も根深い問題の 1 つが発生します。つまり、出力が選択された理由がわからない場合、その出力を信頼することが難しいということです。その出力は、モデルが思い出した事実に基づいたものなのか、モデルが作り上げた虚偽なのか、あるいは目に見えないソースから盗用されたものなのか?

教育と評価における信頼の基準は高く、通常のチャットボットよりもはるかに高くなっています。顧客は、Generate を通じて作成したアイテムが真に斬新で、独自の素材に基づいており、有効であることを知りたいと考えています。

当社の測定および AI 研究開発チームは、各顧客と協力して、顧客のニーズに合わせたモデルを作成し、そのフィードバックを継続的なモデルの改善に取り入れています

また、Generate が提案する内容が顧客の仕様と一致しているかどうかを確認するために、手動および自動のチェックも実行しています。近々、生成されたアイテムと参考資料を簡単に相互参照できる新機能を導入する予定です。これにより、ユーザーは、作成したアイテムが事実に基づいていることをすぐに確認できます。

結論

今は、何百ものジェネレーティブ アプリケーションが構築され、LLM のさまざまな潜在的なユース ケースが追求されるエキサイティングな時期です。教育、認定、ライセンスにおける評価の品質を深く気にする人として、これらのアプリケーションを探索する際には、常に次の質問を念頭に置くことをお勧めします。

  • このアプリケーションは誰を対象に設計されていますか?
  • このアプリケーションが使用するモデルは、セキュリティのニーズを含め、組織のニーズに合わせて特別にトレーニングされていますか?
  • 提供したデータはどのように使用されますか?
  • 未加工の汎用モデルを使用可能 (適切な UI など) にし、当社の専門家 (SME) が信頼して、ワークフローと重要なユースケースに統合できるようにするために、時間とお金を投資したいですか?

この非常に印象的な技術はまだ初期段階ですが、生成アプリケーションが複数の業界で実現する能力の範囲はすでに明らかになっています。ニューヨーク大学のゲイリー・マーカス氏らが表明した警告の声も同様です。

Finetune では、Generate のパフォーマンス、信頼性、学習と評価の分野全体での有用性をさらに高める機能を 3 年目も引き続き提供できることを非常に嬉しく思っています。