サラ・ヴィスポール、ブラッド・ボレンダー、チャールズ・フォスター、ジェシー・ハマー、シエラ・マグノッタ、サファト・シディキ

導入

過去数か月間、GPT-4 などの大規模言語モデル (LLM) と、Finetune によるこのテクノロジーの活用方法への関心が爆発的に高まっています。新興テクノロジーのテストを目指す既存のチーム、研究を革新的な製品に変えようとしている新興企業、このゴールドラッシュで手っ取り早く儲けたい一夜限りの事業者など、誰もが注目しています。しかし、この関心の爆発的な高まりとともに、混乱も爆発的に増加しています。人々は「この新しい領域をどう乗り越えればいいのか」「何に注意すべきなのか」「この技術的パラダイムシフトから真の価値を引き出すにはどうすればよいのか」と疑問を抱いています。

LLM が大流行するずっと前から取り組んできた私たちは、この技術を統合したツールがいかに強力であるかを見てきました。複雑な概念の関連性を学習するための何百万ページものテキストの事前トレーニングと、追加のより詳細なガイダンス (「微調整」、「人間のフィードバックによる強化学習」、「プロンプト エンジニアリング」などの方法による) により、トランスフォーマー モデルはあらゆる種類のタスクに役立つようになります。しかし、この分野の新参者がしばしば驚くのは、実際に LLM を実際の作業に役立つようにすることは、特に品質が重要となる分野では簡単ではないということです。

原則的なアプローチ

Finetune では、数年にわたり LLM を活用して、パートナーのコンテンツ生成とタグ付けのワークフローを強化してきました。こうしたパートナーシップと、実際の経験から得た厳しい教訓を通じて、テクノロジーは原則的なフレームワークと組み合わせると最も効果的であることがわかりました。重要なのは、単に速く行うことではなく、正しく行うことです。

なぜ簡単な方法でやらないのでしょうか? たとえば、GPT-4 に新しい「シェイクスピア風」のソネットを作成したり、特定のトピックに関するテスト問題を作成したりするように依頼するとします。一見すると、出力は多くの場合許容できるように見えます。しかし、覚えておいてください。これらのモデルは、巧みな模倣者のように機能します。そのソネットの表面を覗いてみると、中身が空っぽであることがわかります。シェイクスピアの根底にある信念、知性、態度のほとんどは完全に省略されています。同様に、そのテスト問題を調べると、大きな問題がわかります。根本的な構成熟練度の推論をサポートするためにドメインを最適にサンプリングする方法、またはテストを推進する目的に注意が払われていません。要するに、心理測定学的妥当性に欠けています。

妥当性や業界の専門家が求めるその他すべてのものを組み込むには、測定と学習科学、心理測定学、AI を統合して、生の言語モデルを超える必要があります

その統合がどのようなものであるかについて、いくつかの基本原則を以下に示します。

  1. AIではなくワークフローに合わせて設計する
  2. 人間をループの中心に据える
  3. 透明性を通じて信頼を築く

AIではなくワークフローに合わせて設計する

アプリケーションに LLM を統合するだけでは十分ではありません。ユーザーに、作業を最もよくサポートする AI ツールを提供することに重点を置く必要があります。特定のモデルとの統合を自慢するプロバイダーには注意し、特にLLM に依存しないことにより AI の進歩に対応しているプロバイダーを探してください。結局のところ、特定のモデルは現れては消えていきます。GPT-3 は一世を風靡しましたが、その後は古臭くなりました。今日では、GPT-4 や Claude などのよく知られているものから、 GPT-NeoXFLAN 、微調整されたモデルなどのあまり知られていないものまで、豊富な選択肢があります。

ワークフローに焦点を当てたいというこの願望こそが、Finetune がサポートする必要のある作業に合わせて AI モデルを設計してきた理由です。お客様との作業を開始するとすぐに、測定チームが主要な成果物を収集し、評価の主要な構成要素と、それらを測定するために必要な設計パターンを説明、整理、優先順位付けします。これにより、構造化されたテストと項目の仕様のセットが作成され、AI サイエンティストがこれをモデル開発プロセスに組み込むことができます。リリース前に、測定チームと AI チームは品質保証の反復を数回実行し、モデル出力が適切なレベルの認知的複雑性正しい構成要素をテストしていること、および項目がテスト作成ガイドライン評価のベストプラクティスの両方に準拠していることを確認します。

人間をループの中心に据える

多くの人はユーザー入力の価値について口先では言うものの、実際にそれを実行する人はほとんどいません。モデル開発においては、データ サイエンティストやその他の関係者とともに、主題専門家 (SME) が対等なパートナーとなる必要があります。 また、検証はデプロイメントで止まるべきではありません。GPT-4 などの LLM は最初のトレーニング後に学習を停止するため、アプリケーション開発者はユーザーに制御権を与え、ユーザーのニーズに対応する方法を開発する必要があります。現場でも、AI モデルは継続的に改善され、ユーザーが常に主導権を握っていることを確認する必要があります。

たとえば、SME からのフィードバックは、AI 生成コンテンツで測定すべき構成要素、コンテンツのどの部分で最もサポートが必要なのか、高品質を構成する要素は何か、モデルが時間の経過とともにどのように改善されるのかを判断するのに役立ちます。モデル構築中は定期的にお客様と会い、進捗状況や改善領域について話し合い、SME からのフィードバックを求めます。また、 Learnという機能を使用すると、SME は AI 生成の最良の項目にフラグを付け、それを AI 自己改善フライホイールにフィードバックすることができます。SME からのフィードバックにより、モデルは古くなるのではなく、時間の経過とともに改善されます。

透明性を通じて信頼を築く

透明性がなければ、どうして LLM の出力を信頼できるでしょうか? これらのモデルは不透明であることが多く、自信に満ちた誤った発言をする傾向があります。LLM 対応ツールには、モデル出力を信頼できるソースまでさかのぼる機能が組み込まれている必要があります。さらに、信頼の必要性は AI システムへの信頼にとどまらず、データのセキュリティとプライバシーへの信頼も含みます。

この信頼は私たちにとって非常に重要でした。Generate の場合、それが AI 支援による参照検索や参照資料から直接生成する機能などの構築の動機となりました。同様に、AI タグ付け製品 Catalog では、AI システムがタグ付けの決定を体系的に、また根拠やカタログ スコアの内訳を含む説明付きで下す方法を開発する必要がありました。タグを割り当てる信頼できる人間の SME が決定の背後にある思考プロセスを説明できる必要があるのと同様に、信頼できる AI システムも同様に説明できる必要があります。データ セキュリティとプライバシーの面では、私たちが開発するモデルは顧客ごとに分離されており、その顧客のデータのみに基づいて調整されます。こうすることで、モデルは漏洩を恐れることなく、特定の顧客がどのように作業を行うかを詳細に学習できます。

結論

ここ数か月で LLM が享受してきた質的な改善は目覚ましいものがありますが、アクセシビリティの改善も同様に驚くべきものでした。AI の専門知識が LLM と関わる際の障壁ではなくなった時代になりました。とはいえ、LLM と関わることと、LLM で高品質の製品を構築することの違いは、フライパンを持っていることと 5 つ星のダイニング体験を大規模に提供することの違いと同じくらい明白です。後者は、ユーザー エクスペリエンスを中心とした原則的な設計を実装する熱心な専門家のチームがあって初めて実現できます。

Finetune では、Generate や Catalog だけでなく、LLM のパワーを効果的に活用したい場合に、あらゆる製品が従うべき、シンプルでありながら必要だと考える 3 つの原則を推奨しています。AI ではなくワークフロー向けに設計することで、その日に話題になっている LLM の市場性よりもユーザー エクスペリエンスの品質が優先されることが保証されます。人間をループの中心に据えることで、特定の LLM のパワーに関係なく、LLM を大規模に活用するには常に SME の専門知識が必要であることを認識します。透明性を通じて信頼性を構築することで、LLM の意思決定とデータ セキュリティの両方で透明性を強調し、顧客への敬意を示します。これらの各原則の根底には、LLM は AI モデルと同様にツールである、という中心的なテーマがあります。 Finetune では、AI と測定に関する専門知識だけでなく、これらの強力な AI ツールを活用して、お客様の専門知識を置き換えるのではなく、増幅するように設計された高品質のユーザー エクスペリエンスを提供してきた 3 年近くの経験にも誇りを持っています。