저자 : Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta, Safat Siddiqui

소개

지난 몇 달 동안 우리는 GPT-4와 같은 대규모 언어 모델(LLM)과 Finetune이 이 기술을 어떻게 활용하는지에 대한 관심이 폭발적으로 증가하는 것을 목격했습니다. 모두가 주시하고 있습니다. 새로운 기술을 테스트하려는 기존 팀, 연구를 혁신적인 제품으로 전환하려는 신생 기업, 이 골드 러시에서 빠르게 돈을 벌려는 일회성 사업자가 있습니다. 그러나 이러한 관심의 폭발과 함께 우리는 혼란의 폭발도 목격하고 있습니다. 사람들은 "이 새로운 영역을 어떻게 탐색할까요?", "무엇을 주의해야 할까요?", "이 기술 패러다임 전환에서 어떻게 진정한 가치를 얻을 수 있을까요?"라고 묻습니다.

과장된 광고가 나오기 훨씬 전부터 LLM과 함께 일해 온 우리는 몇 가지 명확성을 제공하고자 합니다. 우리는 이 기술을 통합하는 도구가 얼마나 강력한지 보았습니다. 수백만 페이지의 텍스트에 대한 사전 학습을 통해 복잡한 개념적 연관성을 학습하고, 더 세부적인 안내(예: "미세 조정", "인간 피드백에 대한 강화 학습" 및 "즉각적인 엔지니어링"과 같은 방법을 통해)를 통해, 변환기 모델을 모든 종류의 작업에 유용하게 만들 수 있습니다. 하지만 이 분야의 신참자에게 종종 놀라운 깨달음은 LLM을 실제 작업에 유용하게 만드는 것이 쉽지 않다는 것입니다. 특히 품질이 중요한 분야에서는 더욱 그렇습니다 .

원칙적인 접근 방식

Finetune에서는 수년간 LLM을 활용하여 파트너의 콘텐츠 생성 및 태그 지정 워크플로를 증강했습니다. 이러한 파트너십과 실제 경험에서 얻은 힘든 교훈을 통해 우리는 기술이 원칙적인 프레임워크와 결합될 때 가장 큰 영향을 미친다는 것을 알게 되었습니다. 빠르게 하는 것보다 올바르게 하는 것이 중요합니다.

그냥 쉬운 방법으로 하지 않겠습니까? 글쎄요, GPT-4에 새로운 "셰익스피어" 소네트를 쓰거나 특정 주제에 대한 테스트 문제를 쓰라고 요청한다고 가정해 보겠습니다. 언뜻 보기에 출력은 종종 수용 가능한 것처럼 보일 것입니다. 하지만 기억하세요: 이러한 모델은 숙련된 사칭자처럼 행동합니다. 소네트의 표면을 지나쳐 보면 속이 비어 있는 것을 볼 수 있습니다. 셰익스피어의 근본적인 신념, 지성, 태도의 대부분이 완전히 생략되었습니다. 마찬가지로, 그 테스트 문제를 살펴보면 주요 문제가 보일 것입니다. 근본적인 구성 이나 능숙도 추론을 뒷받침하기 위해 도메인을 최적으로 샘플링하는 방법, 또는 테스트를 주도하는 목적 에 대한 관심이 없습니다. 결론적으로, 심리적 타당성이 없습니다!

업계 전문가들이 원하는 타당성과 그 외 모든 것을 구축하려면 측정 및 학습 과학, 심리 측정학, AI를 종합하여 원시 언어 모델을 넘어서야 합니다 .

이러한 합성의 핵심 원칙은 다음과 같습니다.

  1. AI가 아닌 워크플로우를 위한 디자인
  2. 루프의 중심에 인간을 배치하세요
  3. 투명성을 통해 신뢰성을 구축하세요

AI가 아닌 워크플로우를 위한 디자인

LLM을 애플리케이션에 통합하는 것만으로는 충분하지 않습니다. 사용자에게 작업을 가장 잘 지원하는 AI 도구를 제공하는 데 중점을 두어야 합니다. 특정 모델과 통합되었다고 자랑하는 공급업체에 주의하고, 특히 LLM에 구애받지 않는 방식으로 AI 진행 속도를 따라가는 공급업체를 찾으세요. 결국 특정 모델은 오고 가는 법입니다. GPT-3는 한때 인기를 끌다가 이제는 구식이 되었습니다. 오늘날에는 GPT-4와 Claude와 같이 잘 알려진 옵션과 GPT-NeoX , FLAN , 미세 조정 모델과 같이 덜 알려진 옵션이 많이 있습니다.

워크플로에 집중하려는 이러한 욕구가 Finetune에서 지원해야 하는 작업에 맞는 AI 모델을 설계하는 이유입니다. 고객과 작업을 시작하자마자 측정 팀은 주요 아티팩트를 수집하여 평가에 필요한 주요 구성 요소와 이를 측정하는 데 필요한 설계 패턴을 설명, 구성 및 우선순위 지정합니다. 이를 통해 구조화된 테스트 및 항목 사양 세트가 생성되어 AI 과학자가 이를 모델 개발 프로세스에 통합할 수 있습니다. 출시 전에 측정 및 AI 팀은 여러 차례의 품질 보증 반복을 거쳐 모델 출력이 적절한 수준의 인지적 복잡성 에서 올바른 구성을 테스트하는지 확인하고 항목이 테스트 작성 지침평가 모범 사례를 모두 준수하는지 확인합니다.

루프의 중심에 인간을 배치하세요

많은 사람이 사용자 입력의 가치에 대해 입으로만 말하지만, 실제로 그것을 실천하는 사람은 거의 없습니다. 주제 전문가(SME)는 데이터 과학자 및 기타 이해 관계자와 함께 모델 개발에서 동등한 파트너가 되어야 합니다. 또한 검증은 배포에서 끝나서는 안 됩니다. GPT-4와 같은 LLM은 초기 훈련 후 학습을 멈추므로 애플리케이션 개발자는 사용자에게 제어권을 제공하고 사용자의 요구 사항을 충족할 수 있는 방법을 개발해야 합니다. 현장에서도 AI 모델은 사용자가 항상 운전석에 앉을 수 있도록 지속적으로 개선되어야 합니다.

예를 들어, 중소기업의 피드백은 AI에서 생성한 콘텐츠로 측정해야 할 구성 요소, 콘텐츠의 어떤 부분에 가장 도움이 필요한지, 무엇이 고품질인지, 모델이 시간이 지남에 따라 어떻게 개선되는지를 결정하는 데 도움이 됩니다. 우리는 모델 구축 전반에 걸쳐 고객과 정기적으로 만나 진행 상황과 개선 영역을 논의하고 중소기업의 피드백을 요청합니다. 또한, 우리가 Learn 이라고 부르는 기능을 통해 중소기업은 AI에서 생성한 가장 좋은 항목을 플래그로 표시하여 AI 자체 개선 플라이휠에 다시 피드백할 수 있습니다. SME 피드백을 통해 모델은 오래되어 낡아지는 대신 시간이 지남에 따라 개선될 수 있습니다.

투명성을 통해 신뢰성을 구축하세요

투명성이 없다면 LLM의 출력을 어떻게 신뢰할 수 있을까요? 이러한 모델은 종종 불투명하고 자신 있게 거짓 진술을 하는 경향이 있습니다. LLM 지원 도구는 모델 출력을 신뢰할 수 있는 출처로 추적할 수 있는 내장 기능이 있어야 합니다. 게다가 신뢰에 대한 필요성은 AI 시스템에 대한 신뢰를 넘어 데이터 보안 및 개인 정보 보호에 대한 신뢰를 포함합니다.

이러한 신뢰는 우리에게 매우 중요했습니다. Generate의 경우, 이는 AI 지원 참조 조회 및 참조 자료에서 직접 생성하는 기능과 같은 기능을 구축하도록 동기를 부여했습니다. 마찬가지로, AI 태그 제품인 Catalog에서 우리는 AI 시스템이 체계적으로 태그 지정 결정을 내리고 Rationale 및 Catalog Score 세부 정보를 포함한 설명을 제공하는 방법을 개발해야 했습니다. 태그를 지정하는 신뢰할 수 있는 인간 SME가 결정의 배후에 있는 사고 과정을 설명할 수 있어야 하는 것처럼 신뢰할 수 있는 AI 시스템도 그래야 합니다. 데이터 보안 및 개인 정보 보호 측면에서 우리가 개발하는 모델은 고객별로 격리되며 해당 고객의 데이터에만 맞춰집니다. 이런 방식으로 모델은 누출에 대한 두려움 없이 특정 고객이 작업을 수행하는 방식을 자세히 학습할 수 있습니다.

결론

최근 몇 달 동안 LLM이 누린 놀라운 질적 개선 외에도 접근성 개선도 마찬가지로 놀랍습니다. 우리는 AI 전문 지식이 더 이상 LLM과 상호 작용하는 데 있어 진입 장벽이 아닌 시대에 들어섰습니다. 그렇긴 하지만 LLM과 상호 작용하는 것과 LLM과 함께 양질의 제품을 만드는 것의 차이는 프라이팬을 갖는 것과 대규모로 5성급 식사 경험을 제공하는 것의 차이만큼이나 극명합니다. 후자는 사용자 경험을 중심으로 원칙적인 디자인을 구현하는 전담 전문가 팀이 있어야만 가능합니다.

Finetune에서는 Generate나 Catalog뿐만 아니라 모든 제품이 LLM의 힘을 효과적으로 활용하고자 한다면 준수해야 할 간단하지만 필요하다고 믿는 세 가지 원칙을 추천합니다. AI 대신 워크플로를 위해 설계 함으로써 특정 날에 과장된 LLM의 시장성보다 사용자 경험의 질이 우선시되도록 합니다. 루프에 인간을 중심에 둠 으로써 특정 LLM의 힘에 관계없이 SME의 전문성은 항상 대규모 LLM을 활용하는 데 필요하다는 것을 인정합니다. 투명성을 통해 신뢰성을 구축 함으로써 LLM 의사 결정과 데이터 보안 모두에서 투명성을 강조하여 고객에 대한 존중을 보여줍니다. 이러한 각 원칙 아래에는 LLM이 모든 AI 모델과 마찬가지로 도구라는 중심 주제가 있습니다. Finetune에서는 AI와 측정 분야의 전문성뿐만 아니라 이러한 강력한 AI 도구를 활용해 고품질 사용자 경험을 제공한 거의 3년의 경험도 자랑스럽게 생각합니다. 이는 고객의 전문성을 대체하는 것이 아니라 증폭 하도록 설계되었습니다.