Charles Foster와 Jesse Hamer 의 글

소개

2021년부터 Finetune에서 우리는 교육 및 평가 분야의 전문가가 일하는 방식을 변화시키는 대규모 언어 모델(LLM)의 잠재력을 보았습니다. 이 분야에서의 극적인 발전 속도는 개념이 어느 주에는 연구용 장난감에서 다음 주에는 바이러스성 제품으로 바뀔 수 있음을 의미했습니다.

ChatGPT에 대한 반응이 얼마나 흥분했는지는 놀라운 일이 아니었습니다. 한 데모에서 모두가 우리가 위대한 무언가의 문턱에 서 있다는 것을 알았습니다. 현재의 흥분과 불확실성을 감안할 때, Finetune Generate가 이 풍경에 어떻게 들어맞는지 궁금할 수 있습니다. 일반적인 챗봇에 내 대신 글을 써달라고 부탁할 수 있다면, 왜 다른 것이 필요할까요?

우리는 대규모 언어 모델을 기초 모델 로 생각하고 싶어합니다. 광범위하고 다양한 훈련을 통해 광범위한 사용 사례의 기반 역할을 할 수 있는 AI 시스템입니다. Anthropic, EleutherAI, OpenAI(ChatGPT 개발자)를 포함한 몇몇 조직은 이러한 거대한 모델을 훈련하여 다른 사람들이 사용할 수 있도록 제공합니다. 하지만 모델 자체는 단순히 기본 계층일 뿐입니다. 특정 애플리케이션에 맞게 조정된 더 큰 시스템에 짜넣으면 훨씬 더 큰 잠재력을 발휘합니다. 웹과 같은 다른 범용 기술과 마찬가지로 잠재력을 실현하려면 연구자와 기업가가 그 위에 시스템을 구축하는 세대 전체가 필요할 수 있습니다. Ezra Klein과의 인터뷰에서 OpenAI CEO Sam Altman은 비슷한 감정을 표현했습니다.

제가 생각하기에 우리가 세계 최고는 아니고, [대규모 언어 모델] 위에 구축될 모든 훌륭한 제품에서 주의를 돌리고 싶지도 않은 것은 바로 이겁니다. 그래서 우리는 세계에서 가장 유능한 AI 시스템을 구축하는 방법을 알아내고, 우리의 규칙을 따르는 모든 사람이 그 위에 모든 시스템을 구축할 수 있도록 하는 것이 우리의 역할이라고 생각합니다.

알트만, 2023

LLM을 지식 기반 및 인간 참여 인터페이스와 같은 보다 전통적인 기술과 결합함으로써, 우리는 모든 종류의 애플리케이션 영역에서 스마트 도구를 만드는 LLM의 역량을 발휘할 수 있게 해주는 성숙한 기술 스택 또는 생성 애플리케이션을 만들 수 있습니다. Generate와 ChatGPT는 이러한 것들의 두 가지 초기 사례입니다.

이러한 프레임워크를 염두에 두고, 아이템 개발의 관점에서 GPT-3 기반으로 구축된 생성 애플리케이션인 ChatGPT와 Finetune Generate를 비교해 보겠습니다.

디자인 목표

ChatGPT와 Finetune Generate는 모두 사용자가 GPT-3와 같은 생성 모델과 상호 작용할 수 있는 보다 직관적인 인터페이스를 제공하도록 설계되었습니다. 그 외에도 두 애플리케이션은 상당히 다릅니다. OpenAI는 모든 사람을 위한 안전하고 범용적인 AI 시스템을 구축하는 사명을 가지고 있으며, ChatGPT를 구축하여 일반 대중에게 언어 모델이 자연어로 무엇을 할 수 있는지 맛보게 하고 빌더가 새로운 아이디어를 테스트할 수 있는 샌드박스 역할을 하도록 했습니다.

Finetune에서는 언어 모델 혁신을 중심으로 광범위한 연구 커뮤니티와 교류하지만(의미 검색 개선을 위한 OpenAI와의 협업 참조), Generate를 통해 주로 새로운 범용 시스템을 구축하는 것이 아니라 AI 지원 항목 작성에 가능한 최상의 도구를 구축하는 것이 목표였습니다. 그렇기 때문에 Generate는 항목 작성자를 염두에 두고 그들의 모범 사례, 언어 및 워크플로를 중심으로 구축되었습니다. 모든 디자인 제약은 다양한 얼리 어답터와의 교류를 기반으로 했습니다. 저희가 구축하는 각 Generate 모델은 각 평가의 고유한 구조를 반영하도록 설계되었으며 사용자에게 작업에 필요한 특정 제어 기능을 제공합니다. 게다가 항목 작성자 전체 팀이 Generate를 사용하여 항목을 개발하는 데 협업할 수 있으며, 권한 관리 및 QTI와 같은 형식으로 구조화된 내보내기를 허용하는 기본 제공 기능이 있습니다.

특성

대규모 언어 모델은 사전 학습 이라는 초기 학습 단계를 거치는데, 여기서 긴 세션 하나에서 웹, 책 및 기타 출처의 수백만 페이지로부터 학습합니다. 이러한 입력에서 학습하는 데 드는 계산 비용이 매우 많이 들기 때문에 일반적으로 해당 지식은 나중에 고정됩니다. ChatGPT는 GPT-3 위에 있는 얇은 대화 래퍼이므로 수정할 수 없는 고정된 지식 기반을 가지고 있습니다. 예를 들어 기술자가 독점 시스템에 대한 도움을 원하면 이러한 모델은 새로운 주제를 학습할 방법이 없기 때문에 도움이 되지 않을 것입니다.

Finetune의 파트너는 K-12부터 고등교육, 면허 및 자격증까지 다양한 분야를 아우르며 광범위한 분야에 걸쳐 있습니다.

따라서 우리가 그들을 위해 구축하는 모델은 그들의 고유한 콘텐츠로부터 학습할 수 있어야 하며, 그 콘텐츠가 매우 전문적이거나 참신하더라도 새로운 자료가 나오면 업데이트할 수 있어야 한다는 점이 우리에게 매우 중요합니다 .

이를 가능하게 하기 위해, 당사의 AI R&D 팀은 새로운 지식을 언어 모델에 효율적으로 통합하고 이를 평가의 특정 가이드라인에 맞게 타겟팅하기 위해 자체 방법을 개선했습니다. 게다가 Generate는 시간이 지남에 따라 동적으로 학습하여 각 고객의 작업의 특정 콘텐츠와 스타일에 맞게 항목을 더 잘 타겟팅합니다. 올해 내내 핵심 문구 타겟팅부터 인지 복잡성에 대한 세밀한 제어에 이르기까지 모델의 제어 가능성과 적응성을 지속적으로 개선할 몇 가지 기능을 더 출시할 계획입니다.

보안

실험적 데모로서, ChatGPT는 사람들이 언어 모델과 상호작용하는 방식에 대한 피드백을 이끌어내어 OpenAI가 API를 지원하는 기본 기술을 개선할 수 있도록 하는 것을 목적으로 합니다. 이 때문에 사용자가 ChatGPT와 대화할 때 이러한 상호작용이 저장되고 향후 학습 데이터 세트로 이동하여 차세대 모델을 학습하는 데 도움이 될 수 있습니다. 즉, ChatGPT로 평가 항목을 개발하는 경우 향후 모델이 해당 항목을 알고 있거나 기억하여 의도하지 않은 방식으로 항목과 항목 스타일이 노출되어 보안이 위험해질 수 있습니다.

보안은 아이템 개발에 있어서 중요한 고려사항입니다.

Generate는 품목을 안전하게 보관하고 벽으로 막아 각 고객이 자신의 모델에만 접근할 수 있도록 합니다 .

단일 고객 내에서도 사용자는 생성된 특정 항목에만 액세스하도록 제한될 수 있습니다. Generate를 사용하면 고객은 초기 모델을 시도하든 규모에 맞게 도구를 채택하든 항상 자신이 생산하는 모든 항목의 소유자가 됩니다.

신뢰와 지원

LLM을 생산적으로 사용하는 것을 어렵게 만드는 많은 요소는 근본적으로 무작위적이 라는 것입니다. 같은 질문을 두 번 하면 두 가지 다른 답변이 나옵니다. 이는 우리가 일반적으로 도구에 기대하는 것과 상치됩니다. 즉, 도구가 신뢰할 수 있기를 기대합니다. 이로 인해 ChatGPT 및 기타 LLM 도구에서 가장 지속적인 문제 중 하나가 발생합니다. 즉, 해당 출력이 선택된 이유를 모를 때 출력을 신뢰하기 어렵다는 것입니다. 모델이 회상하는 사실에 근거한 것입니까? 아니면 모델이 만들어낸 허위 사실입니까? 아니면 보이지 않는 출처에서 표절한 것입니까?

교육 및 평가 내 신뢰 기준은 캐주얼 챗봇보다 훨씬 높습니다. 고객은 Generate를 통해 생산한 항목이 진정으로 참신하고 자체 자료를 기반으로 하며 타당하다는 것을 알고 싶어합니다.

당사의 측정 및 AI 연구 개발 팀은 각 고객과 협력하여 해당 고객의 요구 사항에 맞는 모델을 만들고 고객의 피드백을 지속적인 모델 개선에 반영합니다 .

또한 Generate에서 제안한 내용이 고객 사양과 일치하는지 확인하기 위해 수동 및 자동 검사를 수행합니다. 곧 사용자가 생성된 항목을 참조 자료와 쉽게 교차 참조할 수 있는 새로운 기능을 출시하여 자신이 생산하는 항목이 사실에 근거한다는 것을 즉시 확신할 수 있게 됩니다.

결론

이것은 수백 개의 생성적 애플리케이션이 구축되고, 모두 LLM에 대한 다양한 잠재적 사용 사례를 추구하는 흥미로운 시기입니다. 교육, 인증 및 면허에서 평가의 질을 깊이 신경 쓰는 사람으로서 이를 탐구할 때, 항상 다음 질문을 염두에 두는 것이 좋습니다.

  • 이 애플리케이션은 누구를 위해 설계되었나요?
  • 이 애플리케이션에서 사용하는 모델은 보안 요구 사항을 포함하여 조직의 요구 사항에 맞게 특별히 훈련되어 있습니까?
  • 제가 제공하는 데이터는 어떻게 사용되나요?
  • 시간과 비용을 투자하여 원시 범용 모델을 사용 가능하고(예: 적절한 UI) 우리의 주제 전문가(SME)가 신뢰할 수 있도록 만들어서 우리의 워크플로와 고위험 사용 사례에 통합하고 싶은가?

우리는 여전히 이 엄청나게 인상적인 기술의 초기 단계에 있지만, 생성적 애플리케이션이 여러 산업에서 가능하게 할 역량의 범위가 이미 분명해지고 있습니다. NYU의 Gary Marcus와 다른 사람들이 표명한 주의의 목소리도 마찬가지입니다.

Finetune에서는 3년차에 Generate를 더욱 성능 좋고, 더욱 안정적이며, 학습 및 평가 환경 전반에 더욱 유용하게 만들어 줄 더 많은 기능을 선보일 수 있어 매우 기쁩니다.