Oleh Sara Vispoel, Brad Bolender, Charles Foster, Jesse Hamer, Sierra Magnotta, dan Safat Siddiqui

Perkenalan

Dalam beberapa bulan terakhir, kami telah menyaksikan ledakan minat pada model bahasa besar (LLM) seperti GPT-4 dan bagaimana Finetune memanfaatkan teknologi tersebut. Semua orang mengamati: tim mapan yang ingin menguji teknologi baru, perusahaan rintisan yang sedang naik daun yang ingin mengubah penelitian menjadi produk transformatif, dan operator yang hanya mencari keuntungan cepat dalam demam emas ini. Namun, dengan ledakan minat ini, kami juga melihat ledakan kebingungan. Orang-orang bertanya: "Bagaimana saya menavigasi medan baru ini?", "Apa yang harus saya perhatikan?", "Bagaimana saya bisa mendapatkan nilai nyata dari pergeseran paradigma teknologi ini?"

Karena telah bekerja dengan LLM jauh sebelum munculnya sensasi, kami ingin memberikan sedikit kejelasan. Kami telah melihat betapa hebatnya alat yang mengintegrasikan teknologi ini. Melalui pra-pelatihan pada jutaan halaman teks untuk mempelajari asosiasi konseptual yang kompleks, ditambah panduan tambahan yang lebih terperinci (melalui metode seperti "penyetelan halus", "pembelajaran penguatan pada umpan balik manusia", dan "rekayasa cepat"), model transformator dapat dibuat berguna untuk semua jenis tugas. Namun, yang sering kali merupakan realisasi yang mengejutkan bagi pendatang baru di bidang ini adalah bahwa sebenarnya membuat LLM berguna untuk melakukan pekerjaan nyata tidaklah mudah, terutama di area yang mengutamakan kualitas .

Pendekatan yang berprinsip

Di Finetune, selama beberapa tahun kami telah memanfaatkan LLM untuk melengkapi alur kerja pembuatan konten dan pemberian tag mitra kami. Melalui kemitraan tersebut, dan melalui pelajaran sulit yang datang dari pengalaman dunia nyata, kami telah menemukan bahwa teknologi tersebut paling berdampak ketika dikombinasikan dengan kerangka kerja yang berprinsip. Melakukannya dengan benar , bukan sekadar melakukannya dengan cepat, adalah yang terpenting.

Mengapa tidak melakukannya dengan cara yang mudah saja? Nah, katakanlah Anda hanya meminta GPT-4 untuk menggubah soneta "Shakespeare" baru, atau menulis pertanyaan ujian tentang topik tertentu. Sekilas, hasilnya akan sering tampak dapat diterima. Namun ingat: model-model ini bertindak seperti peniru yang terampil. Lihatlah melampaui permukaan soneta itu dan Anda akan melihat inti yang kosong: sebagian besar keyakinan, kecerdasan, dan sikap Shakespeare yang mendasarinya sama sekali ditinggalkan. Demikian pula, periksa pertanyaan ujian itu dan Anda akan melihat masalah utama: tidak ada perhatian yang diberikan pada konstruksi yang mendasarinya, atau bagaimana seseorang dapat secara optimal mengambil sampel domain untuk mendukung inferensi kemahiran , atau pada tujuan apa pun yang mendorong ujian. Singkatnya, itu tidak memiliki validitas psikometrik!

Untuk membangun validitas dan segala hal lain yang diinginkan para profesional di industri kami, seseorang perlu melampaui model bahasa mentah melalui sintesis antara ilmu pengukuran & pembelajaran, psikometrika, dan AI .

Berikut ini adalah beberapa prinsip inti mengenai seperti apa sintesis tersebut:

  1. Desain untuk alur kerja, bukan untuk AI
  2. Pusatkan manusia dalam lingkaran
  3. Membangun kepercayaan melalui transparansi

Desain untuk alur kerja, bukan untuk AI

Sekadar mengintegrasikan LLM ke dalam aplikasi saja tidak cukup: fokusnya harus pada pemberian alat AI yang paling mendukung pekerjaan pengguna. Waspadalah terhadap penyedia yang menawarkan integrasi dengan satu model tertentu, dan cari penyedia yang mengikuti perkembangan AI, terutama dengan tidak bergantung pada LLM . Bagaimanapun, model tertentu datang dan pergi: GPT-3 pernah populer, lalu menjadi usang. Saat ini ada banyak pilihan, baik yang terkenal seperti GPT-4 dan Claude, maupun yang kurang dikenal seperti GPT-NeoX , FLAN , dan model yang disempurnakan.

Keinginan untuk fokus pada alur kerja inilah yang membuat Finetune merancang model AI agar sesuai dengan pekerjaan yang perlu didukungnya. Begitu kami mulai bekerja dengan pelanggan, tim Pengukuran kami mengumpulkan artefak utama untuk mendeskripsikan, mengatur, dan memprioritaskan konstruksi utama untuk penilaian mereka dan pola desain yang diperlukan untuk mengukurnya. Hasilnya adalah serangkaian spesifikasi tes dan item yang terstruktur, yang memungkinkan ilmuwan AI kami untuk menggabungkannya ke dalam proses pengembangan model. Sebelum rilis, tim Pengukuran & AI menjalani beberapa iterasi jaminan kualitas untuk mengonfirmasi bahwa keluaran model menguji konstruksi yang benar pada tingkat kompleksitas kognitif yang sesuai , dan bahwa item mematuhi pedoman penulisan tes dan praktik terbaik dalam penilaian .

Pusatkan manusia dalam lingkaran

Meskipun banyak yang hanya berbasa-basi tentang pentingnya masukan pengguna, hanya sedikit yang benar-benar melakukannya. Pakar materi pelajaran (SME) harus menjadi mitra yang setara dalam pengembangan model, bersama ilmuwan data dan pemangku kepentingan lainnya. Selain itu, validasi tidak boleh berhenti saat penerapan. LLM seperti GPT-4 berhenti belajar setelah pelatihan awal, jadi pengembang aplikasi perlu mengembangkan cara untuk memberikan kontrol kepada pengguna dan memenuhi kebutuhan pengguna. Bahkan di lapangan, model AI harus terus ditingkatkan, untuk memastikan pengguna selalu memegang kendali.

Misalnya, umpan balik dari UKM membantu kami menentukan konstruksi apa yang harus diukur dengan konten yang dihasilkan AI, bagian konten mana yang paling membutuhkan bantuan, apa yang dianggap berkualitas tinggi, dan bagaimana model tersebut meningkat seiring waktu. Kami bertemu secara teratur dengan pelanggan selama pembuatan model untuk membahas kemajuan dan area yang perlu ditingkatkan serta untuk meminta umpan balik UKM. Selain itu, dengan fitur yang kami sebut Learn , UKM dapat menandai item terbaik yang dihasilkan AI, memasukkannya kembali ke dalam roda gila peningkatan diri AI. Daripada menjadi basi, melalui umpan balik UKM, model Anda dapat menjadi lebih baik seiring waktu.

Membangun kepercayaan melalui transparansi

Tanpa transparansi, bagaimana Anda bisa memercayai hasil LLM? Model-model ini sering kali tidak transparan dan cenderung membuat pernyataan palsu yang meyakinkan. Setiap alat yang didukung LLM harus memiliki kemampuan bawaan untuk melacak hasil model kembali ke sumber yang tepercaya. Selain itu, kebutuhan akan kepercayaan melampaui kepercayaan pada sistem AI, yang mencakup kepercayaan pada keamanan dan privasi data.

Kepercayaan ini sangat penting bagi kami. Bagi Generate, hal ini memotivasi kami untuk membangun fitur-fitur seperti pencarian referensi berbantuan AI dan kemampuan untuk melakukan pembuatan langsung dari materi referensi. Demikian pula, pada produk penandaan AI kami, Catalog, kami harus mengembangkan metode agar sistem AI kami membuat keputusan penandaan secara sistematis dan dengan penjelasan, termasuk rincian Rationale dan Catalog Score. Sama seperti SME manusia tepercaya yang menetapkan tag harus dapat menjelaskan proses berpikir di balik keputusan tersebut, demikian pula sistem AI tepercaya. Di sisi keamanan & privasi data, model yang kami kembangkan diisolasi berdasarkan per pelanggan dan hanya disesuaikan dengan data dari pelanggan tersebut. Dengan begitu, model dapat mempelajari seluk-beluk cara pelanggan tertentu melakukan pekerjaan mereka, tanpa takut kebocoran.

Kesimpulan

Selain peningkatan kualitatif yang luar biasa yang telah dinikmati oleh LLM dalam beberapa bulan terakhir, peningkatan aksesibilitas juga sama menakjubkannya. Kita telah memasuki era di mana keahlian AI tidak lagi menjadi hambatan untuk berinteraksi dengan LLM. Meskipun demikian, perbedaan antara berinteraksi dengan LLM dan membangun produk berkualitas dengan LLM sama mencoloknya dengan perbedaan antara memiliki penggorengan dan memberikan pengalaman bersantap bintang 5 dalam skala besar: yang terakhir hanya mungkin dilakukan dengan tim ahli yang berdedikasi yang menerapkan desain berprinsip yang berpusat pada pengalaman pengguna.

Di Finetune, kami merekomendasikan tiga prinsip sederhana—namun, kami percaya, perlu—yang harus dipatuhi oleh produk apa pun—bukan hanya Generate atau Catalog—jika mereka ingin memanfaatkan kekuatan LLM secara efektif. Dengan mendesain untuk alur kerja, alih-alih AI , seseorang memastikan bahwa kualitas pengalaman pengguna diprioritaskan di atas daya jual LLM mana pun yang kebetulan sedang naik daun pada hari itu. Dengan memusatkan manusia dalam lingkaran , seseorang mengakui bahwa terlepas dari kekuatan LLM tertentu, keahlian UKM selalu dibutuhkan untuk memanfaatkan LLM dalam skala besar. Dengan membangun kepercayaan melalui transparansi , seseorang menunjukkan rasa hormat kepada pelanggan dengan menekankan transparansi dalam pengambilan keputusan LLM dan keamanan data. Di bawah setiap prinsip ini terdapat tema sentral: bahwa LLM—seperti model AI apa pun—adalah sebuah alat. Di Finetune, kami bangga tidak hanya atas keahlian kami dalam AI dan Pengukuran, tetapi juga atas pengalaman kami selama hampir tiga tahun dalam memanfaatkan perangkat AI yang canggih ini untuk memberikan pengalaman pengguna yang berkualitas tinggi: yang dirancang untuk memperkuat , bukan menggantikan, keahlian pelanggan kami.