Oleh Charles Foster dan Jesse Hamer
Perkenalan
Sejak 2021, di Finetune kami telah melihat potensi Large Language Models (LLM) untuk mengubah cara kerja para profesional di bidang pendidikan & penilaian. Laju kemajuan yang dramatis dalam bidang ini berarti bahwa konsep dapat berubah dari sekadar mainan penelitian dalam satu minggu, menjadi produk viral di minggu berikutnya.
Maka tidak mengherankan melihat betapa antusiasnya tanggapan terhadap ChatGPT: dalam satu demo, semua orang memahami bahwa kita berada di ambang sesuatu yang hebat. Mengingat kegembiraan dan ketidakpastian saat ini, orang mungkin bertanya-tanya: bagaimana Finetune Generate cocok dengan lanskap ini? Jika saya bisa meminta chatbot generik untuk menulis untuk saya, mengapa saya memerlukan yang lain?
Kami ingin menganggap Model Bahasa Besar sebagai model dasar : sistem AI yang pelatihannya yang luas dan beragam memungkinkan mereka bertindak sebagai landasan untuk berbagai macam kasus penggunaan. Beberapa organisasi termasuk Anthropic, EleutherAI, dan OpenAI (pengembang ChatGPT) melatih model-model raksasa ini dan membuatnya tersedia untuk digunakan orang lain. Namun model-model itu sendiri hanyalah lapisan dasar: mereka memiliki potensi yang jauh lebih besar ketika dijalin ke dalam sistem yang lebih besar, yang disesuaikan untuk aplikasi tertentu. Sama seperti teknologi tujuan umum lainnya seperti Web, mungkin diperlukan seluruh generasi peneliti dan pengusaha yang membangun sistem di atasnya, agar dapat mewujudkan potensinya. Dalam sebuah wawancara dengan Ezra Klein, CEO OpenAI Sam Altman mengungkapkan sentimen yang sama:
Menurut saya, kami bukan yang terbaik di dunia, dan kami juga tidak ingin mengalihkan perhatian kami [dari] semua produk luar biasa yang akan dibangun di atas [model bahasa yang besar]. Jadi, kami berpikir tentang peran kami untuk mencari tahu cara membangun sistem AI yang paling mampu di dunia, lalu menyediakannya bagi siapa saja yang mengikuti aturan kami untuk membangun semua sistem ini di atasnya.
Altman, tahun 2023
Dengan menggabungkan LLM dengan teknologi yang lebih tradisional seperti basis pengetahuan dan antarmuka manusia-dalam-lingkaran, kita dapat membuat tumpukan teknologi yang matang, atau aplikasi generatif , yang memungkinkan kita untuk melepaskan kemampuan LLM untuk membuat alat pintar di semua jenis area aplikasi. Generate dan ChatGPT adalah dua contoh awal dari hal ini.
Dengan mempertimbangkan kerangka kerja ini, mari kita bandingkan ChatGPT dan Finetune Generate sebagai aplikasi generatif yang keduanya dibangun di atas GPT-3, dari sudut pandang pengembangan item.
Tujuan Desain
Baik ChatGPT maupun Finetune Generate dimaksudkan untuk menyediakan antarmuka yang lebih intuitif bagi pengguna untuk berinteraksi dengan model generatif seperti GPT-3. Selain itu, kedua aplikasi ini sangat berbeda. OpenAI memiliki misi untuk membangun sistem AI yang aman dan serbaguna untuk semua orang, dan membangun ChatGPT untuk memberi masyarakat umum gambaran tentang apa yang dapat dilakukan model bahasa dengan bahasa alami, dan untuk berfungsi sebagai wadah bagi para pembangun untuk menguji ide-ide baru.
Di Finetune, meskipun kami terlibat dengan komunitas penelitian yang lebih luas seputar inovasi model bahasa (lihat kolaborasi kami dengan OpenAI untuk penyempurnaan pencarian semantik), tujuan kami dengan Generate bukanlah terutama untuk membangun sistem serba guna baru, tetapi lebih untuk membangun alat terbaik yang memungkinkan untuk penulisan item berbantuan AI. Itulah sebabnya Generate dibangun khusus dengan mempertimbangkan penulis item, seputar praktik terbaik, bahasa, dan alur kerja mereka. Semua kendala desain kami didasarkan pada keterlibatan dengan berbagai macam pengadopsi awal. Setiap model Generate yang kami bangun dirancang untuk mencerminkan struktur unik setiap penilaian, dan memberi pengguna kontrol khusus yang diperlukan untuk tugas mereka. Selain itu, seluruh tim penulis item dapat berkolaborasi dalam mengembangkan item menggunakan Generate, dengan fungsionalitas bawaan untuk memungkinkan manajemen izin dan ekspor terstruktur ke dalam format seperti QTI.
Kekhususan
Model bahasa yang besar melalui fase pelatihan awal yang disebut prapelatihan , di mana dalam satu sesi yang panjang mereka belajar dari jutaan halaman dari web, buku, dan sumber lainnya. Karena betapa mahalnya komputasi pembelajaran dari masukan tersebut, pengetahuan mereka biasanya tetap di tempatnya setelahnya. Karena merupakan pembungkus dialog tipis di atas GPT-3, ChatGPT juga memiliki basis pengetahuan tetap yang tidak dapat diubah. Jika, misalnya, seorang teknisi menginginkan bantuan mengenai beberapa sistem hak milik, model seperti itu mungkin tidak akan membantu mereka, karena model tersebut tidak memiliki cara untuk mempelajari materi pelajaran baru.
Mitra Finetune mencakup berbagai bidang mulai dari K-12 hingga pendidikan tinggi hingga perizinan & sertifikasi, dan menjangkau berbagai domain.
Karena itu, sangat penting bagi kami bahwa model yang kami bangun untuk mereka harus belajar dari kontennya yang unik—bahkan jika konten tersebut sangat terspesialisasi atau baru—dan harus dapat diperbarui dengan materi baru saat tersedia .
Agar hal ini dapat terwujud, tim R&D AI kami telah menyempurnakan metode kami sendiri untuk secara efisien menggabungkan pengetahuan baru ke dalam model bahasa dan menargetkannya ke pedoman penilaian tertentu. Selain itu, Generate belajar secara dinamis dari waktu ke waktu untuk menargetkan item dengan lebih baik ke konten dan gaya tugas masing-masing pelanggan. Sepanjang tahun ini kami berencana untuk meluncurkan beberapa fitur lagi yang akan terus meningkatkan pengendalian dan adaptasi model kami, mulai dari penargetan frasa kunci hingga pengendalian yang lebih rinci atas kompleksitas kognitif dan seterusnya.
Keamanan
Sebagai demo eksperimental, ChatGPT dimaksudkan untuk memperoleh umpan balik tentang cara orang berinteraksi dengan model bahasa, sehingga OpenAI dapat meningkatkan teknologi dasar yang mendukung API-nya. Karena itu, saat pengguna berbicara dengan ChatGPT, interaksi tersebut disimpan dan dapat masuk ke dalam kumpulan data pelatihan di masa mendatang, untuk membantu melatih model generasi berikutnya. Artinya, jika Anda mengembangkan item penilaian dengan ChatGPT, model di masa mendatang mungkin mengetahuinya atau telah mengingatnya, yang berpotensi mengekspos item dan gaya item Anda dengan cara yang tidak Anda inginkan, sehingga membahayakan keamanannya.
Keamanan merupakan perhatian utama dalam pengembangan barang.
Generate menjaga item tetap aman, berdinding, dengan setiap pelanggan hanya dapat mengakses model mereka .
Bahkan dalam satu pelanggan, pengguna dapat dibatasi untuk hanya mengakses item tertentu yang dihasilkan. Dengan Generate, pelanggan selalu menjadi pemilik item apa pun yang mereka hasilkan, tidak peduli apakah mereka hanya mencoba model awal atau telah mengadopsi alat tersebut dalam skala besar.
Kepercayaan & Dukungan
Banyak hal yang membuat penggunaan LLM secara produktif menjadi sulit adalah karena sifatnya yang acak : ajukan pertanyaan yang sama dua kali dan Anda akan mendapatkan dua jawaban yang berbeda. Hal ini bertentangan dengan apa yang biasanya kita harapkan dari alat-alat kita: kita mengandalkannya agar dapat diandalkan. Hal ini menyebabkan salah satu masalah yang paling sering muncul dengan ChatGPT dan alat-alat LLM lainnya, yaitu sulitnya mempercayai keluarannya jika Anda tidak tahu mengapa keluaran tersebut dipilih. Apakah keluaran tersebut berdasarkan fakta yang diingat oleh model, atau kepalsuan yang dibuat oleh model, atau bahkan dijiplak dari sumber yang tidak terlihat?
Standar kepercayaan dalam pendidikan & penilaian tinggi, jauh lebih tinggi daripada chatbot biasa. Pelanggan ingin tahu bahwa barang yang mereka hasilkan melalui Generate benar-benar baru, berdasarkan bahan mereka sendiri, dan valid.
Tim Pengukuran dan R&D AI kami bekerja dengan setiap pelanggan untuk membuat model yang disesuaikan dengan kebutuhan mereka, dan menggabungkan masukan mereka ke dalam perbaikan model yang sedang berlangsung .
Kami juga melakukan pemeriksaan manual & otomatis untuk memverifikasi bahwa saran yang dibuat Generate sesuai dengan spesifikasi pelanggan. Kami akan segera meluncurkan fitur baru yang memungkinkan pengguna untuk dengan mudah merujuk silang item yang dihasilkan dengan materi referensi, sehingga mereka dapat segera yakin bahwa item yang mereka hasilkan didasarkan pada fakta.
Kesimpulan
Ini adalah masa yang menarik di mana ratusan aplikasi generatif akan dibangun, semuanya mengejar berbagai kasus penggunaan potensial untuk LLM. Saat Anda menjelajahinya sebagai seseorang yang sangat peduli dengan kualitas penilaian dalam pendidikan, sertifikasi, dan perizinan, kami sarankan untuk selalu mengingat pertanyaan-pertanyaan berikut:
- Untuk siapa aplikasi ini dirancang?
- Apakah model yang digunakan aplikasi ini dilatih secara khusus untuk kebutuhan organisasi saya, termasuk kebutuhan keamanan kami?
- Bagaimana data yang saya berikan akan digunakan?
- Apakah saya ingin menginvestasikan waktu dan uang untuk membuat model tujuan umum mentah yang dapat digunakan (misalnya UI yang sesuai) dan dipercaya oleh Pakar Subjek (SME) kami untuk diintegrasikan ke dalam alur kerja dan kasus penggunaan berisiko tinggi kami?
Kita masih berada di tahap awal teknologi yang sangat mengesankan ini, tetapi sejauh mana kemampuan yang dapat dimungkinkan oleh aplikasi generatif di berbagai industri sudah mulai terlihat. Begitu pula dengan suara peringatan yang diutarakan oleh Gary Marcus dari NYU dan lainnya.
Di Finetune, kami sangat gembira untuk terus menampilkan lebih banyak fitur di tahun ketiga kami yang akan membuat Generate lebih berperforma, lebih andal, dan lebih bermanfaat di seluruh lanskap pembelajaran dan penilaian .