OpenAI adalah laboratorium penelitan kecerdasan buatan yang terdiri atas perusahaan waralaba OpenAI LP dan perusahaan induk nirlabanya, OpenAI Inc. Para pendirinya (khususnya Elon Musk dan Sam Altman) terdorong oleh ketakutan mereka akan kemungkinan bahwa kecerdasan buatan dapat mengancam keberadaan manusia.[5][6] Sekelompok pendukung OpenAI telah berkomitmen untuk mendanai proyek ini senilai $1 miliar, mereka adalah Reid Hoffman, Jessica Livingston, Peter Thiel, Greg Brockman, dan Sam Altman. Elon Musk mengundurkan diri dari dewan pada Februari 2018 tetapi tetap menjadi donor. Pada tahun 2019, OpenAI LP menerima investasi sebesar US$1 miliar dari Microsoft.
Sejarah
Pada Desember 2015, Elon Musk, Sam Altman, dan para investor lainnya mengumumkan pembentukan OpenAI dan menjanjikan lebih dari US$1 miliar untuk usaha tersebut. Organisasi tersebut menyatakan bahwa mereka akan "berkolaborasi secara bebas" dengan institusi dan para peneliti lainnya dengan membuat paten dan penelitiannya terbuka untuk umum.[7][8]
Pada 27 April 2016, OpenAI merilis sebuah beta publik "OpenAI Gym", platformnya untuk penelitian pembelajaran penguatan.[9]
Pada 5 Desember 2016, OpenAI merilis "Universe", sebuah platform perangkat lunak untuk mengukur dan melatih sebuah kecerdasan umum dari kecerdasan buatan di seluruh pasokan permainan dunia, peramban dan aplikasi lainnya.[10][11][12][13]
Pada 2020, OpenAI mengumumkan GPT-3, sebuah model bahasa terlatih pada triliunan kata dari internet. Itu juga mengumumkan bahwa API terkait, diberi nama secara sederhana "the API", akan membentuk inti dari produk komersial pertamanya. GPT-3 ditargetkan pada bahasa alami menjawab sebuah pertanyaan, tetapi juga dapat menerjemahkan antar bahasa dan menghasilkan teks improvisasi secara koheren.[15]
Pada Januari 2021, OpenAI memperkenalkan DALL-E. Satu tahun kemudian, sistem terbaru mereka, DALL·E 2, menghasilkan gambar yang lebih realistis dan akurat dengan resolusi 4x lebih besar.
Pada 10 Januari 2024, OpenAI memperbarui kebijakannya. Dalam kebijakan terbaru ini, perusahaan sepenuhnya menghapus bahasa sebelumnya yang melarang “aktivitas yang memiliki risiko tinggi terhadap bahaya fisik,” termasuk contoh khusus seperti “pengembangan senjata” dan “militer dan perang.”[16]
Motif
Beberapa ilmuwan, seperti Stephen Hawking dan Stuart Russell, telah mengartikulasikan kekhawatiran bahwa jika kecerdasan buatan tingkat lanjut suatu hari nanti memperoleh kemampuan untuk mendesain ulang dirinya sendiri pada tingkat yang terus meningkat, sebuah "ledakan pengetahuan" yang tak terhentikan dapat menyebabkan kepunahan manusia. Musk mengkarakteristikkan kecerdasan buatan sebagai "ancaman nyata terbesar" umat manusia[17] Pendiri OpenAI menyusunnya sebagai organisasi nirlaba sehingga mereka dapat memfokuskan penelitiannya untuk menciptakan dampak manusia jangka panjang yang positif.[18]
Pada 2019, OpenAI menjadi sebuah perusahaan berbayar bernama OpenAI LP untuk mengamankan pendanaan tambahan sambil tetap dikendalikan oleh organisasi nirlaba bernama OpenAI Inc dalam struktur yang disebut OpenAI "capped-profit",[19] setelah sebelumnya menjadi organisasi nirlaba501(c)(3).[1][20]
Strategi
Strategi kontra-intuitif Musk dan Altman untuk mencoba untuk mengurangi risiko bahwa kecerdasan buatan akan menyebabkan kerusakan keseluruhan, dengan memberikan kecerdasan buatan ke semua orang, kontroversial di antara mereka yang peduli dengan risiko eksistensial dari kecerdasan buatan. Filsuf Nick Bostrom skeptis dengan pendekatan Musk: "Jika Anda memiliki tombol yang dapat melakukan hal-hal buruk pada dunia, kamu tidak ingin memberikannya ke semua orang."[21]
Sebaliknya, Keputusan awal OpenAI untuk menahan GPT-2 karena keinginan untuk "err di sisi hati-hati" di hadapan potensi penyalahgunaan, telah dikritik oleh para pendukung keterbukaan. Delip Rao, seorang ahli di pembuatan teks, menyatakan "Saya tidak berpikir [OpenAI] menghabiskan waktu yang cukup membuktikan [GPT-2] sebenarnya berbahaya." Kritikus lain berpendapat bahwa publikasi terbuka diperlukan untuk mereplikasi penelitian dan untuk dapat melakukan tindakan balasan.[22]
Di tahun pajak 2017, OpenAI menghabiskan US$7.9 juta, atau seperempat dari biaya fungsionalnya, pada komputasi awan saja.[23] Dalam perbandingan, pengeluaran total DeepMind pada 2017 jauh lebih besar, mengukur US$442 juta. Pada musim panas 2018, cukup melatih bot Dota 2 OpenAI yang diperlukan dengan menyewa 128.000 CPU dan 256 GPU dari Google selama beberapa minggu.
Transisi dari perusahaan nirlaba ke perusahaan laba terbatas dipandang dengan skeptis oleh Oren Etzioni dari institusi nirlaba Allen for AI, yang setuju bahwa merayu peneliti top ke organisasi nirlaba itu sulit, tetapi menyatakan "Saya tidak setuju dengan gagasan bahwa organisasi nirlaba tidak dapat bersaing" dan menunjuk ke proyek-proyek beranggaran rendah yang sukses oleh OpenAI dan lainnya.
Penelitian OpenAI cenderung fokus pada pembelajaran penguatan. OpenAI dipandang sebagai kompetitor ke DeepMind.[32]
Gym
Gym bertujuan untuk menyediakan pengaturan yang mudah, tolok ukur kecerdasan umum dengan berbagai macam lingkungan yang berbeda—agak mirip dengan, tetapi lebih luas dari, Tantangan ImageNet Large Scale Visual Recognition digunakan dalam penelitian pembelajaran yang terarah—dan berharap untuk menstandarkan cara di mana lingkungan didefinisikan dalam publikasi penelitian kecerdasan buatan, sehingga penelitian yang dipublikasikan menjadi lebih mudah direproduksi.[33][34] Proyeknya di klaim untuk menyediakan pengguna dengan antarmuka yang sederhana. Mulai Juni 2017, Gym hanya dapat digunakan dalam Python.[35] Per September 2017, situs dokumentasi Gym tidak dipertahankan, dan pekerjaan aktif berfokus pada halaman GitHub-nya.[36]
RoboSumo
Dirilis pada 2017, RoboSumo adalah sebuah dunia virtual yang dimana agen robot metalearning humanoid awalnya kurang pengetahuan tentang cara berjalan, tetapi diberi tujuan untuk belajar bergerak dan mendorong agen lawan keluar dari lingkaran.[37] Melalui proses pembelajaran permusuhan ini, agen tersebut belajar bagaimana cara beradaptasi terhadap kondisi yang berubah-ubah; Saat sebuah agen dikeluarkan dari dunia virtual ini dan diletakan pada sebuah lingkungan virtual baru dengan angin yang besar, para agen bertahan untuk tetap tegak, menunjukkan bahwa ia telah belajar bagaimana menyeimbangkan secara umum.[37][38] Igor Mordatch dari OpenAI berpendapat bahwa persaingan antar agen dapat menciptakan "perlombaan senjata" intelijen yang dapat meningkatkan kemampuan agen untuk berfungsi, bahkan di luar konteks kompetisi.[37]
Debate Game
Pada 2018, OpenAI meluncurkan Debate Game, yang mengajarkan mesin untuk memperdebatkan masalah mainan di depan hakim manusia. Tujuannya adalah untuk meniliti apakah pendekatan seperti itu dapat membantu dalam mengaudit keputusan kecerdasan buatan dan dalam mengembangkan kecerdasan buatan yang dapat dijelaskan.[39][40]
Dactyl
Dactyl menggunakan pembelajaran mesin untuk melatih sebuah Tangan Bayangan, sebuah tangan robot manusia, untuk memanipulasi objek fisik. Ini belajar sepenuhnya dalam simulasi menggunakan algoritma RL dan kode pelatihan yang sama seperti OpenAI Five. OpenAI menangani masalah orientasi objek dengan menggunakan pengacakan domain, sebuah pendekatan simulasi yang memaparkan pelajar pada berbagai pengalaman daripada mencoba menyesuaikan diri dengan kenyataan. Pengaturan untuk Dactyl, disampin dari mempunyai kamera pendeteksi gerakan, juga mempunyai kamera RGB memungkinkan untuk mengizinkan robot untuk memanipulasi sebuah objek sewenang-wenang dengan melihatnya. Pada 2018, OpenAI menunjukkan bahwa sistemnya dapat memanipulasi kubus dan prisma segi delapan.[41]
Model generatif
GPT
Makalah asli tentang generative pre-training (GPT) dari model bahasa ditulis oleh Alec Radford dan rekan-rekan, dan diterbitkan dalam pracetak di situs web OpenAI pada 11 Juni, 2018.[42] Itu diperlihatkan bagaimana sebuah model generatif dapat memperoleh pengetahuan dunia dan memproses dependensi jangka panjang dengan pra-pelatihan pada beragam korpus dengan bentangan panjang teks yang berdekatan.
Generative Pre-trained Transformer 2, umumnya dikenal dengan bentuk singkatannya GPT-2, adalah model bahasatransformatortanpa terarah dan penerus GPT. GPT-2 pertama kali di umumkan pada Februari 2019, dengan awalnya versi demonstrasi terbatas dirilis ke publik. Versi penuh dari GPT-2 tidak segera dirilis karena khawatir akan potensi penyalahgunaan, termasuk penggunaan untuk menulis berita palsu.[43] Beberapa ahli menyatakan skeptis bahwa GPT-2 merupakan ancaman yang signifikan. Allen Institute for Artificial Intelligence menanggapi GPT-2 dengan alat untuk mendeteksi "berita palsu saraf".[44]
Penulis GPT-2 berpendapat bahwa model bahasa tanpa pengawasan adalah pembelajar tujuan umum, di ilustrasikan oleh GPT-2 mencapai akurasi dan kebingungan yang canggih pada 7 dari 8 tugas zero-shot (contoh. modelnya tidak dilatih lebih jauh pada contoh tugas masukan-keluaran spesifik apa pun). Korpus yang dilatihnya, disebut WebText, berisi lebih dari 8 juta dokumen dengan total 40 gigabita teks dari URL yang dibagikan dalam pengiriman Reddit dengan setidaknya 3 suara positif. Itu menghindari masalah tertentu pengkodean kosa kata dengan token kata dengan menggunakan pengkodean pasangan bita. Ini memungkinkan untuk mewakili string karakter apa pun dengan menyandikan karakter individu dan token multi-karakter.[45]
Generative Pre-trained[a] Transformer 3, biasanya dikenal dengan bentuk singkatannya GPT-3, adalah model bahasa pengubah tanpa pengawasan dan penerusnya GPT-2. Ini pertama kali dijelaskan pada Mei 2020.[47][48][49] OpenAI menyatakan bahwa versi penuh dari GPT-3 memiliki 175 miliar parameter,[49] dua kali lipat lebih besar dari parameter 1,5 miliar[50] dalam versi penuh dari GPT-2 (meskipun model GPT-3 dengan sedikitnya 125 juta parameter juga dilatih).[51]
OpenAI menyatakan bahwa GPT-3 berhasil pada tugas "meta-learning" tertentu. Ini dapat menggeneralisasi tujuan dari pasangan masukan-keluaran tunggal. Makalah ini memberikan contoh pembelajaran terjemahan dan transfer lintas bahasa antara bahasa Inggris dan Rumania, dan antara bahasa Inggris dan Jerman.[49]
Pada 23 September, 2020, GPT-3 dilisensikan secara eksklusif untuk Microsoft.[52][53]
Pada 14 Maret 2023, OpenAI mengumumkan perilisan Generative Pre-trained Transformer 4 (GPT-4), yang mampu menerima masukan teks atau gambar.[54][55]Vox mengatakan bahwa situs web lain telah mengatakan bahwa itu dikabarkan "secara keseluruhan" lebih unggul dari GPT-3 dan GPT-3.5.[56]The Verge juga mengutip desas-desus bahwa itu akan secara substansial meningkatkan jumlah parameter dari GPT-3 (dari 175 miliar menjadi 100 triliun), yang digambarkan Altman sebagai "omong kosong total".[57]
ChatGPT adalah alat kecerdasan buatan yang menyediakan sebuah pembicaraan antarmuka yang mengizinkan pengguna untuk menanyakan pertanyakan dalam bahasa alami. Sistemnya kemudian merespons dengan jawaban dalam hitungan detik. ChatGPT diluncurkan pada November 2022 dan mencapai 1 juta pengguna hanya 5 hari setelah peluncuran awalnya.[58]
ChatGPT Plus
ChatGPT Plus adalah layanan berlangganan $20/bulan yang memungkinkan pengguna mengakses ChatGPT selama jam sibuk, memberikan waktu respons yang lebih cepat, dan memberi pengguna akses awal ke fitur baru.[59]
Codex OpenAI adalah turunan dari GPT-3 yang juga telah dilatih pada kode dari 54 Juta repositori GitHub.[60][61] Diumumkan pada pertengahan 2021 sebagai kecerdasan buatan yang menjalankan alat pelengkapan kode secara otomatis GitHub Copilot.[61] Pada August 2021, sebuah API dirilis pada beta pribadi.[62] Menurut OpenAI, modelnya dapat membuat kode yang dapat berjalan dalam lebih dari selusin bahasa pemrograman, paling efektif di Python.[60]
Beberapa masalah dengan gangguan, cacat desain, dan kerentanan keamanan telah ditangani.[63][64]
Musik
OpenAI's MuseNet (2019) adalah jaringan neural yang terlatih untuk memprediksi not musik berikutnya dalam berkas musik MIDI. Ini dapat membuat lagu dengan sepuluh instrumen berbeda dalam lima belas gaya berbeda. Menurut The Verge, sebuah musik dibuat oleh MuseNet cenderung memulai dengan wajar tetapi kemudian jatuh ke dalam kekacauan semakin lama dimainkan.[65][66]
OpenAI's Jukebox (2020) adalah algoritma sumber terbuka untuk menghasilkan musik dengan vokal. Setelah pelatihan pada 1.2 juta sampel, sistem menerima sebuah genre, artis, dan potongan lirik, dan menghasilkan sampel lagu. OpenAI menyatakan bahwa lagu "menunjukkan koherensi musik lokal, ikuti pola akord tradisional" tetapi mengakui bahwa lagu-lagunya kurang "struktur musik yang lebih besar seperti paduan suara yang berulang" dan bahwa "ada kesenjangan yang signifikan" antara Jukebox dan musik buatan manusia.
Whisper
Whisper adalah model pengenalan suara penggunaan umum. Ini dilatih pada kumpulan data besar dari beragam audio dan juga merupakan model multi-tugas yang dapat melakukan pengenalan ucapan multibahasa serta terjemahan ucapan dan identifikasi bahasa.[67]
API
Pada Juni 2020, OpenAI mengumumkan sebuah API multiguna yang digunakan "untuk mengakses model kecerdasan buatan yang dikembangkan oleh OpenAI" untuk membiarkan pengembang memanggilnya untuk "tugas kecerdasan buatan bahasa Inggris apa pun."[68][69]
Pada Februari 2024, OpenAI memperkenalkan sebuah model teks-ke-video yang diberi nama Sora. Model ini menghasilkan video berdasarkan perintah deskriptif serta dapat memperluas video yang sudah ada.[70]
Antarmuka pengguna
MuseNet dan Jukebox (musik)
Dirilis pada 2019, MuseNet adalah jaringan saraf dalam yang dilatih untuk memprediksi not musik berikutnya dalam berkas musik MIDI. Ini dapat membuat lagu dengan sepuluh instrumen berbeda dalam lima belas gaya yang berbeda. Menurut pada The Verge, sebuah lagu yang dihasilkan oleh MuseNet cenderung dimulai dengan wajar tetapi kemudian jatuh ke dalam kekacauan jika semakin lama diputar.[71][72] dalam budaya pop, penggunaan awal alat ini digunakan pada awal tahun 2020 untuk film thriller psikologis internet Ben Drowned untuk membuat musik untuk karakter tituler.[73][74]
Dirilis pada 2020, Jukebox adalah sebuah algoritma sumber terbuka untuk membuat musik dengan vokal. Setelah dilatih pada 1.2 juta sampel, sistem menerima genre, artis, dan cuplikan lirik serta menampilkan sampel lagu. OpenAI menyatakan lagu-lagu tersebut "menunjukkan koherensi musik lokal [dan] mengikuti pola akord tradisional" tetapi mengakui bahwa lagu-lagu tersebut tidak memiliki "struktur musik yang lebih besar seperti paduan suara yang berulang" dan bahwa "ada celah yang signifikan" antara Jukebox dan musik buatan manusia. The Verge menyatakan "Ini mengesankan secara teknologi, meskipun hasilnya terdengar seperti versi lembek dari lagu yang mungkin terasa familiar", sementara Business Insider menyatakan "Anehnya, beberapa lagu yang dihasilkan dapat dan terdengar sah-sah saja".[75][76][77]
DALL-E adalah model Pengubah yang membuat gambar dari deskripsi tekstual, diungkapkan oleh OpenAI pada Januari 2021.[78]
CLIP melakukan sebaliknya: ini membuat sebuah deskripsi dari sebuah gambar yang diberikan.[79] DALL-E menggunakan versi 12 miliar parameter GPT-3 untuk menginterpretasikan masukan bahasa alami (seperti "sebuah dompet kulit hijau berbentuk segi lima" atau "pandangan isometrik dari kapibara yang menyedihkan") dan menghasilkan gambar yang sesuai. Itu dapat membuat gambar objek realistis ("jendela kaca patri dengan gambar stroberi biru") serta objek yang tidak ada dalam kenyataan ("kubus dengan tekstur landak"). Mulai Maret 2021, tidak ada API atau kode yang tersedia.
Pada Maret 2021, OpenAI menerbitkan makalah berjudul Multimodal Neurons in Artificial Neural Networks,[80] yang dimana mereka menunjukan sebuah analisis perinci dari model CLIP (dan GPT) dan kelemahan mereka. Tipe serangan baru ini pada model tersebut dijelaskan dalam karya ini.
Kami menyebut serangan ini sebagai serangan tipografi. Kami yakin serangan yang di jelaskan di atas, jauh dari sekadar perhatian akademis. Dengan mengeksploitasi kemampuan model untuk membaca teks dengan akurat, kami menemukan bahwa bahkan foto teks tulisan tangan sering kali dapat mengelabui model
— Multimodal Neurons in Artificial Neural Networks, OpenAI
DALL-E 2
Pada April 2022, OpenAI mengumumkan DALL-E 2, sebuah versi mutakhir dari model dengan hasil yang lebih realistis.[81] Pada Desember 2022, OpenAI mempublikasikan pada perangkat lunak GitHub untuk Point-E, sistem dasar baru untuk mengubah deskripsi teks menjadi model 3 dimensi.[82]
Microscope
Microscope OpenAI[83] adalah kumpulan dari visualisasi dari setiap lapisan yang signifikan dan neuron dari delapan model jaringan saraf yang berbeda yang sering dipelajari dalam interpretabilitas. Microscope dibuat untuk menganalisis fitur yang membentuk di dalam jaringan saraf dengan mudah. Model-model ini termasuk AlexNet, VGG 19, versi Inception yang berbeda, dan versijheh CLIP Resnet yang berbeda.[84]
Catatan
^Isitlah "pre-training" merujuk pada bahasa latihan umum sebagai berbeda dari fine-tuning untuk tugas-tugas tertentu.[46]
^ abLevy, Steven (December 11, 2015). "How Elon Musk and Y Combinator Plan to Stop Computers From Taking Over". Medium/Backchannel. Diakses tanggal December 11, 2015. Elon Musk: ...we came to the conclusion that having a 501(c)(3)... would probably be a good thing to doKesalahan pengutipan: Tanda <ref> tidak sah; nama "medium" didefinisikan berulang dengan isi berbeda
^Bass, Dina (July 22, 2019). "Microsoft to invest $1 billion in OpenAI". Los Angeles Times. Diarsipkan dari versi asli tanggal July 22, 2019. Diakses tanggal July 22, 2019.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^"About OpenAI". OpenAI (dalam bahasa Inggris). 2015-12-11. Diarsipkan dari versi asli tanggal December 22, 2017. Diakses tanggal 2022-12-23.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^Ganesh, Prakhar (December 17, 2019). "Pre-trained Language Models: Simplified". Diakses tanggal September 9, 2020. The intuition behind pre-trained language models is to create a black box which understands the language and can then be asked to do any specific task in that language.
^"openai/gpt-3". OpenAI. May 29, 2020. Diakses tanggal May 29, 2020.
^Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav et al. (June 1, 2020). "Language Models are Few-Shot Learners". arΧiv:2005.14165 [cs.CL]. ""Since we increase the capacity by over two orders of magnitude from GPT-2 to GPT-3"".
^Matthews, Dylan (January 2, 2023). "23 things we think will happen in 2023". Vox. Diarsipkan dari versi asli tanggal January 27, 2023. Diakses tanggal January 27, 2023.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^Roose, Kevin (December 5, 2022). "The Brilliance and Weirdness of ChatGPT". The New York Times. Diarsipkan dari versi asli tanggal January 18, 2023. Diakses tanggal January 27, 2023 – via NYTimes.com.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^Zaremba, Wojciech (August 10, 2021). "OpenAI Codex". OpenAI. Diakses tanggal September 3, 2021.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^Kesalahan pengutipan: Tag <ref> tidak sah;
tidak ditemukan teks untuk ref bernama gpt3-whynotfullmodel
^"TechCrunch – Startup and Technology News". TechCrunch. Diakses tanggal 11 June 2020. If you’ve ever wanted to try out OpenAI’s vaunted machine learning toolset, it just got a lot easier. The company has released an API that lets developers call its AI tools in on “virtually any English language task.”
^"MuseNet". OpenAI. April 25, 2019. Diarsipkan dari versi asli tanggal June 13, 2020. Diakses tanggal June 8, 2020.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^"Archived copy". Diarsipkan dari versi asli tanggal February 3, 2023. Diakses tanggal January 29, 2023.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^"Jukebox". OpenAI. April 30, 2020. Diarsipkan dari versi asli tanggal June 8, 2020. Diakses tanggal June 8, 2020.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^"DALL·E 2". OpenAI (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal April 6, 2022. Diakses tanggal April 6, 2022.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)