Inception (arsitektur pemelajaran mendalam)

Inception
Inception
Tipe	Jaringan saraf konvolusional
Versi pertama	2014
Genre	Jaringan saraf konvolusional;
Lisensi	Apache 2.0
	Sunting di Wikidata • Sunting kotak info • L • BBantuan penggunaan templat ini

Inception (har: permulaan)^[1] adalah keluarga arsitektur jaringan saraf konvolusional (CNN) dalam bidang visi komputer. Inception diperkenalkan oleh para peneliti Google pada tahun 2014 dengan nama GoogLeNet (yang kemudian berganti nama menjadi Inception v1). Arsitektur ini memiliki peran penting dalam sejarah CNN karena menjadi salah satu model awal yang memisahkan tiga bagian utama: bagian stem (penerimaan atau ingestion data), bagian body (pemrosesan data), dan bagian head (prediksi) yang desain ini masih diterapkan di semua CNN modern.^[2]

Model Inception-v3

Riwayat versi

Inception v1

Pada tahun 2014, sebuah tim dari Google mengembangkan arsitektur GoogLeNet, yang salah satu variannya memenangkan ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14).^[1]^[3]

Nama “GoogleNet” terinspirasi dari LeNet (1998), karena baik LeNet maupun GoogLeNet sama-sama merupakan arsitektur CNN. Selain itu, arsitektur ini juga diberi nama "Inception", mengacu pada meme internet “Kita perlu masuk lebih dalam” atau “we need to go deeper”, yang berasal dari film Inception (2010).^[1] Seiring dengan munculnya versi-versi terbaru, arsitektur Inception yang pertama diberi nama ulang menjadi "Inception v1".

Model dan kode dirilis di bawah lisensi Apache 2.0 di GitHub.^[4]

Arsitektur Inception v1 adalah CNN dalam yang terdiri dari 22 lapisan (layer). Sebagian besar lapisan ini terdiri dari "modul Inception" (inception modules). Makalah asli menyatakan bahwa modul Inception merupakan "puncak logis" atau logical culmination dari konsep Jaringan dalam Jaringan dan (Arora et al, 2014).^[5]

Karena Inception v1 memiliki arsitektur yang dalam, ia mengalami masalah gradien yang lenyap. Tim peneliti memecahkan masalah ini dengan menggunakan dua auxiliary classifiers, yaitu linear-softmax classifiers yang disisipkan pada kedalaman 1/3 dan 2/3 dari jaringan. Fungsi kerugian yang digunakan merupakan jumlah berbobot dari ketiganya klasifiernya: $L=0.3L_{aux,1}+0.3L_{aux,2}+L_{real}$

Setelah pelatihan selesai, auxiliary classifiers ini dihapus. Masalah vanishing gradient kemudian diselesaikan lebih efektif oleh arsitektur ResNet.

Arsitektur inception terdiri dari tiga bagian yang ditumpuk satu sama lain:^[2]

Stem (data ingestion): Beberapa lapisan konvolusi pertama berfungsi untuk memproses data awal dengan mengecilkan ukuran gambar.
Body (data processing): Sebagian besar proses dilakukan di sini melalui beberapa Inception modules yang mengekstrak fitur dari data.
Head (prediction): Lapisan fully-connected terakhir dan fungsi softmax menghasilkan distribusi probabilitas untuk klasifikasi gambar.

Struktur ini digunakan di sebagian besar arsitektur CNN modern.

Inception v2

Inception v2 dirilis pada tahun 2015 dalam sebuah makalah yang lebih dikenal karena memperkenalkan normalisasi batch.^[6]^[7] Inception versi ini memiliki 13,6 juta parameter.

Inception v2 merupakan penyempurnaan dari Inception v1 dengan menambahkan batch normalization serta menghilangkan dropout dan local response normalization, yang dianggap tidak lagi diperlukan setelah penggunaan batch normalization.

Inception v3

Inception v3 dirilis pada tahun 2016.^[6]^[8] Ia menyempurnakan Inception v2 dengan menggunakan konvolusi terfaktor.

Sebagai contoh, sebuah konvolusi 5×5 dapat dipecah menjadi dua konvolusi 3×3 yang ditumpuk. Keduanya tetap memiliki bidang reseptif sebesar 5×5. Secara teori, konvolusi 5×5 lebih kuat karena memiliki 25 parameter, dibandingkan hanya 18 parameter pada versi factorized. Namun, kekuatan tambahan ini tidak selalu dibutuhkan. Secara empiris, tim peneliti menemukan bahwa factorized convolutions lebih efektif.

Inception v3 juga menggunakan teknik reduksi dimensi dengan menggabungkan keluaran dari lapisan konvolusional dan lapisan pengumpulan. Sebagai contoh, tensor berukuran $35\times 35\times 320$ dapat diperkecil dengan konvolusi dengan stride 2 hingga $17\times 17\times 320$ , dan dengan maxpooling dengan ukuran pool $2\times 2$ ke $17\times 17\times 320$ . Keduanya kemudian digabungkan menjadi $17\times 17\times 640$ .

Selain itu, inception v3 juga menghapus auxiliary classifier terbawah selama pelatihan. Tim peneliti menemukan bahwa auxiliary head berfungsi sebagai bentuk regularisasi, sehingga tidak semua auxiliary classifiers diperlukan.

Mereka juga mengusulkan teknik label-smoothing regularization dalam klasifikasi. Untuk gambar berlabel $c$ , alih-alih membuat model untuk memprediksi distribusi probabilitas $\delta _{c}=(0,0,\dots ,0,\underbrace {1} _{c{\text{-th entry}}},0,\dots ,0)$ , mereka membuat model tersebut memprediksi distribusi yang telah dihaluskan $(1-\epsilon )\delta _{c}+\epsilon /K$ Di mana $K$ adalah jumlah total kelas.

Awal mula v4

Pada tahun 2017, tim peneliti merilis Inception v4, Inception ResNet v1, dan Inception ResNet v2.^[9]

Inception v4 adalah pembaruan tambahan dengan konvolusi yang lebih terfaktorisasi, dan komplikasi lain yang secara empiris ditemukan dapat meningkatkan tolok ukur.

Inception ResNet v1 dan v2 keduanya merupakan modifikasi dari Inception v4, di mana koneksi residual ditambahkan ke setiap modul Inception, terinspirasi oleh arsitektur ResNet.^[10]

Xception

Xception ("Extreme Inception") diterbitkan pada tahun 2017.^[11] Arsitektur ini adalah tumpukan linier lapisan konvolusi yang dapat dipisahkan berdasarkan kedalamannya dengan koneksi residual. Desain ini diusulkan berdasarkan hipotesis bahwa dalam CNN, korelasi lintas saluran dan korelasi spasial dalam peta fitur dapat dipisahkan sepenuhnya.

Referensi

^ ^a ^b ^c Szegedy, Christian; Wei Liu; Yangqing Jia; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (June 2015). "Going deeper with convolutions". 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. hlm. 1–9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0.
^ ^a ^b Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.4. Multi-Branch Networks (GoogLeNet)". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
^ Official repo of Inception V1 on Kaggle, published by Google.
^ "google/inception". Google. 2024-08-19. Diakses tanggal 2024-08-19.
^ Arora, Sanjeev; Bhaskara, Aditya; Ge, Rong; Ma, Tengyu (2014-01-27). "Provable Bounds for Learning Some Deep Representations". Proceedings of the 31st International Conference on Machine Learning. PMLR: 584–592.
^ ^a ^b Szegedy, Christian; Vanhoucke, Vincent; Ioffe, Sergey; Shlens, Jon; Wojna, Zbigniew (2016). "Rethinking the Inception Architecture for Computer Vision". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 2818–2826.
^ Official repo of Inception V2 on Kaggle, published by Google.
^ Official repo of Inception V3 on Kaggle, published by Google.
^ Szegedy, Christian; Ioffe, Sergey; Vanhoucke, Vincent; Alemi, Alexander (2017-02-12). "Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning". Proceedings of the AAAI Conference on Artificial Intelligence. 31 (1). arXiv:1602.07261. doi:10.1609/aaai.v31i1.11231. ISSN 2374-3468.
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 Dec 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385.
^ Chollet, Francois (2017). "Xception: Deep Learning With Depthwise Separable Convolutions". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 1251–1258.

Daftar semua model Inception yang dirilis oleh Google:"models/research/slim/README.md at master · tensorflow/models". GitHub (dalam bahasa Inggris). Diakses tanggal 2024-10-19. Sumber : GitHub Diperoleh 2024-10-19 .

Templat:Google AI Templat:Differentiable computing

[szegedy-1] Szegedy, Christian; Wei Liu; Yangqing Jia; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (June 2015). "Going deeper with convolutions". 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. hlm. 1–9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0.

[:2-2] Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.4. Multi-Branch Networks (GoogLeNet)". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.

[3] Official repo of Inception V1 on Kaggle, published by Google.

[4] "google/inception". Google. 2024-08-19. Diakses tanggal 2024-08-19.

[5] Arora, Sanjeev; Bhaskara, Aditya; Ge, Rong; Ma, Tengyu (2014-01-27). "Provable Bounds for Learning Some Deep Representations". Proceedings of the 31st International Conference on Machine Learning. PMLR: 584–592.

[:0-6] Szegedy, Christian; Vanhoucke, Vincent; Ioffe, Sergey; Shlens, Jon; Wojna, Zbigniew (2016). "Rethinking the Inception Architecture for Computer Vision". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 2818–2826.

[7] Official repo of Inception V2 on Kaggle, published by Google.

[8] Official repo of Inception V3 on Kaggle, published by Google.

[:1-9] Szegedy, Christian; Ioffe, Sergey; Vanhoucke, Vincent; Alemi, Alexander (2017-02-12). "Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning". Proceedings of the AAAI Conference on Artificial Intelligence. 31 (1). arXiv:1602.07261. doi:10.1609/aaai.v31i1.11231. ISSN 2374-3468.

[resnet2-10] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 Dec 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385.

[11] Chollet, Francois (2017). "Xception: Deep Learning With Depthwise Separable Convolutions". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 1251–1258.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]