Esquerda: uma rede neural Bayesiana Bayesian neural network com duas camadas ocultas, transformando uma entrada tridimensional (na parte inferior) em uma saída bidimensional (na parte superior). Direita: saída Função densidade induzida por pesos aleatórios da rede. Vídeo: conforme a largura da rede aumenta, a distribuição de saída se simplifica, convergindo para uma distribuição normal multivariada no limite de largura infinita.
A rede bayesiana é uma ferramenta de modelagem para atribuir probabilidades a eventos e, assim, caracterizar a incerteza nas previsões de um modelo. Aprendizagem profunda e redes neurais artificiais são abordagens usadas no aprendizado de máquina para construir modelos computacionais que aprendam com exemplos de treinamento. As redes neurais bayesianas mesclam esses campos. Elas são um tipo de Rede neural artificial cujos parâmetros e previsões são probabilísticos.[1][2] Enquanto as redes neurais artificiais padrão geralmente atribuem alta confiança até mesmo para previsões incorretas,[3] as redes neurais bayesianas podem avaliar com mais precisão a probabilidade de suas previsões estarem corretas.
As Redes Neurais de Processo Gaussiano (RNPGs) são equivalentes às redes neurais Bayesianas até um determinado limite,[4][5][6][7][8][9][10][11][12] e fornecem uma forma fechada de avaliar redes neurais bayesianas. Elas são uma distribuição de probabilidade do processo gaussiano que descreve a distribuição sobre as previsões feitas pela rede neural bayesiana correspondente. A computação em redes neurais artificiais é geralmente organizada em camadas sequenciais de neurônios artificiais. O número de neurônios em uma camada é chamado de largura da camada. A equivalência entre RNPGs e redes neurais bayesianas ocorre quando as camadas em uma rede neural bayesiana se tornam infinitamente largas (veja a figura). Este grande limite de largura é de interesse prático, uma vez que as redes neurais de largura finita normalmente funcionam estritamente melhor à medida que a largura da camada é aumentada.[13][14][15]
Referências
↑MacKay, David J. C. (1992). «A Practical Bayesian Framework for Backpropagation Networks». Neural Computation. 4: 448–472. ISSN0899-7667. doi:10.1162/neco.1992.4.3.448
↑Neal, Radford M. (2012). Bayesian Learning for Neural Networks. Springer Science and Business Media. [S.l.: s.n.]
↑
Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). «On calibration of modern neural networks». Proceedings of the 34th International Conference on Machine Learning-Volume 70. arXiv:1706.04599
↑Neal, Radford M. (1996), «Priors for Infinite Networks», Bayesian Learning for Neural Networks, ISBN978-0-387-94724-2, Lecture Notes in Statistics, 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2
↑
Williams, Christopher K. I. (1997). «Computing with infinite networks». Neural Information Processing Systems
↑Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). «Deep Neural Networks as Gaussian Processes». International Conference on Learning Representations. Bibcode:2017arXiv171100165L. arXiv:1711.00165
↑
G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). «Gaussian Process Behaviour in Wide Deep Neural Networks». International Conference on Learning Representations. Bibcode:2018arXiv180411271M. arXiv:1804.11271
↑
Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). «Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes». International Conference on Learning Representations. Bibcode:2018arXiv181005148N. arXiv:1810.05148
↑
Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). «Deep Convolutional Networks as shallow Gaussian Processes». International Conference on Learning Representations. Bibcode:2018arXiv180805587G. arXiv:1808.05587
↑
Borovykh, Anastasia. «A Gaussian Process perspective on Convolutional Neural Networks». arXiv:1810.10798
↑
Tsuchida, Russell; Pearce, Tim. «Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks». arXiv:2002.08517
↑
Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). «Towards understanding the role of over-parametrization in generalization of neural networks». International Conference on Learning Representations. Bibcode:2018arXiv180512076N. arXiv:1805.12076