شبکه‌های عصبی بیزی؛ چرایی و چگونگی

نوع مقاله : مقاله ترویجی

نویسندگان

1 گروه الگوریتم‌ها و محاسبات، دانشکده علوم مهندسی، دانشکدگان فنی، دانشگاه تهران

2 بخش آمار، دانشکده ریاضی آمار و علوم کامپیوتر دانشکدگان علوم، دانشگاه تهران

چکیده

یکی از چالش‌ها در به‌کارگیری شبکه‌های عصبی، مشکل بیش‌برازش است. این مشکل زمانی پیش می‌آید که مدل شبکه عصبی به داده‌های آموزشی به‌طور دقیق برازش داده می‌شود، ولی این مدل به داده‌های خارج از این مجموعه قابل تعمیم نیست. عدم تعمیم‌پذیری مدل بیشتر در شرایطی پیش می‌آید که تعداد نمونه‌های مجموعه داده آموزشی کم‌تر از تعداد ویژگی‌های مورد بررسی و پیچیدگی مدل یعنی تعداد وزن‌ها و اریبی‌های شبکه عصبی است. در چنین وضعیتی معمولاً از یادگیری ترکیبی و به‌طور خاص از روش‌های دسته‌بندی استفاده می‌شود. در این روش از بازنمونه‌گیری برای ایجاد عدم قطعیت در مدل استفاده می‌شود و به‌دین وسیله تعمیم‌پذیری مدل بهبود پیدا می‌کند. با این‌حال بازنمونه‌گیری در شرایطی که اندازه نمونه آموزشی بسیار کم است، کارایی ندارد و عدم قطعیت ایجاد شده در مدل بسیار محدود است. شبکه‌های عصبی بیزی با کمّی‌سازی عدم قطعیت پارامترها، حالاتی از پارامترها را در نظر می‌گیرند که ممکن است توسط داده‌های موجود دیده نشده باشند. بدین‌‌ترتیب تعمیم‌پذیری مدل‌ افزایش چشم‌گیر پیدا می‌کند. این روش علاوه بر جلوگیری از بیش‌برازش، توزیع پیش‌بین پسین را نیز در اختیار ما قرار می‌دهد و امکان به‌دست آوردن بازه‌های پیش‌بینی را نیز فراهم می‌آورد. در این مقاله به معرفی شبکه‌های عصبی بیزی و نحوه آموزش آن‌ها و سپس به تحلیل داده‌ها و مقایسه این مدل‌ها با شبکه‌های عصبی عادی می‌پردازیم.

کلیدواژه‌ها

موضوعات


[1] س. م. طاهری، آمار و شبکه‌های عصبی مصنوعی، مجموعه مقالات هشتمین کنفرانس آمار ایران، دانشگاه شیراز، (1385) 81--91.
 
[2] م. ر. مشکانی و ا. کاوسی دولانقر، روش‌های آمار بیزی، انتشارات دانشگاه علوم پزشکی دانشگاه شهید بهشتی، 1401.
[3] C. Blundell, J. Cornebise, K. Kavukcuoglu and D. Wierstra, Weight uncertainty in neural network, Proc. of the International Conference on Machine Learning PMLR, Lille, France, (2015) 1613–1622.
[4] J. P. Bharadiya, A review of Bayesian machine learning principles, methods, and applications, Int. J. Innov. Sci. Res. Technol., 8 no. 5 (2023) 2033–2038.
[5] R. Chandra, R. Chen and J. Simmons, Bayesian neural networks via MCMC: a Python-based tutorial, (2023). https://doi.org/10.48550/arXiv.2304.02595.
[6] C. M. Carlo, Markov chain monte carlo and gibbs sampling, Lecture Notes for EEB 581, (2004) 24 pp.
[7] A. Graves, Practical variational inference for neural networks, Part of Part of Advances in Neural Information Processing Systems 24 (NIPS), (2011)
[8] A. Gelman, J. B. Carlin, H. S. Stern and D. B. Rubin, Bayesian Data Analysis, Chapman and Hall/CRC, 1995.
[9] Z. Q. Hong and J. Y. Yang, Lung cancer, UCI Machine Learning Repository, (1992). https://doi.org/10.24432/C57596.
[10] W. K. Hastings, Monte Carlo sampling methods using Markov chains and their applications, Biometrika, 57 no. 1 (1970) 97–109.
[11] L. V. Jospin, H. Laga, F. Boussaid, W. Buntine and M. Bennamoun, Hands-on Bayesian neural networks—A tutorial for deep learning users, IEEE Computational Intelligence Magazine, 17 no. 2 (2022) 29–48.
[12] H. D. Kabir, A. Khosravi, M. A. Hosen and S. Nahavandi, Neural network-based uncertainty quantification: A survey of methodologies and applications, IEEE Access, 6 (2018) 36218–36234.
[13] J. Ker, L. Wang, J. Rao and T. Lim, Deep learning applications in medical image analysis, IEEE Access, 6 (2018) 9375–9389.
[14] I. Oleksiienko, D. T. Tran and A. Iosifidis, Variational neural networks, Procedia Computer Science, 222 (2023) 104–113.
[15] C. P. Robert, G. Casella and G. Casella, Monte carlo statistical methods, 2, Springer, 1999.
[16] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow and R. Fergus, Intriguing properties of neural networks, (2013). arXiv preprint arXiv:1312.6199. https://doi.org/10.48550/arXiv.1312.6199
[17] S. Sun, G. Zhang, J. Shi and R. Grosse, Functional variational Bayesian neural networks, (2019). arXivpreprint arXiv:1903.05779. https://doi.org/10.48550/arXiv.1903.05779.
[18] M. N. Tran, T. N. Nguyen, and V. H. Dao, A practical tutorial on variational Bayes, (2021) 43 p. arXivpreprint arXiv:2103.01327. https://doi.org/10.48550/arXiv.2103.01327
[19] M. J. Zaki and W. Meira Jr, Data mining and machine learning: fundamental concepts and algorithms, Cambridge University Press, 2020.