Прогнозирование банкротств предприятий с помощью экстремального градиентного бустинга
Аннотация
Использование моделей прогнозирования банкротства предприятий для управления инвестиционными рисками лежит в основе управленческой деятельности финансовых учреждений. Важным фактором, позволяющим финансовым учреждениям определять объем капитала для покрытия кредитных потерь, является точность прогноза. В большинстве исследований для построения моделей банкротства предприятий используются традиционные методы статистики (например, дискриминантный анализ и логистическая регрессия).Однако точность построенных моделей обычно является достаточно низкой. Это обусловлено несбалансированностью классов обучающих наборов (доля фирм-банкротов составляет несколько процентов от общего числа фирм), которые используются при построении моделей. В настоящее время широкое распространение получают такие методы машинного обучения как метод случайного леса и метод градиентного бустинга. В данном исследовании основной акцент делается на использовании экстремального градиентного бустинга для прогнозирования банкротства. Экстремальный градиентный бустинг, используя LASSO или Ridge регуляризацию, штрафует сложные модели, что помогает избежать переобучения. Также в ходе обучения экстремальный градиентный бустинг заполняет пропущенные значения в наборе данных в зависимости от величины потерь. В статье для повышения эффективности экстремального градиентного бустинга предлагается использовать технологию SMOTE для улучшения сбалансированности классов. Метрики качества решений, полученных улучшенным экстремальным градиентным бустингом, сравниваются с решениями полученными другими методами.
Ключевые слова
Полный текст:
PDFЛитература
Altman E.I. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy. The Journal of Finance. 1968. Vol. 23, no. 4. P. 589–609. DOI: 10.1111/j.1540-6261.1968.tb00843.x.
Lugovskaya L. Predicting Default of Russian Smes on the Basis of Financial and Nonfinancial Variables. Journal of Financial Services Marketing. 2010. Vol. 14, no. 4. P. 301–313. DOI: 10.1057/fsm.2009.28.
Deakin E. A Discriminant Analysis of Predictors of Business Failure. Journal of Accounting Research. 1972. Vol. 10, no 1. P. 167–179. DOI: 10.2307/2490225.
Antunesa F., Ribeiroa B., Pereirab F. Probabilistic Modeling and Visualization for Bankruptcy Prediction. Applied Soft Computing. 2017. Vol. 60. P. 831–843. DOI: 10.1016/j.asoc.2017.06.043.
Ohlson J.A. Financial Ratios and the Probabilistic Prediction of Bankruptcy. Journal Of Accounting Research. 1980. Vol. 18, no. 1. P. 109–131. DOI: 10.2307/2490395.
Martin D. Early Warning of Bank Failure: a Logit Regression Approach. Journal of Banking & Finance. 1977. Vol. 1, no. 3. P. 249–276.
Wiginton J.C. A Note on the Comparison of Logit and Discriminant Models of Consumer Credit Behavior. Journal of Financial and Quantitative Analysis. 1980. Vol. 15. P. 757–770. DOI: 10.2307/2330408.
Begley J., Ming J., Watts S. Bankruptcy Classification Errors in the 1980s: an Empirical Analysis of Altman’s and Ohlson’s Models. Review of Accounting Studies. 1996. Vol. 1, no. 4. P. 267–284. DOI: 10.1007/bf00570833.
Wilson R.L, Sharda R. Bankruptcy Prediction Using Neural Networks. Decision Support Systems. 1994. Vol. 11, no. 5. P. 545–557. DOI: 10.1016/0167-9236(94)90024-8.
Tam K.Y., Kiang M.Y. Managerial Applications of Neural Networks: the Case of Bank Failure Predictions. Management science. 1992. Vol. 38, no. 7. P. 926–947. DOI: 10.1287/mnsc.38.7.926.
Altman E.I., Marco G., Varetto F. Corporate Distress Diagnosis: Comparisons Using Linear Discriminant Analysis and Neural Networks (the Italian Experience). Journal of Banking & Finance. 1994. Vol. 18, no. 3. P. 505–529. DOI: 10.1016/0378-4266(94)90007-8.
Ciampi F., Vallini C., Gordini N. Using Artificial Neural Networks Analysis for Small Enterprise Default Prediction Modeling: Statistical Evidence from Italian Firms. Oxford Business & Economics Conference Proceedings, Association for Business and Economics Research, ABER. 2009. Vol. 1. P. 126.
Wei L., Li J., Chen Z. Credit Risk Evaluation Using Support Vector Machine with Mixture of Kernel. Proceedings of the 7th International Conference on Computational Science. Lecture Notes in Computational Science and Engineering. 2007. Vol. 4488. P. 431–438. DOI: 10.1007/978-3-540-72586-2_62.
Härdle W.K., Lee Y.J., Schäfer D. The Default Risk of Firms Examined with Smooth Support Vector Machines. Discussion Papers, German Institute for Economic Research. 2007. Vol. 757. P. 1–30. DOI: 10.2139/ssrn.2894311.
Zieba M., Tomczak S.K., Tomczak J.M. Ensemble Boosted Trees with Synthetic Features Generation in Application to Bankruptcy Prediction. Expert Systems with Applications. 2016. Vol. 58. P. 93–101. DOI: 10.1016/j.eswa.2016.04.001.
Xia Y., Liu C.,. Li Y, Liu N. A Boosted Decision Tree Approach Using Bayesian Hyper-Parameter Optimization for Credit Scoring. Expert Systems With Applications. 2017. Vol. 78. P. 225–241. DOI: 10.1016/j.eswa.2017.02.017.
Zhou L. Performance of Corporate Bankruptcy Prediction Models on Imbalanced Dataset: The Effect of Sampling Methods. Knowledge-Based Systems. 2013. Vol. 41. P. 16–25. DOI: 10.1016/j.knosys.2012.12.007.
Kim T., Ahn H. A Hybrid Under-Sampling Approach for Better Bankruptcy Prediction. Journal of Intelligent Information Systems. 2015. Vol. 21, no 2. P. 173–190. DOI: 10.13088/jiis.2015.21.2.173.
Veganzonesa D., Séverina E. An Investigation of Bankruptcy Prediction in Imbalanced Datasets. Decision Support Systems. 2018. no. 112. P. 111–124. DOI: 10.1016/j.dss.2018.06.011.
Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM. 2016. P. 785–794. DOI: 10.1145/2939672.2939785.
Friedman J.H. Stochastic Gradient Boosting. Computational Statistics and Data Analysis. 2002. no. 38. P. 367–378. DOI: 10.1016/j.eswa.2016.04.001.
DOI: http://dx.doi.org/10.14529/cmse200305