Исследование возможности использования линейной регрессии для предсказания расхода памяти в высоконагруженной информационной системе

Артем Викторович Тузов

Аннотация


Рассматривается актуальная на данный момент проблема планирования задач в высоконагруженных информационных системах. Целью данной работы является проверка гипотезы о том, что загруженность высокопроизводительных информационных систем зависит от внешних параметров среды, в которой они функционируют. Для проверки была собрана и запущена система, на которой находятся корпоративный сайт компании, система мониторинга и приложение для социальной сети vk.com. В качестве внешних параметров были выбраны как природные явления, так и статистические данные посещения популярных сайтов, а также курсы валют и акций. На наш взгляд, эти параметры в той или иной степени могут оказывать влияние на загруженность информационной системы. Данные собирались на протяжении месяца работы системы каждые десять минут. При каждом сборе информации для каждого работающего процесса в системе запоминалось количество расходуемой им памяти. Для идентификации модели был выбран метод линейной регрессии как наиболее простой и часто используемый вариант проверки неявных зависимостей между данными. Все собранные параметры были отфильтрованы – проверены на наличие кросскорреляции и нормализованы. Используя построенную модель, мы предсказали значение расходуемой памяти процессами. Для каждого предсказанного значения было посчитано среднеквадратичное отклонение. Анализ результатов показал, что построенная модель имеет ряд проблем. В качестве рекомендаций по улучшению результатов указано использование другого метода построения модели, а также улучшение качества и количество собираемых данных. Дальнейшие планы включают в себя исследование возможности предсказания процессорного времени высоконагруженной информационной системы, используя внешние параметры.


Ключевые слова


машинное обучение; линейная регрессия; процессы операционной системы; оперативная память

Полный текст:

PDF

Литература


Окороков В.А. Операционные системы: курс лекций. Челябинск: Изд-во Челябинского гос. ун-та, 2011. 288 c. [Okorokov V.A. Operacionnye sistemy: kurs lektsiy [Operating Systems: Course of Lectures]. Cheliabinsk, ChSU Publ., 2011. 288 p.]

Peter S., Jialin Li, Zhang I., Dan R. K. Ports, Woos D., Krishnamurthy A., Anderson T., Roscoe T. Arrakis: The Operating System Is the Control Plane. ACM Transactions on Computer Systems, 2015, vol. 33, no. 4, article 11.

Yang R., Ouyang X., Chen Y., Townend P., Xu J. Intelligent Resource Scheduling at Scale: a Machine Learning Perspective. IEEE International Symposium on Service Oriented System Engineering, 2018, pp. 132–141. DOI: 10.1109/SOSE.2018.00025

Zheng H., Yuan J., Chen L. Short-Term Load Forecasting Using EMD-LSTM Neural Networks with a Xgboost Algorithm for Feature Importance Evaluation. Energies, 2017, vol 10, no. 8. Available at: http://www.mdpi.com/1996-1073/10/8/1168/htm (accessed 1 August 2017). DOI: 10.3390/en10081168

Divina F., Gilson A., Goméz-Vela F., García Torres M., & Torres J.F. Stacking Ensemble Learning for Short-Term Electricity Consumption Forecasting. Energies, 2018, vol. 11, no. 4. Available at: http://www.mdpi.com/1996-1073/11/4/949/htm (accessed 9 April 2018). DOI: 10.3390/en11040949

Dahua Gan, Yi Wang, Ning Zhang, Wenjun Zhu. Enhancing Short-Term Probabilistic Residential Load Forecasting with Quantile Long-Short-Term Memory. The Journal of Engineering, 2017, vol. 2017, iss. 14, pp. 2622–2627. DOI: 10.1049/joe.2017.0833

Назаров С.В., Широков А.И. Современные операционные системы. М., 2012. 367 c. [Nazarov S.V., Shirokov A.,I. Sovremennie operatsionnye systemi [Modern Operating Systems]. Moscow, 2013. 367 p.]

Fair scheduler (2018). Available at: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoopyarn-site/FairScheduler.html (accessed 16 April 2018).

Capacity scheduler(2018). Available at: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html (accessed 16 April 2018).

Wang F., Gao X., Chen G. Lowering the Volatility: a Practical Cache Allocation Prediction and Stability-Oriented Co-Runner Scheduling Algorithms. The Journal of Supercomputing, 2017, vol. 72, no 3, pp. 1126–1151. DOI: 10.1007/s11227-016-1645-7

Evans R., Gao J. DeepMind AI Reduces Google Data Centre Cooling Bill by 40%. DeepMind Blog (2016), vol. 20. Available at: https://deepmind.com/blog/deepmind-ai-reduces-google-data-centrecooling-bill-40/ (accessed 20 July 2016).

Bećirović E., Ćosović M. Machine Learning Techniques for Short-term load Forecasting. Environment Friendly Energies and Applications (EFEA), 4th International Symposium, 2016, pp. 1–4.

Kim T., Lee D., Choi J., Spurlock A., Sim A., Todd A., Wu K. Extracting Baseline Electricity Usage with Gradient Tree Boosting. Smart City/SocialCom/SustainCom (SmartCity), IEEE International Conference, 2015, pp. 734–741. DOI: 10.1109/SmartCity.2015.156

Freedman D.A. Statistical Models: Theory and Practice. Cambridge University Press, 2009. 456 p. DOI: 10.1017/CBO9780511815867

Neter J., Kutner M.H., Nachtsheim C.J., & Wasserman W. Applied Linear Statistical Models. Chicago: Irwin, 1996, vol. 4. 318 p.

Rao C.R., Toutenburg H. Linear Models. Linear Models: Least Squares and Alternatives. Springer, 1995, pp. 3–18. DOI: 10.1007/978-1-4899-0024-1, DOI: 10.1007/978-1-4899-0024-1_2




DOI: http://dx.doi.org/10.14529/ctcr180301

Ссылки

  • На текущий момент ссылки отсутствуют.