Обеспечение оперативного контроля и эффективной автономной работы Суперкомпьютерного комплекса МГУ

Сергей Игоревич Соболев, Александр Сергеевич Антонов, Вадим Владимирович Воеводин, Артем Александрович Даугель-Дауге, Сергей Анатольевич Жуматий, Дмитрий Александрович Никитенко, Константин Сергеевич Стефанов, Павел Артемович Швец

Аннотация


В НИВЦ МГУ разрабатывается система для обеспечения оперативного контроля и поддержки эффективного автономного функционирования суперкомпьютерных комплексов. Данная система внедряется в Суперкомпьютерном центре МГУ. В работе описывается опыт установки, настройки и эксплуатации системы для контроля работы суперкомпьютера «Чебышев».

Ключевые слова


суперкомпьютер; граф; графовая модель; мониторинг; оперативный контроль; автономная работа; Octotron

Полный текст:

PDF

Литература


Antonov A.S., Voevodin Vad.V., Voevodin Vl.V., Zhumatiy S.A., Nikitenko D.A., Sobolev S.I., Stefanov K.S., Shvets P.A. Razrabotka printsipov postroeniya i realizatsiya prototipa sistemy obespecheniya operativnogo kontrolya i effektivnoy avtonomnoy raboty superkomp'yuternykh kompleksov [Securing of Reliable and Efficient Autonomous Functioning of Supercomputers: Basic Principles and System Prototype] // Vestnik UGATU [Vestnik UGATU]. 2014. Vol. 18. No. 2. P. 227–236.

Sobolev S.I. Superkomp'yuter v shtatnom rezhime [Supercomputer in Regular Condi-tions] // Otkrytye sistemy [Open Systems]. 2014. No. 8.

Shvets P.A., Voevodin V.V., Sobolev S.I. Ob odnom podkhode k modelirovaniyu superkomp'yuternykh kompleksov [On a One Approach to Supercomputers Simulation] // Nauchnyy servis v seti Internet: mnogoobrazie superkomp'yuternykh mirov: Trudy Mezhdunarodnoy superkomp'yuternoy konferentsii (22-27 sentyabrya 2014 g., g. No-vorossiysk) [Internet Services & Internet: Variety of Supercomputing Worlds. Interna-tional supercomputing Conference Proceedings, Sep 22-27, 2014, Novorossiysk]. Izd-vo MGU, Moskva [MSU Publishing, Moscow]. 2014. P. 197–204.

HP OpenView. URL: http://www.openview.hp.com/solutions/ams/ams_bb.pdf (ac-cessed: 06.04.2015).

xCAT, An extreme cluster/cloud administration toolkit. URL: http://sourceforge.net/p/xcat/wiki/Main_Page/ (accessed: 06.04.2015).

Lu K. et al. Iaso: an autonomous fault-tolerant management system for supercomputers //Frontiers of Computer Science. 2014. Vol. 8. No. 3. P. 378-390

Programmnoe obespechenie kompanii T-Platformy [T-Platforms Software]. URL: http://www.t-platforms.ru/products/software.html (accessed: 06.04.2015).

Voevodin Vad V., Stefanov K.S. Avtomaticheskoe opredelenie i opisanie setevoy infrastruktury superkomp'yuterov [Automated Detection and Description of Supercomputer Network Structure] // Vychislitel'nye metody i programmirovanie: Novye vychislitel'nye tekhnologii (Elektronnyy nauchnyy zhurnal) [Numerical Methonds and Programming. Scientific on-line open access journal]. 2014. Vol. 15. No. 3. P. 560–568.

Polnyy iskhodnyy kod Octotron [Octotron Source Code]. URL: https://github.com/srcc-msu/octotron_core (accessed: 06.04.2015).

Rabochee okruzhenie Octotron dlya sozdaniya modeli na yazyke Python [Octrotron Environment]. URL: https://github.com/srcc-msu/octotron (accessed: 06.04.2015).




DOI: http://dx.doi.org/10.14529/cmse150203