Методы и средства организации глобальной очереди заданий в территориально распределенной вычислительной системе

Артем Игоревич Тихомиров, Антон Викторович Баранов

Аннотация


В статье рассмотрена модель территориально распределенной вычислительной системы (ТРС), состоящей из объединенных каналами связи высокопроизводительных вычислительных установок. Вычислительные установки из состава ТРС представляют собой высокопроизводительные кластеры, различающиеся по архитектуре и производительности. Объединяющие их каналы связи имеют разные надежность и пропускную способность. Особенностью рассматриваемой модели является децентрализованная схема управления заданиями. Подобная схема подразумевает, что любая вычислительная установка в любой момент времени может выйти из состава ТРС по причине своей неисправности или неисправности канала связи. Устранение неисправности означает динамическое подключение вычислительной установки к ТРС. В этих условиях в ТРС организуется глобальная очередь заданий с абсолютными приоритетами, из которой задания распределяются по свободным ресурсам вычислительных установок. Абсолютные приоритеты предполагают вытеснение с выполнения низкоприоритетного задания поступившим в очередь высокоприоритетным заданием. Для формирования и хранения глобальной очереди заданий в условиях динамически изменяющегося состава ТРС необходима надежная распределенная информационная система (РИС). В качестве основы для ее построения авторами рассмотрен ряд известных распределенных СУБД. В статье сформулированы требования к РИС, проведен сравнительный анализ и сделан выбор решения, удовлетворяющего требованиям, рассмотрен разработанный авторами макет ТРС с децентрализованной схемой диспетчеризации заданий.


Ключевые слова


территориально распределённая система; распределённая информационная система; абсолютные приоритеты вычислительных заданий

Полный текст:

PDF

Литература


Savin G.I., Shabanov B.M., Korneev V.V., Telegin P.N., Semenov D.V., Kiselev A.V., Kuznecov A.V., Vdovikin O.I., Aladyshev O.S., Ovsjannikov A.P. Creation of Distributed Infrastructure for Supercomputer Applications. Programmnye produkty i sistemy [Software & Systems]. 2008, no. 2, pp. 2–7. (in Russian).

Korneev V.V., Semenov D.V., Telegin P.N., Shabanov B.M. Resilient Decentralized GRID Resources Control. Izvestija vysshih uchebnyh zavedenij. Jelektronika [Proceedings of Universities. Electronics]. 2015, vol. 20, no. 1, pp. 83–90. (in Russian).

Baranov A.V., Kiselev A.V., Starichkov V.V., Ionin R.P., Lyakhovets D.S. Comparison of Workload Management Systems from the Point of View of Organizing an Industrial Computing. Nauchnyj servis v seti Internet: poisk novyh reshenij: Trudy mezhdunarodnoy superkomp’yuternoy konferentsii (Novorossiysk, 17–22 Sentyabrya 2012) [Scientific Services and Internet: Search for New Solutions: Proceedings of the International Supercomputing Conference (Novorossiysk, Russia, September, 17-22, 2012)]. Moscow, Publishing of Lomonosov Moscow State University, 2012, pp. 506–508. (In Russian).

Baranov A.V., Tihomirov A.I. Scheduling of Jobs in a Territorially Distributed Computing System with Absolute Priorities. Vychislitel’nye tehnologii [Computational Technologies]. 2017, vol. 22, no. S1, pp. 4–12. (in Russian).

Berezovskij P.S., Kovalenko V.N. Structure and Functionality of the Job Management System for Grid with Non-Clustered Resources. Preprinty IPM im. M. V. Keldysha [KIAM Preprints]. 2007, no. 67, pp. 1–29. (in Russian).

WMS Architecture overview. Available at: http://egee-jra1-wm.mi.infn.it/egee-jra1-wm/wms.shtml (accessed: 27.03.2017).

Internal Architecture 5.14. Available at: http://www.gridway.org/doku.php?id=documentation:release_5.14:iashtml (accessed: 20.03.2017).

Cirne W., Brasileiro F., Costa L., Paranhos D., Santos-Neto E., Andrade N. Scheduling in Bag-of-Task Grids: PAUA Case. 16th Symposium on Computer Architecture and High Performance Computing. Oct. 2004, pp. 124–131. DOI: 10.1109/CAHPC.2004.37.

Kovalenko V.N., Orlov A.V. Metascheduling in GRID and Resource Reservation Protocol.

Preprinty IPM im. M. V. Keldysha [KIAM Preprints]. 2002, no. 1, pp. 1–25. (in Russian).

Buncic P., Saiz P., Peters A.J. The AliEn System, Status and Perspectives. 2003 Conference for Computing in High-Energy and Nuclear Physics, La Jolla, CA, USA, 24–28 Mar 2003. Available at: http://www.slac.stanford.edu/econf/C0303241/proc/papers/MOAT004.PDF (accessed: 20.03.2017).

Toporkov V.V., Emel’janov D.M., Potehin P.A. Job Batch Generation and Scheduling in Distributed Computing Environments. Vestnik Yuzho-Uralskogo gosudarstvennogo universiteta. Seriya: Vychislitel’naja matematika i informatika [Bulletin of South Ural State University. Series: Computational Mathematics and Software Engineering]. 2015, vol. 4, no. 2. pp. 44–57. DOI: 10.14529/cmse150204 (in Russian).

Valiev M.K., Kitaev E.L., Slepenkov M.I. LDAP Directory Service as a Tool for Implementation of Distributed Information Systems. Preprinty IPM im. M. V. Keldysha [KIAM Preprints]. 2000. no. 23. pp. 1–22. (in Russian).

Kesselman C., Fitzgerald S., Foster I., Tuecke S., Smith W. A Directory Service forConfiguring High-Performance Distributed Computations. 6th IEEE Symposium on HighPerformance Distributed Computing. 1997. pp. 365–375. DOI: 10.1109/HPDC.1997.626445.

Loewenstern A. Norberg A. DHT Protocol. 2008. Available at: http://bittorrent.org/beps/bep_0005.html (accessed: 11.03.2017).

ClickHouse Reference Manual. 2015. Available at: https://clickhouse.yandex/reference_en.html (accessed: 16.02.2017).

Elastic Stack and Product Documentation. 2016. Available at: https://www.elastic.co/guide/index.html (accessed: 22.01.2017).

Programming with Redis. 2016. Available at: https://redis.io/documentation (accessed:12.02.2017).

Prasad A. Announcing Docker Compose. 2015. Available at: https://blog.docker.com/2015/02/announcing-docker-compose/ (accessed: 26.02.2017).




DOI: http://dx.doi.org/10.14529/cmse170403