![Page 1: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/1.jpg)
Григорий Шамов, Максим Астафьев
Организация распределённой вычислительной сети ЦВОИ
Казанского НЦ РАН
Отдел информационных технологий Казанского НЦ РАН. mailto:[email protected] , mailto:[email protected]
![Page 2: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/2.jpg)
Проект КазНЦ РАН«Создание центра высокопроизводительных
вычислений для нужд институтов Казанского научного центра Российской академии наук и высших
учебных заведений г. Казани»
Реализован в 2000 г. при поддержке ФЦП «Интеграция»
Обеспечение удаленного доступа к вычислительным ресурсам ЦВОИ сотрудников институтов КазНЦ и ВУЗов г.Казани
Интеграция фундаментальной науки и образования, изучение и внедрение технологий высокопроизводительных вычислений на многопроцессорных системах в научные исследования и учебный процесс.
![Page 3: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/3.jpg)
Вычислительный кластер ЦВОИ КазНЦ РАН
~ 6,7 GFLOPsLINPAK 1000x1000
83,6SPEC fp 95 DS20E
47,9SPEC fp 95 DS10L
Оценка максимальной производительности вычислительного кластера с процессорамиALPHA 21264
Параметры производительности коммуникационной среды кластера
~140 мксекЛатентность ( на уровне MPI )
~9 Мбайт\сПропускная способность (блоки данных > 1Мбайт)
SENet - Tatarstan
WWW - страничка
Диспетчерзаданий -
PBS
Сервер доступа (SSH)
Управляющий сервер
КоммутаторFastEthernet
![Page 4: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/4.jpg)
Новые кластеры (2001-2002 гг.)
• Кластер КГТУ(КХТИ) • Кластер химфака КГУ
11 AMD Athlon 1.2 GHz 7 AMD Athlon 900 MHz
Channel bonding (объединение каналов) для трёх каналов Fast Ethernet
Медный Gigabit Ethernet
Intel e1000 NICs in PCI-32 slot
Кластеры были выполнены в виде учебных классов, и предназначались, помимо научных расчётов для использования в учебном процессе.
При создании кластеров использовались экономичные варианты коммуникационной среды: Гигабитный Ethernet и объединение нескольких каналов 100Мб Ethernet.
![Page 5: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/5.jpg)
Throughput
0
50
100
150
200
250
300
1 10 100 1000 10000 100000 1000000 10000000
1E+08 1E+09
Block size, bits
Mb
it/s
2*rtl, 2.2.19 tcp
2*tulip, 2.2.19 tcp
4*rtl, 2.2.19 tcp
6*tulip, 2.2.19 tcp
3*t*3rtl, 2.2.19 tcp
4*tulip, 2.2.19 tcp
BPS
0
50
100
150
200
250
300
350
400
1 100 10000 1000000 100000000 10000000000
Block size, bits
Mb
it/s
6*tulip, 2.2.19 tcp
intel e1000
Сравнение результатов прогона NetPIPE для TCP/IP для Gigabit Ethernet и объединения трёх каналов Fast Ethernet. Латентность Gigabit Ethernet равна 93 мс.
Пропускная способность для одного, двух и трёх каналов Fast Ethernet, по данным программы NetPIPE на уровне TCP/IP. Латентности составлют 41, 43 и 44 мс, соответственно.
![Page 6: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/6.jpg)
HO
O H
H
H
Si
O
O
O
O
O
O
Si
O
H
SiH O
Si
H
Si
O
O
O
O
O
H
O
Si
O
O
O
Si
H
O
O
OSiSi
O
H
Si
O
O
Si
O
H
O
O
Si
O
O
O
O
H
Si
O
O
Si
H
OO
H
Si
O
Si
O
SiH
O
O
O
Si
H
O
O
O
O
Si
O
O
H
O
H
H
Si
O
OO
Si
Si
H
O
O
O
O
O
Si
Si HO
H
O
H O
OH
Тестовая молекула для Задачи I, расчёта RHF/STO-3G градиента -- цеолитовый фрагмент Si24O60H24
O
H
N
H
O
H
H
H
Тестовая молекула для Задачи II, расчёта MP2/6-31G* оптимизации геометрии нитробензола
![Page 7: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/7.jpg)
0
2
4
6
8
10
12
0 2 4 6 8 10 12nCPU
spee
dup
Ideal speedup
Задача II, intel
Задача II realtek
Задача I, intel
Задача I, realtek
Ускорение (speedup) Задач I и II для различного числа
процессоров (nCPU) кластера КГТУ, с
использованием Fast Ethernet (realtek) и Gigabit
Ethernet (intel).
Ускорение Задачи II для различного числа процессоров кластеров КГTУ и КГУ с использованием channel bonding трёх Fast Ethernet (realtek) и Gigabit Ethernet (intel).
1
2
3
4
5
6
7
8
9
10
1 3 5 7 9 11 13
nCPU
spee
du
p
Ideal speedup
Задача II, intel
Задача II realtek
Задача II, КГУ, 3 channel bonding
Задача II, КГУ, no bonding
![Page 8: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/8.jpg)
Система управления заданиями локальных кластеров.
Должна обеспечить справедливое и надёжное обслуживание задач пользователей
Предотвратить неконтролируемую конкуренцию процессов пользователей за ресурсы вычислительных узлов
Предоставить пользователям возможно более удобный интерфейс для запуска, мониторинга и управления задачами
PBS Pro 5.2
http://www.pbspro.com
Maui
http://www.supercluster.orgScheduler
Resource manager
Linux cluster
Доступ пользователей
User commands
![Page 9: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/9.jpg)
Статистика загрузки вычислительных кластеров
0
20
40
60
80
100
0
20
40
60
80
100
0
20
40
60
80
100
0
20
40
60
80
100
Alpha – кластер ЦВОИ КазНЦ РАН
Учебный кластер КГТУ
Загрузка, %
Ожидание в очереди, час
![Page 10: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/10.jpg)
Компьютерная химияна кластере ЦВОИ КазНЦ
Анализ электронной структуры молекул
Изучение механизмов химических реакций
Исследования физических и химических свойств веществ
Изучение влияния различных сред
Программное обеспечение, наиболее популярное среди пользователей ЦВОИ:
GAMESS-US, Gaussian98, Priroda
![Page 11: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/11.jpg)
Опыт использования кластеров Казанского НЦ РАН
Большая загрузка кластера затрудняет выполнение параллельных задач на большом количестве CPU. Невозможно обеспечить одновременно полную загрузку кластера и минимальное время ожидания задач в очереди
Пользователи не в состоянии распределить свои задачи по кластерам даже для таких единообразно устроенных кластеров как наши.
Пользователям особенно трудно правильно задать свои запросы для учебных кластеров, которые периодически переводятся в другие режимы работы.
Такая сеть должна обеспечивать увеличение загрузки входящих в неё кластеров и одновременно уменьшать время ожидания в очереди.
Кроме того, она должна предоставить пользователям единый интерфейс ко всем доступным вычислительным ресурсам.
Возможным решением этих проблем является объединение локальных кластеров в распределённую вычислительную сеть.
![Page 12: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/12.jpg)
Распределенная вычислительная сеть г.Казани
Учебный кластер КГУ
Учебный кластер КГТУ
Вычислительный кластер ЦВОИ КазНЦ РАН
![Page 13: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/13.jpg)
Трудности создания РВС Выгоды от РВС
Отсутствие опыта создания и использования РВС
Неотработанность технологий, нестабильность ПО
Необходимо выделения ресурсов локального кластера
Необходимо согласовать политики использования кластеров, политики планирования заданий
Необходимо организовать учёт использования ресурсов
Необходимо вмешаться в работу локальных кластеров на этапе инсталляции/тестирования РВС
Уменьшение простоев
Улучшение оборачиваемости
Единый интерфейс для всех локальных кластеров
Развитие инфраструктуры для метакомпьютинга.
Компоненты РВС
Метапланировщик
Grid environment
Локальные планировщики
Локальные менеджеры ресурсов
Портал доступа
![Page 14: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/14.jpg)
Silver design overview. http://www.supercluster.org
![Page 15: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/15.jpg)
Преимущества Silver
Гибкое выделение ресурсов основанное на т.н. «резервировании»
Совместимость Silver/Maui с широким кругом менеджеров ресурсов: PBS Pro, OpenPBS, SGE, LSF, LoadLever
Минимально вторжение в политики локальных кластеров Ограниченное использование информации от локальных
кластеров Возможность настройки и испытаний РВС в режиме симуляции,
не прерывая нормальной работы локальных кластеров. Возможность как использования Globus в качестве Grid
Environmnt’a, так и создания собственных механизмов для stageing’a, авторизации и запуска задач
Возможность учёта использованных вычислительных ресурсов при помощи базы данных Q-bank
Высокая масштабируемость – Silver разработан так, чтобы управлять тысячами процессоров на десятках кластеров .
![Page 16: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/16.jpg)
Maui 3.2.0
PBS Pro 5.2
Кластер КазНЦ
Сервер доступа
Кластер КГТУ
PBS Pro 5.2
Maui 3.2.0
Silver 1.0.2
Стендовые испытания Silver на кластерах Казанского НЦ РАН
![Page 17: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН](https://reader035.vdocuments.net/reader035/viewer/2022062309/568148ca550346895db5e639/html5/thumbnails/17.jpg)
Заключение
Проблемы организации использования высокопроизводительных вычислительных ресурсов имеют общий характер для большинства сайтов.
Возможным решением их является объединение локальных вычислителей в распределённые вычислительные сети.
Что требует как решения технических вопросов, так и сотрудничество заинтересованных в использовании высокопроизводительных вычислений организаций