gnevshev мониторинг
TRANSCRIPT
![Page 1: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/1.jpg)
![Page 2: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/2.jpg)
Мониторинг Mail.Ru
![Page 3: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/3.jpg)
О мониторинге в целом
![Page 4: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/4.jpg)
Для чего нужен мониторинг?● Своевременное выявление неисправностей.● Составление графиков загруженности.● Снижение финансовых рисков компании.● Предоставление средств для анализа и
прогнозирования.
![Page 5: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/5.jpg)
Каковы цели и функции мониторинга?● Обеспечение минимального простоя.● Сбор данных для анализа и планирования.● Автоматическое устранение неисправностей.
![Page 6: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/6.jpg)
Требования к мониторингу:● скорость;● отказоустойчивость;● масштабируемость;● расширяемость;● средства анализа;● надёжность;● удобство.
![Page 7: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/7.jpg)
Возможности open-source систем мониторинга
![Page 8: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/8.jpg)
Мониторинг Mail.ru
![Page 9: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/9.jpg)
Взгляд в прошлое● 12 лет развития мониторинга Mail.ru;● рост со 200 серверов до 10000, с 1 ЦОД до 9● 100-кратный рост числа и разнообразия сетевых
устройств;● 10000-кратный рост трафика.
![Page 10: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/10.jpg)
Мониторинг Mail.Ru — это:● 140 типов мониторинга;● 160 тыс. объектов наблюдения;● 2,5 Тбайт графиков;● 150 млн записей об алертах.
![Page 11: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/11.jpg)
Мониторинг Mail.Ru Свободные решениядля мониторинга
+ Распределённая конфигурация+ Быстрый: параллельный опрос в 1000+ потоков+ Отказоустойчив+ Адаптирован под наши бизнес-процессы+ Интегрирован с корпоративными системами учёта
☐ Медленнee работает☐ Требует больше ресурсов☐ Недостаточно масштабируется☐ Недостаточно резервируется☐ Недостаточно интегрируется☐ Неудобен в настройке☐ Практически не расширяется☐ Медленно исправляют ошибки
![Page 12: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/12.jpg)
Устройство мониторинга Mail.ru
![Page 13: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/13.jpg)
Главный экран
![Page 14: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/14.jpg)
Основные типы мониторинга Mail.Ru
● HTTP● PING● POP3/IMAP● TCP● DNS
● Собственные протоколы iproto, statd
● Сетевая инфрастуктура: линки, роутинг, каналы
● Базы данных
● SNMP — состояние о десятках и сотнях объектов с каждого сервера
![Page 15: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/15.jpg)
Управляющий сервер● демон на каждый протокол
или функцию;● асинхронный опрос в сотни
и тысячи потоков;● полная реплика конфигурации;● Perl, net-snmp и AnyEvent;● перехватчик trap'ов.
daemon-snmp
daemon-http
daemon-*
...
daemon-external
![Page 16: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/16.jpg)
Управляющий сервер внешнего мониторинга● во всех крупных регионах;● усечённая конфигурация;● мониторинг только внешних объектов.
![Page 17: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/17.jpg)
Графики: сбор данных и хранение● мгновенные замеры;● большой трафик: много пакетов;● большая нагрузка на диски;● агрегирование: avg, sum, count.
![Page 18: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/18.jpg)
Серверы и др. оборудование
Управляющий сервер
БД
Хранилище
Веб- и API-серверы
мониторинга
Кластер мониторинга
Статистические данные
большой трафик
![Page 19: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/19.jpg)
Резервирование и балансировка
Серверы
Кластер мониторинга
ЦОД 1
ЦОД NПользователи и потребители
ЦОД 2
Роутер Роутер
![Page 20: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/20.jpg)
Синхронизация
Кластер мониторинга
ЦОД 1 Кластер мониторинга
ЦОД 2
Кластер мониторинга
ЦОД N
![Page 21: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/21.jpg)
И всё-таки у нас есть и другиесистемы мониторинга
Мониторинг Mail.Ru
![Page 22: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/22.jpg)
Протокол SNMP● универсальный;● поддерживается почти всем оборудованием;● имеет богатый набор программных решений.
![Page 23: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/23.jpg)
Управляющий сервер
SNMP Get SNMP GetBulk
t
Response (OID)
Get (OID)
20–200 запросов 1–4 запроса
Управляемый сервер
Управляющий сервер
Управляемый сервер
Response (OID)
Get (OID)
Response (OID)
Get (OID)
...
Response (OID)
Get (OID)
Response (OIDs)
GetBulk(...)
Response (OIDs)
GetBulk(...)
![Page 24: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/24.jpg)
SNMP GetBulkМассив OIDS:.1.3.6.1.4.1.2021.2.1.101.1.3.6.1.4.1.2021.2.1.100.1.3.6.1.4.1.2021.2.1.2.1.3.6.1.4.1.2021.8.1.101.1.3.6.1.4.1.2021.8.1.100.1.3.6.1.4.1.2021.8.1.2.1.3.6.1.4.1.2021.9.1.101.1.3.6.1.4.1.2021.9.1.100.1.3.6.1.4.1.2021.9.1.2
OID: .1.3.6.1.4.1.2021
GetBulk(N, M, OIDs...)
N — nonrepeaters — количество OID-ов от начала массива, для которых не нужно выводить всё дерево
M — max repeaters — количество ответных OID-ов в SNMP-ответе для последующих OID из массива запроса
N
M
![Page 25: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/25.jpg)
FLAP-мониторинг● часто/регулярно ненадолго появляющиеся алерты не
ловятся невооружённым взглядом.
![Page 26: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/26.jpg)
Особенности
![Page 27: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/27.jpg)
Зоны ответственности● множество команд системных администраторов;● множество проектов;● гибкая настройка мониторинга под команду или проект;● возможность выделить аварийную зону в отдельный
экран.
![Page 28: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/28.jpg)
Зоны ответственности
![Page 29: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/29.jpg)
Мониторинг мониторинга● все ноды внутри кластера;● кластеры каждый с каждым;● особые тестовые алерты.
![Page 30: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/30.jpg)
Повышение качества работы дежурных инженеров путём сбора и анализа статистики:1. Время появления алерта.2. Время принятия алерта в обработку дежурным. Фиксируется имя
дежурного.3. Время окончательного уведомления. Указывается имя нового
ответственного и время, за которое он обещал исправить проблему.4. Время устранения неполадки.5. Все звонки дежурных фиксируются в логах IP-телефонии. Они содержат
время звонка, вызываемый номер и результат: продолжительность разговора или причину неудачного звонка, когда номер был занят или недоступен.
![Page 31: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/31.jpg)
Круглосуточная дежурная смена● смены по несколько дежурных инженеров;● в каждом дата-центре минимум по человеку;● координация работы.
![Page 32: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/32.jpg)
Графики
![Page 33: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/33.jpg)
Dashboard
![Page 34: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/34.jpg)
statd
![Page 35: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/35.jpg)
Учёт оборудования
![Page 36: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/36.jpg)
Информация о сервере
![Page 37: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/37.jpg)
Автоматический сбор сведений
![Page 38: Gnevshev мониторинг](https://reader031.vdocuments.net/reader031/viewer/2022013115/557fa05ad8b42a331b8b46ca/html5/thumbnails/38.jpg)
Итак, мониторинг Mail.ru:● развивается независимо;● быстрый;● распределённый;● отказоустойчивый;● базируется на свободных решениях;● активно использует SNMP;● рисует графики;● сохраняет все события навечно;● интегрирован в корпоративные информационные системы;● предоставляет средства для анализа и планирования.