Обзор семейства ciscocrosswork · Маршрутизация событий...

38
Обзор семейства Cisco Crosswork Новое поколение средств автоматизации для операторов связи Системный инженер Cisco Иноземцев Иван

Upload: others

Post on 21-May-2020

37 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Обзор семействаCisco Crosswork

Новое поколение средствавтоматизации дляоператоров связи

Системный инженер

Cisco

Иноземцев Иван

Page 2: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Автоматизация в сетях операторов связи

Повторяющиеся, независимые друг от друга операции, возможно, в разных рабочих группах

Охватывает весь жизненный цикл процессов планирования и эксплуатации

Closed-loop Automation

Описание жизненного цикла в виде виде настроек ПО автоматизации, используя ML для увеличения конечной производительности

Page 3: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Семейство продуктов Crosswork

Первое решение для автоматизированного управления мультивендорными

операторскими сетями

Cбор данных

Сбор данных в стандартизированном формате

Аналитика и машинное обучение

Дополненный интеллект Проактивное управление

Упорядочивание организационных подходов к управлению сетью

Closed-loop Automation

Page 4: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Семейство продуктов CrossworkCisco Crosswork

WAEWAN Automation Engine (+SR-PCE)

NSONetwork Services Orchestrator

CrossworkChange Automation

CrossworkHealth Insights

CrossworkSituation Manager

Оркестрация

EPNMEvolved Programmable Network Manager

Планирование и оптимизация

Управление сетью

Разрешение инцидентовВыявление и устранение аномалийКонтроль здоровья сети

Crosswork Data Gateway

Масштабируемый сбор данных

CrossworkNetwork Insights

Аналитикапротоколов маршрутизации

CrossworkOptimization

Оптимизация в реальном времени

CrossworkDomain Insights

Визуализация и отчеты

*Конкретные продукты из семейства могут быть на различных стадиях разработки

Page 5: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Crosswork Data Gateway

Data Gateway

Health InsightsSituation Manager

Network Automation

Optimization Engine

Network Insights

Data Gateway

Безопасный шлюз к оборудованию для on-premise и облачных приложений• Сбор телеметрии• Нормализация данных• Политики контроля доступа к

данным

Page 6: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Change Automation

Network Insights

Situation Manager

Health Insights

Data Gateway

Разветвленные сценарии автоматизации для минимизации человеческого фактора

Мониторинг состояния устройств и сети и запуск сценариев восстановления

Облачная платформа аналитики кросс-доменной маршрутизации

Корреляция событий и ChatOps для сокращения времени устранения аварии

Унифицированная и безопасная доставка сообщений мониторинга в приложения

Cisco NSO Cisco WAE Cisco EPN-M

Компоненты Cisco Crosswork

Page 7: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

CrossworkSituation Manager

Page 8: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Эффекты масштаба в современных сетях

Migrate Live Production to IPКросс-доменные и мульти-технологические услуги

Изолированные группы эксплуатации: потеря контекста и наглядности

Множество разрозненных инструментов мониторинга

Отсутствие централизованной базы знаний о решении инцидентов

Сложно описать правила анализа первопричины отказа на сети

Дублированные инциденты и не сгруппированные поинцидентам аварии

Сложно контролировать множество источников данных одновременно

При изменении организационной структуры часть инцидентов решается новыми инженерами заново

SDN/NFV

IoTINFRA

X

Page 9: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

… и к чему они приводят

*Forrester research

MTTR

MTTI MTTK MTTVMTTF

Mean-Time-To-Identify

Mean-Time-To-Know

Mean-Time-To-Fix

Mean-Time-To-Validate

80% *

Растет суммарное время идентификации инцидента (MTTI) и поиска первопричины (MTTK) т.е. ~80% от среднего времени разрешения инцидента (MTTR, Mean-Time-To-Restore).

Page 10: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Традиционный подход к анализу аварий и сопутствующие затруднения

Потеря данных

Ошибочные срабатывания идублированные

инциденты

Долгое разрешение инцидентов

Вовлечение большого

количества инженеров

Входящая фильтрация аварийных сообщений

Выявление аномалий по правилам или

пороговым значениям

Ручная корреляция и сопоставление

аварийных сообщений

Интерактивные конференц-звонки

A B

Page 11: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Автоматизация обработки инцидентов AIOps

Получение первичных событий из систем мониторинга и напрямую с оборудования

Выявление аварий посредством машинного обучения

Группировка событий в ситуации и предположение первопричины аварии (ML-driven)

Полу-автоматическое назначение исполнителей

ChatOps и подтверждение или уточнение root-cause

Переиспользованиезнаний и обучение ML

Раннее обнаружение, меньше инцидентов, выше производительность, короче MTTR

Page 12: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Тип операции Homo Sapience AIOpsАнализ событий (1M) Дни Секунды

Корреляция событий (1М) Дни Секунды

Выявление аномалий Часы Секунды

Выявление повторяющихся аномалий Минуты Секунды

Создание/обновление тикетов Минуты Секунды

Устранение аварии Минуты С обучением

Определение первопричины аварии Минуты С обучением

Восстановление сервиса Минуты Секунды

Пополнение базы знаний Минуты Секунды

Работа для машин

Работа для людей

Машинное обучение в мониторинге и эксплуатации сетей

Page 13: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Потоки данных Crosswork Situation Manager

Отслеживание инцидентовNSO

Аудит

Crosswork Network

Automation

Приложения Инфраструктура БезопасностьSLA Агрегаторы

События События События События События События События

ИнцидентыОбогащение данных

SD-WAN

Конфигурация

Inventory

Топология

Обратная связь

Page 14: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Интеграционные адаптеры Situation Manager

Page 15: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

{Rules}

Снижение времени разрешения инцидентов с помощью Machine Learning

Программирование логики и пороговых значений§ Множественные ветвления IF–THEN-

ELSE§ Сравнения с фиксированными

значениямиПравила требуются для любого события§ Бесчисленное количество сценариев§ Правила невозможно создать для

ещё не возникавших отказов§ Каждое новое приложение или

апгрейд инфраструктуры требует обновления правил

§ Постоянно выделенные инженерные ресурсы на обновление правил

Алгоритмы машинного обучения существуют более 50 лет§ Реализации большинства алгоритмов

доступны Open Source§ К сожалению, зачастую они

бесполезны для обработки сырых данных с сети

Алгоритмы ML ”с учителем” требуют исторических данных для тренировки§ Невозможно натренировать алгоритм

для никогда не случавшегося отказа (как в случае с использованием статических правил)

Page 16: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Совмещение машинного обучения с учителем и без

Gra

phEn

tropy

Tim

e O

ccur

renc

e

Whi

telis

ting

Blac

klis

ting

Info

rmat

ion

alEn

tropy

Net

wor

kPr

oxim

ity

Text

ual

Sim

ilarit

y

Soft

Fuzz

yM

atch

ing

ACE

Маршрутизация событий между алгоритмами

Потоковая кластеризация событий в реальном времени§ Фильтрация и расчет энтропии§ Вероятностные алгоритмы с нечеткой логикой,

лингвистический анализ, группировка по времени и топологической близости

§ Атрибутизация данных вместо явного сравнения значений§ Группировка событий в ситуации

Обучаемость§ Алгоритмы адаптируются к эволюции сети§ Простота внедрения

Описание способов обработки данных о событиях§ Минимальное время на создание§ Одно описание лучше 100 явных правил

Готово к реальному миру§ Адаптировано к реальным сценариям§ Внедрено в крупных и очень крупных сетях§ 14 патентов

Page 17: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Кластеризация потока событийUnsupervised, Supervised и Reinforcement Machine Learning

Без учителя С учителем С учителем и подкреплением

Обнаружение ситуацииФильтрация Реакция среды Процесс Предсказание

Лингвистический анализ

Graph Entropy

Паттерны timestamps

Логическая топология

AI EngineФильтрация случайных событий

Cookbook Neural feedback

Предсказание Root Cause

Динамическое назначение исполнителя

Переиспользованиезнаний

Page 18: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Algorithmic Clustering Engine (ACE)

Gra

phEn

tropy

Tim

e O

ccur

renc

e

Whi

telis

ting

Blac

klis

ting

Info

rmat

iona

lEnt

rop

y

Net

wor

kPr

oxim

ity

Text

ual

Sim

ilarit

y

Soft

Fuzz

yM

atch

ing

Nagios

Oracle

ACE

СобытияИнциденты

(a.k.a. Situation)

Средства мониторинга

Маршрутизация событий между алгоритмами

Firewall Incident01/07/17 10:14:21 AMCRM, Website and Order Services Impacted

Database Incident01/07/17 11:19:37 AMBI Service Impacted

Storage Incident01/07/17 12:14:06 AMPayment Service Impacted

Алгоритмическая кластеризация в реальном

времени

Page 19: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Сравнение методик кластеризации

Методика Точность (качество)

Переиспользуемость(количество) Затраты

Правила Высокая Низкая Высокая

Временная Низкая Высокая Низкая

Лингвистическая Средняя Средняя Низкая

Топологическая Средняя Средняя Низкая

Algorithm Clustering Engine Высокая Высокая Низкая

Page 20: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Архитектура Situation Manager

SMKnowledge

MooBotsWorkflow,

Notifications& Remediation

LAMsLinked Access Module

Event Ingestion

Log Events

Monitoring Events

Change Events

IT Service Desk

Event Feeds

CMDB

Events

Alerts

Situations

SNMP, Netcool, BMC BEM, CA Spectrum, HP NNM/OM

Splunk, Log Files, syslog

Jenkins, Chef, Puppet

AppDynamics, New Relic, Nagios

ServiceNow, Remedy, HPSM, CA-SM, Maximo, etc.

BMCAtrium, HP/IBM/CA CMDB, AMDOCS, File, any database, etc.

MS-Lync, Y!chat, Google+, Jabber, etc.

CLI, Java, JavaScript, C++, ObjC, SQL, PERL, etc.

SigalizersMachine Learning

SituationRoom

UI & Collaboration

Real-time Bus

ExternalKnowledge

Script and Process etc.

IRC/Chat/Chatbots

NotificationsPagerDuty, OpsGenie, XMatters

Page 21: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

SERVICE INTENTОписан на YANG

NSOService

Manager

Device Manager

CDB

Service Model

Device Model

Situation Manager

Корреляция событий

Описание сервиса

Параметры устройства

Активное тестирование

Turn-up тестирование

Конфигурация устройства

TCA

Обратная связь

Соб

ыти

е

Zero Touch Assurance

Page 22: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Изменение процесса разрешения инцидентов после внедрения Situation Manager

Поиск причины аварии

Анализ

Авто-тикет

Авто-рассылка

Анализ Рассылка ФиксТикетКорреляция Звонок

MTTD: 15 минут MTTR: 104 минут

MTTD: secs MTTR: < 60 минут Ценность Crosswork Situation Manager

Устранение

Само-обучение

Пополнение базы знаний

Поиск причины

АлгоритмыЛюди

Ситуация

Page 23: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Сравнение времени разрешения инцидентов

Среднее время устранение аварии Время на

обнаружение

Время на поиск причины

Время на устранение

Время на проверку

MTTI MTTK MTTF MTTV

MTTI MTTK MTTVMTTF

Поддержка устранения аварииПредложение

первопричины аварии на основе

предыдущих данных

Снижение информационного

шумаАвтоматизация проверочного тестирования

75%Де-дупликация событий

и учет релевантности аварии

34%Снижение количества

тикетов

43%Улучшение сроков

разрешения инцидентов

66%Снижение замеченных пользователями аварий

* Source: Feedback from Customers

Page 24: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Преимущества Situation Manager для операторов связи

Page 25: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Crosswork Change Automation and Health Insight

Page 26: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Network Change Automation and Health Insights

Ассоциация событий и сценариев устранения

Отрицательная обратная связь

Programmable Remediation Closed-Loop

Пользовательские KPI и аварии

Улучшения Ansible для

сетевых сценариев

Configurable Feedback-driven

В качестве инструмента активации используется

Автоматизированное выполнение на сети действий по устранению аварий. Действия запускаются при наступлении событий мониторинга как в явном виде, так и в виде TCA (threshold crossing alarms)

API для интеграции с системами поддержки операций

Page 27: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Мониторинг и предсказание метрик сети

Мониторинг Восстановление

Рекомендательнаясистема

Автоматическое определение

релевантных KPI и авто-мониторинг

Выявление аномалий

Динамическое определение пороговых

значений метрики на основе реальных

исторических данных

Обратная связь

Уведомления об авариях в интерфейсе и API и

автоматический запуск восстановительных операций в Change

Automation

События

Page 28: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Health Insights: запуск действий на основе текущих данных

Рекомендательная система Список KPI

Система корреляции

Восстановление(Change Automation)

KPIs

Smart Monitoring Smart Baselining Smart Remediation

Телеметрия

Восстановительное воздействие

API

Состояние и конфигурация

Page 29: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Health Insights: пользовательские KPI

• KPI могут быть потоковыми или групповыми

• KPI могут активированы на конкретном устройстве или на

группе устройств

• KPI поддерживают гибкую настройку создания аварий по

превышению порогового значения

• Пороговые значения могут быть обычными статическими

значениями, или полагаться на статистические вычисления:

среднее по скользящему окну, среднеквадратичное

отклонение, персентиль и т.д.

Page 30: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Health Insights: визуализация в реальном времени

Page 31: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Health Insights: события

• Основываются на анализе данных из Time-Series Database

• Правила могут описываются на специальном языке

• Для интеграции с нижележащими системами можно

потреблять телеметрические данные непосредственно из

шины Kafka

• Реализовано как отслеживание превышения пороговых

значений, так и анализ трендов

Page 32: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Health Insights: отчеты и панели

Page 33: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Определяемая пользователем автоматизация изменений

Служба оповещения Обмен информации о

состоянии сети в реальном времени

Конфигурационные изменения(NETCONF/YANG, SSH/CLI)

APIs

Network Service

Orchestrator

Автоматизация изменений

Контроль состояния

Коллектор

Page 34: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Change Automation: автоматизация с обратной связью

Библиотека Plays

Plays последовательно вызываются из Playbook

Запуск playbook в

Ansible

Планировщик

Запуск playbook по расписанию

REST API:• Запустить или назначить время

исполнения playbook• Подписка на нотификации и проверка

статуса исполнения playbook

Конфигурация сервиса

Телеметрия, события

§ Playbooks: Cisco, Advanced Services и/или заказчик самостоятельно

§ Plays: инженеры Cisco

Библиотека Playbooks

Модуль исполнения запрашивает playbook

Pre-check

VerifyRoll-back

Post-check

NOK

Модуль исполнения

OK

Execute

Page 35: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Ansible «на стероидах»

Task-1

Task-2

Task-3

Run in order

Стандартные Plays

Task-1

Task-2

Task-3

Run in parallel

Улучшения в Change Automation

Task-1

Task-2

Task-3

Run in order

Schedule-A Schedule-B

Check-modeDry-run

NSO dry-run+

Ansible nativeRollback

Check-modeDry-run

NSO basedRollback Single-step

Page 36: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Не забыть об API для интеграции с другими системами!

• Создать конфигурацию из шаблона и параметров сервиса

• Может потребовать сбор дополнительных данных для заполнения всех параметров

• Уже сложнее

• Нужно предусмотреть переходы между всеми состояниями сервиса

• Может потребоваться контроль занятия или освобождения ресурсов

• Трудно или невозможно

• Удалить все занятые сервисом ресурсы

• Но не удалять ресурсы, общие с другими сервисами

Создать Изменить Удалить

Если у

вас нет NSO

Page 37: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

• nso_verify сравнивает параметры в таске с реальными данными на сети

• nso_action запускает action (например, check-sync) и проверяет вывод

• nso_config работает с конфигурационной базой данных CDB

• nso_show вывод данных из CDB

• nso_query вывод данных из CDB и использованием XPath

Модули NSO для Ansible

Page 38: Обзор семейства CiscoCrosswork · Маршрутизация событий между алгоритмами Потоковая кластеризация событий

Спасибо за внимание!

www.facebook.com/CiscoRu

www.instagram.com/ciscoru

www.youtube.com/user/CiscoRussiaMedia

www.vk.com/cisco

Оцените данную сессию в мобильном приложении конференции

Контакты:

Тел.: +7 495 9611410www.cisco.com