Задачи создания и варианты связи распределённых ЦОД
TRANSCRIPT
Задачи создания и варианты связи распределённых ЦОДЭльдар ЖенсыкбаевСистемный инженер-консультант[email protected]
Распределённые ЦОДЦели создания• Катастрофоустойчивость • Непрерывность обслуживания• Мобильность сервисов• Наращивание производительности/ёмкости• Миграция систем• Распределённые сервисы• Географически-локализованные сервисы
КатастрофоустойчивостьТочка восстановления и время восстановления
Время
Моменткатастрофы
Последняя резервная копия или пригодные данные
Системы восстановлены и работоспособны
Время восстановления(Recovery Time)
Точка восстановления(Recovery Point)
Меньше RPO/RTO• Больше $$$• Репликация • «Горячий резерв»
Больше RPO/RTO• Меньше $$$• Резервирование на ленту• «Холодный резерв»
«Нулевые» RPO/RTO – система непрерывной доступности
HeartbeatPrivate LAN
Public LAN VIP Cluster
Cluster ANode 2
Cluster ANode 1
Непрерывность бизнесаГеографически распределённые отказоустойчивые кластеры
• Развитие кластеризации для защиты от сбоя сервиса или сайта целиком
• Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД• Некоторые приложения поддерживают кластеризацию через L3 сеть
DC 1DC 1 DC 2DC 2
Core NetworkCore Network
ESXESX--A sourceA source ESXESX--B B targettarget
DCI LAN extensionDCI LAN extension
Cisco-VMware With EMC & NetApp Validated
Design & Certification for Virtualized Workload
Mobility
Cisco-VMware With EMC & NetApp Validated
Design & Certification for Virtualized Workload
Mobility
Мобильность виртуальных сервисовПеремещение VM между ЦОД
• Мобильность виртуальных сервисов между разнесёнными сайтами
• Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN• Основа для управления облачной нагрузкой и её миграции между «облаками»
Распределённые ЦОДТехнологические элементы• Связь сетей передачи данных
– L2/L3 смежность– Мониторинг (heartbeat) / синхронизация в кластере– Репликация по IP– Подключение к транспортной сети
• Связь сетей хранения данных– Синхронизация массивов по FC– Доступ к удаленным СХД/лентам
• Оптимальный путь трафика
Распределённые ЦОДКлассификация по расстоянию
• Расстояние – ключевой фактор• Ближе:
– Выше производительность– Синхронная репликация– Проще коммуникации
• Дальше:– Катастрофоусточивость– Распределение сервисов
Кампус1–2 km
Метро50-80 km
Региональное(extended
Metro)100-400km Основной
ЦОДРезервный
ЦОДКатастрофо-устойчивый
ЦОД
Гео
Влияние расстоянияПередача данных• Стандартные интерфейсы 10Гбит/с:
– 10GBASE-LR – до 10 км– 10GBASE-ER – до 40 км– 10GBASE-ZR – до 80 км
• Стандартные интерфейсы 40Гбит/с– 40GBASE-LR4 – до 10 км
• Стандартные интерфейсы 100Гбит/с– 100GBASE-LR4 – до 10 км– 100GBASE-ER4 – до 40 км
• DWDM – до 2000+ км при использовании оптического усиления, не ограничено при использовании регенерации
• Через сеть (IP, MPLS…) - без ограничений
Ограничено оптикой (Оптический бюджет)Темное Волокно
CWDM
DWDM
SONET/SDH
ЦОД Кампус Метро Регион Страна
Расстояние
Sync
Sync (1,2,4Gbps)
Sync (1,2Gbps + subrate)
Async (WAN,1Gbps)MDS9000 FCIP
Ограничено оптикой (Оптический бюджет)
Ограничено BB_CreditОпт
ика
IP
Sync (1,2,4,8,10Gbps /l)
Sync (Metro Eth)
Async
Земля
Влияние расстоянияХранение данных
Влияние расстоянияЗадержка (latency)• Скорость света в вакууме ~300,000 км/с• Скорость света в оптоволокне: ~200,000 км/с• Задержка сигнала: ~5 мкс/км, RTT ~10 мкс/км• Для сравнения:
– Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс
– Среднее время доступа на SSD диске ~0.1 мс– Максимальная задержка, допускаемая VMWare для VMotion:
5 мс RTT (10мс для vSphere v5.1)
Влияние расстоянияЗадержка (latency) и Fibre Channel
FC фреймы буферизуются промежуточными коммутаторами Трафик на каждом соединении управляется получением фреймов Receiver
Ready (R_RDY), передающая сторона может послать только определённое (BB_Credits) число фреймов прежде, чем приостановит передачу
Буферные кредиты (BB_Credit) согласовываются между каждой парой соединённых устройств в фабрике
На 1 км расстояния нужен 1 кредит на 2G, 2 кредита на 4G, 4 кредита на 8G, 6 на 10G, 8 на 16G
FC Receive Buffers
Traffic Flow
BB_CreditFlow Control
FC Receive Buffers
2-8 BB_Credit 16-255 BB_Credit 2-8 BB_Credit
BB_CreditFlow Control
BB_CreditFlow Control
Синхронная репликация• Приложение получает
подтверждение I/O после его выполнения на обеих сторонах (zero RPO)– «Метро» расстояния– Большая полоса
Асинхронная репликация • Подтверждение I/O после его
выполнения на локальном диске, пока его копирование на удалённый массив ещё продолжается
– «Неограниченные» расстояния
– Меньше требования к полосе
1
2
3
4 1
3
2
Расширение SANСинхронная репликация и ускорение ввода/вывода • SCSI протокол (FC) требует два round trip на операцию• Вносимая задержка операции 2*10μs/км, 100 км = 2 мс• В зависимости от приложения синхронную репликацию, как
правило ограничивают 50-100 км• I/O Acceleration «убирает» один round-trip – удвоение
расстояния!
1
2
3
4Local Storage Array Remote Storage Array
250 μs : Rec_Ready ?
250 μs : Wait for response?
250 μs : Send data
250 μs : Wait for Ack?
50 км 1ms1ms
DC 1DC 1 DC 2DC 2
Core NetworkCore Network
Virtual CenterVirtual Center
ESXESX--A sourceA source ESXESX--B B targettarget
L2 extension for L2 extension for vMotionvMotion NetworkNetwork
Target
Volumes
Initiator
Доступ к СХД и связь ЦОДВариант 1 – разделяемая СХД
Core NetworkCore Network
DC 1DC 1 DC 2DC 2
Virtual CenterVirtual Center
L2 extension for L2 extension for vMotionvMotion NetworkNetwork
ESXESX--A sourceA source ESXESX--B B targettarget
Повышение произодительности с помощью I/O Acceleration на Cisco MDS
Доступ к СХД и мобильность сервисовРазделяемая СХД – использование Cisco I/O Acceleration
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html
Core NetworkCore Network
DC 1DC 1 DC 2DC 2
Virtual CenterVirtual Center
L2 extension for L2 extension for vMotionvMotion NetworkNetwork
ESXESX--A sourceA source ESXESX--B B targettarget
TempCache
1
?
4
Read
datadata3datadata
2
Read
2
FlexCache не работает как отложенный кеш записи FlexCache подтверждает операцию только после подтверждения от СХД
datadata 1
Write3
2
Write
4ACK
ACKdatadata
datadata
Доступ к СХД и мобильность сервисов Вариант 2 - NetApp FlexCache (Active/Cache)
ЦОД BЦОД BЦОД AЦОД A
Fibre ChannelРаспределённый виртуальный том
Synchronous Latency
• Хосты на обеих сторонах одновременно имеют доступ к распределённым виртуальным томам
• Непрерывная синхронизация
• Запись защищается на обоих сайтах
• Чтение – с кеша VPLEX или местного тома
Доступ к СХД и мобильность сервисовВариант 3 - EMC VPLEX Metro (Active/Active)
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/ EMC/dciEmc.html
Core NetworkCore Network
Virtual CenterVirtual Center
L2 extension for L2 extension for vMotionvMotion NetworkNetwork
ESXESX--A sourceA source ESXESX--B B targettarget
VPLEX Virtual LayerVPLEX Virtual Layer
DC 1DC 1 DC 2DC 2
Initiator
Initiator
TargetVPLEXEngine
EMC VMAX VPLEX
Engine
EMC CLARiiON
Target
F
From
the
Hos
t
F
From the S
torage
LUNv LUNv
SynchronousSynchronous LatencyLatency requimentsrequiments ~100 kms max~100 kms max
Доступ к СХД и мобильность сервисовВариант 3 - EMC VPLEX Metro (Active/Active)
Ethernet
Растягивание подсетейВарианты технологий
IP
Транспорт Критерии применения
MPLS
• VSS & vPC или FabricPathMulti-Chassis EtherChannel (N7K/N5K, Cat6K) для связи пары ЦОД
FabricPath для связи многих сайтов (N7K/N5K)
По тёмной оптике или xWDM
Технологии LAN
• EoMPLS & A-VPLS & H-VPLSВнедрение на PE (Cat6K, ASR9K, N7K (будущее))
Масштабирование и multi-tenancy
Возможно поверх GRE
Апробированный вариант, хорошо подходит SP
• OTVВнедрение на CE (N7K, ASR1K)
Подходит для корпоративных внедрений
Малая зависимость от транспорта – требуется только IP сеть
Маршрутизация по MAC адресам
Long Distance
DC 1 DC 2
CO
RE
AGG
R
ACC
ESS
Server Cluster
CO
RE
AGG
R
ACC
ESS
Server Cluster
Основные рекомендации
Различающиеся номера vPC доменов BPDU Filter на пограничных устройствах для блокирования распространения BPDU STP Edge Mode для быстрого восстановления Отсутствие петель между ЦОД в обход vPC
vPC domain 10 vPC domain 20
vPC domain 21vPC domain 11
E E
- -
--
- -
E
E
E
E
F
F
F
F-
-
- -
-
--
BB
N N NN
N
NN
N
RR
-
RRRR
RR
Многоуровневый vPC для агрегирования и DCI
Rootguard
B
F
N
E
BPDUguard
BPDUfilter
Network port
Edge or portfast port type
- Normal port type
R
FabricPath для связи ЦОДДостоинства: Диалоговое выучивание MAC адресов
Отказоустойчивость и изоляция STP
Динамическая «подрезка» VLAN
Отказоустойчивое сопряжение с LAN с помощью vPC+
Ограничения: Требует использования FabricPath соединений на всём транспорте Использует Flooding неизвестных адресов Нет подавления широковещания L2 Multipath только для путей одинаковой стоимости Затруднена локализация FHRP для оптимизации пути
Решения на основе MPLSEoMPLS• Имитация «провода» (pseudowire) между двумя портами
оборудования в разных ЦОД• Отказоустойчивость и балансировка внешними средствами –
аналогично «тёмной оптике»• Обычно для связи двух ЦОД• Необходимо наличие MPLS сети• Использование дополнительного туннелирования для связи
через IP сеть: EoMPLSoGRE
Решения на основе MPLSVPLS• Имитация коммутатора (VFI) между портами оборудования в
разных ЦОД (с опорой на pseudowire)• Отказоустойчивость и балансировка с помощью
дополнительных механизмов: A-VPLS на Cat6K, nV кластер на ASR9K, MLACP на 7600/ASR9K…
• Необходимо наличие MPLS сети• Использование дополнительного туннелирования для связи
через IP сеть: VPLSoGRE
Overlay Transport Virtualization (OTV)Простое и надежное решение для связи ЦОД• Расширение L2 доменов по произвольной IP сети • Ethernet трафик инкапсулируется в IP: “MAC in IP”• Динамическая инкапсуляция с использованием
таблицы маршрутизации MAC
Взаимодействие между MAC1 (сайт 1) и MAC2 (сайт 2)Server 1
MAC 1Server 2MAC 2
OTV OTVMAC IF
MAC1 Eth1
MAC2 IP B
MAC3 IP BIP A IP B
Encap DecapMAC1 MAC2 IP A IP B MAC1 MAC2 MAC1 MAC2
Проблемы «растягивания» LAN Решаемые OTV• Работа поверх любого транспорта (IP,
MPLS)• Изоляция доменов сбоев (STP)• Независимость сайтов • Оптимальное использование полосы • Встроенная отказоустойчивость • Встроенная защита от «петель»• Связь многих сайтов • Масштабируемость
VLANs, сайты, MACs ARP, broadcasts/floods
• Простота настройки• Легкость добавления сайтов
South Data Center
NorthDataCenter
Fault Domain
Fault Domain
Only 6 CLIcommands
LAN Extension
Fault Domain
Fault Domain
Оптимальный путьВ чём именно проблема?
Layer 3 Core
AccessAccess
AggAgg
AccessAccess
AggAgg
10.1.1.0/24 advertised into L3Backup should main site go down10.1.1.0/24 advertised into L3Backup should main site go down
10.1.1.0/25 & 10.1.1.128/25 advertised into L3DC A is the primary entry point10.1.1.0/25 & 10.1.1.128/25 advertised into L3DC A is the primary entry point
Node ANode A
ESX ESX
Virtual Machine Virtual Machine
VMwarevCenter
Data Center 1 Data Center 2
Оптимальный путьХотелось бы так...
AccessAccess
AggAgg
AccessAccess
AggAgg
Node ANode A
ESX ESXVirtual Machine
VMwarevCenter
Data Center 1 Data Center 2
Оптимизация пути трафика• Исходящий трафик
–Изоляция FHRP
• Входящий трафик–ACE/GSS
• Выбор сайта с помощью DNS–Route Health Injection (RHI)
• Анонс /32 маршрутов на активные сервисы–Locator/ID Separation Protocol – LISP-VM
• Маршрутизация до сервиса
Оптимизация пути «на выход»Локализация FHRP с помощью OTV• Одна и та же HSRP группа на всех сайтах с тем же виртуальным MAC
адресом• Каждый сайт обеспечивает исходящую маршрутизацию• OTV локализует исходящий трафик за счёт фильтрации HSRP hello
сообщений между сайтами • ARP запросы перехватываются на OTV edge устройстве чтобы
обеспечить ответы именно от локального шлюза
L2L3
Active GWY Site 2
Active GWY Site 1
FHRP Hellos
FHRP HellosARP traffic is
kept localARP traffic is kept local
West East
Layer 3 CoreIntranetISP A ISP B
Access
Agg
Access
VM= 10.1.1.100Default GW = 10.1.1.1
DC A DC B
VLAN A
144.254.1.100KAL-AP Change IP
144.254.200.100
144.254.200.100144.254.1.100
GSSGSS
SNAT SNAT
L2 Links (GE or 10GE)L2 Links (GE or 10GE)L3 Links (GE or 10GE)L3 Links (GE or 10GE)
Оптимизация пути «на вход»С использованием ACE, GSS и KAL-AP
144.254.1.100
Layer 3 WAN
VM= 10.1.1.100Default GW = 10.1.1.1
VLAN A
Public Network
MAC movedChange the IP@
144.254.200.100
Access
Agg
ISP A
Data Center AData Center A
144.254.1.0/24 is advertised into L3
144.254.1.100144.254.200.100
Access
Agg
ISP B
Data Center BData Center B
SNATSNAT
Оптимизация пути «на вход»С использованием ACE, GSS и vCenter скриптов
Layer 3 CoreIntranetISP A ISP B
Access
Agg
Access
Agg
DC A DC B
VLAN A
Public Network
Probe to Probe to 10.1.1.100 10.1.1.100 FailedFailed
IS 10.1.1.100 OK?
L2 Links (GE or 10GE)L2 Links (GE or 10GE)L3 Links (GE or 10GE)L3 Links (GE or 10GE)
144.254.100.0/24Backup for Data Center A
144.254.100.0/25 & 144.254.100.128/25EEM or RHI can be used to get very granular
App VM = 10.1.1.100Default GW = 10.1.1.1
Оптимизация пути «на вход»С использованием Route Health Injection на ACE
Layer 3 CoreIntranetISP A ISP B
Access
Agg Agg
DC A DC B
VLAN A
Public Network
Probe to Probe to 10.1.1.100 10.1.1.100 is OKis OK
IS 10.1.1.100 OK? RHI
L2 Links (GE or 10GE)L2 Links (GE or 10GE)L3 Links (GE or 10GE)L3 Links (GE or 10GE)
10.1.1.1 HSRPGroup 1
144.254.100.0/24Backup for Data Center A144.254.100.0/24Backup for Data Center A
144.254.100.0/25 & 144.254.100.128/25EEM or RHI can be used to get very granular
App VM= 10.1.1.100Default GW = 10.1.1.1
144.254.100.100/32 is advertised into L3 using RHI
10.1.1.1 HSRPGroup 1
Оптимизация пути «на вход»С использованием Route Health Injection на ACE
Оптимизация пути «на вход»Locator-ID Separation Protocol (LISP)
• Отделяет идентификатор сервиса (IP адрес) от его местоположения
• Маршрутизация исходя из местоположения, а не адреса хоста• Соотношение адреса и его местоположение хранятся в директории• Поиск метоположения IP адреса по информации из директории• Инкапсуляция трафика (IP in IP) и передача по месту нахождения
хоста • Директория – распределенная база данных
ALT directory
Resolution & RegistrationData Path
Информация о хостах не хранится в таблице маршрутизации
“Summarizable host routing”
L2 Links (GE or 10GE)L2 Links (GE or 10GE)L3 Links (GE or 10GE)L3 Links (GE or 10GE)
VM= 10.10.10.1Default GW = 10.10.10.100
Layer 3 CoreIntranetISP A ISP B
Access
Agg
Access
Agg
DC A DC B
VLAN A
Public Network
Prefix Route Locator
10.10.10.1 A, B
10.10.10.2 A, B
… …
10.10.10.5 C, D
10.10.10.6 C, D
Ingress Tunnel
IP_DA= AIP_DA = 10.10.10.1
C, D
A BDecap
3
DC
Encap2
IP_DA = 10.10.10.1
IP_DA 10.10.10.1
1
IP_DA= DIP_DA = 10.10.10.1
Decap
3
IP_DA = 10.10.10.1
Локализация входящего трафика с помощью LISP
Оптимальный транспорт с помощью LISP иOTV
LISP: L3 Client-to-Server• Оптимизация маршрутизации с детальной информацией
о местоположении• Оптимизация мобильности внутри или между подсетями• Масштабирование прикладных сервисов
OTV: L2 Server-to-Server• Оптимизация расширения LAN • Распределение прикладных систем• Надежная связь на втором уровне для мобильности
виртуальных сервисов и кластерных систем
ESX Server A
Layer3 Core
ESX Server B
VLAN A – 10.1.1.0
FHRP: 10.1.1.1 FHRP: 10.1.1.1
-Virtual-Machine-A-IP Address = 10.1.1.100-Mask: 255.255.255.0-Default GW = 10.1.1.1
VLAN A – 10.1.1.0
AA A’A’BB B’B’
MSMSMRMR PxTRPxTR
DD
Client in LISP Site Client in non-LISP Site
C1 C2
E
-Virtual-Machine-A-IP Address = 10.1.1.100-Mask: 255.255.255.0-Default GW = 10.1.1.1
OTV Server-to-Server L2 traffic
Распределённые ЦОДКампус – до нескольких км• Типичный сценарий – несколько ЦОД в комплексе зданий или на
территории предприятия• Катастрофоустойчивость: минимальна• Связь LAN: оптоволокно 10GBASE-LR / 40GBASE-
LR4/100GBASE-LR4, vPC/FabricPath• Связь FC SAN: оптоволокно –LW• Конвергентный транспорт (FCoE): Nexus 5500 до 3 км, Nexus
7000 F1/F2 до 10/80 км• Оптимизация пути: не нужна• Рассматривать как часть единого модульного ЦОД
Распределённые ЦОД«Метро» – несколько десятков (до 60-100) км• Типичный сценарий – «резервный ЦОД» в пределах города или
«метро-области»• Катастрофоустойчивость: частично• Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM
(vPC/FabricPath), при необходимости - IP+OTV или MPLS/VPLS• Связь FC SAN: оптоволокно ER, CWDM/DWDM, при
необходимости – FCIP. I/O Aceleration для оптимизации ввода-вывода (от 40-50 км)
• Конвергентный транспорт (FCoE): Nexus 7000 F2 до 80 км• Оптимизация пути: по возможности• При наличии возможности – использование «тёмного волокна»
для LAN и SAN, синхронная репликация, технологии метрокластеров, Vmotion
Распределённые ЦОД«Регион» – до несколько сот (300-400) км• Типичный сценарий – «резервный ЦОД» в другом городе в
пределах региона• Катастрофоустойчивость: значительная• Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии)• Связь SAN: FCIP, DWDM (при наличии). I/O Aceleration для
оптимизации ввода-вывода• Оптимизация пути: желательна• Может использоваться для ряда «метрокластерных»
технологий. Асинхронная репликация или синхронная с ограничениями и дополнительными инструментами
Распределённые ЦОД«Гео» – многие сотни и тысячи км• Типичный сценарий – ЦОД на случай катастрофы (DR) в другом
регионе страны• Катастрофоустойчивость: высокая• Связь LAN: IP+OTV или MPLS/VPLS - если требует технология
кластера• Связь SAN: FCIP – если необходимо. I/O Aceleration для
оптимизации ввода-вывода• Оптимизация пути: необходима• Асинхронная репликация, «log shipping» или иные средства
катастрофоустойчивости. Высокое время восстановления (часы и более). Непосредственная связь между ЦОД – если требует технология геокластера