Задачи создания и варианты связи распределённых ЦОД

Задачи создания и варианты связи распределённых ЦОДЭльдар ЖенсыкбаевСистемный инженер-консультант[email protected]

Распределённые ЦОДЦели создания• Катастрофоустойчивость • Непрерывность обслуживания• Мобильность сервисов• Наращивание производительности/ёмкости• Миграция систем• Распределённые сервисы• Географически-локализованные сервисы

КатастрофоустойчивостьТочка восстановления и время восстановления

Время

Моменткатастрофы

Последняя резервная копия или пригодные данные

Системы восстановлены и работоспособны

Время восстановления(Recovery Time)

Точка восстановления(Recovery Point)

Меньше RPO/RTO• Больше $$$• Репликация • «Горячий резерв»

Больше RPO/RTO• Меньше $$$• Резервирование на ленту• «Холодный резерв»

«Нулевые» RPO/RTO – система непрерывной доступности

HeartbeatPrivate LAN

Public LAN VIP Cluster

Cluster ANode 2

Cluster ANode 1

Непрерывность бизнесаГеографически распределённые отказоустойчивые кластеры

• Развитие кластеризации для защиты от сбоя сервиса или сайта целиком

• Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД• Некоторые приложения поддерживают кластеризацию через L3 сеть

DC 1DC 1 DC 2DC 2

Core NetworkCore Network

ESXESX--A sourceA source ESXESX--B B targettarget

DCI LAN extensionDCI LAN extension

Cisco-VMware With EMC & NetApp Validated

Design & Certification for Virtualized Workload

Mobility

Cisco-VMware With EMC & NetApp Validated

Design & Certification for Virtualized Workload

Mobility

Мобильность виртуальных сервисовПеремещение VM между ЦОД

• Мобильность виртуальных сервисов между разнесёнными сайтами

• Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN• Основа для управления облачной нагрузкой и её миграции между «облаками»

Распределённые ЦОДТехнологические элементы• Связь сетей передачи данных

– L2/L3 смежность– Мониторинг (heartbeat) / синхронизация в кластере– Репликация по IP– Подключение к транспортной сети

• Связь сетей хранения данных– Синхронизация массивов по FC– Доступ к удаленным СХД/лентам

• Оптимальный путь трафика

Распределённые ЦОДКлассификация по расстоянию

• Расстояние – ключевой фактор• Ближе:

– Выше производительность– Синхронная репликация– Проще коммуникации

• Дальше:– Катастрофоусточивость– Распределение сервисов

Кампус1–2 km

Метро50-80 km

Региональное(extended

Metro)100-400km Основной

ЦОДРезервный

ЦОДКатастрофо-устойчивый

ЦОД

Гео

Влияние расстоянияПередача данных• Стандартные интерфейсы 10Гбит/с:

– 10GBASE-LR – до 10 км– 10GBASE-ER – до 40 км– 10GBASE-ZR – до 80 км

• Стандартные интерфейсы 40Гбит/с– 40GBASE-LR4 – до 10 км

• Стандартные интерфейсы 100Гбит/с– 100GBASE-LR4 – до 10 км– 100GBASE-ER4 – до 40 км

• DWDM – до 2000+ км при использовании оптического усиления, не ограничено при использовании регенерации

• Через сеть (IP, MPLS…) - без ограничений

Ограничено оптикой (Оптический бюджет)Темное Волокно

CWDM

DWDM

SONET/SDH

ЦОД Кампус Метро Регион Страна

Расстояние

Sync

Sync (1,2,4Gbps)

Sync (1,2Gbps + subrate)

Async (WAN,1Gbps)MDS9000 FCIP

Ограничено оптикой (Оптический бюджет)

Ограничено BB_CreditОпт

ика

IP

Sync (1,2,4,8,10Gbps /l)

Sync (Metro Eth)

Async

Земля

Влияние расстоянияХранение данных

Влияние расстоянияЗадержка (latency)• Скорость света в вакууме ~300,000 км/с• Скорость света в оптоволокне: ~200,000 км/с• Задержка сигнала: ~5 мкс/км, RTT ~10 мкс/км• Для сравнения:

– Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс

– Среднее время доступа на SSD диске ~0.1 мс– Максимальная задержка, допускаемая VMWare для VMotion:

5 мс RTT (10мс для vSphere v5.1)

Влияние расстоянияЗадержка (latency) и Fibre Channel

FC фреймы буферизуются промежуточными коммутаторами Трафик на каждом соединении управляется получением фреймов Receiver

Ready (R_RDY), передающая сторона может послать только определённое (BB_Credits) число фреймов прежде, чем приостановит передачу

Буферные кредиты (BB_Credit) согласовываются между каждой парой соединённых устройств в фабрике

На 1 км расстояния нужен 1 кредит на 2G, 2 кредита на 4G, 4 кредита на 8G, 6 на 10G, 8 на 16G

FC Receive Buffers

Traffic Flow

BB_CreditFlow Control

FC Receive Buffers

2-8 BB_Credit 16-255 BB_Credit 2-8 BB_Credit



Синхронная репликация• Приложение получает

подтверждение I/O после его выполнения на обеих сторонах (zero RPO)– «Метро» расстояния– Большая полоса

Асинхронная репликация • Подтверждение I/O после его

выполнения на локальном диске, пока его копирование на удалённый массив ещё продолжается

– «Неограниченные» расстояния

– Меньше требования к полосе

1

2

3

4 1

3

2

Расширение SANСинхронная репликация и ускорение ввода/вывода • SCSI протокол (FC) требует два round trip на операцию• Вносимая задержка операции 2*10μs/км, 100 км = 2 мс• В зависимости от приложения синхронную репликацию, как

правило ограничивают 50-100 км• I/O Acceleration «убирает» один round-trip – удвоение

расстояния!

1

2

3

4Local Storage Array Remote Storage Array

250 μs : Rec_Ready ?

250 μs : Wait for response?

250 μs : Send data

250 μs : Wait for Ack?

50 км 1ms1ms

DC 1DC 1 DC 2DC 2


Virtual CenterVirtual Center


L2 extension for L2 extension for vMotionvMotion NetworkNetwork

Target

Volumes

Initiator

Доступ к СХД и связь ЦОДВариант 1 – разделяемая СХД


DC 1DC 1 DC 2DC 2




Повышение произодительности с помощью I/O Acceleration на Cisco MDS

Доступ к СХД и мобильность сервисовРазделяемая СХД – использование Cisco I/O Acceleration

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html


DC 1DC 1 DC 2DC 2




TempCache

1

?

4

Read

datadata3datadata

2

Read

2

FlexCache не работает как отложенный кеш записи FlexCache подтверждает операцию только после подтверждения от СХД

datadata 1

Write3

2

Write

4ACK

ACKdatadata

datadata

Доступ к СХД и мобильность сервисов Вариант 2 - NetApp FlexCache (Active/Cache)

ЦОД BЦОД BЦОД AЦОД A

Fibre ChannelРаспределённый виртуальный том

Synchronous Latency

• Хосты на обеих сторонах одновременно имеют доступ к распределённым виртуальным томам

• Непрерывная синхронизация

• Запись защищается на обоих сайтах

• Чтение – с кеша VPLEX или местного тома

Доступ к СХД и мобильность сервисовВариант 3 - EMC VPLEX Metro (Active/Active)

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/ EMC/dciEmc.html





VPLEX Virtual LayerVPLEX Virtual Layer

DC 1DC 1 DC 2DC 2

Initiator

Initiator

TargetVPLEXEngine

EMC VMAX VPLEX

Engine

EMC CLARiiON

Target

F

From

the

Hos

t

F

From the S

torage

LUNv LUNv

SynchronousSynchronous LatencyLatency requimentsrequiments ~100 kms max~100 kms max

Доступ к СХД и мобильность сервисовВариант 3 - EMC VPLEX Metro (Active/Active)

Растягивание подсетей (связь ЦОД на 2 уровне)

Ethernet

Растягивание подсетейВарианты технологий

IP

Транспорт Критерии применения

MPLS

• VSS & vPC или FabricPathMulti-Chassis EtherChannel (N7K/N5K, Cat6K) для связи пары ЦОД

FabricPath для связи многих сайтов (N7K/N5K)

По тёмной оптике или xWDM

Технологии LAN

• EoMPLS & A-VPLS & H-VPLSВнедрение на PE (Cat6K, ASR9K, N7K (будущее))

Масштабирование и multi-tenancy

Возможно поверх GRE

Апробированный вариант, хорошо подходит SP

• OTVВнедрение на CE (N7K, ASR1K)

Подходит для корпоративных внедрений

Малая зависимость от транспорта – требуется только IP сеть

Маршрутизация по MAC адресам

Long Distance

DC 1 DC 2

CO

RE

AGG

R

ACC

ESS

Server Cluster

CO

RE

AGG

R

ACC

ESS

Server Cluster

Основные рекомендации

Различающиеся номера vPC доменов BPDU Filter на пограничных устройствах для блокирования распространения BPDU STP Edge Mode для быстрого восстановления Отсутствие петель между ЦОД в обход vPC

vPC domain 10 vPC domain 20

vPC domain 21vPC domain 11

E E

- -

--

- -

E

E

E

E

F

F

F

F-

-

- -

-

--

BB

N N NN

N

NN

N

RR

-

RRRR

RR

Многоуровневый vPC для агрегирования и DCI

Rootguard

B

F

N

E

BPDUguard

BPDUfilter

Network port

Edge or portfast port type

- Normal port type

R

FabricPath для связи ЦОДДостоинства: Диалоговое выучивание MAC адресов

Отказоустойчивость и изоляция STP

Динамическая «подрезка» VLAN

Отказоустойчивое сопряжение с LAN с помощью vPC+

Ограничения: Требует использования FabricPath соединений на всём транспорте Использует Flooding неизвестных адресов Нет подавления широковещания L2 Multipath только для путей одинаковой стоимости Затруднена локализация FHRP для оптимизации пути

Решения на основе MPLSEoMPLS• Имитация «провода» (pseudowire) между двумя портами

оборудования в разных ЦОД• Отказоустойчивость и балансировка внешними средствами –

аналогично «тёмной оптике»• Обычно для связи двух ЦОД• Необходимо наличие MPLS сети• Использование дополнительного туннелирования для связи

через IP сеть: EoMPLSoGRE

Решения на основе MPLSVPLS• Имитация коммутатора (VFI) между портами оборудования в

разных ЦОД (с опорой на pseudowire)• Отказоустойчивость и балансировка с помощью

дополнительных механизмов: A-VPLS на Cat6K, nV кластер на ASR9K, MLACP на 7600/ASR9K…

• Необходимо наличие MPLS сети• Использование дополнительного туннелирования для связи

через IP сеть: VPLSoGRE

Overlay Transport Virtualization (OTV)Простое и надежное решение для связи ЦОД• Расширение L2 доменов по произвольной IP сети • Ethernet трафик инкапсулируется в IP: “MAC in IP”• Динамическая инкапсуляция с использованием

таблицы маршрутизации MAC

Взаимодействие между MAC1 (сайт 1) и MAC2 (сайт 2)Server 1

MAC 1Server 2MAC 2

OTV OTVMAC IF

MAC1 Eth1

MAC2 IP B

MAC3 IP BIP A IP B

Encap DecapMAC1 MAC2 IP A IP B MAC1 MAC2 MAC1 MAC2

Проблемы «растягивания» LAN Решаемые OTV• Работа поверх любого транспорта (IP,

MPLS)• Изоляция доменов сбоев (STP)• Независимость сайтов • Оптимальное использование полосы • Встроенная отказоустойчивость • Встроенная защита от «петель»• Связь многих сайтов • Масштабируемость

VLANs, сайты, MACs ARP, broadcasts/floods

• Простота настройки• Легкость добавления сайтов

South Data Center

NorthDataCenter

Fault Domain

Fault Domain

Only 6 CLIcommands

LAN Extension

Fault Domain

Fault Domain

Оптимизация пути

Оптимальный путьВ чём именно проблема?

Layer 3 Core

AccessAccess

AggAgg

AccessAccess

AggAgg

10.1.1.0/24 advertised into L3Backup should main site go down10.1.1.0/24 advertised into L3Backup should main site go down

10.1.1.0/25 & 10.1.1.128/25 advertised into L3DC A is the primary entry point10.1.1.0/25 & 10.1.1.128/25 advertised into L3DC A is the primary entry point

Node ANode A

ESX ESX

Virtual Machine Virtual Machine

VMwarevCenter

Data Center 1 Data Center 2

Оптимальный путьХотелось бы так...

AccessAccess

AggAgg

AccessAccess

AggAgg

Node ANode A

ESX ESXVirtual Machine

VMwarevCenter

Data Center 1 Data Center 2

Оптимизация пути трафика• Исходящий трафик

–Изоляция FHRP

• Входящий трафик–ACE/GSS

• Выбор сайта с помощью DNS–Route Health Injection (RHI)

• Анонс /32 маршрутов на активные сервисы–Locator/ID Separation Protocol – LISP-VM

• Маршрутизация до сервиса

Оптимизация пути «на выход»Локализация FHRP с помощью OTV• Одна и та же HSRP группа на всех сайтах с тем же виртуальным MAC

адресом• Каждый сайт обеспечивает исходящую маршрутизацию• OTV локализует исходящий трафик за счёт фильтрации HSRP hello

сообщений между сайтами • ARP запросы перехватываются на OTV edge устройстве чтобы

обеспечить ответы именно от локального шлюза

L2L3

Active GWY Site 2

Active GWY Site 1

FHRP Hellos

FHRP HellosARP traffic is

kept localARP traffic is kept local

West East

Layer 3 CoreIntranetISP A ISP B

Access

Agg

Access

VM= 10.1.1.100Default GW = 10.1.1.1

DC A DC B

VLAN A

144.254.1.100KAL-AP Change IP

144.254.200.100

144.254.200.100144.254.1.100

GSSGSS

SNAT SNAT

L2 Links (GE or 10GE)L2 Links (GE or 10GE)L3 Links (GE or 10GE)L3 Links (GE or 10GE)

Оптимизация пути «на вход»С использованием ACE, GSS и KAL-AP

144.254.1.100

Layer 3 WAN

VM= 10.1.1.100Default GW = 10.1.1.1

VLAN A

Public Network

MAC movedChange the IP@

144.254.200.100

Access

Agg

ISP A

Data Center AData Center A

144.254.1.0/24 is advertised into L3

144.254.1.100144.254.200.100

Access

Agg

ISP B

Data Center BData Center B

SNATSNAT

Оптимизация пути «на вход»С использованием ACE, GSS и vCenter скриптов


Access

Agg

Access

Agg

DC A DC B

VLAN A

Public Network

Probe to Probe to 10.1.1.100 10.1.1.100 FailedFailed

IS 10.1.1.100 OK?


144.254.100.0/24Backup for Data Center A

144.254.100.0/25 & 144.254.100.128/25EEM or RHI can be used to get very granular

App VM = 10.1.1.100Default GW = 10.1.1.1

Оптимизация пути «на вход»С использованием Route Health Injection на ACE


Access

Agg Agg

DC A DC B

VLAN A

Public Network

Probe to Probe to 10.1.1.100 10.1.1.100 is OKis OK

IS 10.1.1.100 OK? RHI


10.1.1.1 HSRPGroup 1

144.254.100.0/24Backup for Data Center A144.254.100.0/24Backup for Data Center A

144.254.100.0/25 & 144.254.100.128/25EEM or RHI can be used to get very granular

App VM= 10.1.1.100Default GW = 10.1.1.1

144.254.100.100/32 is advertised into L3 using RHI

10.1.1.1 HSRPGroup 1

Оптимизация пути «на вход»С использованием Route Health Injection на ACE

Оптимизация пути «на вход»Locator-ID Separation Protocol (LISP)

• Отделяет идентификатор сервиса (IP адрес) от его местоположения

• Маршрутизация исходя из местоположения, а не адреса хоста• Соотношение адреса и его местоположение хранятся в директории• Поиск метоположения IP адреса по информации из директории• Инкапсуляция трафика (IP in IP) и передача по месту нахождения

хоста • Директория – распределенная база данных

ALT directory

Resolution & RegistrationData Path

Информация о хостах не хранится в таблице маршрутизации

“Summarizable host routing”


VM= 10.10.10.1Default GW = 10.10.10.100


Access

Agg

Access

Agg

DC A DC B

VLAN A

Public Network

Prefix Route Locator

10.10.10.1 A, B

10.10.10.2 A, B

… …

10.10.10.5 C, D

10.10.10.6 C, D

Ingress Tunnel

IP_DA= AIP_DA = 10.10.10.1

C, D

A BDecap

3

DC

Encap2

IP_DA = 10.10.10.1

IP_DA 10.10.10.1

1

IP_DA= DIP_DA = 10.10.10.1

Decap

3

IP_DA = 10.10.10.1

Локализация входящего трафика с помощью LISP

Оптимальный транспорт с помощью LISP иOTV

LISP: L3 Client-to-Server• Оптимизация маршрутизации с детальной информацией

о местоположении• Оптимизация мобильности внутри или между подсетями• Масштабирование прикладных сервисов

OTV: L2 Server-to-Server• Оптимизация расширения LAN • Распределение прикладных систем• Надежная связь на втором уровне для мобильности

виртуальных сервисов и кластерных систем

ESX Server A

Layer3 Core

ESX Server B

VLAN A – 10.1.1.0

FHRP: 10.1.1.1 FHRP: 10.1.1.1

-Virtual-Machine-A-IP Address = 10.1.1.100-Mask: 255.255.255.0-Default GW = 10.1.1.1

VLAN A – 10.1.1.0

AA A’A’BB B’B’

MSMSMRMR PxTRPxTR

DD

Client in LISP Site Client in non-LISP Site

C1 C2

E

-Virtual-Machine-A-IP Address = 10.1.1.100-Mask: 255.255.255.0-Default GW = 10.1.1.1

OTV Server-to-Server L2 traffic

Типовые сценарии

Распределённые ЦОДКампус – до нескольких км• Типичный сценарий – несколько ЦОД в комплексе зданий или на

территории предприятия• Катастрофоустойчивость: минимальна• Связь LAN: оптоволокно 10GBASE-LR / 40GBASE-

LR4/100GBASE-LR4, vPC/FabricPath• Связь FC SAN: оптоволокно –LW• Конвергентный транспорт (FCoE): Nexus 5500 до 3 км, Nexus

7000 F1/F2 до 10/80 км• Оптимизация пути: не нужна• Рассматривать как часть единого модульного ЦОД

Распределённые ЦОД«Метро» – несколько десятков (до 60-100) км• Типичный сценарий – «резервный ЦОД» в пределах города или

«метро-области»• Катастрофоустойчивость: частично• Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM

(vPC/FabricPath), при необходимости - IP+OTV или MPLS/VPLS• Связь FC SAN: оптоволокно ER, CWDM/DWDM, при

необходимости – FCIP. I/O Aceleration для оптимизации ввода-вывода (от 40-50 км)

• Конвергентный транспорт (FCoE): Nexus 7000 F2 до 80 км• Оптимизация пути: по возможности• При наличии возможности – использование «тёмного волокна»

для LAN и SAN, синхронная репликация, технологии метрокластеров, Vmotion

Распределённые ЦОД«Регион» – до несколько сот (300-400) км• Типичный сценарий – «резервный ЦОД» в другом городе в

пределах региона• Катастрофоустойчивость: значительная• Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии)• Связь SAN: FCIP, DWDM (при наличии). I/O Aceleration для

оптимизации ввода-вывода• Оптимизация пути: желательна• Может использоваться для ряда «метрокластерных»

технологий. Асинхронная репликация или синхронная с ограничениями и дополнительными инструментами

Распределённые ЦОД«Гео» – многие сотни и тысячи км• Типичный сценарий – ЦОД на случай катастрофы (DR) в другом

регионе страны• Катастрофоустойчивость: высокая• Связь LAN: IP+OTV или MPLS/VPLS - если требует технология

кластера• Связь SAN: FCIP – если необходимо. I/O Aceleration для

оптимизации ввода-вывода• Оптимизация пути: необходима• Асинхронная репликация, «log shipping» или иные средства

катастрофоустойчивости. Высокое время восстановления (часы и более). Непосредственная связь между ЦОД – если требует технология геокластера

http://www.cisco.com/go/dci

Data Center InterconnectДополнительная информация

Спасибо!

Просим Вас заполнить анкеты.Ваше мнение очень важно для нас.

Задачи создания и варианты связи распределённых ЦОД

Technology