Построение катастрофоустойчивых и распределённых ЦОД

38
Скороходов Александр Системный инженер-консультант [email protected] Построение катастрофоустойчивых и распределённых ЦОД Решаемые задачи и элементы архитектуры 25.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.

Upload: cisco-russia

Post on 19-Jul-2015

292 views

Category:

Technology


6 download

TRANSCRIPT

Page 1: Построение катастрофоустойчивых и распределённых ЦОД

Скороходов АлександрСистемный инженер-консультант

[email protected]

Построение катастрофоустойчивых и распределённых ЦОД

Решаемые задачи и элементы архитектуры

25.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.

Page 2: Построение катастрофоустойчивых и распределённых ЦОД

Распределённые ЦОДЦели создания

• Катастрофоустойчивость • Непрерывность обработки• Мобильность приложений• Миграция систем• Наращивание производительности/ёмкости• Распределённые сервисы• Географически-локализованные сервисы

Page 3: Построение катастрофоустойчивых и распределённых ЦОД

КатастрофоустойчивостьТочка восстановления и время восстановления

Время

Моменткатастрофы

Последняя резервная копия или пригодные данные

Системы восстановлены и работоспособны

Время восстановления

Точка восстановления(Recovery point objective - RPO)

Меньше RPO/RTO• Больше $$$• Репликация • «Горячий резерв»

Больше RPO/RTO• Меньше $$$• Резервирование на ленту• «Холодный резерв»

«Нулевые» RPO/RTO – система непрерывной доступности

Page 4: Построение катастрофоустойчивых и распределённых ЦОД

Развитие кластеризации для защиты от сбоя сайта целиком Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД Некоторые приложения поддерживают кластеризацию через L3 сеть

HeartbeatPrivate LAN

Public LAN VIP Cluster

Cluster ANode 2

Cluster ANode 1

Непрерывность бизнесаГеографически распределённые отказоустойчивые кластеры

Page 5: Построение катастрофоустойчивых и распределённых ЦОД

Мобильность виртуальных сервисов между разнесёнными сайтами Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN Основа для управления облачной нагрузкой и её миграции между «облаками»

DC 1 DC 2

Core Network

ESX-A source ESX-B target

DCI LAN extension

Cisco-VMware With EMC & NetApp Validated Design

& Certification for Virtualized Workload

Mobility

Мобильность виртуальных сервисовПеремещение VM между ЦОД

Page 6: Построение катастрофоустойчивых и распределённых ЦОД

Влияние расстоянияЗадержка (latency)

Скорость света в вакууме ~300,000 км/сСкорость света в оптоволокне: ~200,000 км/сЗадержка сигнала: ~5 мкс/км, RTT ~10 мкс/кмДля сравнения:

Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс Среднее время доступа на SSD диске < 0.1 мс Максимальная задержка, допускаемая VMWare для vMotion: 5 мс

RTT (10 мс начиная с vSphere 5.1)

Page 7: Построение катастрофоустойчивых и распределённых ЦОД

Распределённые ЦОДКлассификация по расстоянию

Расстояние – ключевой факторБлиже:

Выше производительность Синхронная репликация Проще коммуникации

Дальше: Катастрофоусточивость Распределение сервисов

Компромисс!

Кампус1–2 km

Метро50-80 km

Региональное(extended

Metro)200-400km Основной

ЦОДРезервный

ЦОД

Катастрофо-устойчивый

ЦОД

Гео

Page 8: Построение катастрофоустойчивых и распределённых ЦОД

Распределённые ЦОДТехнологические элементы

Связь сетей передачи данных L2/L3 смежность Мониторинг(heartbit)/синхронизация в кластере Репликация по IP Подключение к транспортной сети

Связь сетей хранения данных Доступ к удаленным СХД/лентам Репликация массивов по FC

Оптимальный путь трафика

Page 9: Построение катастрофоустойчивых и распределённых ЦОД

Связь сетей хранения данных

Page 10: Построение катастрофоустойчивых и распределённых ЦОД

Ограничено оптикой и BB_Credit

Влияние расстоянияВарианты объединения Fibre Channel SAN

Темное ВолокноCWDMDWDM

SONET/SDH

ЦОД Кампус Метро Регион СтранаРасстояние

Sync

Sync (1,2,4Gbps)

Sync (1,2Gbps + subrate)

Async (WAN,1/10Gbps)FCIP

Ограничено оптикой и BB_Credit

Ограничено BB_Credit

Опт

ика

IP

Sync (1,2,4,10Gbps per λ)

Sync (Metro Eth)

Async

Земля

Page 11: Построение катастрофоустойчивых и распределённых ЦОД

Влияние расстоянияЗадержка (latency) и Fibre Channel

Буферные кредиты (BB_Credit) согласовываются между каждой парой соединённых устройств в фабрикеОдин буфер под каждый FC фрейм независимо от размера фреймаFC фреймы буферизуются промежуточными коммутаторамиТрафик на каждом соединении управляется получением фреймов Receiver Ready (R_RDY), передающая сторона может послать только определённое (BB_Credits) число фреймов прежде, чем приостановит передачу

FC Receive Buffers

Traffic Flow

BB_CreditFlow Control

FC Receive Buffers

2-8 BB_Credit 16-255 BB_Credit 2-8 BB_Credit

BB_CreditFlow Control

BB_CreditFlow Control

Page 12: Построение катастрофоустойчивых и распределённых ЦОД

• BB_Credits нужны, чтобы «заполнить» соединение фреймами FC• Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2

Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps• Если BB_Credits не хватает для данного расстояния – снижается произодительность,

соединение простаивает• Число BB_Credits определяется оборудованием и его настройками

16 Km

1 Gbps FC

4 Gbps FC~½ km per Frame

~2 km per Frame

2 Gbps FC ~1 km per Frame

8 Gbps FC~¼ km per Frame

BB_Credits и расстояние

Влияние расстоянияЗадержка (latency) и Fibre Channel

Page 13: Построение катастрофоустойчивых и распределённых ЦОД

FCoE для связи SAN между ЦОД?Да! C Nexus 7000/7000 и модулями F2E

Поддерживаемые расстояния для FCoEтранспорта:

Nexus 5500: до 3 км

Nexus 5600: до 20 км

Nexus 7000 с F2/F2E картами: до 80 км с DWDM SFP+

Использование отдельных соединений для LAN и SAN трафика

До 80 кмNexus 7000

Nexus 7000

Storage VDC

Storage VDC

Storage VDC

Storage VDC

Page 14: Построение катастрофоустойчивых и распределённых ЦОД

FCIP: Fibre Channel over IP

Соединение «точка-точка» (туннель) между двумя FCIP устройствамиИспользуется TCP – могут использоваться механизмы оптимизации (WAAS)Создаётся едингая FC фабрика (общий FSPF домен)Транспорт – IP сеть, в том числе и на большие расстояния

FCIP: IETF стандарт для связи Fibre Channel SAN через IP (RFCs 3821 и 3643)

FC SANFC SANIP Network

FCIP Tunnel

Page 15: Построение катастрофоустойчивых и распределённых ЦОД

Расширение SAN и Inter-VSAN Routing (IVR)

Сбой на «транзитной» VSAN_20(оборудование или кабель) не нарушит трафик в VSAN_10 или VSAN_30Работает с любым транспортом (FC, SONET/SDH, DWDM/CWDM, FCIP)Нужно, если данные VSANиспользуются для локальной обработки

VSAN_5 - Site 1 Host FabricVSAN_10 - Site 1 Replication FabricVSAN_20 - Inter-site SAN Extension FabricVSAN_30 - Site 2 Replication Fabric

Site 2

Site 1 LocalVSAN_5

TransitVSAN_20

(IVR)

ReplicationVSAN_10

ReplicationVSAN_30

Page 16: Построение катастрофоустойчивых и распределённых ЦОД

Синхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на обеих сторонах (zero RPO)

«Метро»расстоянияАсинхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на основном (локальном) диске, в то время как его коприрование на удалённый массив продолжается

Неограниченные расстояния

11

1213

14

11

13

12

SynchronousData Replication

AsynchronousData Replication

Расширение SANСинхронная и асинхронная репликация

Page 17: Построение катастрофоустойчивых и распределённых ЦОД

SCSI протокол (FC) требует два round trip на операцию Вносимая задержка операции 20μs/км, 100 км = 2 мс В зависимости от приложения синхронную репликацию, как правило ограничивают 50-100 км I/O Acceleration «убирает» один round-trip

1

2

1

2Local Storage Array Remote Storage Array

250 μs : Rec_Ready ?

250 μs : Wait for response?

250 μs : Send data

250 μs : Wait for Ack?

50 км 1ms

Расширение SANСинхронная репликация

Page 18: Построение катастрофоустойчивых и распределённых ЦОД

DC 1 DC 2

Core Network

Virtual Center

ESX-A source ESX-B target

L2 extension for vMotion Network

Target

Volumes

Initiator

Доступ к СХД и связь ЦОДВариант 1 – разделяемая СХД

Page 19: Построение катастрофоустойчивых и распределённых ЦОД

Core Network

DC 1 DC 2

Virtual Center

L2 extension for vMotion Network

ESX-A source ESX-B target

Повышение произодительности с использованием Write Acceleration на

Cisco MDS

Доступ к СХД и связь ЦОДРазделяемая СХД – использование Cisco IO Acceleration

Page 20: Построение катастрофоустойчивых и распределённых ЦОД

Работа ускорения ввода/вывода

Ускорение синхронной репликации и резервирования на ленту: аналогичнные подходыНа работу с лентой дополнительно влияют особенности физического носителя и ограничения буферизацииWrite Acceleration имитирует только Transfer Ready, Tape Acceleration имитирует Command Status

WRITEXFER_RDY

XFER_RDY

Write Acceleration (WA)

Reduction in I/O Latency ~equal to one round trip time (RTT)

STATUS

WAWA

DATA

WRITE-1XFER_RDY

XFER_RDY

STATUS

DATA

Tape Acceleration (TA)

TATA

STATUSWRITE-2

XFER_RDYDATA

STATUSXFER_RDY

STATUS

WRITE-1

WRITE-2

WRT file mark

WRT file mark

WRT fm stsWRT fm sts

Page 21: Построение катастрофоустойчивых и распределённых ЦОД

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html

Core Network

DC 1 DC 2

Virtual Center

L2 extension for vMotion Network

ESX-A source ESX-B target

Доступ к СХД и связь ЦОДВариант 2 - NetApp FlexCache (Active/Cache)

TempCache 1

?

4

Readdata3data

2Read

2

FlexCache не работает как отложенный кеш записи FlexCache подтверждает операцию только после подтверждения от СХД

data 1Write3

2Write

4ACK

ACKdata

data

Page 22: Построение катастрофоустойчивых и распределённых ЦОД

ЦОД BЦОД A

Fibre ChannelDistributed Virtual Volume

Хосты на обеих сторонах одновременно имеют доступ к распределённым виртуальным томам

Непрерыная синхронизация

Запись защищается на обоих сайтах

Чтение – с кеша VPLEX или местного тома

Synchronous Latency

Доступ к СХД и связь ЦОДВариант 3 - EMC VPLEX Metro (Active/Active)

Page 23: Построение катастрофоустойчивых и распределённых ЦОД

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data Center/DCI/4.0/ EMC/dciEmc.html

Core Network

Virtual Center

L2 extension for vMotion Network

ESX-A source ESX-B target

VPLEX Virtual Layer

DC 1 DC 2

Initiator

Initiator

TargetVPLEXEngine

EMC VMAX VPLEX

Engine

EMC CLARiiON

Target

F

From

the

Hos

t

F

From the

Storage

LUNv LUNv

Synchronous Latency requiments ~100 kms max

Доступ к СХД и связь ЦОДВариант 3 - EMC VPLEX Metro (Active/Active)

Page 24: Построение катастрофоустойчивых и распределённых ЦОД

Связь сетей передачи данных

Page 25: Построение катастрофоустойчивых и распределённых ЦОД

Влияние расстоянияПередача данных

Стандартные интерфейсы 10Гбит/с: 10GBASE-LR – до 10 км 10GBASE-ER – до 40 км 10GBASE-ZR – до 80 км

Стандартные интерфейсы 40Гбит/с 40GBASE-LR4 – до 10 км

Стандартные интерфейсы 100Гбит/с 100GBASE-LR4 – до 10 км 100GBASE-ER4 – до 40 км

DWDM – до 1000+ км при использовании оптического усиления, не ограничено при использовании регенерацииЧерез сеть (IP, MPLS…) - без ограничений

Page 26: Построение катастрофоустойчивых и распределённых ЦОД

Связь сетей ЦОД != растягивание VLAN !Много задач, требующих растягивания подсетей:

Отказоустойчивые кластеры Миграция виртуальных машин

- но это не значит, что вы всегда обязаны растягивать VLAN: Кластеризация на L3 Растягивание подсетей без растягивания VLAN (LISP) Катастрофоустойчивые ЦОДы – связь на L2 снижает степень

изоляции

В любом случае, не забывайте про: Маршрутизацию между ЦОД Связь ЦОД с внешним миром – Интернетом или корпоративной

магистралью

Page 27: Построение катастрофоустойчивых и распределённых ЦОД

Ethernet

VSS & vPC, FabricPath? Multi-Chassis EtherChannel для связи пары ЦОД FabricPath для связи многих сайтов – обсуждение далее По тёмной оптике или xWDM “Технологии LAN"

IP

OTV Внедрение на CE Подходит для корпоративных внедрений Малая зависимость от транспорта – требуется только IP сеть «Маршрутизация по MAC адресам»

Растягивание VLANВарианты технологий

Транспорт Критерии применения

MPLS

EoMPLS & A-VPLS & H-VPLS Внедрение на PE Масштабирование и multi-tenancy Возможно поверх GRE Апробированный вариант, хорошо подходит SP

Подробнее – в следующих выступлениях

Page 28: Построение катастрофоустойчивых и распределённых ЦОД

Оптимальный путьВ чём именно проблема?

Layer 3 Core

Access

Agg

Access

Agg

10.1.1.0/24 advertised into L3Backup should main site go down

10.1.1.0/25 & 10.1.1.128/25 advertised into L3DC A is the primary entry point

Node A

ESX ESXVirtual Machine Virtual Machine

VMwarevCenter

Data Center 1 Data Center 2

Page 29: Построение катастрофоустойчивых и распределённых ЦОД

Оптимальный путьХотелось бы так...

Access

Agg

Access

Agg

Node A

ESX ESXVirtual Machine

VMwarevCenter

Data Center 1 Data Center 2

Layer 3 Core

Page 30: Построение катастрофоустойчивых и распределённых ЦОД

Исходящий трафикЛокализация FHRP

Входящий трафикGSLB

— Выбор сайта с помощью DNSRoute Health Injection (RHI)

— Анонс /32 маршрутов на активные сервисыLocator/ID Separation Protocol – LISP-VM

— Маршрутизация до сервиса

Подробнее – в следующих сессиях

Оптимизация пути трафика

Page 31: Построение катастрофоустойчивых и распределённых ЦОД

Типы ЦОД и выбор подходов

Page 32: Построение катастрофоустойчивых и распределённых ЦОД

Распределённые ЦОДКампус – до нескольких км

• Типичный сценарий – несколько ЦОД в комплексе зданий или на территории предприятия

• Катастрофоустойчивость: минимальна• Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4• Связь SAN: оптоволокно -LW• Оптимизация пути: не нужна• Рассмотривать как часть единого модульного ЦОД

Page 33: Построение катастрофоустойчивых и распределённых ЦОД

Распределённые ЦОД«Метро» – несколько десятков (до 60-100) км

• Типичный сценарий – «резервный ЦОД» в пределах города или «метро-области»

• Катастрофоустойчивость: частично• Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости

- IP+OTV или MPLS/VPLS• Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP• Оптимизация пути: по возможности• При наличии возможности – использование «тёмного волокна» для

LAN и SAN, синхронная репликация, технологии метрокластеров, Vmotion

Page 34: Построение катастрофоустойчивых и распределённых ЦОД

Распределённые ЦОД«Регион» – до несколько сот (300-400) км

• Типичный сценарий – «резервный ЦОД» в другом городе в пределах региона

• Катастрофоустойчивость: значительная• Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии)• Связь SAN: FCIP, DWDM (при наличии)• Оптимизация пути: желательна• Может использоваться для ряда «метрокластерных» технологий

(Vmotion). Асинхронная репликация или синхронная с ограничениями и дополнительными инструментами

Page 35: Построение катастрофоустойчивых и распределённых ЦОД

Распределённые ЦОД«Гео» – многие сотни и тысячи км

• Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе страны

• Катастрофоустойчивость: высокая• Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера• Связь SAN: FCIP – если требует технология кластера• Оптимизация пути: необходима• Асинхронная репликация, «log shipping» или иные средства

катастрофоустойчивости. Высокое время восстановления (часы и более). Непосредственная связь между ЦОД – только если требует технология геокластера

Page 36: Построение катастрофоустойчивых и распределённых ЦОД

Пример: собственные ЦОД CiscoMetro-Virtual DC (MVDC)

Непрерывность обработки, катастрофоустойчивость и оптимальное использование

DC1(Texas)

DC2(Texas)

“Disaster Recovery (DR)”Катастрофоустойчивый удалённый ЦОД (RTP)

“Operational Continuity”Единая пара ЦОД

с локальной отказоустойчивостью

Метро-разнесение (в пределах 50 оптических миль) Размещение непродуктивных приложений

Автоматическая смена функций при катастрофес помощью сервисных профилей Cisco UCS

Георазнесение (> 200 миль)

http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf

Page 37: Построение катастрофоустойчивых и распределённых ЦОД

Data Center InterconnectДополнительная информация

http://www.cisco.com/go/dci

Page 38: Построение катастрофоустойчивых и распределённых ЦОД

CiscoRu Cisco CiscoRussia

Ждем ваших сообщений с хештегом#CiscoConnectRu

Пожалуйста, используйте код для оценки доклада4418Ваше мнение очень важно для нас.

Спасибо

Скороходов АлександрPhone: +7(495)789-8615E-mail: [email protected]

25.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.