sistem sa nultom tolerancijom na gubitak podataka · tehnički zahtevi • otpornost sistema na...

17
15. COMING konferencija 4.10.2018. Sistem sa nultom tolerancijom na gubitak podataka Aleksandar Pavlović Vodeći sistem inženjer za informacione tehnologije Coming - Computer Engineering

Upload: others

Post on 08-Jan-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

15. COMING konferencija4.10.2018.

Sistem sa nultom tolerancijom na gubitak podataka

Aleksandar PavlovićVodeći sistem inženjer za informacione tehnologije

Coming - Computer Engineering

Page 2: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

British American Tobaco

• Jedna od vodećih globalnih kompanija iz oblasti duvanske industrije

• U Srbiji posluje od 2003. godine, akvizicijom Duvanske industrije Vranje

• Proizvodni pogoni stacionirani u Vranju

• Komercijalna odeljenja stacionirana u Beogradu

Page 3: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Predmet projekta

• Implementacija visokodostupnog klastera virtuelne infrastrukture zasnovanog na VMware MetroCluster tehnologiji za potrebe servisa koji se koriste za upravljanje i kontrolu proizvodnih procesa

• Usklađivanje proizvodnih procesa sa direktivama Evropske Unije definisanih u okviru TPD (Tobacco Products Directive) procedura

Page 4: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

MetroCluster

Page 5: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Tehnički zahtevi

• Otpornost sistema na otkaz jednog datacentra

• Ugrađena visoka dostupnost i automatski oporavak na nivou klastera virtuelne infrastrukture

• Uniformna organizacija MetroCluster-a

• Korišćenje MS Failover Cluster-a za zaštitu servisa visoke kritičnosti

• Koršćenje DR mehanizama zaštite, uz spuštanje RPO parametra na 1 h

Page 6: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Stanje uoči redizajna

• Tri klastera virtuelne infrastrukture (2x VR; 1x BG) –Essentials+ nivoa

• Klasteri međusobno spregnuti vSphere replikacijom i VMware SRM-om; RPO 24h, 1 RP

• Primarni klaster zasnovan na HP Gen9 serverima

• Sekundarni i tercijarni klasteri zasnovani na G7 serverima

• NetApp FAS storage sistemi na ONTAP9 i 7Mode – pristup preko 8 Gbps FC-a i 1 Gbps NFS-a

• Veeam B&R alat za backup virt. okruženja

Page 7: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Prvi koraci

• Postizanje preduslova za uniformnu organizaciju MetroCluster-a -> obe lokacije postaju ravnopravne:– Identičan stepen zaštite (klimatizacija, UPS, monitoring)

– Direktne MM i SM optičke veze za 10 GbE, FC i storageinterkonekcije

• Definisanje grube skice budućeg izgleda infrastrukture:– Referentna specifikacija novog servera

– Infrastruktura zasnovana na Gen 10 blade serverima

– Interconnect moduli (FC i 10GbE)

– 10 GbE DataCenter switch-evi

– Limiti koji nastaju usled MS Failover Cluster zahteva – p RDM

Page 8: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Prvi koraci

• Definisanje grube skice budućeg izgleda infrastrukture:– Referentna specifikacija novog storage sistema: NetApp FAS8200

Stretched MetroCluster

– Definisanje potrebnih kapaciteta za smeštanje svih resursa (doublepenalty)

– Datacentri unutar kampusa na takvom rastojanju da je potrebno korišćenje SAS to FC bridge-eva za 12 Gbps brzine

• Definisanje detaljne šeme povezivanja elemenata MetroCluster sistema

Page 9: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Skica implementiranog rešenja

Page 10: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Planiranje implementacije

• Definisanje tima za implementaciju rešenja:

– Specijalista za datacentar tehnologije, specijalista za mrežne tehnologije, specijalista za MS tehnologije, projekt menadžer.

• Razrada plana implementacije i kreiranje detaljne Visio šema povezivanja

• Cilj – završiti implementaciju bez downtime-a

Page 11: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Tok implementacije

• Redizajn core mrežne infrastrukture -> dupliranje core mrežnih elemenata: L3 switch-evi, ruteri, fizički firewall

• Zamena servera na primarnoj i sekundarnoj lokaciji

• Formiranje zajedničkog klastera

• Upgrade DataCenter switch-eva na 10 GbE na obe lokacije

• Implementacija node-ova MetroCluster sistema

• Simulacija failover-a po svim elementima (serveri, storage, mrežni elementi)

• Migracija podataka sa postojećih primarnih storage-a na MetroCluster sistem

Page 12: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Tok implementacije

• Dekomisija starih primarnih storage-a

• Implementacija MS Failover Cluster-a za potrebe servisa za TPD – DBS, App i Web klasteri

• MS Failover cluster-i bazirani na CAB (Cluster Accross Box) organizaciji sa deljenim RDM diskovima u physical modu

• Potreba za diskovima na sekundarnim storage sistemima za aplikativne backup-e

Page 13: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Tok implementacije

• Potreba za reorganizacijom sistema za zaštitu podataka:

– Alat za centralizovani backup

– Rešenje za DR

• Ograničenja MS Failover Cluster u CAB izvedbi (pRDM diskovi)

• Backup MS FC objekata jedino moguć agentskim rešenjima (Veeam Backup Agent for Windows v2.1)

• Replikacija RDM diskova (LUN-ova) moguća kroz Storage replikaciju (NetApp SnapMirror)

• Planiranje upgrade-a tercijarne lokacije (DR)

Page 14: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Tok implementacije

• Upgrade tercijarne lokacije dekomisioniranim hardverom:

– Gen9 serveri

– Netapp FAS2650 storage

• Uspostavljanje SnapMirror veza između primarnih nodova MC za potrebe replikacije.

• Instalacija Veeam Agenata za potrebe backup Failover Cluster objekata

• Redefinisanje izgleda sistema za backup, iskorišćenjem dekomisioniranog hardvera, primarna i sekundarne kopije backup-a

Page 15: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Tehnologije u službi obezbeđenja integriteta podataka

• VMware vSphere HA – automatski oporavak

• NetApp MetroCluster tehnologija – sinhrona replikacija unutar kampusa

• NetApp SnapMirror tehnologija – asinhrona replikacija –između kampusa i DR lokacija, RPO 1 h

• VMware Site Recovery Manager – upravljanje procesom DR-a

Page 16: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Skica implementiranog rešenja

Page 17: Sistem sa nultom tolerancijom na gubitak podataka · Tehnički zahtevi • Otpornost sistema na otkaz jednog datacentra • Ugrađena visoka dostupnost i automatski oporavak na nivou

Tehnologije u službi obezbeđenja integriteta podataka

• Veeam Backup and Replication – alat za centralizovani backup virtuelne infrastrukture - primarne i sekundarne kopije backup-a, različite fizičke lokacije, različiti tip backup repozitorijuma, dnevni backup-i, 30 RP

• Veeam Agent for Windows Srv – backup objekata Microsoft Failover Cluster-a – ekvivalentan nivo zaštite