sistem sa nultom tolerancijom na gubitak podataka · tehnički zahtevi • otpornost sistema na...
TRANSCRIPT
15. COMING konferencija4.10.2018.
Sistem sa nultom tolerancijom na gubitak podataka
Aleksandar PavlovićVodeći sistem inženjer za informacione tehnologije
Coming - Computer Engineering
British American Tobaco
• Jedna od vodećih globalnih kompanija iz oblasti duvanske industrije
• U Srbiji posluje od 2003. godine, akvizicijom Duvanske industrije Vranje
• Proizvodni pogoni stacionirani u Vranju
• Komercijalna odeljenja stacionirana u Beogradu
Predmet projekta
• Implementacija visokodostupnog klastera virtuelne infrastrukture zasnovanog na VMware MetroCluster tehnologiji za potrebe servisa koji se koriste za upravljanje i kontrolu proizvodnih procesa
• Usklađivanje proizvodnih procesa sa direktivama Evropske Unije definisanih u okviru TPD (Tobacco Products Directive) procedura
MetroCluster
Tehnički zahtevi
• Otpornost sistema na otkaz jednog datacentra
• Ugrađena visoka dostupnost i automatski oporavak na nivou klastera virtuelne infrastrukture
• Uniformna organizacija MetroCluster-a
• Korišćenje MS Failover Cluster-a za zaštitu servisa visoke kritičnosti
• Koršćenje DR mehanizama zaštite, uz spuštanje RPO parametra na 1 h
Stanje uoči redizajna
• Tri klastera virtuelne infrastrukture (2x VR; 1x BG) –Essentials+ nivoa
• Klasteri međusobno spregnuti vSphere replikacijom i VMware SRM-om; RPO 24h, 1 RP
• Primarni klaster zasnovan na HP Gen9 serverima
• Sekundarni i tercijarni klasteri zasnovani na G7 serverima
• NetApp FAS storage sistemi na ONTAP9 i 7Mode – pristup preko 8 Gbps FC-a i 1 Gbps NFS-a
• Veeam B&R alat za backup virt. okruženja
Prvi koraci
• Postizanje preduslova za uniformnu organizaciju MetroCluster-a -> obe lokacije postaju ravnopravne:– Identičan stepen zaštite (klimatizacija, UPS, monitoring)
– Direktne MM i SM optičke veze za 10 GbE, FC i storageinterkonekcije
• Definisanje grube skice budućeg izgleda infrastrukture:– Referentna specifikacija novog servera
– Infrastruktura zasnovana na Gen 10 blade serverima
– Interconnect moduli (FC i 10GbE)
– 10 GbE DataCenter switch-evi
– Limiti koji nastaju usled MS Failover Cluster zahteva – p RDM
Prvi koraci
• Definisanje grube skice budućeg izgleda infrastrukture:– Referentna specifikacija novog storage sistema: NetApp FAS8200
Stretched MetroCluster
– Definisanje potrebnih kapaciteta za smeštanje svih resursa (doublepenalty)
– Datacentri unutar kampusa na takvom rastojanju da je potrebno korišćenje SAS to FC bridge-eva za 12 Gbps brzine
• Definisanje detaljne šeme povezivanja elemenata MetroCluster sistema
Skica implementiranog rešenja
Planiranje implementacije
• Definisanje tima za implementaciju rešenja:
– Specijalista za datacentar tehnologije, specijalista za mrežne tehnologije, specijalista za MS tehnologije, projekt menadžer.
• Razrada plana implementacije i kreiranje detaljne Visio šema povezivanja
• Cilj – završiti implementaciju bez downtime-a
Tok implementacije
• Redizajn core mrežne infrastrukture -> dupliranje core mrežnih elemenata: L3 switch-evi, ruteri, fizički firewall
• Zamena servera na primarnoj i sekundarnoj lokaciji
• Formiranje zajedničkog klastera
• Upgrade DataCenter switch-eva na 10 GbE na obe lokacije
• Implementacija node-ova MetroCluster sistema
• Simulacija failover-a po svim elementima (serveri, storage, mrežni elementi)
• Migracija podataka sa postojećih primarnih storage-a na MetroCluster sistem
Tok implementacije
• Dekomisija starih primarnih storage-a
• Implementacija MS Failover Cluster-a za potrebe servisa za TPD – DBS, App i Web klasteri
• MS Failover cluster-i bazirani na CAB (Cluster Accross Box) organizaciji sa deljenim RDM diskovima u physical modu
• Potreba za diskovima na sekundarnim storage sistemima za aplikativne backup-e
Tok implementacije
• Potreba za reorganizacijom sistema za zaštitu podataka:
– Alat za centralizovani backup
– Rešenje za DR
• Ograničenja MS Failover Cluster u CAB izvedbi (pRDM diskovi)
• Backup MS FC objekata jedino moguć agentskim rešenjima (Veeam Backup Agent for Windows v2.1)
• Replikacija RDM diskova (LUN-ova) moguća kroz Storage replikaciju (NetApp SnapMirror)
• Planiranje upgrade-a tercijarne lokacije (DR)
Tok implementacije
• Upgrade tercijarne lokacije dekomisioniranim hardverom:
– Gen9 serveri
– Netapp FAS2650 storage
• Uspostavljanje SnapMirror veza između primarnih nodova MC za potrebe replikacije.
• Instalacija Veeam Agenata za potrebe backup Failover Cluster objekata
• Redefinisanje izgleda sistema za backup, iskorišćenjem dekomisioniranog hardvera, primarna i sekundarne kopije backup-a
Tehnologije u službi obezbeđenja integriteta podataka
• VMware vSphere HA – automatski oporavak
• NetApp MetroCluster tehnologija – sinhrona replikacija unutar kampusa
• NetApp SnapMirror tehnologija – asinhrona replikacija –između kampusa i DR lokacija, RPO 1 h
• VMware Site Recovery Manager – upravljanje procesom DR-a
Skica implementiranog rešenja
Tehnologije u službi obezbeđenja integriteta podataka
• Veeam Backup and Replication – alat za centralizovani backup virtuelne infrastrukture - primarne i sekundarne kopije backup-a, različite fizičke lokacije, različiti tip backup repozitorijuma, dnevni backup-i, 30 RP
• Veeam Agent for Windows Srv – backup objekata Microsoft Failover Cluster-a – ekvivalentan nivo zaštite