storage presentation
DESCRIPTION
PresentationTRANSCRIPT
-
Storage
-
O DISCO
-
Desempenho de um disco IO Acessos Concorrenciais
Velocidade de actuao das cabeasNumero cabeasMotores
Preciso do posicionamentoLgica de ControloTamanho da cabeaDistncia ao pratoLargura das pistasQualidade de construo
Velocidade de Rotao5,4k, 7,2k, 10k, 15k
Lgica de reordenamento de comandosTempo Transferncia
PATA, SCSI, SATA, SAS, FC
Cache
-
Desempenho de um disco -Throughput
InterfaceSATA, SAS, PATA, SCSI, FC
Velocidade de Rotao15k, 10k, 7.2k, 5.4k
Densidade do prato
Quase no h diferenasA interface tem pouca influencia
A perca de velocidade de rotao compensada pelo aumento de densidade do prato.
-
CaractersticasTam. T Capacidade V.R. Euros HP dolars ms r/w ms MB/s min MTBF AFR % BER nonrecoverable after TB power operating
2,5' e 72-146GB 15k 231 579 2 122 0,55 1/10^16 1136,87 "6-7"
2,5' e 72-300GB 10k 183 319 3 129 0,55 1/10^16 1136,9 6,15-6,3
3,5' e 146-450GB 15k 183 359 2 110 1,6M 0,55 1/10^16 1136,87 15-17
3,5' e 300-600GB 10k 173 3 150 1,6M 0,55 1/10^16 1136,9 10,07-9,3
3,5' e 250-1000GB 7,2k 73 549 4,16 8,5/9,5 116 1,2M 0,73 1/10^15 113,69 12,5
3,5' d 160-1500GB 7,2k 40 4,16 8,5/10 0,75M 0,34 1/10^14 11,369
2,5' p 160-500GB 7,2k 67 4,17 0,5M 0,48 1/10^14 11,369 1,5
2,5' p 120-500GB 5,2k 62 109 5,6 0,5M 0,48 1/10^14 11,369 2,85
io teorico io read ms io teorico med
500 5,4 185,1851852
333,3333 7,3 136,9863014
500 5,5 181,8181818
333,3333 7,1 140,8450704
240,3846 12,2 81,96721311
240,3846 12,9 77,51937984
239,8082 14,2 70,42253521
178,5714 15,9 62,89308176
min MB/s io med 1qd diff % io med 128qd diff % IO/
80 180 -64 411 -17,8 1,779221
83 131 -60,7 296 -11,2 1,617486
42 166 -66,8 416 -16,8 2,273224
63 129 -61,3 262 -21,4 1,514451
53 79 -67,136 158 -34,272 2,164384
40 80 -66,72 158 -34,272 3,95
33 69 -71,227 113 -52,879 1,686567
24 62 -65,28 93 -47,92 1,5
http://www.storagereview.com/Papersda CMU e Google mostram que o AFR ronda os 3-4% e que o MTBF muito mais baixo e similar entre os vrios tipos de drives.
http://www.storagereview.com/ -
Caractersticas
CapacidadeSATA Sem qualquer discusso
ThroughputSATA Porque mais barato
Acessos Concorrenciais IOSAS - 1/3 dos discos necessrios
Menor consumoMais fivel (menos discos, melhor AFR, melhor BER, melhor MTBF)Menos espao ocupadoMenos enclosures/servidores
-
As interfacesSATA Serial ATA
Sucessora do PATARecebeu algumas funcionalidades do SCSI.
Reordenamento de comandos.
Point-to-point SinglePathBaixo custo
SAS Serial AttachedSCSISucessora do SCSIRecebeu funcionalidades de FC
Dual Path
Point-to-point Dual PathCusto intermdio
FC FibrechannelLoop Dual PathCusto elevadoUtilizado equipamentos de storagecentralizadoRobusto e com desempenho elevado.
-
Utilizaes
Discos SAS Quando o IO importaAcessos concorrenciais
Bases de dados OLTP
Caching
Discos SATA Grandes volumes de dadosAcessos sequenciais no concorrenciais
Edio e processamentos de video
Aplicaes cientficas
Arquivo
-
RAID REDUNDANTARRAYOF INEXPENSIVEDISKS
-
RAID 0
Exemplo N=2Escritas 1 IO < stripeunit
0 IO leitura1IO escrita (1-2 discos)N/2 a N escritas em simultneo
Leituras 1 IO < stripe1 IO (1-2 discos)N/2 a N IO em simultneo
AFR_T=N x AFR
-
RAID 1
Duplicaodados
Escritas 1 IO < stripe
0 IO leitura
1 IO escrita (2 discos)
Leituras 1 IO < stripe
1 IO (1 disco)
2 IO em simultneo
AFR_T=AFR*AFR
-
RAID 0+1
DuplicaodadosEscritas 1 IO < stripeunit
0 IO leitura1 IO escrita (1-2 discos)N/4 a N/2 IOssimultneos
Leituras 1 IO < stripeunit1 IO (1-2 discos)N/2 a N IO simultneos
Pode falharno mximo 1 disco. Ou N/2 se forem no mesmo grupo.
Probabilidade elevada de o segundo disco avariado ser do outro grupo.
Reconstruo de N/2 discos
-
RAID 1+0
Duplicao dadosEscritas 1 IO < stripe
0 IO leitura1 IO escrita (1-2 discos)N/4 a N/2 IOssimultneos
Leituras 1 IO < stripe1 IO/disco (1-2 discos)
Pode falhar1 disco. N/2 se forem sempre pares diferentes.
Probabilidade de segundo disco avariado ser do mesmo grupo pequena.
Reconstruo de 1 disco
-
RAID 4
N-1 discos teisEscritas 1 IO < stripe
1 IO leitura (2-3 discos)1 IO escrita (2-3 discos)1 escrita em simultneo
Leituras 1 IO < stripe1 IO leitura (1-2 discos)(N/2-1) a N-1 IOssimultneos
Clculo ParidadeCache de escritaPode falhar no mximo 1 disco
-
RAID 5
N-1 discos teisEscritas 1 IO < stripeunit
1 IO leitura (2-3 discos)1 IO escrita (2-3 discos)N/4 a N/2 escritas em simultneo
Leituras 1 IO < stripeunit1 IO (1-2 discos)N/2 a N IOssimultneos
Clculo ParidadeCache de escrita com bateriaPode falhar no mximo 1 disco
-
RAID 6
N-2 discos teisEscritas 1 IO < stripe
1 IO leitura (3-4 discos)1 IO escrita (3-4 discos)
Leituras 1 IO < stripe1-2 IO (1-2 discos)N/2-2 a N-2 IO simultneos (no caso do RAID 6implementado na figura)
Clculo ParidadeCache de escrita com bateriaPode falhar no mximo 2 discos
-
A controladora RAID
Interfaces com os discosSATA, SAS, FC
ProcessadorPara calculo paridade, algoritmos de cache e virtualizaodo storage.
Memria128MB-512MB (placas PCI)512MB-1024MB (Arrayde discos)1024MB-128GB (StorageCentralizado)
Bateria para a memriaAcelera o tempo de resposta das escritasPermite escrever full stripesem RAID4-6Garantia de consistenciado filesystem.
Raid por SoftwareNunca em RAID4/5/6 sem NVRAM. RAID0/1 ok.
-
TOPOLOGIAS
-
DAS DirectAttachedStorage
Servidor com um arrayligado directamente
Baixo custo
Baixa complexidade
Sem layersintermdios
Performance dedicada
Renascimento com o SAS Disco
Controladora RAID
Driver SCSI/HBA
Filesystem
Aplicao
-
SAN StorageAreaNetwork
Protocolo SCSI sobre FibrechannelStorageCentralizado -> Recursos partilhados.Controladora avanada com grande capacidade de processamento e caching.Flexibilidade de atribuio e gesto de Storage.BlockDevice.StoragePartilhado com software de ClusteringImplementao e gesto complexaDesempenho varivelOneroso
HBAs, SwitchsFibrechannel, fibra optica, software de clustering
Tambm inclui o iSCSI. Mais barato, Permite routing. Tem o overheaddo TCP/IP.
Disco
Controladora RAID especial
SwitchFibrechannel
Driver SCSI/HBA
Filesystem
Aplicao
-
NAS NetworkAttachedStorage
NFS, CIFS, etcStorageCentralizado -> Recursos partilhadosStorage PartilhadoFlexibilidade de atribuio de StorageUtiliza recursos de rede existentes e mais baratosMenor performanceNetApp, EMC, Servidor Linux/Solaris
Disco
Controladora RAID
Filesystem
Servidor NFS
SwitchRede
Placa de rede
StackTCP/IP
Cliente NAS (NFS, CIFS, etc
Aplicao
-
CAS ContentAdressedStorage
Acesso via APIGrande escalabilidadeNo limitado pelas limitaes dos filesystemsSoluo de softwareCusto mais baixoRequer a adaptao das aplicaesGesto da informaoOportunidade para ser criativo no subsistema de discos.EMC Centera, MogilleFS, etcDisco
RAID (hardware/software) e/ou Replicao
FilesystemDistribuido
Servio
SwitchRede
Placa de rede
StackTCP/IP
Cliente/API
Aplicao
-
FILESYSTEMS
-
TradicionaisExt3
FivelJournaling
Configurvel
Problemas de performanceFicheiros grandesMuitos ficheiros
XFSRpido
Tanto com ficheiros grandes como com muitos ficheiros
JournalingMenos robusto que Ext3
Muitas histrias de corrupo de filesystemsem determinadas situaes
Acesso LocalOmnipresentes
Excepto RedHatque s suporta EXT3
-
ZFS, WAFL
Combina RAID com FilesystemNo um simples volume manager+ FS
EscalvelFivel
CRC checking
Problemas de performanceSituaes de utilizao intensiva da metadaRequisitos de Cache no SO muito elevadas
necessrio um especial cuidado quando utilizado com bases de dados
SolarisAcesso Local
-
Cluster Filesystems
RedHatGFS, PolyServe, etcFilesystemPartilhado
Permite partilhar o mesmo filesystempor vrios servidores
Blockdevice.Baseado em SAN.Servidores de Locke Metadata.
Botleneckde performance para muitos acessos randomcom IO de pequenas dimenses
StorageCentralInfra-estrutura onerosa
Requer Drivers
-
ParalellFilesystems
LustreEscalvelGrande performance para acessos sequenciaisServidor de Locke Metadata
BottleneckM performance para acessos aleatrios de IO com tamanho reduzido.Requer capacidade armazenamento para metadatade grande performance e alta disponibilidade.
Storagenodespodem ser servidores normaisSem alta disponibilidade
No efectua replicao ou clculo de paridade dos dados.Requer alta disponibilidade no storage.
Requer drivers.
-
DistributedFilesystems
Mahui GoogleFS, Isilon, HadoopFS, etcServidores de Metadatae Locking
Bottleneckpara muitos acessos aleatrios de pequenas dimensesAlgumas implementaes distribuem a metadata.
Latncia de rede EthernetInfiniband demasiado caro
Replicao de DadosSncrona
Lento
AssncronaPossvel perca de dados
3 X ou maisLocalizao dos dados aleatria. Os dados de um discos podem estar replicados em qualquer disco. Perder um disco implica riscos muito grandes se no houver uma replicao de 3X.Desnecessrio com RAID -> Menos performance.Desnecessrio se houver uma relao directa entre discos.
Reed SolomonSoluo para evitar replicao.Pesado computacionalmente.
-
StorageTiers Acessos Concorrenciais
-
StorageTiers- CachingTier1 - Memria
Dados Quentes.IO praticamente ilimitado.Capacidade armazenamento limitada aos dados quentes.Custo muito elevadoVoltil
Tier2 - Disco Local rpido sem RAIDDados Mornos.IO elevado.Capacidade armazenamento suficiente para os dados mornos.Custo mdio.Escalvel mediantes necessidades de IO.Voltil
Tier3 - Disco ArquivoTotalidade dos dados.IO limitado.Capacidade de armazenamento total.Custo limitado.Escalvel em capacidade de armazenamento.Alta disponibilidade. Seguro.
NFS, Distributed/Paralell
FS, MogileFS
CacheFS, Squid
Memcache, Squid
-
Squid
S funciona para pedidos HTTPE quando possvel cachear os objectos.
Dois Tiersde CacheMemriaDisco local
Servidores individuais ou configurados em conjunto como uma nica cacheUtilizao eficiente do disco local
Poolde discos sem RAIDBalanceamento de IOFilesystemsem preocupaes de fiabilidade
Tunningna utilizao da memriaTempo de vidaTamanho dos ficheirosOportunidade para melhorar e piorar o desempenho
Capacidade de IO facilmente escalvel
-
Google FS e afinsTriplicar
100TB so aproximadamente 120 discos. X3 so 360.AFR ~3% (CMU), em 120 discos temos em mdia 3-4 discos avariados por ano.Informao espalhada por todos os discos
Duplicar no chega porque se avariarem 2 discos ao mesmo tempo (ou algum trocar o disco errado) perdem-se dados.
CustosServidores e discos (mais barato)
Motherboard, 2 discos e 1 fonte: 500 euros
Espao Datacenter(mais caro)4 discos em 1U
Energia (mais caro)Triplicado1 CPU por cada 2 discosDatacenterstradicionais pouco eficientes
Infra-estrutura de rede (mais caro) O googleesfora-se ao mximo para manter datacenterscom o mnimo de custos possvel.
GestoTroubleshootingmais complexoMo-de-obraDatacenterespecializado
-
O SAPO
NAS120TB (2 clusters)
Discos FCDiscos SATA
SANDiscos FCClusters de Bases de dados
DASDiscos locais
SCSI, SAS, SATA (backups)10k, 15k
SEMPRE COM BATERIA NAS CONTROLADORAS RAID3-5% do valor do servidor.
Memria
-
O futuro
Storagesempre foi o patinho feio no que toca ao crescimento da performanceSolidStateDisk
Desempenho brutal em IO de leituraDesempenho banal em escrita random
Escreve sempre em blocos > 512kMLC, SLCEm desenvolvimento activoNovos algoritmosWearleveling
-
CONCLUSES
-
Errrr
Massivebrute force aproach, a la googleCustommadesoftware e hardwareDatacentersmuito eficientes
StorageTiersCachingMobilidade dos dadosFerramenta certa para o trabalho em vista.
Estatsticas de utilizao dos dadosEnvelhecimentos dos dadosDados quentes e frios