storage presentation

Download Storage Presentation

If you can't read please download the document

Upload: leonardo-silveira

Post on 17-Sep-2015

214 views

Category:

Documents


2 download

DESCRIPTION

Presentation

TRANSCRIPT

  • Storage

  • O DISCO

  • Desempenho de um disco IO Acessos Concorrenciais

    Velocidade de actuao das cabeasNumero cabeasMotores

    Preciso do posicionamentoLgica de ControloTamanho da cabeaDistncia ao pratoLargura das pistasQualidade de construo

    Velocidade de Rotao5,4k, 7,2k, 10k, 15k

    Lgica de reordenamento de comandosTempo Transferncia

    PATA, SCSI, SATA, SAS, FC

    Cache

  • Desempenho de um disco -Throughput

    InterfaceSATA, SAS, PATA, SCSI, FC

    Velocidade de Rotao15k, 10k, 7.2k, 5.4k

    Densidade do prato

    Quase no h diferenasA interface tem pouca influencia

    A perca de velocidade de rotao compensada pelo aumento de densidade do prato.

  • CaractersticasTam. T Capacidade V.R. Euros HP dolars ms r/w ms MB/s min MTBF AFR % BER nonrecoverable after TB power operating

    2,5' e 72-146GB 15k 231 579 2 122 0,55 1/10^16 1136,87 "6-7"

    2,5' e 72-300GB 10k 183 319 3 129 0,55 1/10^16 1136,9 6,15-6,3

    3,5' e 146-450GB 15k 183 359 2 110 1,6M 0,55 1/10^16 1136,87 15-17

    3,5' e 300-600GB 10k 173 3 150 1,6M 0,55 1/10^16 1136,9 10,07-9,3

    3,5' e 250-1000GB 7,2k 73 549 4,16 8,5/9,5 116 1,2M 0,73 1/10^15 113,69 12,5

    3,5' d 160-1500GB 7,2k 40 4,16 8,5/10 0,75M 0,34 1/10^14 11,369

    2,5' p 160-500GB 7,2k 67 4,17 0,5M 0,48 1/10^14 11,369 1,5

    2,5' p 120-500GB 5,2k 62 109 5,6 0,5M 0,48 1/10^14 11,369 2,85

    io teorico io read ms io teorico med

    500 5,4 185,1851852

    333,3333 7,3 136,9863014

    500 5,5 181,8181818

    333,3333 7,1 140,8450704

    240,3846 12,2 81,96721311

    240,3846 12,9 77,51937984

    239,8082 14,2 70,42253521

    178,5714 15,9 62,89308176

    min MB/s io med 1qd diff % io med 128qd diff % IO/

    80 180 -64 411 -17,8 1,779221

    83 131 -60,7 296 -11,2 1,617486

    42 166 -66,8 416 -16,8 2,273224

    63 129 -61,3 262 -21,4 1,514451

    53 79 -67,136 158 -34,272 2,164384

    40 80 -66,72 158 -34,272 3,95

    33 69 -71,227 113 -52,879 1,686567

    24 62 -65,28 93 -47,92 1,5

    http://www.storagereview.com/Papersda CMU e Google mostram que o AFR ronda os 3-4% e que o MTBF muito mais baixo e similar entre os vrios tipos de drives.

    http://www.storagereview.com/
  • Caractersticas

    CapacidadeSATA Sem qualquer discusso

    ThroughputSATA Porque mais barato

    Acessos Concorrenciais IOSAS - 1/3 dos discos necessrios

    Menor consumoMais fivel (menos discos, melhor AFR, melhor BER, melhor MTBF)Menos espao ocupadoMenos enclosures/servidores

  • As interfacesSATA Serial ATA

    Sucessora do PATARecebeu algumas funcionalidades do SCSI.

    Reordenamento de comandos.

    Point-to-point SinglePathBaixo custo

    SAS Serial AttachedSCSISucessora do SCSIRecebeu funcionalidades de FC

    Dual Path

    Point-to-point Dual PathCusto intermdio

    FC FibrechannelLoop Dual PathCusto elevadoUtilizado equipamentos de storagecentralizadoRobusto e com desempenho elevado.

  • Utilizaes

    Discos SAS Quando o IO importaAcessos concorrenciais

    Bases de dados OLTP

    Caching

    Discos SATA Grandes volumes de dadosAcessos sequenciais no concorrenciais

    Edio e processamentos de video

    Aplicaes cientficas

    Arquivo

  • RAID REDUNDANTARRAYOF INEXPENSIVEDISKS

  • RAID 0

    Exemplo N=2Escritas 1 IO < stripeunit

    0 IO leitura1IO escrita (1-2 discos)N/2 a N escritas em simultneo

    Leituras 1 IO < stripe1 IO (1-2 discos)N/2 a N IO em simultneo

    AFR_T=N x AFR

  • RAID 1

    Duplicaodados

    Escritas 1 IO < stripe

    0 IO leitura

    1 IO escrita (2 discos)

    Leituras 1 IO < stripe

    1 IO (1 disco)

    2 IO em simultneo

    AFR_T=AFR*AFR

  • RAID 0+1

    DuplicaodadosEscritas 1 IO < stripeunit

    0 IO leitura1 IO escrita (1-2 discos)N/4 a N/2 IOssimultneos

    Leituras 1 IO < stripeunit1 IO (1-2 discos)N/2 a N IO simultneos

    Pode falharno mximo 1 disco. Ou N/2 se forem no mesmo grupo.

    Probabilidade elevada de o segundo disco avariado ser do outro grupo.

    Reconstruo de N/2 discos

  • RAID 1+0

    Duplicao dadosEscritas 1 IO < stripe

    0 IO leitura1 IO escrita (1-2 discos)N/4 a N/2 IOssimultneos

    Leituras 1 IO < stripe1 IO/disco (1-2 discos)

    Pode falhar1 disco. N/2 se forem sempre pares diferentes.

    Probabilidade de segundo disco avariado ser do mesmo grupo pequena.

    Reconstruo de 1 disco

  • RAID 4

    N-1 discos teisEscritas 1 IO < stripe

    1 IO leitura (2-3 discos)1 IO escrita (2-3 discos)1 escrita em simultneo

    Leituras 1 IO < stripe1 IO leitura (1-2 discos)(N/2-1) a N-1 IOssimultneos

    Clculo ParidadeCache de escritaPode falhar no mximo 1 disco

  • RAID 5

    N-1 discos teisEscritas 1 IO < stripeunit

    1 IO leitura (2-3 discos)1 IO escrita (2-3 discos)N/4 a N/2 escritas em simultneo

    Leituras 1 IO < stripeunit1 IO (1-2 discos)N/2 a N IOssimultneos

    Clculo ParidadeCache de escrita com bateriaPode falhar no mximo 1 disco

  • RAID 6

    N-2 discos teisEscritas 1 IO < stripe

    1 IO leitura (3-4 discos)1 IO escrita (3-4 discos)

    Leituras 1 IO < stripe1-2 IO (1-2 discos)N/2-2 a N-2 IO simultneos (no caso do RAID 6implementado na figura)

    Clculo ParidadeCache de escrita com bateriaPode falhar no mximo 2 discos

  • A controladora RAID

    Interfaces com os discosSATA, SAS, FC

    ProcessadorPara calculo paridade, algoritmos de cache e virtualizaodo storage.

    Memria128MB-512MB (placas PCI)512MB-1024MB (Arrayde discos)1024MB-128GB (StorageCentralizado)

    Bateria para a memriaAcelera o tempo de resposta das escritasPermite escrever full stripesem RAID4-6Garantia de consistenciado filesystem.

    Raid por SoftwareNunca em RAID4/5/6 sem NVRAM. RAID0/1 ok.

  • TOPOLOGIAS

  • DAS DirectAttachedStorage

    Servidor com um arrayligado directamente

    Baixo custo

    Baixa complexidade

    Sem layersintermdios

    Performance dedicada

    Renascimento com o SAS Disco

    Controladora RAID

    Driver SCSI/HBA

    Filesystem

    Aplicao

  • SAN StorageAreaNetwork

    Protocolo SCSI sobre FibrechannelStorageCentralizado -> Recursos partilhados.Controladora avanada com grande capacidade de processamento e caching.Flexibilidade de atribuio e gesto de Storage.BlockDevice.StoragePartilhado com software de ClusteringImplementao e gesto complexaDesempenho varivelOneroso

    HBAs, SwitchsFibrechannel, fibra optica, software de clustering

    Tambm inclui o iSCSI. Mais barato, Permite routing. Tem o overheaddo TCP/IP.

    Disco

    Controladora RAID especial

    SwitchFibrechannel

    Driver SCSI/HBA

    Filesystem

    Aplicao

  • NAS NetworkAttachedStorage

    NFS, CIFS, etcStorageCentralizado -> Recursos partilhadosStorage PartilhadoFlexibilidade de atribuio de StorageUtiliza recursos de rede existentes e mais baratosMenor performanceNetApp, EMC, Servidor Linux/Solaris

    Disco

    Controladora RAID

    Filesystem

    Servidor NFS

    SwitchRede

    Placa de rede

    StackTCP/IP

    Cliente NAS (NFS, CIFS, etc

    Aplicao

  • CAS ContentAdressedStorage

    Acesso via APIGrande escalabilidadeNo limitado pelas limitaes dos filesystemsSoluo de softwareCusto mais baixoRequer a adaptao das aplicaesGesto da informaoOportunidade para ser criativo no subsistema de discos.EMC Centera, MogilleFS, etcDisco

    RAID (hardware/software) e/ou Replicao

    FilesystemDistribuido

    Servio

    SwitchRede

    Placa de rede

    StackTCP/IP

    Cliente/API

    Aplicao

  • FILESYSTEMS

  • TradicionaisExt3

    FivelJournaling

    Configurvel

    Problemas de performanceFicheiros grandesMuitos ficheiros

    XFSRpido

    Tanto com ficheiros grandes como com muitos ficheiros

    JournalingMenos robusto que Ext3

    Muitas histrias de corrupo de filesystemsem determinadas situaes

    Acesso LocalOmnipresentes

    Excepto RedHatque s suporta EXT3

  • ZFS, WAFL

    Combina RAID com FilesystemNo um simples volume manager+ FS

    EscalvelFivel

    CRC checking

    Problemas de performanceSituaes de utilizao intensiva da metadaRequisitos de Cache no SO muito elevadas

    necessrio um especial cuidado quando utilizado com bases de dados

    SolarisAcesso Local

  • Cluster Filesystems

    RedHatGFS, PolyServe, etcFilesystemPartilhado

    Permite partilhar o mesmo filesystempor vrios servidores

    Blockdevice.Baseado em SAN.Servidores de Locke Metadata.

    Botleneckde performance para muitos acessos randomcom IO de pequenas dimenses

    StorageCentralInfra-estrutura onerosa

    Requer Drivers

  • ParalellFilesystems

    LustreEscalvelGrande performance para acessos sequenciaisServidor de Locke Metadata

    BottleneckM performance para acessos aleatrios de IO com tamanho reduzido.Requer capacidade armazenamento para metadatade grande performance e alta disponibilidade.

    Storagenodespodem ser servidores normaisSem alta disponibilidade

    No efectua replicao ou clculo de paridade dos dados.Requer alta disponibilidade no storage.

    Requer drivers.

  • DistributedFilesystems

    Mahui GoogleFS, Isilon, HadoopFS, etcServidores de Metadatae Locking

    Bottleneckpara muitos acessos aleatrios de pequenas dimensesAlgumas implementaes distribuem a metadata.

    Latncia de rede EthernetInfiniband demasiado caro

    Replicao de DadosSncrona

    Lento

    AssncronaPossvel perca de dados

    3 X ou maisLocalizao dos dados aleatria. Os dados de um discos podem estar replicados em qualquer disco. Perder um disco implica riscos muito grandes se no houver uma replicao de 3X.Desnecessrio com RAID -> Menos performance.Desnecessrio se houver uma relao directa entre discos.

    Reed SolomonSoluo para evitar replicao.Pesado computacionalmente.

  • StorageTiers Acessos Concorrenciais

  • StorageTiers- CachingTier1 - Memria

    Dados Quentes.IO praticamente ilimitado.Capacidade armazenamento limitada aos dados quentes.Custo muito elevadoVoltil

    Tier2 - Disco Local rpido sem RAIDDados Mornos.IO elevado.Capacidade armazenamento suficiente para os dados mornos.Custo mdio.Escalvel mediantes necessidades de IO.Voltil

    Tier3 - Disco ArquivoTotalidade dos dados.IO limitado.Capacidade de armazenamento total.Custo limitado.Escalvel em capacidade de armazenamento.Alta disponibilidade. Seguro.

    NFS, Distributed/Paralell

    FS, MogileFS

    CacheFS, Squid

    Memcache, Squid

  • Squid

    S funciona para pedidos HTTPE quando possvel cachear os objectos.

    Dois Tiersde CacheMemriaDisco local

    Servidores individuais ou configurados em conjunto como uma nica cacheUtilizao eficiente do disco local

    Poolde discos sem RAIDBalanceamento de IOFilesystemsem preocupaes de fiabilidade

    Tunningna utilizao da memriaTempo de vidaTamanho dos ficheirosOportunidade para melhorar e piorar o desempenho

    Capacidade de IO facilmente escalvel

  • Google FS e afinsTriplicar

    100TB so aproximadamente 120 discos. X3 so 360.AFR ~3% (CMU), em 120 discos temos em mdia 3-4 discos avariados por ano.Informao espalhada por todos os discos

    Duplicar no chega porque se avariarem 2 discos ao mesmo tempo (ou algum trocar o disco errado) perdem-se dados.

    CustosServidores e discos (mais barato)

    Motherboard, 2 discos e 1 fonte: 500 euros

    Espao Datacenter(mais caro)4 discos em 1U

    Energia (mais caro)Triplicado1 CPU por cada 2 discosDatacenterstradicionais pouco eficientes

    Infra-estrutura de rede (mais caro) O googleesfora-se ao mximo para manter datacenterscom o mnimo de custos possvel.

    GestoTroubleshootingmais complexoMo-de-obraDatacenterespecializado

  • O SAPO

    NAS120TB (2 clusters)

    Discos FCDiscos SATA

    SANDiscos FCClusters de Bases de dados

    DASDiscos locais

    SCSI, SAS, SATA (backups)10k, 15k

    SEMPRE COM BATERIA NAS CONTROLADORAS RAID3-5% do valor do servidor.

    Memria

  • O futuro

    Storagesempre foi o patinho feio no que toca ao crescimento da performanceSolidStateDisk

    Desempenho brutal em IO de leituraDesempenho banal em escrita random

    Escreve sempre em blocos > 512kMLC, SLCEm desenvolvimento activoNovos algoritmosWearleveling

  • CONCLUSES

  • Errrr

    Massivebrute force aproach, a la googleCustommadesoftware e hardwareDatacentersmuito eficientes

    StorageTiersCachingMobilidade dos dadosFerramenta certa para o trabalho em vista.

    Estatsticas de utilizao dos dadosEnvelhecimentos dos dadosDados quentes e frios