le métier d’ops sur le cloud raconté par un amazon aws solution provider
DESCRIPTION
Comment le métier d’OPS a changé avec le cloud ? A quoi sert un admin quand toute l’infrastructure, middlewares compris, est en self-service ? Raphael Ferreira, CEO et fondateur de http://eNovance, racontera le quotidien d’un admin au pays de storage-as-a-service, linux-as-a-service, mysql-as-a-service et autres tomcat-as-a-service. La vidéo de la présentation est disponible ici : http://vimeo.com/43883897 Le Xebia Cloud Day 2012 est une conférence gratuite dédiée au Cloud Computing focalisée sur l'écosystème Java. http://blog.xebia.fr/22-mai-2012-cloud-day-chez-xebia/TRANSCRIPT
Le métier d’Ops sur AWS
22 mai 20121
Raphaël Ferreira - CoFounder
@ enovance
mardi 12 juin 12
2
Nouvelle génération de services d’Hébergement & d’Infogérance
Infrastructures Cloud Open SourceOpenStack, Puppet, Stockage Distribué Ceph,
Multi-Cloud Management 24x7x365eNoCloud, AWS Partner, RackspaceCloud Partner, Peer1 Partner
Amélioration de l’expérience utilisateursHaute Performance, Haute Disponibilité, Agrégation de Cloud & CDN, Monitoring Performance
Web, Mobile & Big DataElasticité, Réactivité, Distribution internationale, Performance, Résilience
mardi 12 juin 12
3
Expertise
mardi 12 juin 12
4
Paris & Montreal
• Equipes bilingues Anglais - Français• Maintiens en conditions opérationnelles : 24x7x365• Exploitation & Intégration : 09h00 - 01h00• Effectifs : 25 personnes (2/3 techniques)
mardi 12 juin 12
5
Certifications
Organisation, Process & Méthodologie ITIL V3, ISO 9001-2008, ISO 20000-1
Innovation, Recherche & Développement OSEO Innovation, Jeune Entreprise Innovante,Labellisé Systematic
Environnement ISO 14000
Santé et Sécurité au travail OHSAS 18001
Datacenters ISO 27001, ISO 9001, ISO 14001, OHSAS 18001, PCI-DSS
mardi 12 juin 12
6
Weekendesk : hébergement et infogérance de la plateforme eCommerce et agrégation de CDN
Kreactive : hébergement d’applications mobiles et facebook à plus de 4000 requêtes simultanées
Streamlike : diffusion des vidéos Louis Vuitton, PSA, Alston... dans le monde entier
Motricity : Datacenter européen du groupe pour la gestion des régies publicitaires et applications mobiles de Nokia, TF1, Canal Plus, Bouygues Telecom....
LeGuide.com : Accélération des performances du premier comparateur de prix en Europe
Total Immersion : Plateforme de réalité augmentée sur AWS à destination de Ray Ban, Repsol, Afflelou...
Références
mardi 12 juin 12
7
OpenStack in Action 2 Production ReadyParis Eurosite République
eNoCloud : Lancement OfficielFirst OpenStack Public CloudParis Equinix & Telecity 3
Save The Date
Jeudi 31 Mai
mardi 12 juin 12
8
Le métier d’Ops sur le Cloud
Retour d’expérience sur un apprentissage continu, les difficultés rencontrées et les questions posées
mardi 12 juin 12
9
Ops 2.0We Design, Build and Run...
OpenStack Starter Pack
OpenStack Private Cloud
On-premise Hébergé OpenStack Public Cloud
AWS Cloud EC2
Rackspace Cloud
Private Clouds Public Clouds
Automatisation - Monitoring - Sauvegardes - Haute Performance & Haute Disponibilité - Sécurité+
mardi 12 juin 12
10
MotivationsPlateforme
TraditionnellePlateforme
Cloud
Elasticité - +Réactivité - Délais de mise en oeuvre - +
Agilité - +Maîtrise de la performance + -
Disponibilité = =Adaptations - Montée en compétence + -
Investissement initial - +Coût d’exploitation = =
mardi 12 juin 12
11
Dans les grandes lignes
Aspects Techniques
+ Grande souplesse d’usage : démarrage et arrêt d’instances à volonté+ APIs et Dashboard offrent un contrôle simple de l’infrastructure+ Possibilité d’automatiser le provisioning et la gestion de l’infrastructure grâce à une abstraction forte des différentes ressources+ Ressources quasi-illimitées
- Opacité de l’infrastructure sous jacente- Adapter son besoin à l’infrastructure cloud et pas l’inverse- Impossibilité de sélectionner des composants hardware spécifiques- Impossibilité de mettre en oeuvre une interconnexion réseau spécifique
mardi 12 juin 12
12
Dans les grandes lignes
Aspects Financiers
+ Pas d’investissement initial
+ Coûts variables s’adaptant à la charge et pouvant donc varier en fonction de l’audience ou des revenus
= Il existe en revanche des coûts incompressibles qui ne changent pas :Redondance des équipementsInfogérance applicative et astreintesOutils de gestion d’infrastructures : monitoring, logs, sauvegardes, ....
- Complexité dans prévision des coûts
- Vigilance accrue pour la maîtrise des coûts
mardi 12 juin 12
13
Vocabulaire spécifique
Plateforme TraditionnellePlateforme
Cloud
Datacenter, Baie, Rack Région, AZ
Serveur Instance EC2
Stockage VM, Stockage partagé ou mutualisé Stockage éphémère, EBS, S3
Ferme de serveurs frontaux Auto-Scalling Group
Répartiteur de charge ELB
Serveur de base de données RDS
Plateforme de supervision CloudWatch
Alertes et Notifications Simple Notification Service
mardi 12 juin 12
14
Spécificités et limitations
Des spécificités qui imposent de revoir les process et les habitudes• Gestion des limitations : nombre d’IP, nombre d’instances, nombre de
loadbalancer.... • Adresses IP Privées flottantes• Préchauffage des ELB• ....
Points souvent non bloquants mais apprentissage complexe
mardi 12 juin 12
15
Le métier d’Ops
Les bases du métier d’Ops• Plomberie : Rack, Cables et Tournevis • Installation, Déploiement, Configuration• Supervision & Monitoring• Sauvegardes• Maintiens en Conditions Opérationnelles• Exploitation courante & Intégration• Sécurité• Base documentaire / Référentiel
Les évolutions • Exploiter les nouveaux outils proposer pour adapter automatique la plateforme à la charge• Modifier l’organisation et les profils de recrutement• Remonter dans les couches : orientation DevOps
mardi 12 juin 12
16
Plomberie
Plateforme TraditionnellePlateforme
Cloud
Mise en Baie, Câblage, Etiquetage... : 2 heures Start nouvelle instance : 5 mn
Boot PXE AMI - Market Place
Maitrise des caractéristiques hardware Opacité - Unité EC2 - Variabilité dans le temps
Maitrise du réseau d’interconnexion (1Gbps, 10Gbps, IB....)
Latences inter-machines / inter-zones non maitrisées
Connexion de supports Physiques en direct Transfert de données sur Internet / Envoi des données par support physique
Intégration de liens privés dédiés VPC / Direct Connect (limité)
mardi 12 juin 12
17
Déploiement & Configuration
Administrateur système ou Architecte système ? • Implication en amont sur le design de l’architecture et l’adaptation des pratiques d’ingénierie
logicielle.• Temps d’intégration plus longs pour mettre en place les dispositifs d’automatisations nécessaires
puppet, auto-scalling....
Complexité du processus avant-vente• Design et dimensionnement complexes du fait de la non maîtrise de l’infrastructure• Prévisibilité et anticipation des coûts• PoC et Expérimentation souvent nécessaires pour les projets Legacy
Eviter l’adhérence à l’infrastructure ou en maitriser les risques• Nombreuses fonctionnalités alléchantes : DynamoDB, ELB, RDS, CloudFormation, BeansTalk...• Attention à toujours bien maîtriser le processus de réversibilité ou en tout cas en avoir conscience
mardi 12 juin 12
18
SupervisionVers un Système Hybride AWS / Supervision Classique
Supervision de l’Infrastructure & Supervision ApplicativeNagios / Centreon ou équivalent (Zabbix...)
Auto-ScallingCloud Watch
Alertes & NotificationsNagios / Centreon ou Simple Notification Service
Pas de changement majeur sur le sujet, l’enjeu est critique :• Conserver une homogénéité des outils entre plateforme Cloud et plateforme
traditionnelle• Maitriser finement les compteurs de supervision (Applicatifs, Bases de données, Scénario
utilisateurs...)• Auto-déclarer les instances dans le monitoring
mardi 12 juin 12
19
Sauvegardes
Plateforme Traditionnelle
Plateforme Cloud
• Gestion d’une plateforme de sauvegardes sur disques ou sur bandes• Logiciel de backup type Amanda, Bacula, Dataprotector...• Déduplication • Gestion manuelle de l’archivage si bandes• Gestion de l’externalisation des données • Plan de backup sur mesure : Incrémental quotidien, Full hebdomadaire, Rétention 3 semaines
• Outils Amazon‣ Snapshot des EBS : attention Snapshot n’est pas un backup‣ Storage Gateway‣ S3
• Solution Home Made‣ Déploiement d’un logiciel de sauvegarde sur instance EC2‣ Gestion de backups sur mesure sur montage EBS‣ Envoi des archives sur S3
mardi 12 juin 12
20
MCO dans le Cloud
Remplacer au lieu de Réparer• Utilisation des AZ• Lancement et configuration d’instances automatisée : ‣ Images : AMI, MarketPlace, CloudFormation‣ Gestion de la configuration : Puppet, Chef, CfEngine‣ Versioning et déploiement du code : GIT, SVN, Capistrano
Design for Failure• Plateforme traditionnelle : la HA est confiée à l’infrastructure• Plateforme AWS : la HA est confiée à l’application
Complexité de diagnostic• Détection d’un incident applicatif : similaire à une plateforme traditionnelle si utilisation d’outils
standards• Détection d’un incident infrastructure (réseau, serveur, datacenter) : peut être complexe si l’incident
n’est pas un incident majeur
mardi 12 juin 12
21
Exploitation courante
Les concepts clés de l’exploitation dans le Cloud :• Infrastructure As A Code : manipulation des ressources physiques via le code• Reproductibilité des actions rend le déploiement des services plus fiable• Centralisation des configurations (Puppet) permet une cohérence dans les
déploiements et une meilleure gestion des évolutions• Rapprochement avec les équipes de développement : DevOps• Automatisation, Automatisation, Automatisation
L’infogérance sur un périmètre mouvant doit s’adapter en proposant un modèle de tarification à l’usage (infogérance par heure et par instance) et auto-déclaratif en fonction de la taille du périmètre
mardi 12 juin 12
22
Sécurité
Accès aux machines• Les méthodes restent les mêmes qu’en plateforme traditionnelle : SSH avec Clé• Dans notre cas, homogénéisation des plateformes via des paquets Debian maison intégrant nos
certificatsIAM : un sujet à part entière
• Gestion des droits et de l’identité • Double Authentification• Agrégation Facturation
Firewalling• Security Groups : Ouverture et Fermeture de ports en fonction d’IP Sources (pas de NAT)• Possibilité de gérer un service Firewall dans une instance : complexe du fait de la gestion des IP• Impossibilité de disposer d’un équipement dédié
Des manques pouvant poser problème :• Pas de boitier de sécurité dédié• Pas de sonde anti-intrusion• Demande spécifique nécessaire pour réaliser un test d’intrusion• Pas de possibilité de mettre en oeuvre une liaison dédiée (hors gros projet)
mardi 12 juin 12
23
Réseau
Gestion du réseau : des différences importantes• Réseau à plat - Pas de maîtrise sur les zones de sécurité (Vlan, Subnet...)• IP Publiques flottantes mais possibilité de réserver un nombre d’IP limité• IP Privées flottantes : difficulté pour les services d’administration• VPC permet de gérer un réseau privé mais il devient nécessaire de gérer soit même son routage• Pas de maitrise sur les latences et les performances réseaux
Liens Privés et Sécurisés• Direct Connect offre une possibilité de lien dédié (réservé aux projets importants)• Possibilité de monter des tunnels VPN permanents via EC2 ou VPC pour sécuriser l’administration
Loadbalancer• AWS offre un service clé en main : ELB• ELB offre une grande richesse fonctionnelle : Niveau 7, Terminaisons SSL, APIs....• Avec des limitations : algorithme de répartition de charge, élasticité lors d’un Pic majeur• Il est également possible de gérer un service Zeus ou HA Proxy dans une instance, mais les IPs
flottantes peuvent rendre la gestion complexe
mardi 12 juin 12
24
Base documentaire
Des questions simples dans le monde du On Demand• Inventaire dynamique des instances actives ?• Connaissance des IPs affectées aux différentes instances ?• Spécifications hard et soft des instances actives (CMDB...) ?• Rédaction et suivi dynamique de la matrice des flux ?
mardi 12 juin 12
25
PerformanceDes points forts indéniables par rapport à une plateforme traditionnelle...
• Accès à une puissance quasi-illimité en quelques minutes• Elasticité horizontale et verticale pour accompagner les montée en charge • Ressources disponibles sur tous les continents pour une distribution intelligente des traitements et des
contenus
....Associés à des contraintes et limitations à prendre en compte• I/O Disques (notamment sur EBS - Tips : Raid 10 de volumes EBS)• Pas d’engagement sur les performances I/O sauf sur DynamoDB• Pose des problèmes en avant-vente et dimensionnement d’infrastructures• Variations de performance selon l’heure ou le jour
Performance réseau• Entre les régions le trafic passe par internet comme ça peut être le cas entre 2 DC privés• Entre 2 AZ d’une même région les performances sont mieux maitrisées mais induisent encore une
latence à prendre compte (exemple : Web sur AZ1 et SQL sur AZ2)
mardi 12 juin 12
26
SLA
Engagements de Qualité de Service et Pénalités
• Des engagements de disponibilité annuelle essentiellement (Durabilité S3)• Associés à des pénalités relativement faibles
Il est nécessaire de compléter ce dispositif
• Garantie Temps d’Intervention• Garantie Temps de Rétablissement• Engagements de Performance• Engagements Durée Maximale Perte de Données• Engagements sur le Traitement des Demandes : modification, restauration...
mardi 12 juin 12
27
Pour aller plus loin
Automatiser , Automatiser, Automatiser :• Agent d’auto-déclaration des instances dans les outils d’administration (monitoring, backup, ticket,
inventaire...)• Packager les outils d’administration pour sa distribution préférée• Utiliser des outils d’abstraction et de pilotage : RightScale, FOG
Plateformes Hybrides • Liaison directe 1 Gbps entre DC eNovance et plateforme AWS• Le meilleur des 2 mondes :
- Liens dédiés possibles avec le DC du client- Serveur Backoffice privés- Hardware sur-mesure I/O intensif- Elasticité et capacité de calcul illimité
mardi 12 juin 12
28
Use Case Type
FrontauxVarnish / Nginx
Serveurs d’application Peu de sollicitation disques
Base NoSQL (MongoDB...)Elastictité horizontale recherchée
Puppet MasterSVN(Capistrano)
Nagios CentronCacti / Munin
ELB
Machines reproductibles / JetablesSollicitation Ram & CPUPeu de sollicitation disques - Commit Asynchrones
AZ1AZ2
mardi 12 juin 12
29
En synthèse
L’administration système nécessite la même organisationInfogérance applicative, Astreinte, Supervision, Sauvegardes....
Mais doit évoluer pour profiter pleinement des promesses du CloudGestion automatisée de la configuration, Auto-Scalling, Compétence développement, Pricing élastique....
Tout en garantissant la réversibilité et l’homogénéité des outils en environnement hybrideLimiter l’adhérence et utiliser des outils standards
mardi 12 juin 12
Raphaël FerreiraT./ +33 1 49 70 99 72M./ [email protected]
http://www.enovance.comhttp://twitter.com/enovance
30
Q & R
mardi 12 juin 12