le métier d’ops sur le cloud raconté par un amazon aws solution provider

30
Le métier d’Ops sur AWS 22 mai 2012 1 Raphaël Ferreira - CoFounder @ enovance mardi 12 juin 12

Upload: xebia-france

Post on 11-May-2015

1.969 views

Category:

Technology


1 download

DESCRIPTION

Comment le métier d’OPS a changé avec le cloud ? A quoi sert un admin quand toute l’infrastructure, middlewares compris, est en self-service ? Raphael Ferreira, CEO et fondateur de http://eNovance, racontera le quotidien d’un admin au pays de storage-as-a-service, linux-as-a-service, mysql-as-a-service et autres tomcat-as-a-service. La vidéo de la présentation est disponible ici : http://vimeo.com/43883897 Le Xebia Cloud Day 2012 est une conférence gratuite dédiée au Cloud Computing focalisée sur l'écosystème Java. http://blog.xebia.fr/22-mai-2012-cloud-day-chez-xebia/

TRANSCRIPT

Page 1: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

Le métier d’Ops sur AWS

22 mai 20121

Raphaël Ferreira - CoFounder

@ enovance

mardi 12 juin 12

Page 2: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

2

Nouvelle génération de services d’Hébergement & d’Infogérance

Infrastructures Cloud Open SourceOpenStack, Puppet, Stockage Distribué Ceph,

Multi-Cloud Management 24x7x365eNoCloud, AWS Partner, RackspaceCloud Partner, Peer1 Partner

Amélioration de l’expérience utilisateursHaute Performance, Haute Disponibilité, Agrégation de Cloud & CDN, Monitoring Performance

Web, Mobile & Big DataElasticité, Réactivité, Distribution internationale, Performance, Résilience

mardi 12 juin 12

Page 3: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

3

Expertise

mardi 12 juin 12

Page 4: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

4

Paris & Montreal

• Equipes bilingues Anglais - Français• Maintiens en conditions opérationnelles : 24x7x365• Exploitation & Intégration : 09h00 - 01h00• Effectifs : 25 personnes (2/3 techniques)

mardi 12 juin 12

Page 5: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

5

Certifications

Organisation, Process & Méthodologie ITIL V3, ISO 9001-2008, ISO 20000-1

Innovation, Recherche & Développement OSEO Innovation, Jeune Entreprise Innovante,Labellisé Systematic

Environnement ISO 14000

Santé et Sécurité au travail OHSAS 18001

Datacenters ISO 27001, ISO 9001, ISO 14001, OHSAS 18001, PCI-DSS

mardi 12 juin 12

Page 6: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

6

Weekendesk : hébergement et infogérance de la plateforme eCommerce et agrégation de CDN

Kreactive : hébergement d’applications mobiles et facebook à plus de 4000 requêtes simultanées

Streamlike : diffusion des vidéos Louis Vuitton, PSA, Alston... dans le monde entier

Motricity : Datacenter européen du groupe pour la gestion des régies publicitaires et applications mobiles de Nokia, TF1, Canal Plus, Bouygues Telecom....

LeGuide.com : Accélération des performances du premier comparateur de prix en Europe

Total Immersion : Plateforme de réalité augmentée sur AWS à destination de Ray Ban, Repsol, Afflelou...

Références

mardi 12 juin 12

Page 7: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

7

OpenStack in Action 2 Production ReadyParis Eurosite République

eNoCloud : Lancement OfficielFirst OpenStack Public CloudParis Equinix & Telecity 3

Save The Date

Jeudi 31 Mai

mardi 12 juin 12

Page 8: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

8

Le métier d’Ops sur le Cloud

Retour d’expérience sur un apprentissage continu, les difficultés rencontrées et les questions posées

mardi 12 juin 12

Page 9: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

9

Ops 2.0We Design, Build and Run...

OpenStack Starter Pack

OpenStack Private Cloud

On-premise Hébergé OpenStack Public Cloud

AWS Cloud EC2

Rackspace Cloud

Private Clouds Public Clouds

Automatisation - Monitoring - Sauvegardes - Haute Performance & Haute Disponibilité - Sécurité+

mardi 12 juin 12

Page 10: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

10

MotivationsPlateforme

TraditionnellePlateforme

Cloud

Elasticité - +Réactivité - Délais de mise en oeuvre - +

Agilité - +Maîtrise de la performance + -

Disponibilité = =Adaptations - Montée en compétence + -

Investissement initial - +Coût d’exploitation = =

mardi 12 juin 12

Page 11: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

11

Dans les grandes lignes

Aspects Techniques

+ Grande souplesse d’usage : démarrage et arrêt d’instances à volonté+ APIs et Dashboard offrent un contrôle simple de l’infrastructure+ Possibilité d’automatiser le provisioning et la gestion de l’infrastructure grâce à une abstraction forte des différentes ressources+ Ressources quasi-illimitées

- Opacité de l’infrastructure sous jacente- Adapter son besoin à l’infrastructure cloud et pas l’inverse- Impossibilité de sélectionner des composants hardware spécifiques- Impossibilité de mettre en oeuvre une interconnexion réseau spécifique

mardi 12 juin 12

Page 12: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

12

Dans les grandes lignes

Aspects Financiers

+ Pas d’investissement initial

+ Coûts variables s’adaptant à la charge et pouvant donc varier en fonction de l’audience ou des revenus

= Il existe en revanche des coûts incompressibles qui ne changent pas :Redondance des équipementsInfogérance applicative et astreintesOutils de gestion d’infrastructures : monitoring, logs, sauvegardes, ....

- Complexité dans prévision des coûts

- Vigilance accrue pour la maîtrise des coûts

mardi 12 juin 12

Page 13: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

13

Vocabulaire spécifique

Plateforme TraditionnellePlateforme

Cloud

Datacenter, Baie, Rack Région, AZ

Serveur Instance EC2

Stockage VM, Stockage partagé ou mutualisé Stockage éphémère, EBS, S3

Ferme de serveurs frontaux Auto-Scalling Group

Répartiteur de charge ELB

Serveur de base de données RDS

Plateforme de supervision CloudWatch

Alertes et Notifications Simple Notification Service

mardi 12 juin 12

Page 14: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

14

Spécificités et limitations

Des spécificités qui imposent de revoir les process et les habitudes• Gestion des limitations : nombre d’IP, nombre d’instances, nombre de

loadbalancer.... • Adresses IP Privées flottantes• Préchauffage des ELB• ....

Points souvent non bloquants mais apprentissage complexe

mardi 12 juin 12

Page 15: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

15

Le métier d’Ops

Les bases du métier d’Ops• Plomberie : Rack, Cables et Tournevis • Installation, Déploiement, Configuration• Supervision & Monitoring• Sauvegardes• Maintiens en Conditions Opérationnelles• Exploitation courante & Intégration• Sécurité• Base documentaire / Référentiel

Les évolutions • Exploiter les nouveaux outils proposer pour adapter automatique la plateforme à la charge• Modifier l’organisation et les profils de recrutement• Remonter dans les couches : orientation DevOps

mardi 12 juin 12

Page 16: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

16

Plomberie

Plateforme TraditionnellePlateforme

Cloud

Mise en Baie, Câblage, Etiquetage... : 2 heures Start nouvelle instance : 5 mn

Boot PXE AMI - Market Place

Maitrise des caractéristiques hardware Opacité - Unité EC2 - Variabilité dans le temps

Maitrise du réseau d’interconnexion (1Gbps, 10Gbps, IB....)

Latences inter-machines / inter-zones non maitrisées

Connexion de supports Physiques en direct Transfert de données sur Internet / Envoi des données par support physique

Intégration de liens privés dédiés VPC / Direct Connect (limité)

mardi 12 juin 12

Page 17: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

17

Déploiement & Configuration

Administrateur système ou Architecte système ? • Implication en amont sur le design de l’architecture et l’adaptation des pratiques d’ingénierie

logicielle.• Temps d’intégration plus longs pour mettre en place les dispositifs d’automatisations nécessaires

puppet, auto-scalling....

Complexité du processus avant-vente• Design et dimensionnement complexes du fait de la non maîtrise de l’infrastructure• Prévisibilité et anticipation des coûts• PoC et Expérimentation souvent nécessaires pour les projets Legacy

Eviter l’adhérence à l’infrastructure ou en maitriser les risques• Nombreuses fonctionnalités alléchantes : DynamoDB, ELB, RDS, CloudFormation, BeansTalk...• Attention à toujours bien maîtriser le processus de réversibilité ou en tout cas en avoir conscience

mardi 12 juin 12

Page 18: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

18

SupervisionVers un Système Hybride AWS / Supervision Classique

Supervision de l’Infrastructure & Supervision ApplicativeNagios / Centreon ou équivalent (Zabbix...)

Auto-ScallingCloud Watch

Alertes & NotificationsNagios / Centreon ou Simple Notification Service

Pas de changement majeur sur le sujet, l’enjeu est critique :• Conserver une homogénéité des outils entre plateforme Cloud et plateforme

traditionnelle• Maitriser finement les compteurs de supervision (Applicatifs, Bases de données, Scénario

utilisateurs...)• Auto-déclarer les instances dans le monitoring

mardi 12 juin 12

Page 19: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

19

Sauvegardes

Plateforme Traditionnelle

Plateforme Cloud

• Gestion d’une plateforme de sauvegardes sur disques ou sur bandes• Logiciel de backup type Amanda, Bacula, Dataprotector...• Déduplication • Gestion manuelle de l’archivage si bandes• Gestion de l’externalisation des données • Plan de backup sur mesure : Incrémental quotidien, Full hebdomadaire, Rétention 3 semaines

• Outils Amazon‣ Snapshot des EBS : attention Snapshot n’est pas un backup‣ Storage Gateway‣ S3

• Solution Home Made‣ Déploiement d’un logiciel de sauvegarde sur instance EC2‣ Gestion de backups sur mesure sur montage EBS‣ Envoi des archives sur S3

mardi 12 juin 12

Page 20: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

20

MCO dans le Cloud

Remplacer au lieu de Réparer• Utilisation des AZ• Lancement et configuration d’instances automatisée : ‣ Images : AMI, MarketPlace, CloudFormation‣ Gestion de la configuration : Puppet, Chef, CfEngine‣ Versioning et déploiement du code : GIT, SVN, Capistrano

Design for Failure• Plateforme traditionnelle : la HA est confiée à l’infrastructure• Plateforme AWS : la HA est confiée à l’application

Complexité de diagnostic• Détection d’un incident applicatif : similaire à une plateforme traditionnelle si utilisation d’outils

standards• Détection d’un incident infrastructure (réseau, serveur, datacenter) : peut être complexe si l’incident

n’est pas un incident majeur

mardi 12 juin 12

Page 21: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

21

Exploitation courante

Les concepts clés de l’exploitation dans le Cloud :• Infrastructure As A Code : manipulation des ressources physiques via le code• Reproductibilité des actions rend le déploiement des services plus fiable• Centralisation des configurations (Puppet) permet une cohérence dans les

déploiements et une meilleure gestion des évolutions• Rapprochement avec les équipes de développement : DevOps• Automatisation, Automatisation, Automatisation

L’infogérance sur un périmètre mouvant doit s’adapter en proposant un modèle de tarification à l’usage (infogérance par heure et par instance) et auto-déclaratif en fonction de la taille du périmètre

mardi 12 juin 12

Page 22: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

22

Sécurité

Accès aux machines• Les méthodes restent les mêmes qu’en plateforme traditionnelle : SSH avec Clé• Dans notre cas, homogénéisation des plateformes via des paquets Debian maison intégrant nos

certificatsIAM : un sujet à part entière

• Gestion des droits et de l’identité • Double Authentification• Agrégation Facturation

Firewalling• Security Groups : Ouverture et Fermeture de ports en fonction d’IP Sources (pas de NAT)• Possibilité de gérer un service Firewall dans une instance : complexe du fait de la gestion des IP• Impossibilité de disposer d’un équipement dédié

Des manques pouvant poser problème :• Pas de boitier de sécurité dédié• Pas de sonde anti-intrusion• Demande spécifique nécessaire pour réaliser un test d’intrusion• Pas de possibilité de mettre en oeuvre une liaison dédiée (hors gros projet)

mardi 12 juin 12

Page 23: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

23

Réseau

Gestion du réseau : des différences importantes• Réseau à plat - Pas de maîtrise sur les zones de sécurité (Vlan, Subnet...)• IP Publiques flottantes mais possibilité de réserver un nombre d’IP limité• IP Privées flottantes : difficulté pour les services d’administration• VPC permet de gérer un réseau privé mais il devient nécessaire de gérer soit même son routage• Pas de maitrise sur les latences et les performances réseaux

Liens Privés et Sécurisés• Direct Connect offre une possibilité de lien dédié (réservé aux projets importants)• Possibilité de monter des tunnels VPN permanents via EC2 ou VPC pour sécuriser l’administration

Loadbalancer• AWS offre un service clé en main : ELB• ELB offre une grande richesse fonctionnelle : Niveau 7, Terminaisons SSL, APIs....• Avec des limitations : algorithme de répartition de charge, élasticité lors d’un Pic majeur• Il est également possible de gérer un service Zeus ou HA Proxy dans une instance, mais les IPs

flottantes peuvent rendre la gestion complexe

mardi 12 juin 12

Page 24: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

24

Base documentaire

Des questions simples dans le monde du On Demand• Inventaire dynamique des instances actives ?• Connaissance des IPs affectées aux différentes instances ?• Spécifications hard et soft des instances actives (CMDB...) ?• Rédaction et suivi dynamique de la matrice des flux ?

mardi 12 juin 12

Page 25: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

25

PerformanceDes points forts indéniables par rapport à une plateforme traditionnelle...

• Accès à une puissance quasi-illimité en quelques minutes• Elasticité horizontale et verticale pour accompagner les montée en charge • Ressources disponibles sur tous les continents pour une distribution intelligente des traitements et des

contenus

....Associés à des contraintes et limitations à prendre en compte• I/O Disques (notamment sur EBS - Tips : Raid 10 de volumes EBS)• Pas d’engagement sur les performances I/O sauf sur DynamoDB• Pose des problèmes en avant-vente et dimensionnement d’infrastructures• Variations de performance selon l’heure ou le jour

Performance réseau• Entre les régions le trafic passe par internet comme ça peut être le cas entre 2 DC privés• Entre 2 AZ d’une même région les performances sont mieux maitrisées mais induisent encore une

latence à prendre compte (exemple : Web sur AZ1 et SQL sur AZ2)

mardi 12 juin 12

Page 26: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

26

SLA

Engagements de Qualité de Service et Pénalités

• Des engagements de disponibilité annuelle essentiellement (Durabilité S3)• Associés à des pénalités relativement faibles

Il est nécessaire de compléter ce dispositif

• Garantie Temps d’Intervention• Garantie Temps de Rétablissement• Engagements de Performance• Engagements Durée Maximale Perte de Données• Engagements sur le Traitement des Demandes : modification, restauration...

mardi 12 juin 12

Page 27: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

27

Pour aller plus loin

Automatiser , Automatiser, Automatiser :• Agent d’auto-déclaration des instances dans les outils d’administration (monitoring, backup, ticket,

inventaire...)• Packager les outils d’administration pour sa distribution préférée• Utiliser des outils d’abstraction et de pilotage : RightScale, FOG

Plateformes Hybrides • Liaison directe 1 Gbps entre DC eNovance et plateforme AWS• Le meilleur des 2 mondes :

- Liens dédiés possibles avec le DC du client- Serveur Backoffice privés- Hardware sur-mesure I/O intensif- Elasticité et capacité de calcul illimité

mardi 12 juin 12

Page 28: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

28

Use Case Type

FrontauxVarnish / Nginx

Serveurs d’application Peu de sollicitation disques

Base NoSQL (MongoDB...)Elastictité horizontale recherchée

Puppet MasterSVN(Capistrano)

Nagios CentronCacti / Munin

ELB

Machines reproductibles / JetablesSollicitation Ram & CPUPeu de sollicitation disques - Commit Asynchrones

AZ1AZ2

mardi 12 juin 12

Page 29: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

29

En synthèse

L’administration système nécessite la même organisationInfogérance applicative, Astreinte, Supervision, Sauvegardes....

Mais doit évoluer pour profiter pleinement des promesses du CloudGestion automatisée de la configuration, Auto-Scalling, Compétence développement, Pricing élastique....

Tout en garantissant la réversibilité et l’homogénéité des outils en environnement hybrideLimiter l’adhérence et utiliser des outils standards

mardi 12 juin 12

Page 30: Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

Raphaël FerreiraT./ +33 1 49 70 99 72M./ [email protected]

http://www.enovance.comhttp://twitter.com/enovance

30

Q & R

mardi 12 juin 12