Download - HNSciCloude estensione del, Tier21
HNSciCloud e estensione del Tier-‐1Luca dell’Agnello
CCR, 16 Settembre 2015
Evoluzione computing HEP• Sostanziale incremento delle risorsenecessariedopo il Run2 di LHC
• Difficilmente sostenibile con risorse in-‐house• Nuove tecnologie (es. GPU, processori low power)?• Nuovo paradigma? “Nostri” Data Center specializzati sui dati
• Capacita’ di calcolo acquisita (anche) con estensione elastica su Cloud (anchecommerciale)
• Costruzionedi una e-‐infrastructure europea• Open Science Cloud
0
50
100
150
200
Run 1 Run 2 Run 3 Run 4
GRIDATLASCMS
0,0
100,0
200,0
300,0
400,0
500,0
Run 1 Run 2 Run 3 Run 4
CMS
ATLAS
ALICE
LHCb
Previsione necessita’ CPU per online e offline
Stime volumi dati raw16/09/2015 Luca dell'Agnello 2
HNSciCloud (1)• Proposta per “Pre-‐Commercial Procurement” nella call ICT 8a di H2020 per servizi cloud innovativi di tipo IaaS approvataa fine Agosto • Pre-‐Commercial Procurement per servizi cloud innovativi di tipo IaaS
• Cofinanziamento EU (~2/3 del totale)• Copre il 5% delle necessita’ di calcolo
• 11 partner: • 9 “acquirenti” (CERN, CNRS, DESY, EMBL, IFAE, INFN, KIT, STFC, SURFSARA)• 2 “experts” (EGI.eu, TRUST -‐ IT)
• Contributo EU: 4,716,374.79 €• Effort totale: 78.8 PM
• INFN: 3.5 PM finanziati + 3 PM unfunded• Durata del progetto: 30 mesi (inizio 1/1/2016)• Se funzionante previsto un progetto EU molto più grande entro 2 anni
16/09/2015 Luca dell'Agnello 3
HNSciCloud (2)• Basato su HelixNebula
• “Helix Nebula was formed in 2011 by leading research organisations in collaboration with Europe’s commercial cloud suppliers to develop such a platform.” (i.e. European Open Science Cloud)
• Comprendevari partner pubblici e privati
• Non l’INFNal momento• “HNSciCloud should and will become a cornerstone of what the e-‐Infrastructure Reflection Group (e-‐IRG) in its 2012 Roadmap paper10 refers to as the single e-‐Infrastructure Commons.”
Strategic)Plan
! Establish)multi,tenant,)multi,provider)cloud)infrastructure
! Identify)and)adopt)policies)for)trust,)security)and)privacy
! Create)governance)structure
! Define)funding)schemes
To)support)the)computing)capacity)needs)for)the)LHC)
experiments
Setting)up)a)new)service)to)simplify)analysis)of)large)genomes,)for)a)
deeper)insight)into)evolution)and)biodiversity
To)create)an)Earth)Observation)platform,)
focusing)on)earthquake)and)volcano)research
To)improve)the)speed)and)quality)of)
research)for)finding)surrogate)biomarkers)
based)on)brain)images
Adopters
Suppliers
Additional)Users:
16/09/2015 Luca dell'Agnello 4
HNSciCloud (3)• Modello di Cloud ibrida
• Servizi cloud commerciali• e-‐Infrastructures
• GEANT network• eduGAIN Fed. Id mgmt.• EGI Fed Cloud
• In-‐house IT resources
• Risorse rese disponibili (nell’ultimafase del progetto) a vari gruppi di end-‐user • BBMI, DARIAH, ELIXIR, EISCAT_3D, EPOS, INSTRUCT, LifeWatch, LHC, etc.
• INFN supportera’ comunita’ utenti HEP, Astro-‐particle e DARIAH
516/09/2015 Luca dell'Agnello 5
Preparazione
•Analisi deirequirements, offerte dimercatoe standards•Preparazionedel tender
Implementazione Risultati
• Best practises• Raccomandazioni• Training
Oct’16
PCP (fasi del progetto)
Lancio tender Pilot testato
6 mesi 18 mesi 6 mesi
Jan’16 Jan’18 Jun’18
Design
Prototipo
Pilot
Le agenzie confermano impegnoper i fondi
16/09/2015 Luca dell'Agnello 6
PCP: fase di implementazione del progetto
Design
Prototype
Pilot(*)
6 mesi per realizzazione prototipi e test funzionalità e sicurezza da parte di personale esperto dei centri di calcolo.
6 mesi per realizzazione prototipi estesi per test di scalabilità. Successivamente i prototipi vengono aperti agli utenti.
3 mesi per rispondere al bid(concorrenti dovranno fornire dettagli tecnici dei componenti e costi unitari)
Selezionati ≥3 soluzioni
Selezionati ≥2 prototipi tenendo conto del feedback degli esperti
Il comitato di valutazione comprenderà rappresentanti di tutti gli acquirenti.
Sono previste interazioni ripetute con i venditori sia nella fase del prototipo che in quella del pilot.
16/09/2015 Luca dell'Agnello 7
(*) responsabilità INFN
Design15%
Prototype25%Pilot
60%
Suddivisione budget(in totale: ~5.4 M€)
Costi acquisizione risorse
16/09/2015 Luca dell'Agnello 8
Budget
16/09/2015 Luca dell'Agnello 9
Organizazzione del progetto
WP1: Consortium Management
WP2: Preparation of procurement &Tendering
WP3: Design Platform
WP4: Prototype Platform
WP5: Pilot Platform
WP6: Pilots Evaluation & Recommendation
WP7: Stakeholder Engagement, Dissemination, Impact & Exploitation
CERN
CERN CNRS DESY INFN EGI.eu
TRUST-‐IT
Il finanziamento EU copre parte dei costi delle risorse, il costo di gestione del progetto e delle gare e i PM dei WP leader.Tutti gli acquirenti offriranno supporto tecnico per valutare le varie fasi (design/prototipi/pilot)
16/09/2015 Luca dell'Agnello 10
Organigramma
16/09/2015 Luca dell'Agnello 11
User GroupsThe cloud resources procured will be made available to user groups during the pilot phase
• LHC experiments via WLCG• Procured resources will count against the buyers’ pledges (during pilot phase)• CERN will provide the interface via Tier-‐0 (OpenStack in tender spec.)
• ELIXIR• Managed by EMBL-‐EBI via the ELIXIR Compute platform
• Other research communities via EGI Fed Cloud• Request OCCI interface in tender spec.
• Local users at each buyers site• Each buyer is responsible for integration• Request web GUI interface in tender spec.
• Sites can also use OpenStack or OCCI interface as well
Each buyer decides what fraction of their procured resources is made available to each user group but cannot assign only to their local users
Collectively the users will form a user group with a role in the project to define requirements and provide feedback on pilot deployments
BBMRIDARIAHEISCAT_3DEPOSINSTRUCTLifeWatchLong-‐tail
16/09/2015 Luca dell'Agnello 12
User GroupsThe cloud resources procured will be made available to user groups during the pilot phase
• LHC experiments via WLCG• Procured resources will count against the buyers’ pledges (during pilot phase)• CERN will provide the interface via Tier-‐0 (OpenStack in tender spec.)
• ELIXIR• Managed by EMBL-‐EBI via the ELIXIR Compute platform
• Other research communities via EGI Fed Cloud• Request OCCI interface in tender spec.
• Local users at each buyers site• Each buyer is responsible for integration• Request web GUI interface in tender spec.
• Sites can also use OpenStack or OCCI interface as well
Each buyer decides what fraction of their procured resources is made available to each user group but cannot assign only to their local users
Collectively the users will form a user group with a role in the project to define requirements and provide feedback on pilot deployments
BBMRIDARIAHEISCAT_3DEPOSINSTRUCTLifeWatchLong-‐tail
Bob Jones
Estensione elastica del Data Center ed usoopportunistico
• Q1-‐Q2 2015: primi test estensione remotadel Data Center• Effettuato test di funzionalita’ con un altro sito GARR per estensione trasparente di LSF• Setup pilota per accesso remoto trasparente da farm AMS a storage presso il CNAF
• Uso (opportunistico) di risorse remote• A Giugno preso contatto con provider commerciale Aruba • A Luglio contatto esplorativocon Unicredit• Trattativa per uso di Bari RECAS in corso
• 20000 HS06 (pledge) nel 2016?
16/09/2015 Luca dell'Agnello 14
Cloud commerciali – perché?
• Interesse soprattutto in test di espansione elastica dei nostri centri di calcolo, per assorbire picchi di attività• Le nostre attività sono in gran parte non real time, per cui Spot Market è usabile• Abbiamo differenti attività di calcolo che possono adattarsi a diverse situazioni• Alto o basso I/O• Alto o basso traffico WAN• Presenza o assenza di storage locale al sito• RAM genericamente bassa (2 GB/core o meno)• Pochi requirement sul sistema: Linux64bit
• Containers = ok
16/09/2015 Luca dell'Agnello 15
ARUBA & CNAF
ARUBA
Arezzo6 MW80 Gbit/sRidondanza 2N
16/09/2015 Tommaso Boccali, Luca dell'Agnello 17
Cosa ci offrono per il test
• Macchine con VMWare vSphere• Sono tutti haswell v3, Dell
• Bassa priorità (siamo utenti opportunistici)• Ma senza terminazione delle VM, semplicemente downclocking quando gli utenti “gold” usano le risorse (stima: 10% max del tempo)
• Macchine virtuali con 8 cores, 24 GB di RAM, 200 GB di disco• 80 Gbit/s “usabili”, ma verso MIX, Telecom etc (connessione con GARR non ottimale)• Al momento nel “grant”
• 160 core (se ne possono creare di più , ma CPU virtuale scala di conseguenza)• 6 TB di disco• 500 GB di RAM
16/09/2015 Tommaso Boccali, Luca dell'Agnello 18
vSphere• Abbiamo raggiunto un buon punto nella comprensione del sistema• “catalogo” INFN per I WN, 2 click per creare nuova macchina
16/09/2015 Tommaso Boccali, Luca dell'Agnello 19
Schema di utilizzo
• VM Aruba “agganciate” dalle code Mcore degli esperimenti• Solo CMS finora, ATLAS sta cominciando ora
• Squidper Condizioni e CVMFS locale in Aruba, i VM puntano a questo e non agli squiddel CNAF• Tunnel per connessione a LSF e ai CE, vengono visti da CNAF come rete locale• Logs di LSF via AFS montati da un nodo di servizio e distribuiti via NFS ai WN
• Il tunnel NON da’ accesso a risorse del CNAF, se non LSF e CE• In particolare nessun accesso ai dati di esperimento• GPFS: si vede solo l’area di lavoro di LSF (tramite cache AFM in ro)
16/09/2015 Tommaso Boccali, Luca dell'Agnello 20
Accesso ai dati
• Al momento attuale a gestione dell’accesso ai dati è demandata agli esperimenti (CMS)• Visto che NON si vede lo storage di esperimento, l’accesso è via fallback xrootd• Nessuna redirezione attiva da parte CNAF
• Stageout verso il CNAF/Storm• Da vedere come fare per Atlas (xrootd, http?)
• Attivare cache locale per i dati?
16/09/2015 Tommaso Boccali, Luca dell'Agnello 21
Setup risorse
• Al momento creati• Una macchina di lancio, raggiungibile ssh dall’esterno• Una macchina di servizio CNAF
• Squid• AFS per LSF• Gangliamaster
• 18 WN 8 core 24 GB RAM 200 GB disco (accesso di CMS)• 1 WN abilitato per Atlas per i primi test• Installatoun ganglia basilare, visibileda https://80.88.92.48:80/ganglia/
16/09/2015 Tommaso Boccali, Luca dell'Agnello 22
Alcuni plot
Load_one ultima settimana
Rete entrante
Rete uscente
16/09/2015 Tommaso Boccali, Luca dell'Agnello 23
CMS: lato esperimento
• SAM tutti verdi• Non banale, un po’ di tweak delle configurazione, sito definito come “sottosito” del CNAF: T1_IT_CNAF-‐ARUBA• Jobs successful con stessa percentuale dei job locali CNAF
• Ad occhio, non vero studio• CPU efficiency. Al momento come CMS non è possibile decidere con buona granularità quali job mandare, per cui ci finiscono gli stessi job del CNAF (sia a basso sia a alto IO)
• Basso IO: efficienza 100%• Alto IO: efficienza O(20%) – un fattore 2 meno di quelli locali
• Serve lavoro lato CMS per dirigere i job giusti ….
16/09/2015 Tommaso Boccali, Luca dell'Agnello 24
Prospettive
• Aggiungere un server AFM per l’accesso ai dati• O(100) TB-‐N, O(20) Gbit/s verso la LAN• Disponibilità prestito da parte di Aruba per test• Anche disponibilità di housingdi un nostro sistema
• In questo modo Aruba diventerebbe molto simile a quello che si vuole fare con Bari-‐RECAS• Nuovo meeting previsto, per capire come proseguire
• Costi veri post sperimentazione ?• Housing / hosting?
16/09/2015 Tommaso Boccali, Luca dell'Agnello 25
• Implementazionee test a cura di:• TommasoBoccali• Stefano Dal Pra• Vincenzo Ciaschini• Andrea Chierici• Vladimir Sapunenko
16/09/2015 Luca dell'Agnello 26
Backup slides
16/09/2015 Luca dell'Agnello 27
Beyond Run 2?• Huge increase of resources foreseen and our Data Center will be unlikely able to support it (budget issues not considered!)
• New technologies (e.g. GPU, low power processors)• Data Center extension on remote sites?• Data Center extension on Cloud?
• Hybrid Cloud?
16/09/2015 Luca dell'Agnello 28
0,0
100,0
200,0
300,0
400,0
500,0
Run 1 Run 2 Run 3 Run 4
CMS
ATLAS
ALICE
LHCb
0
50
100
150
200
Run 1 Run 2 Run 3 Run 4
GRIDATLASCMS
CPU requirements for online and offline processing
Raw data volumes estimations
Talk a CCR 27/05/2015
Trends
16/09/2015 Luca dell'Agnello 29
From Ian Bird’s talk atWLCG workshop in Okinawa
Talk a CCR 27/05/2015
Elastic Data Center and opportunistic use• Remote Data Center Extension under study
• Functionality tests ongoing with another site on GARR • Goal: transparent LSF extension
• Also pilot setup for transparent remote storage access with AMS and theorists groups • GPFS extension based on a new feature
• Opportunistic use• Preliminary contacts on going also with one of the main Commercial Cloud Providers and with Unicredit Bank
• Use of other centers (e.g. GARR, RECAS)?• Planning tests with CINECA for HPC system
• HNSciCloud PCP proposal, if approved, will lead to build an hybrid cloud pilot with Commercial providers• Hybrid infrastructure as a Service (IaaS) platform • 70% funded by EU• (If approved and successful!) much larger project in 2 years
16/09/2015 Luca dell'Agnello 30Talk a CCR 27/05/2015