Download - HNSciCloude estensione del, Tier21

HNSciCloud e estensione del Tier-‐1Luca dell’Agnello

CCR, 16 Settembre 2015

Evoluzione computing HEP• Sostanziale incremento delle risorsenecessariedopo il Run2 di LHC

• Difficilmente sostenibile con risorse in-‐house• Nuove tecnologie (es. GPU, processori low power)?• Nuovo paradigma? “Nostri” Data Center specializzati sui dati

• Capacita’ di calcolo acquisita (anche) con estensione elastica su Cloud (anchecommerciale)

• Costruzionedi una e-‐infrastructure europea• Open Science Cloud

0

50

100

150

200

Run 1 Run 2 Run 3 Run 4

GRIDATLASCMS

0,0

100,0

200,0

300,0

400,0

500,0


CMS

ATLAS

ALICE

LHCb

Previsione necessita’ CPU per online e offline

Stime volumi dati raw16/09/2015 Luca dell'Agnello 2

HNSciCloud (1)• Proposta per “Pre-‐Commercial Procurement” nella call ICT 8a di H2020 per servizi cloud innovativi di tipo IaaS approvataa fine Agosto • Pre-‐Commercial Procurement per servizi cloud innovativi di tipo IaaS

• Cofinanziamento EU (~2/3 del totale)• Copre il 5% delle necessita’ di calcolo

• 11 partner: • 9 “acquirenti” (CERN, CNRS, DESY, EMBL, IFAE, INFN, KIT, STFC, SURFSARA)• 2 “experts” (EGI.eu, TRUST -‐ IT)

• Contributo EU: 4,716,374.79 €• Effort totale: 78.8 PM

• INFN: 3.5 PM finanziati + 3 PM unfunded• Durata del progetto: 30 mesi (inizio 1/1/2016)• Se funzionante previsto un progetto EU molto più grande entro 2 anni

16/09/2015 Luca dell'Agnello 3

HNSciCloud (2)• Basato su HelixNebula

• “Helix Nebula was formed in 2011 by leading research organisations in collaboration with Europe’s commercial cloud suppliers to develop such a platform.” (i.e. European Open Science Cloud)

• Comprendevari partner pubblici e privati

• Non l’INFNal momento• “HNSciCloud should and will become a cornerstone of what the e-‐Infrastructure Reflection Group (e-‐IRG) in its 2012 Roadmap paper10 refers to as the single e-‐Infrastructure Commons.”

Strategic)Plan

! Establish)multi,tenant,)multi,provider)cloud)infrastructure

! Identify)and)adopt)policies)for)trust,)security)and)privacy

! Create)governance)structure

! Define)funding)schemes

To)support)the)computing)capacity)needs)for)the)LHC)

experiments

Setting)up)a)new)service)to)simplify)analysis)of)large)genomes,)for)a)

deeper)insight)into)evolution)and)biodiversity

To)create)an)Earth)Observation)platform,)

focusing)on)earthquake)and)volcano)research

To)improve)the)speed)and)quality)of)

research)for)finding)surrogate)biomarkers)

based)on)brain)images

Adopters

Suppliers

Additional)Users:


HNSciCloud (3)• Modello di Cloud ibrida

• Servizi cloud commerciali• e-‐Infrastructures

• GEANT network• eduGAIN Fed. Id mgmt.• EGI Fed Cloud

• In-‐house IT resources

• Risorse rese disponibili (nell’ultimafase del progetto) a vari gruppi di end-‐user • BBMI, DARIAH, ELIXIR, EISCAT_3D, EPOS, INSTRUCT, LifeWatch, LHC, etc.

• INFN supportera’ comunita’ utenti HEP, Astro-‐particle e DARIAH


Preparazione

•Analisi deirequirements, offerte dimercatoe standards•Preparazionedel tender

Implementazione Risultati

• Best practises• Raccomandazioni• Training

Oct’16

PCP (fasi del progetto)

Lancio tender Pilot testato

6 mesi 18 mesi 6 mesi

Jan’16 Jan’18 Jun’18

Design

Prototipo

Pilot

Le agenzie confermano impegnoper i fondi


PCP: fase di implementazione del progetto

Design

Prototype

Pilot(*)

6 mesi per realizzazione prototipi e test funzionalità e sicurezza da parte di personale esperto dei centri di calcolo.

6 mesi per realizzazione prototipi estesi per test di scalabilità. Successivamente i prototipi vengono aperti agli utenti.

3 mesi per rispondere al bid(concorrenti dovranno fornire dettagli tecnici dei componenti e costi unitari)

Selezionati ≥3 soluzioni

Selezionati ≥2 prototipi tenendo conto del feedback degli esperti

Il comitato di valutazione comprenderà rappresentanti di tutti gli acquirenti.

Sono previste interazioni ripetute con i venditori sia nella fase del prototipo che in quella del pilot.


(*) responsabilità INFN

Design15%

Prototype25%Pilot

60%

Suddivisione budget(in totale: ~5.4 M€)

Costi acquisizione risorse


Budget


Organizazzione del progetto

WP1: Consortium Management

WP2: Preparation of procurement &Tendering

WP3: Design Platform

WP4: Prototype Platform

WP5: Pilot Platform

WP6: Pilots Evaluation & Recommendation

WP7: Stakeholder Engagement, Dissemination, Impact & Exploitation

CERN

CERN CNRS DESY INFN EGI.eu

TRUST-‐IT

Il finanziamento EU copre parte dei costi delle risorse, il costo di gestione del progetto e delle gare e i PM dei WP leader.Tutti gli acquirenti offriranno supporto tecnico per valutare le varie fasi (design/prototipi/pilot)


Organigramma


User GroupsThe cloud resources procured will be made available to user groups during the pilot phase

• LHC experiments via WLCG• Procured resources will count against the buyers’ pledges (during pilot phase)• CERN will provide the interface via Tier-‐0 (OpenStack in tender spec.)

• ELIXIR• Managed by EMBL-‐EBI via the ELIXIR Compute platform

• Other research communities via EGI Fed Cloud• Request OCCI interface in tender spec.

• Local users at each buyers site• Each buyer is responsible for integration• Request web GUI interface in tender spec.

• Sites can also use OpenStack or OCCI interface as well

Each buyer decides what fraction of their procured resources is made available to each user group but cannot assign only to their local users

Collectively the users will form a user group with a role in the project to define requirements and provide feedback on pilot deployments

BBMRIDARIAHEISCAT_3DEPOSINSTRUCTLifeWatchLong-‐tail


User GroupsThe cloud resources procured will be made available to user groups during the pilot phase

• LHC experiments via WLCG• Procured resources will count against the buyers’ pledges (during pilot phase)• CERN will provide the interface via Tier-‐0 (OpenStack in tender spec.)

• ELIXIR• Managed by EMBL-‐EBI via the ELIXIR Compute platform

• Other research communities via EGI Fed Cloud• Request OCCI interface in tender spec.

• Local users at each buyers site• Each buyer is responsible for integration• Request web GUI interface in tender spec.

• Sites can also use OpenStack or OCCI interface as well

Each buyer decides what fraction of their procured resources is made available to each user group but cannot assign only to their local users

Collectively the users will form a user group with a role in the project to define requirements and provide feedback on pilot deployments

BBMRIDARIAHEISCAT_3DEPOSINSTRUCTLifeWatchLong-‐tail

Bob Jones

Estensione elastica del Data Center ed usoopportunistico

• Q1-‐Q2 2015: primi test estensione remotadel Data Center• Effettuato test di funzionalita’ con un altro sito GARR per estensione trasparente di LSF• Setup pilota per accesso remoto trasparente da farm AMS a storage presso il CNAF

• Uso (opportunistico) di risorse remote• A Giugno preso contatto con provider commerciale Aruba • A Luglio contatto esplorativocon Unicredit• Trattativa per uso di Bari RECAS in corso

• 20000 HS06 (pledge) nel 2016?


Cloud commerciali – perché?

• Interesse soprattutto in test di espansione elastica dei nostri centri di calcolo, per assorbire picchi di attività• Le nostre attività sono in gran parte non real time, per cui Spot Market è usabile• Abbiamo differenti attività di calcolo che possono adattarsi a diverse situazioni• Alto o basso I/O• Alto o basso traffico WAN• Presenza o assenza di storage locale al sito• RAM genericamente bassa (2 GB/core o meno)• Pochi requirement sul sistema: Linux64bit

• Containers = ok


ARUBA & CNAF

ARUBA

Arezzo6 MW80 Gbit/sRidondanza 2N

16/09/2015 Tommaso Boccali, Luca dell'Agnello 17

Cosa ci offrono per il test

• Macchine con VMWare vSphere• Sono tutti haswell v3, Dell

• Bassa priorità (siamo utenti opportunistici)• Ma senza terminazione delle VM, semplicemente downclocking quando gli utenti “gold” usano le risorse (stima: 10% max del tempo)

• Macchine virtuali con 8 cores, 24 GB di RAM, 200 GB di disco• 80 Gbit/s “usabili”, ma verso MIX, Telecom etc (connessione con GARR non ottimale)• Al momento nel “grant”

• 160 core (se ne possono creare di più , ma CPU virtuale scala di conseguenza)• 6 TB di disco• 500 GB di RAM


vSphere• Abbiamo raggiunto un buon punto nella comprensione del sistema• “catalogo” INFN per I WN, 2 click per creare nuova macchina


Schema di utilizzo

• VM Aruba “agganciate” dalle code Mcore degli esperimenti• Solo CMS finora, ATLAS sta cominciando ora

• Squidper Condizioni e CVMFS locale in Aruba, i VM puntano a questo e non agli squiddel CNAF• Tunnel per connessione a LSF e ai CE, vengono visti da CNAF come rete locale• Logs di LSF via AFS montati da un nodo di servizio e distribuiti via NFS ai WN

• Il tunnel NON da’ accesso a risorse del CNAF, se non LSF e CE• In particolare nessun accesso ai dati di esperimento• GPFS: si vede solo l’area di lavoro di LSF (tramite cache AFM in ro)


Accesso ai dati

• Al momento attuale a gestione dell’accesso ai dati è demandata agli esperimenti (CMS)• Visto che NON si vede lo storage di esperimento, l’accesso è via fallback xrootd• Nessuna redirezione attiva da parte CNAF

• Stageout verso il CNAF/Storm• Da vedere come fare per Atlas (xrootd, http?)

• Attivare cache locale per i dati?


Setup risorse

• Al momento creati• Una macchina di lancio, raggiungibile ssh dall’esterno• Una macchina di servizio CNAF

• Squid• AFS per LSF• Gangliamaster

• 18 WN 8 core 24 GB RAM 200 GB disco (accesso di CMS)• 1 WN abilitato per Atlas per i primi test• Installatoun ganglia basilare, visibileda https://80.88.92.48:80/ganglia/


Alcuni plot

Load_one ultima settimana

Rete entrante

Rete uscente


CMS: lato esperimento

• SAM tutti verdi• Non banale, un po’ di tweak delle configurazione, sito definito come “sottosito” del CNAF: T1_IT_CNAF-‐ARUBA• Jobs successful con stessa percentuale dei job locali CNAF

• Ad occhio, non vero studio• CPU efficiency. Al momento come CMS non è possibile decidere con buona granularità quali job mandare, per cui ci finiscono gli stessi job del CNAF (sia a basso sia a alto IO)

• Basso IO: efficienza 100%• Alto IO: efficienza O(20%) – un fattore 2 meno di quelli locali

• Serve lavoro lato CMS per dirigere i job giusti ….


Prospettive

• Aggiungere un server AFM per l’accesso ai dati• O(100) TB-‐N, O(20) Gbit/s verso la LAN• Disponibilità prestito da parte di Aruba per test• Anche disponibilità di housingdi un nostro sistema

• In questo modo Aruba diventerebbe molto simile a quello che si vuole fare con Bari-‐RECAS• Nuovo meeting previsto, per capire come proseguire

• Costi veri post sperimentazione ?• Housing / hosting?


• Implementazionee test a cura di:• TommasoBoccali• Stefano Dal Pra• Vincenzo Ciaschini• Andrea Chierici• Vladimir Sapunenko


Backup slides


Beyond Run 2?• Huge increase of resources foreseen and our Data Center will be unlikely able to support it (budget issues not considered!)

• New technologies (e.g. GPU, low power processors)• Data Center extension on remote sites?• Data Center extension on Cloud?

• Hybrid Cloud?


0,0

100,0

200,0

300,0

400,0

500,0


CMS

ATLAS

ALICE

LHCb

0

50

100

150

200


GRIDATLASCMS

CPU requirements for online and offline processing

Raw data volumes estimations

Talk a CCR 27/05/2015

Trends


From Ian Bird’s talk atWLCG workshop in Okinawa

Talk a CCR 27/05/2015

Elastic Data Center and opportunistic use• Remote Data Center Extension under study

• Functionality tests ongoing with another site on GARR • Goal: transparent LSF extension

• Also pilot setup for transparent remote storage access with AMS and theorists groups • GPFS extension based on a new feature

• Opportunistic use• Preliminary contacts on going also with one of the main Commercial Cloud Providers and with Unicredit Bank

• Use of other centers (e.g. GARR, RECAS)?• Planning tests with CINECA for HPC system

• HNSciCloud PCP proposal, if approved, will lead to build an hybrid cloud pilot with Commercial providers• Hybrid infrastructure as a Service (IaaS) platform • 70% funded by EU• (If approved and successful!) much larger project in 2 years

16/09/2015 Luca dell'Agnello 30Talk a CCR 27/05/2015

Download - HNSciCloude estensione del, Tier21

Top Related