infrastruttura grid di produzione e i t2 cristina vistoli cnaf
TRANSCRIPT
Infrastruttura GRID di produzione e i T2Cristina Vistoli
Cnaf
Infrastruttura Grid di Produzione
Comprende 39 ‘resource centers’:
tutti i siti sono accessibili attraverso i servizi (Resource Broker) di Grid
25 siti fanno parte della infrastruttura EGEE/LCG registrati nel GOCDB
14 siti aggiuntivi sono accedibili solo dai servizi italiani
844
Production Infrastructure: Resources
438
INFNGRID-2.6.0 deployment status: resources
INFNGRID-2.6.0 deployment status: services
INFNGRID-2.6.0 deployment status: services
INFNGRID-2.6.0 deployment status: services
INFNGRID-2.6.0 features
It is essentially LCG-2.6.0 with some additional features:
Features/customizations already present in the previous releases: new Network Monitor profile improved support for LSF and MPI support for additional VOs (managed via LDAP VO server):
babar, zeussupport for the additional VOs (managed via VOMS server): infngrid, cdf, gridit, compchem, planck, bio, enea, theophys, ingv, inaf, virgo, argo
support for MPI jobs via home syncronisation with scp with hostbased authentication DGAS (DataGrid Accounting System)
new customizations: support for ARGO VO
I T2 e la Grid di produzione
– I Tier2 sono in sedi che gia’ sono parte della infrastruttura GRID di produzione
– Obiettivo principale della organizzazione a supporto della infrastruttura GRID
• Fornire release di middleware stabile, certificata, documentata e con procedure automatiche di installazione adatte alle complessita’ delle farm
• Controllo delle installazioni, delle configurazioni dell’efficenza dei servizi Grid
• Collaborare con i site manager • Fornire supporto agli utenti • Garantire supporto agli esperimenti e promuovere
l’integrazione dei servizi specifici di esperimeno nei servizi comuni
I T2 e la Grid di produzione
– I siti T2 sono già parte della infrastruttura ma l’organizzazione per il supporto deve adattarsi alla scala di dimensioni previste
– Devono essere approfondite le compentenze locali attraverso il coinvolgimento nei progetti
– Continuo aggiornamento sulle evoluzioni del middleware di Grid e sui servizi di esperimento
– Le responsabilità operative sono distribuite – Ma….. si deve garantire qualità e affidabilità
complessiva dell’infrastruttura adeguata alle esigenze di un utilizzo in produzione per gli esperimenti
EGEE/LCG
• EGEE SA1 garantisce l’operatività dell’infrastruttura di grid per LCG
• La nostra partecipazione in EGEE/SA1 consiste in:
– Gestione dei servizi generali di Grid (broker risorse, gestione dei cataloghi di File, monitoring e accounting dell’utilizzo, VOMS…)
– Sviluppo o adattamento di strumenti di controllo– Produzione della release di middleware e relativa
documentazione – Controllo e certificazione delle configurazini e della funzionalità
dei siti– Supporto agli utenti – Supporto agli esperimenti per l’integrazione in Grid
I T2 in Grid
I T2 e in generale i siti della grid di produzione devono:
• fornire supporto sistemistico per le installazioni e configurazioni del middleware nelle vaie sedi
• Rispondere prontamente ai problemi operativi• Fornire supporto agli utenti e agli esperimenti • Partecipare ai turni di controllo dei servizi Grid della
infrastruttura nel suo complesso• Contribuire con almeno un FTE in SA1 per:
– garantire distribuzione delle competenze e aggiornamento
– maggiore affidabilita e qualita’ del supporto
Support
• First level support: Italian ROC shifts– The Italian ROC provides geographically based local front line support to Virtual Organization, Users and Resources Centres– Provided through daily shifts– Check list to be covered during the shift– Periodic (every 15 days) phone conference
• ROC/CIC teams and site managers – ROC report to GDA
• Shitf example, weekly based:
• Second level support: CIC on Duty– Weekly shift– CIC tools
Release and documentation
• Release and documentation :– Documentation: site installation guide, release notes….– Software repository– Site management guide– FRY
• is a tool developed by the Release and Documentation group of SA1 Italian ROC to perform quickly a set of basic test on all the grid elements (CE, SE, RB, WN,...). The idea is to increase the speed and reliability of the release certification phase, performing a "standard" set of tests to verify automatically configuration/setup troubles (daemons, permission and ownership of some directories, ...).
• http://grid-it.cnaf.infn.it/index.php?sitetest&type=1– DGAS checklist [new]
• DGAS developers produced this document to check if DGAS configuration is ok: – UiPNP– Installation of LCG 2.6 on IA64
• http://www.spaci.it/egee/content.php?loc=docs&pg=default.php
http://grid-it.cnaf.infn.it/index.php?siteman&type=1
Release and documentation
Central Management Team
• Site Certification
• The CMT is responsible of the certification: checking the functionalities of a site before to join the site to the production grid. In particular checks:
– GIIS' information consistence – Local jobs submission (LRMS) – Grid submission with Globus (globus-job-run) – Grid submission with the ResorceBroker – ReplicaManager functionalities
• In order to certificate a site the CMT uses dedicated grid services – RB: gridit-cert-rb.cnaf.infn.it BDII: gridit-cert-rb.cnaf.infn.it
• In this way we avoid to have an uncertificate site in the production grid. The same grid services should be used for test activities. The procedure is described in the following document:
• CMT's site certification procedure [PDF]
VO supportate
Job status10/oct/2005 23.25
Job report dal 3 al 16 ottobre
2005Job INFN-T1
INFN-PADOVA
INFN-FIRENZE
INFN-LNL-2
INFN-ROMA1
INFN-CNAF
INFN-NAPOLI
INFN-BOLOGNA
INFN-MILANO
INFN-FERRARA
INFN-PISA2
INFN-TORINO
INFN-CAGLIARI
INFN-ROMA1-VIRGO
INFN-ROMA2
SNS-PISA
Site Job
INFN-T1 81032,00
INFN-PADOVA 6954,00
INFN-FIRENZE 3545,00
INFN-LNL-2 2672,00
INFN-ROMA1 2472,00
INFN-CNAF 2132,00
INFN-NAPOLI 2080,00
INFN-BOLOGNA 1687,00
INFN-MILANO 1515,00
INFN-FERRARA 1263,00
INFN-PISA2 1183,00
INFN-TORINO 1053,00
INFN-CAGLIARI 1049,00
INFN-ROMA1-VIRGO 866,00
INFN-ROMA2 799,00
SNS-PISA 648,00
INFN-PISA 604,00
INFN-FRASCATI 487,00
INFN-PERUGIA 447,00
SPACI-NAPOLI-IA64 442,00
INFN-TRIESTE 442,00
INFN-BOLOGNA-CMS 381,00
INFN-Roma1-CMS 202,00
CNR-ILC-PISA 103,00
SPACI-LECCE-IA64 79,00
INFN-ROMA3 72,00
INAF-Trieste 53,00
INFN-LECCE 49,00
INFN-GENOVA 47,00
Job report dal 3 al 16 ottobre
2005INFN-PADOVA
INFN-FIRENZE
INFN-LNL-2
INFN-ROMA1
INFN-CNAF
INFN-NAPOLI
INFN-BOLOGNA
INFN-MILANO
INFN-FERRARA
INFN-PISA2
INFN-TORINO
INFN-CAGLIARI
INFN-ROMA1-VIRGO
INFN-ROMA2
SNS-PISA
INFN-PISA
INFN-FRASCATI
INFN-PERUGIA
Site Job
INFN-PADOVA 6954,00
INFN-FIRENZE 3545,00
INFN-LNL-2 2672,00
INFN-ROMA1 2472,00
INFN-CNAF 2132,00
INFN-NAPOLI 2080,00
INFN-BOLOGNA 1687,00
INFN-MILANO 1515,00
INFN-FERRARA 1263,00
INFN-PISA2 1183,00
INFN-TORINO 1053,00
INFN-CAGLIARI 1049,00
INFN-ROMA1-VIRGO 866,00
INFN-ROMA2 799,00
SNS-PISA 648,00
INFN-PISA 604,00
INFN-FRASCATI 487,00
INFN-PERUGIA 447,00
SPACI-NAPOLI-IA64 442,00
INFN-TRIESTE 442,00
INFN-BOLOGNA-CMS 381,00
INFN-Roma1-CMS 202,00
CNR-ILC-PISA 103,00
SPACI-LECCE-IA64 79,00
INFN-ROMA3 72,00
INAF-Trieste 53,00
INFN-LECCE 49,00
INFN-GENOVA 47,00
N.B senza T1 per vedere meglio le percentuali
Job report26/9 -10/10
Support systemProblems Communication : -ROC on Duty and site managers-Site managers to Central management team and viceversa-Site certification during installation/upgrade-GGUS to ROC
tickets statistics
– starting date: August 2005– 272 total– 64 from GGUS (COD and
user)