národní e-infrastruktura v cr · ams-ix písek sanet aconet pionier dv r králové krnov kyjov...
TRANSCRIPT
Národní e-infrastruktura v ČR
Luděk Matyska a kolektiv
CERIT-SC a CESNET
Praha 7. listopadu 2012
e-Infrastruktura
Zjednodušeně řečeno: Komplexní IT zázemí.Virtuální prostředí tvořené technickými (výpočetní a úložné zdroje,aktivní prvky i přenosové trasy sítě, . . . ) a programovýmikomponentami, tvořící virtuální prostředí s rozmanitou škálou služeb,které podporují spolupráci a efektivní využití všech svých součástí.Významné rysy
rozsáhláuniverzální
Složky e-infrastruktury
Počítačová síťpáteřzajišťuje přenos dat (uživatelská i řídící)kapacita a latence
Výpočetní kapacitysuperpočítačemenší vzájemně spolupracující systémy (gridy)přístupové body (včetně mobilních)
Datová úložištěspojená s výpočetními kapacitami (uživatelské úložné prostory,kapacita pro dočasná data během výpočtů)samostatná
zálohováníarchivace (Long Term Preservation)sdílení
Programové vybaveníobslužné a řídící (middleware, plánování, monitoring, . . . )vývojové (překladače, ladící a optimalizační nástroje, . . . )aplikační (volně šiřitelné i komerční)
Evropa
GEANT – sítěceloevropská vysokorychlostní síťpáteřní linky až 100Gbps
PRACE – superpočítačevrstvená (tiered) strukturanejvýkonnější systémy
EGI – distribuovaný výpočetní infrastruktura (grid)skládáno z clusterů – uzlyrůzný výkon jednotlivých uzlůpostupné propojení s cloud technologiemi
CDI – Collaborative Data Infrastructure (EUDAT)ukládání a sdílení datdistribuovaný charakter (jako gridy
Stav v ČR
Síťpáteř: CESNETkoncové propojení: jednotlivé instituce
Nejlépe organizovanéVýpočty
superpočítání: IT4Innovations, Ostravagridy:
koordinace: CESNET (NGI, napojení na EGI)základní zdroje: CESNETvývojově orientované: CERIT-SCdalší: různé instituce (VŠ)neorganizované> v podstatě každý
Datacentrální úložiště: CESNETexperimentální: CERIT-SCspojená s výpočty: CESNET, CERIT-SC, IT4Innovationsdalší velká: zpravidla NGS (CEITEC, BIOCEV)menší, neorganizované: v podstatě každý
Software
Síť GEANT
Síť CESNET2
5 Gb/s
Praha
Liberec
Pardubice
Brno
Olomouc
Ostrava
Opava
NIX
Internet
ChebPoděbrady
Turnov
GÉANT
AMS-IXPísek
SANETACONET
PIONIER
Dvůr Králové
Krnov
Kyjov
Jihlava
Humpolec
Řež
Děčín
Ústí n. L.
Plzeň
Beroun
Č. TřebováLitomyšl Karviná
ZlínVyškov
Břeclav a Lednice
ČeskéBudějovice
VodňanyBudkov
Nové Hrady
J. Hradec
Tábor
Třeboň
Poněšice Telč
Znojmo
Hradec Králové
Most
Kostelec n. Č. L.
Ondřejov Kutná HoraMariánské
Lázně
Jablonec n. N.
Prostějov
Uherské Hradiště
DWDM10 Gb/s1–2,5 Gb/s100 Mb/s<100 Mb/s
Síť CESNET2
Hlavní znakyPlošné připojení pracovišť (zpravidla optickým vláknem)Vysoká propustnost páteře
vysokokapacitní linkypodpora multiplexovaných optických kanálů (lambdy)
vysoká stabilita (duální připojení)
Trvalé sledování provozuBezpečnost a zpracování bezpečnostních incidentůVideokonferenční (webkonferenční) infrastruktura, prostředí prospolupráci
velmi rozsáhlá VoIP síť
Gridy
CESNET a CERIT-SC hlavní „hráči“Distribuovaná infrastruktura zapojuje i další organizace (UK, ZČU,JČU, . . . )MetaCentrum (CESNET)
koordinace (NGI)aktuálně 6000 jader, polovina CESNET
CEITEC, CERIT-SC, JČU, UK, VUT, ZČU
dalších 4000 jader na FzÚ, EGI&WLCGorientace na dávkové úlohy, dlouhé výpočty
CERIT-SC (ÚVT MU)’experimental facilityposkytuje zdroje MetaCentrumdůraz na interakci a přímou spolupráci s vědeckými týmy (partnery)zapojení do společného vývoje
„Placení“Poděkování v publikaci, společná publikace
Gridová infrastruktura
Superpočítání
Nová součást národní e-infrastrukturyOrientace na nejvyšší výkonDvoufázová realizace„Malý“ cluster
cca 3000+ jader, 200 uzlů, 64GB RAM15% NVidia GPU
home 300TB, scratch 100TB‘kontejnerové řešení
Vybrán, odvolací řízeníSuperpočítačový cluster
plán na rok 2014zahájen předběžný dialogcíleno na první stovky TOP500, GPU akcelerováno
Přístup
Sítěbest effortoverprovisioning
Gridová a cloudová infrastrukturabest effortpriority podle výsledků a intenzity spolupráce
Superpočítače„grantová“ soutěž, 2x ročněinterní, eventuálně externí posouzeníspeciální „ředitelská“ alokace, průběžně
Data
Službyzálohy
primární data u uživatelů, záloha pro případ úmyslné či neúmyslnéztráty dat
archivacecenná primární datamenší frekvence přístupůdlouhodobé uchovávání, včetně politik
sdílení datzpřístupnění i velkých objemů dat, omezené i pro veřejnost
Datová úložiště
trojice HSM úložišť budovaná CESNETemPlzeň, Jihlava, Brnocelková kapacita cca 16PBPlzeň ve zkušebním provozuJihlava a Brno výběrová řízení, dodávka Q1/2013
CERIT-SC jedno MAID HSM3,5 PBvypínatelné disky (žádné pásky)
Další plánováno na IT4Innovations i ve velkých projektech (CEITEC)Hierarchické systémy
různé rychlé/drahé vrstvy„inteligence“ v softwareautomatizovaný systém přesunu mezi vrstvami
(téměř) transparentníprvní přístup k déle nepoužívaným datům pomalejší
Data trvale zabírají kapacitydlouhodobě jiný model hrazení než výpočty
Software
Průběžně udržované vývojové prostředíGNU, Intel, PGI, TotalView, Alinea
Generický matematický software (minulý rok)Matlab, Maple, gridMathematica
Komerční i volný software pro aplikační chemiiGaussian 09, Amber, Gamess, . . .
Materiálové simulace (posílení tento rok)Wien2k, Fluent
Strukturní biologie, bio-informatikařada volně dostupných balíků
Cíle národní e-infrastruktury
Poskytnout prostředí, které podpoří vědurole poskytovatele
Pomoci s využitím tohoto prostředí a ICT obecněrole partnera
Zajistit dostatečné finanční zdrojemodely financování
centrální financovánípay per useprojektové financování
otázka stability e-infrastrukturyfinancování musí mít kontinuální složku
Spolupráce s vědeckými komunitami
Posunout vztah „prodávající“ a „kupující“ na partnerstvíspolečný zájem na rozvoji a využití e-infrastrukturye-infrastruktura nejsou jen technici (správci IT)
Společné zapojení informatiků a dalších vědeckých komunit dopráce na návrhu architektury budoucích e-infrastrukturoptimalizace e-infrastrukturyoptimalizace využívaných nástrojů a aplikačních programů
Společné projektyfinancování rozvojedefinice oboustranných očekávání a závazkůprokázání využití e-infrastrukturynezávislá kontrola smysluplnosti činností
Příklady
Rekonstrukce genomu jeteleabnormálně dlouhá genová sekvencesoučasné nástroje určeny pro menší data, selhávajíadaptace programůposkytnutí experimentálního prostředí (dostatek paměti)připravována společná publikace
Atomární náboje na proteinechpublikované metody, nedostatečná implementacereimplementace, optimalizace a paralelizace, práce s velkýmidatovými sadamiřádové zrychlení (z 30 minut na 14 sekund)
MD simulace extrémně velkého systémudlouhý čas (50µsi), velký počet atomů (108) existujícími metodaminezvládnutelnénové algoritmy, důsledné využití možností e-infrastruktury
Simulace „smart gridu”miliony senzorů, modelování chybových datových toků, . . .
Podpora projektu ELIXIR
uzel na UOCHBsnaha lépe pochopit požadavky této už. skupinyspouštění výpočtů, zpřístupnění datslužby požadované na národním uzluprůzkum bojem - zprovozněn gridový software, námi podporovanýaplikační software, postupně přibývá software podle požadavkůuživatelůspráva uzlů nebo výpočtů i celková architektura se může měnit podlepotřeb ELIXIRUrozšíření základních služeb (další zdroje) může být poskytnuto přescloud prostředíhttp://meta.cesnet.cz/wiki/Elixir
ELIXIR-VT v projektu EGIsnaha kontaktovat další NGI které podporují ELIXIRsnaha o sdílení informací, postupů, sjednocující pohled
Shrnutí
Rozvinutá národní e-infrastrukturaVšechny podstatné součásti zahrnutyRealizována třemi organizacemiSpolečné vystupování
Nezbytná dlouhodobá a úzká spolupráce s vědeckými komunitamiovlivnění vývoje e-infrastrukturykontrola jejího využití