cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

29
Cloud-gebaseerde Infrastructuur voor Biomedisch Bevolkingsonderzoek Biomedical Imaging Group Rotterdam (BIGR) Afdeling Radiologie & Medische Informatica ErasmusMC, Rotterdam Henri Vrooman

Upload: surfnet

Post on 23-Dec-2014

210 views

Category:

Technology


3 download

DESCRIPTION

Henri Vrooman op de SURFnet Relatiedagen 2012

TRANSCRIPT

Page 1: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Cloud-gebaseerde Infrastructuur voor Biomedisch Bevolkingsonderzoek

Biomedical Imaging Group Rotterdam (BIGR)Afdeling Radiologie & Medische Informatica

ErasmusMC, Rotterdam

Henri Vrooman

Page 2: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Focus van onze groep (BIGR):

1. Computer-gestuurde diagnose VROEGTIJDIGE en meer NAUWKEURIGE diagnose!

2. Bevolkingsonderzoek Vergelijken en valideren van processing tools Meer inzicht in ziektebeelden / modellen creëren

Page 3: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Bevolkingsonderzoek; Variabiliteit van de bevolking in kaart brengen met modellen

- Model van het vasculaire systeem

- Model van het verouderende brein

- Model van het kloppende hart

- Model voor tumor diagnose en behandeling

- Modellen van zieke en gezonde groepen

SURFnet Relatiedagen 4 oktober 2012

Page 4: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

04/10/2023

Ontwikkeling van robuuste, nauwkeurige en volledig automatische tools voor kwantitatieve metingen in breinbeelden

Voorbeeld: Neuro Imaging

SURFnet Relatiedagen 4 oktober 2012

Page 5: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

• Weefselclassificatie

• Detectie van lesies

• Structurele integriteit

• Incidentele bevindingen

• ‘Blood flow’ in het brein

• Micro-bloedingen

Rotterdam Study (> 10000 deelnemers)

SURFnet Relatiedagen 4 oktober 2012

Page 6: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012 04/10/2023

Biomarkers

0.23

183 cc

17.3% Lesion load

83.12% Connectivity Thalamus-Cortex Two frontal lobes

Genereren van Imaging biomarkers

Page 7: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Neurodegeneratieve aandoeningen

Risicofactoren:

GenetischNiet-genetisch

BloeddrukCholesterolSuikerziekteHomocysteineRoken.......

Uitkomst:

BeroerteCognitiefDementieAlzheimerDepressie

Brain changes

WeefselverliesHerseninfarctenWitte-stofafijkingenMicro-bloedingen.....

??

Page 8: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Bottom lineWe zullen duizenden scans moeten acquireren

en verwerken om statistisch significante modellen/resultaten te verkrijgen!

Bevolkingsonderzoek Data-explosie

Delen/combineren van data

Page 9: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Er lijkt geld beschikbaar te zijn!

Bevolkingsonderzoek is een ‘hot topic’ op de agenda van healthcare organisaties,

wetenschappelijke centra en overheden

Nationaal, Europees en wereldwijd!

Page 10: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Voorbeelden van bevolkingsonderzoek• Parelsnoer (DMZ-approach)• Aneurist (DMZ-approach)• Parisk (DMZ-approach)• Rotterdam Study (scanner connected met interne

storage ErasmusMC)• Generation R (idem)

• Meeste studies werken via de DMZ (multi-step)• VPN-netwerken is een optie• Logistiek is veelal niet optimaal • In het algemeen nog vrij kleine cohorten

Page 11: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Huidige reken- en opslag-facilititeitenComputing• Lokale clusters bij partners (veelal circa 250 cores)• SARA (Life-science) grid faciliteiten (> 7000 cores)• HPC-Cloud (nieuwe versie released in oktober 2011)• SARA Super Computing Faciliteiten (e.g. LISA)

Opslag• Lokaal bij onderzoeksgroepen (BIGR; 70 TeraBytes)• DMZ-servers bij verscheidene ziekenhuizen/partners• ErasmusMC Digital Research Archive (EDRA; 150+ TB)• SARA Grid-Storage (Disk/tape; SRM-protocol)

Page 12: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Huidige problemen

• Initiatieven zitten vast, opschalen is lastig• Elk instituut heeft zijn eigen data en software/

hardware-infrastructuur• Dataformaten, scanprotocollen, verwerking en validatie

zijn niet of nauwelijks gestandaardiseerd!• Het is lastig om beelddata en numerieke resultaten te

sharen in 1 database• Transfer van zeer grote data sets is een bottle-neck• Veelal nog 100 Mb, 1 Gb snelheden via intra/internet

Page 13: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Huidige problemen

• Latency problemen op het internet ten gevolge van het oversturen van veel (miljoenen) bestanden

• Gesloten/afgeschermde ziekenhuisnetwerken• Er is geen hoogkwalitatieve IT infrastructuur voor

bevolkingsonderzoek beschikbaar op het moment• Het combineren van klinische data & research data en

van beeld- en niet-beeld data is niet triviaal• Privacy & security zijn belangrijke issues

Page 14: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Wat hebben we (ons inziens) nodig?

• Een centrale opslag van data• Directe toegang van HPC-faciliteiten tot de data• Snelle en veilige verbindingen tussen beeldvormende

apparatuur (scanners), storage en computing• Lage latency / hoge snelheid / veilig / efficiënt• Overzicht over datacollecties• Centrale afhandeling van

privacy en security issues • Vermijden van onnodig gesleep

met data!

SURFnet Relatiedagen 4 oktober 2012

Page 15: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Zilver bij de ”Enlighten Your research” prijsvraag 2011

Rotterdam (ErasmusMC)Leiden (LUMC)

Delft (TU)

Page 16: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Multi-center aanpak

SURFnet Relatiedagen 4 oktober 2012

Page 17: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Huidige pilot

Combinatie van:

• Centrale opslag en processing• HPC-Cloud computing• Lichtpaden

‘Een lichtpad vanuit een instituut naar de Cloud is vrij uniek voor Europa.’ Geeft wel de nodige problemen(IP-ranges, geen DNS, 24 uur in the air)

Page 18: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

EYR Configuratie

SURFnet Relatiedagen 4 oktober 2012

Page 19: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Koppeling blijkt lastig

• Overlappende IP-ranges• Niet met elkaar pratende switches• Configuratie/routering/NATTEN/poorten• Er zijn meerdere partijen betrokken (onderzoekers, ICT, SURFnet, SARA)• Af en toe wat verwarring over fibers, projecten,

doelen, etc.

Page 20: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Koppeling Rotterdam

SURFnet Relatiedagen 4 oktober 2012

Page 21: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

We willen twee scenario’s bekijken

1. Zenden naar centrale storage en triggered verwerken (het Rotterdamse gedeelte werkt; warp-experiment)

– Leiden en Rotterdam stuurt DICOM-data– Verwerking start onmiddelijk bij binnenkomst– Windows- en Linux-cores worden ‘on demand’ gedeployed– Delft bekijkt de resultaten (embedded feature spaces)

2. Vanaf de Cloud een query uitvoeren op data bij de verschillende partners (intern). Geeft extra problematiek bij het koppelen.

Page 22: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Koppeling Leiden

SURFnet Relatiedagen 4 oktober 2012

Page 23: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Mounten van de virtuele FS

SURFnet Relatiedagen 4 oktober 2012

Page 24: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Opmerkingen m.b.t. mounten FS• Disk partities van de virtuele fileserver (persistent) zijn

door Linux- en Windows-systemen te mounten.• (Auto-)mounten mogelijk naar gedeployde cores en de

servers bij de diverse partners.• VirDir (Cloud-functionaliteit) is niet te mounten op

Windows en kan niet ‘doorgemount’ worden. En VirDir is trager. Virdir wordt momenteel slechts als transport-buffer of backup gebruikt.

• Mounten in Delft en Leiden moet nog getest worden. Configuratie van de koppeling (poorten/privileges) is van belang.

Page 25: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Eerste performance testen I

Gegevens betreffende de fileserver performance:

Test A: eyr -> lichtpad -> virdirREAD: latency 143 msec bandwidth 1022 KByte/sWRITE: latency 192 msec bandwidth 254 KByte/s

Test B: eyr -> lichtpad -> virtuele fileserverREAD: latency 16 msec bandwidth 9309 KByte/sWRITE: latency 21 msec bandwidth 2314 KByte/s

De remote storage is via het lichtpad gemount

Page 26: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Eerste performance testen IILatency van het netwerk (vanuit Rotterdam):Internet: 6.02 msLichtpad: 2.21 ms(Beide tests uitgevoerd met ‘pings’)

Gegevens over de bandbreedte van het lichtpad:Avg 632 Mbit/s, Stdev 141 Mbit/sMin 313 Mbit/s, Max 936 Mbit/s

Bandbreedte van het lichtpad is redelijk tot goed, met pieken die dicht tegen de theoretische maximumcapaciteit aan zitten.

Page 27: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

SURFnet Relatiedagen 4 oktober 2012

Privacy & security problematiek• Anonymisatie/pseudonymisatie/’defacing’

– Klinische data moet geanonimiseerd worden en eventueel gedefaced

– De meeste research data is al anoniem na acquisitie

• Het genereren van pseudo-id’s moet centraal– Verschillende patiënten met hetzelfde ZIS-nummer– Patiënten met meer ZIS-nummers – BSN is een optie om ambiguiteiten te voorkomen

• Veiligheid is een belangrijk item. Voorkomen van ongewenste personen/activiteiten op ziekenhuis- en research-netwerk!

Page 28: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

04/10/2023

Concluderende opmerkingen met betrekking tot bevolkingsonderzoek I

• Momenteel wordt het opschalen van bevolkings-onderzoek gehinderd door het ontbreken van een geschikte, geavanceerde ICT-infrastructuur.

• Opslag en processing moeten gecentraliseerd en gestandaardiseerd worden.

• Faciliteiten moeten gebruiksvriendelijk zijn voor de participerende partners (web-based interactie)

• Verbindingen moeten snel en veilig zijn.• Mogelijke rekenfaciliteiten (bijv. LSG) moeten directe toegang

tot de data hebben.

SURFnet Relatiedagen 4 oktober 2012

Page 29: Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

04/10/2023

Concluderende opmerkingen met betrekking tot bevolkingsonderzoek II

• De infrastructuur moet een mix van klinische data en research data aankunnen, met de nodige privacy & security criteria

• Gezien de centrale opslag is er een uniform, gecentraliseerd mechanisme voor anonymisatie/ pseudonymisatie mogelijk (ontvangende proces)

• Er moet nog de nodige aandacht besteed worden aan de ontwikkeling van robuuste databases voor de opslag van ruwe (input) beelddata, bewerkte beelddata en numerieke resultaten.

Overzicht cruciaal!

SURFnet Relatiedagen 4 oktober 2012