cloud gebaseeerde infrastructuur voor bevolkingsonderzoek

Post on 23-Dec-2014

211 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

Henri Vrooman op de SURFnet Relatiedagen 2012

TRANSCRIPT

Cloud-gebaseerde Infrastructuur voor Biomedisch Bevolkingsonderzoek

Biomedical Imaging Group Rotterdam (BIGR)Afdeling Radiologie & Medische Informatica

ErasmusMC, Rotterdam

Henri Vrooman

Focus van onze groep (BIGR):

1. Computer-gestuurde diagnose VROEGTIJDIGE en meer NAUWKEURIGE diagnose!

2. Bevolkingsonderzoek Vergelijken en valideren van processing tools Meer inzicht in ziektebeelden / modellen creëren

Bevolkingsonderzoek; Variabiliteit van de bevolking in kaart brengen met modellen

- Model van het vasculaire systeem

- Model van het verouderende brein

- Model van het kloppende hart

- Model voor tumor diagnose en behandeling

- Modellen van zieke en gezonde groepen

SURFnet Relatiedagen 4 oktober 2012

04/10/2023

Ontwikkeling van robuuste, nauwkeurige en volledig automatische tools voor kwantitatieve metingen in breinbeelden

Voorbeeld: Neuro Imaging

SURFnet Relatiedagen 4 oktober 2012

• Weefselclassificatie

• Detectie van lesies

• Structurele integriteit

• Incidentele bevindingen

• ‘Blood flow’ in het brein

• Micro-bloedingen

Rotterdam Study (> 10000 deelnemers)

SURFnet Relatiedagen 4 oktober 2012

SURFnet Relatiedagen 4 oktober 2012 04/10/2023

Biomarkers

0.23

183 cc

17.3% Lesion load

83.12% Connectivity Thalamus-Cortex Two frontal lobes

Genereren van Imaging biomarkers

SURFnet Relatiedagen 4 oktober 2012

Neurodegeneratieve aandoeningen

Risicofactoren:

GenetischNiet-genetisch

BloeddrukCholesterolSuikerziekteHomocysteineRoken.......

Uitkomst:

BeroerteCognitiefDementieAlzheimerDepressie

Brain changes

WeefselverliesHerseninfarctenWitte-stofafijkingenMicro-bloedingen.....

??

SURFnet Relatiedagen 4 oktober 2012

Bottom lineWe zullen duizenden scans moeten acquireren

en verwerken om statistisch significante modellen/resultaten te verkrijgen!

Bevolkingsonderzoek Data-explosie

Delen/combineren van data

SURFnet Relatiedagen 4 oktober 2012

Er lijkt geld beschikbaar te zijn!

Bevolkingsonderzoek is een ‘hot topic’ op de agenda van healthcare organisaties,

wetenschappelijke centra en overheden

Nationaal, Europees en wereldwijd!

SURFnet Relatiedagen 4 oktober 2012

Voorbeelden van bevolkingsonderzoek• Parelsnoer (DMZ-approach)• Aneurist (DMZ-approach)• Parisk (DMZ-approach)• Rotterdam Study (scanner connected met interne

storage ErasmusMC)• Generation R (idem)

• Meeste studies werken via de DMZ (multi-step)• VPN-netwerken is een optie• Logistiek is veelal niet optimaal • In het algemeen nog vrij kleine cohorten

SURFnet Relatiedagen 4 oktober 2012

Huidige reken- en opslag-facilititeitenComputing• Lokale clusters bij partners (veelal circa 250 cores)• SARA (Life-science) grid faciliteiten (> 7000 cores)• HPC-Cloud (nieuwe versie released in oktober 2011)• SARA Super Computing Faciliteiten (e.g. LISA)

Opslag• Lokaal bij onderzoeksgroepen (BIGR; 70 TeraBytes)• DMZ-servers bij verscheidene ziekenhuizen/partners• ErasmusMC Digital Research Archive (EDRA; 150+ TB)• SARA Grid-Storage (Disk/tape; SRM-protocol)

SURFnet Relatiedagen 4 oktober 2012

Huidige problemen

• Initiatieven zitten vast, opschalen is lastig• Elk instituut heeft zijn eigen data en software/

hardware-infrastructuur• Dataformaten, scanprotocollen, verwerking en validatie

zijn niet of nauwelijks gestandaardiseerd!• Het is lastig om beelddata en numerieke resultaten te

sharen in 1 database• Transfer van zeer grote data sets is een bottle-neck• Veelal nog 100 Mb, 1 Gb snelheden via intra/internet

SURFnet Relatiedagen 4 oktober 2012

Huidige problemen

• Latency problemen op het internet ten gevolge van het oversturen van veel (miljoenen) bestanden

• Gesloten/afgeschermde ziekenhuisnetwerken• Er is geen hoogkwalitatieve IT infrastructuur voor

bevolkingsonderzoek beschikbaar op het moment• Het combineren van klinische data & research data en

van beeld- en niet-beeld data is niet triviaal• Privacy & security zijn belangrijke issues

Wat hebben we (ons inziens) nodig?

• Een centrale opslag van data• Directe toegang van HPC-faciliteiten tot de data• Snelle en veilige verbindingen tussen beeldvormende

apparatuur (scanners), storage en computing• Lage latency / hoge snelheid / veilig / efficiënt• Overzicht over datacollecties• Centrale afhandeling van

privacy en security issues • Vermijden van onnodig gesleep

met data!

SURFnet Relatiedagen 4 oktober 2012

SURFnet Relatiedagen 4 oktober 2012

Zilver bij de ”Enlighten Your research” prijsvraag 2011

Rotterdam (ErasmusMC)Leiden (LUMC)

Delft (TU)

Multi-center aanpak

SURFnet Relatiedagen 4 oktober 2012

SURFnet Relatiedagen 4 oktober 2012

Huidige pilot

Combinatie van:

• Centrale opslag en processing• HPC-Cloud computing• Lichtpaden

‘Een lichtpad vanuit een instituut naar de Cloud is vrij uniek voor Europa.’ Geeft wel de nodige problemen(IP-ranges, geen DNS, 24 uur in the air)

EYR Configuratie

SURFnet Relatiedagen 4 oktober 2012

SURFnet Relatiedagen 4 oktober 2012

Koppeling blijkt lastig

• Overlappende IP-ranges• Niet met elkaar pratende switches• Configuratie/routering/NATTEN/poorten• Er zijn meerdere partijen betrokken (onderzoekers, ICT, SURFnet, SARA)• Af en toe wat verwarring over fibers, projecten,

doelen, etc.

Koppeling Rotterdam

SURFnet Relatiedagen 4 oktober 2012

SURFnet Relatiedagen 4 oktober 2012

We willen twee scenario’s bekijken

1. Zenden naar centrale storage en triggered verwerken (het Rotterdamse gedeelte werkt; warp-experiment)

– Leiden en Rotterdam stuurt DICOM-data– Verwerking start onmiddelijk bij binnenkomst– Windows- en Linux-cores worden ‘on demand’ gedeployed– Delft bekijkt de resultaten (embedded feature spaces)

2. Vanaf de Cloud een query uitvoeren op data bij de verschillende partners (intern). Geeft extra problematiek bij het koppelen.

Koppeling Leiden

SURFnet Relatiedagen 4 oktober 2012

Mounten van de virtuele FS

SURFnet Relatiedagen 4 oktober 2012

SURFnet Relatiedagen 4 oktober 2012

Opmerkingen m.b.t. mounten FS• Disk partities van de virtuele fileserver (persistent) zijn

door Linux- en Windows-systemen te mounten.• (Auto-)mounten mogelijk naar gedeployde cores en de

servers bij de diverse partners.• VirDir (Cloud-functionaliteit) is niet te mounten op

Windows en kan niet ‘doorgemount’ worden. En VirDir is trager. Virdir wordt momenteel slechts als transport-buffer of backup gebruikt.

• Mounten in Delft en Leiden moet nog getest worden. Configuratie van de koppeling (poorten/privileges) is van belang.

SURFnet Relatiedagen 4 oktober 2012

Eerste performance testen I

Gegevens betreffende de fileserver performance:

Test A: eyr -> lichtpad -> virdirREAD: latency 143 msec bandwidth 1022 KByte/sWRITE: latency 192 msec bandwidth 254 KByte/s

Test B: eyr -> lichtpad -> virtuele fileserverREAD: latency 16 msec bandwidth 9309 KByte/sWRITE: latency 21 msec bandwidth 2314 KByte/s

De remote storage is via het lichtpad gemount

SURFnet Relatiedagen 4 oktober 2012

Eerste performance testen IILatency van het netwerk (vanuit Rotterdam):Internet: 6.02 msLichtpad: 2.21 ms(Beide tests uitgevoerd met ‘pings’)

Gegevens over de bandbreedte van het lichtpad:Avg 632 Mbit/s, Stdev 141 Mbit/sMin 313 Mbit/s, Max 936 Mbit/s

Bandbreedte van het lichtpad is redelijk tot goed, met pieken die dicht tegen de theoretische maximumcapaciteit aan zitten.

SURFnet Relatiedagen 4 oktober 2012

Privacy & security problematiek• Anonymisatie/pseudonymisatie/’defacing’

– Klinische data moet geanonimiseerd worden en eventueel gedefaced

– De meeste research data is al anoniem na acquisitie

• Het genereren van pseudo-id’s moet centraal– Verschillende patiënten met hetzelfde ZIS-nummer– Patiënten met meer ZIS-nummers – BSN is een optie om ambiguiteiten te voorkomen

• Veiligheid is een belangrijk item. Voorkomen van ongewenste personen/activiteiten op ziekenhuis- en research-netwerk!

04/10/2023

Concluderende opmerkingen met betrekking tot bevolkingsonderzoek I

• Momenteel wordt het opschalen van bevolkings-onderzoek gehinderd door het ontbreken van een geschikte, geavanceerde ICT-infrastructuur.

• Opslag en processing moeten gecentraliseerd en gestandaardiseerd worden.

• Faciliteiten moeten gebruiksvriendelijk zijn voor de participerende partners (web-based interactie)

• Verbindingen moeten snel en veilig zijn.• Mogelijke rekenfaciliteiten (bijv. LSG) moeten directe toegang

tot de data hebben.

SURFnet Relatiedagen 4 oktober 2012

04/10/2023

Concluderende opmerkingen met betrekking tot bevolkingsonderzoek II

• De infrastructuur moet een mix van klinische data en research data aankunnen, met de nodige privacy & security criteria

• Gezien de centrale opslag is er een uniform, gecentraliseerd mechanisme voor anonymisatie/ pseudonymisatie mogelijk (ontvangende proces)

• Er moet nog de nodige aandacht besteed worden aan de ontwikkeling van robuuste databases voor de opslag van ruwe (input) beelddata, bewerkte beelddata en numerieke resultaten.

Overzicht cruciaal!

SURFnet Relatiedagen 4 oktober 2012

top related