herfstschool tools voor onderzoekers yvd v
DESCRIPTION
Presentation by Ysbrand van der Veen at SURFacademy Autumn School, Tools for Researchers, 2-4 november 2009, Leiden.TRANSCRIPT
Herfstschool Tools voor Onderzoekers
SURF Academy
2 – 4 november 2009
Universiteit Leiden
INLEIDING OP ‘TOOLS VOOR ONDERZOEKERS’ OPSLAAN EN DELEN VAN ONDERZOEKSDATA
Ysbrand van der Veen
Uitgangspunten bij deze presentatie
• opslaan van onderzoeksdata heeft hergebruik van de data ten doel
• onderzoeksdata dienen zowel longitudinaal door de onderzoeker zelf als binnen een discipline of multidisciplinair herbruikbaar te zijn i.e. een ‘Spel zonder grenzen’ in termen van tijd, organisatie en discipline
Randvoorwaarden
• instellingen en sponsoren (o.a. overheden) onderkennen dat herbruikbaarheid kosten met zich mee brengt – ‘de kost gaat voor de baat uit’
• onderzoekers onderschrijven dat doelstellingen rondom hergebruik ‘meerwerk’ voor hen meebrengt i.v.m. de ontsluiting en representatie van de onderzoeksdata
• naadloze samenwerking business-IT met business i.e. onderzoekers ‘in the lead’
Inhoud van de presentatie
A. Prepareren
B. Baseren
C. (je) Realiseren
D. Traceren
E. Presenteren
A. Prepareren: welke (onderzoeks)data sla je op, voor
wie en waaroma) selectiecriteria
b) doelstelling (waarom)
c) doelgroep (voor wie)• speciale aandacht voor ‘tijdloze’ representatie van
de organisatie van de wetenschap
d) a. t/m c. te representeren in metadata bij de onderzoeksdata vanwege gebruik door derden (n.b. ook redenen van uitsluiting expliciet vermelden)
1999: de wereld produceert tussen 1 and 2 exabytes met unieke informatie per jaar, d.w.z. ongeveer 250 megabytes voor iedere man, vrouw, kind en baby op aarde. Eén exabyte is een miljard gigabytes of 1.000.000.000.000.000.000 i.e.1018 bytes. Gedrukte documenten van alle denkbare types zijn slechts .003% van het totaal
2002: in 2002 alleen is ongeveer 5 exabytes aan nieuwe informatie gegenereerd via de print, film/tv, magnetische and optische opslag systemen op de wereld, d.w.z. ongeveer 800 megabytes voor iedere man, vrouw, kind en baby op aarde. De aanwas aan nieuwe, unieke informatie bedroeg ongeveer 30% per jaar tussen 1999 and 2002. Er zijn 500.000 Libraries of Congress voor nodig om 5 exabytes te evenaren! In de Library of Congress bibliotheek bevinden zich 19 miljoen boeken and 56 miljoen manuscripten
2010: tussen 2006 en 2010 zal de jaarlijkse hoeveelheid aan het digitale universum toegevoegde hoeveelheid informatie toenemen tot 988 exabytes (i.e. het tijdperk van praten in zetta- en yottabytes is nabij)
‘How much information’, School of Information Management and Systems, University of California, Berkeley
‘A Forecast of Worldwide Information Growth Through 2010’, IDC, maart 2007
Selectie hoe dan ook noodzakelijk
B. Baseren: waar, hoe sla je de data op
• hosting van de nieuwe digitale data-bibliotheek; creëren van het digitale equivalent van de UB en de UB catalogus
• beheer vraagstuk van de nieuwe digitale bibliotheek
• standaards voor dataopslag en metadata• speciale aandacht voor ‘houdbaarheid’ van
mediaformaten zoals mp3, mpeg4, RAW e.d.• standaards compliant tooling (synchrone en
diachrone dimensie)
B. Waar en hoe sla je de data op
We duizenden jaren oude kleitabletten lezen, duizend jaar oude boeken en honderd jaar oude microfilms, maar kunnen we straks onze moderne media nog lezen variërend van VHS tapes tot Blueray disks en harde schijven ?
C. (je) Realiseren: het gaat om artefacten (1)
• die op een bepaald moment in de tijd• een bepaalde selectie uit de werkelijkheid
representeren
C. (je) Realiseren: het gaat om artefacten (2)
A. Contextsensitiviteit• paradigma van waaruit is onderzocht• welke classificatie (bijv. ICD-10, ICPC), taxonomie of ontologie ligt ten
grondslag; bijv. bij natuurwetenschappelijk onderzoek de explicitering van het bestudeerde fenomeen binnen de fysieke werkelijkheid (verg. Boeing handleiding)
• welke algoritmes zijn gebruikt bij het processen van de data• welke instrumenten zijn toegepast om de data te verzamelen • relatie naar publicatie(s)• e-mail als referentie ?
B. 'tijdloosheid' technisch• zijn de data echt onafhankelijk van enige applicatie opgeslagen• duurzaamheid van de 'drager' (papier, microfilm, tape, harde schijf, DVD etc)• 'tracking and tracing' (data een soort watermerk meegeven zodat de
herkomst altijd duidelijk is’; persistentie bronnen)– vanwege bronvermelding (ere wie ere toekomt)– vanwege herkenbaarheid herkomst (i.v.m. hergebruik data door de decennia
heen in potentieel steeds complexere mengelingen van data) en referenties (wetenschappelijke publicaties)
C. (je) Realiseren: het gaat om artefacten (3)
C. ‘tijdloosheid’ bronnen• publicaties zullen in toenemende mate non-textueel danwel cross-mediaal zijn• speciaal voor de menswetenschappen geldt dat zij fenomenen bestuderen die
steeds meer in de digitale wereld worden gerealiseerd en gerepresenteerd met alle gevolgen van dien voor de ‘houdbaarheid’ van de bronnen (websites, e-books, mp3, user generated content, etc.) waaraan onderzoeksdata refereren
D. Traceren: vindbaarheid en doorzoekbaarheid van
datacollecties• vindbaarheid door derden (maar bijv. tien jaar later
ook door jezelf) is afhankelijk van rijke vormen van metadateren
• en van metametadateren want metadateren (d.w.z. metametadatateren) van de metadata wordt van toenemend belang
• coderen (conform classificaties) en metadateren/metadateren kunnen door de vereiste expertkennis van de onderzoeksdata (n.b. artefacten) niet aan de (faciliterende) ‘bieb' overgelaten worden
E. Presenteren: van tools, metadata en
onderzoeksgegevens (1)• gebruikersvriendelijke tooling met een hoge
gemaksfactor voor onderzoekers is nodig t.b.v. coderen (bijv. diagnotische classificatie) en metadateren / metametadateren
• in nauwe samenwerking tussen business en IT zullen robuuste controlled vocabularies en ontologies ontwikkeld moeten worden
• in zowel het academisch onderwijs als in opleidingen van aankomende onderzoekers zullen coderen, controlled vocabularies en metadateren hoger op de prioriteitenlijst moeten komen te staan
E. Presenteren: van tools, metadata en
onderzoeksgegevens (2)• ‘scanbare’ vormen van fysieke (re)presentatie
van onderzoeksdata en metadata zijn nodig om onderzoekers snel benodigde informatie te kunnen laten vinden