the role of libraries in data curation

Post on 18-Jan-2016

60 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

The Role of Libraries in Data Curation. Rapeepong Yamsuwan. What I want to talk about. The importance of data Infrastructure of data curation Skills needs Dataverse ‘s project. The importance of data. It’s the data, stupid. - PowerPoint PPT Presentation

TRANSCRIPT

THE ROLE OF LIBRARIES IN DATA CURATION

Rapeepong Yamsuwan

What I want to talk about

• The importance of data• Infrastructure of data curation• Skills needs• Dataverse ‘s project

The importance of data

It’s the data, stupid

• ‘astronomers are just as likely to point a software query tool at a digital sky survey as to point a telescope at the stars’ (The Economist, Feb 2010)

• ‘“It's like the invention of the telescope," Franco Moretti, a Stanford professor of English and comparative literature, says of Google Books. "All of a sudden, an enormous amount of matter becomes visible.” (The Chronicle, ‘The humanities go Google’, May 28 2010)

Gary King, 2007

“Data sometimes exist on individual researchers’ Web sites, without professional backups, off-site replication, plans for format conversion and migration, or professional cataloging.”

Pious hopes (Carole Palmer)

• 60% ‘archive’ generated or collected data (no offsite backup)

• 61% expect to keep more than 10 years

Data lost, and data never born (U Wisconsin Summary Report of the Research Data Management Study Group (2009))

‘In some cases, inadequate storage capacity is leading to loss of data: forcing some researchers to discard data from past experiments in order to make room for current ones or to avoid certain types of experiments and research altogether’

1. What is the story of your data?2. What form and format are the data in?3. What is the expected lifespan of your data?4. How could your data be used, reused, and repurposed?5. How large is your dataset, and what is its rate of growth?6. Who are potential audiences for your data?7. Who owns the data?8. Does the dataset include any sensitive information?9. What publications or discoveries have resulted from the data?10. How should the data be made accessible?

Ten Questions to Begin a Conversation With Your Faculty About Data Curation (Witt & Carlson)

Qualified gravitational pull (Green and Gutmann)

‘Most institutional repositories do not and cannot offer support for managing dataset formats over time … Policies for long-term stewardship vary among institutions, but many have developed a sliding scale of preservation promises’

Monash approach (institutional) (Treloar)

U Wisconsin proposal

‘Solutions comprised solely of expensive technology will fail, because of the underlying need to establish long-lasting cultural stability within and between the research, library, and IT communities on campus.’

Is this possible (Gabridge)?

‘libraries can develop existing liaisons with interest, passion, and strong analytical skills; or they can recruit domain experts, and teach them about excellent information science practices.’

Infrastructure of data curation

โครงสร�างพื้นฐานเพื้�อการแบ่�งปั�นและการอน�ร�กษ์�ข้�อมู�ล โครงสร�างพื้นฐานส าหร�บวงการส��งพื้�มพื้�และบทความท��

ม�ค�ณภาพื้ โครงสร�างพื้นฐานทางด้�านเทคโนโลยี�น�น จำ าเป็$นต้�องง'ายีต้'อการใช้�งาน เทคโนโลยี�ท��จำ าเป็$นในการ

ด้*งสารสนเทศจำากเคร�องมอน�เป็$นเสมอนด้วงต้าของค�ณท��ช้'วยีในการค�นหาและไม'ต้�องใช้�กระบวนพื้�เศษในการค�นหาหน�งสอหรอบทความ

โครงสร�างพื้นฐานเพื้�อการแบ่�งปั�นและการอน�ร�กษ์�ข้�อมู�ล ในทางต้รงก�นข�าม ข�อม/ลไม'ได้�ถู/กจำ�ด้ระบบให�ม�ความ

ป็ลอด้ภ�ยีมากน�ก ข�อม/ลเช้�งว�ช้าการส'วนใหญ่'ไม'ได้�ป็รากฏในแหล'งข�อม/ล

สาธารณะ ไม'ม�การส ารองข�อม/ลท��ม�ค�ณภาพื้ ข�อม/ลส'วนใหญ่'จำะป็รากฏอยี/'ไม'นานน�ก ข�อม/ลท��สร�าง

ข*นนานกว'า 5 – 10 ป็4ไม'สามารถูเข�าถู*งได้�

ส��งที่!�จำ#าเปั$นส#าหร�บ่โครงสร�างพื้นฐานในการอน�ร�กษ์�ข้�อมู�ล พื้วกเราได้�ร'างส��งจำ าเป็$นไว� 8 ข�อ หากได้�ผล ก6จำะ

สามารถูป็ร�บป็ร�งโครงสร�างพื้นฐานการอน�ร�กษ�ข�อม/ลได้�อยี'างมากและเพื้��มป็ระส�ทธ�ภาพื้ของการส�อสารในวงการด้�านว�ช้าการ(scholarly community)

การยีอมร�บ บทบาทหล�กของวารสารเช้�งว�ช้าการ(scholarly journal)ช้'วยีผ/�

แต้'ง(author)ในการสร�างข�อม/ลให�ส�มพื้�นธ�ก�บบทความท��ต้�พื้�มพื้�แล�ว ให�ใช้�ได้� และผ/�แต้'ง(author)ต้�องเข�ยีนข�อม/ลให�เป็$นท��ยีอมร�บอยี'าง

เป็7ด้เผยีในทางท��ช้�ด้เจำนมากกว'าป็8จำจำ�บ�นม� ความเช้�อถูอของการอ�างอ�ง(citation credit)ควรจำะแบ'งสรรให�ท�งบทความต้�นฉบ�บ

และข�อม/ล วารสาร(journals)จำะต้�องไม'คล�มเครอและท าต้ราให�ก�บ หน'วยีงานท��สร�าง แม�ว'าในขณะท��ใช้�บร�การข�อม/ลส'วนใหญ่'และแหล'ง

อ�น ผ/�แต้'ง(author) ควรม�การเก6บต้�นฉบ�บ ของต้นเองและเร�องท��ต้� พื้�มพื้�บนหน�าเว6บไซต้�ของต้นเอง

การเผยีแพื้ร'สาธารณะ ผ/�ใช้�ไม'ต้�องได้�ร�บค ายี�นยีอมจำากผ/�ป็ระพื้�นธ�แต้'ผ/�

ป็ระพื้�นธ�ต้�องยีอมร�บข�อต้กลงมาก'อนท��จำะม�การเผยีแพื้ร'บทความ

การอน�ญ่าต้ บ�คคลท��เข�าถู*งข�อม/ลต้�องได้�ร�บการอน�ญ่าต้จำากผ/�ถูอครองกรรมส�ทธ�;

โด้ยีต้รง จำ าเป็$นต้�องม�ส�ทธ�;, ในการเผยีแพื้ร'และเก6บข�อม/ล ท�งน�รวมไป็ถู*ง การลงลายีมอช้�อในข�อต้กลงเพื้�ออน�ญ่าต้ ( เช้'น การต้กลงเร�องการให�

หล�กป็ระก�นก�บผ/�ท��ม�ส'วนร'วมในงานว�จำ�ยี), ลงลายีมอช้�อสม�ด้เยี��ยีมอยี'างเสมอภาค, เป็$นสมาช้�กของสถูาบ�นเพื้�อการเก6บข�อม/ล (คล�ายีก�บสมาคมส าหร�บงานว�จำ�ยีและส�งคมระหว'างมหาว�ทยีาล�ยี: Interuniversity Consortium for Political and Social Research [ICPSR]

หรอ Roper Center) หรอแม�แต้'การจำ'ายีค'าธรรมเน�ยีม ท�งน�ความจำ าเป็$นท��แต้กต้'างก�นอาจำน ามาใช้�ก�บช้�ด้ข�อม/ลในป็ร�มาณท��ต้'างก�น

การต้รวจำสอบ วารสาร(journal)และน�กว�จำ�ยีต้�องแน'ใจำว'าข�อม/ลส�มพื้�นธ�ก�บบทความท��

เผยีแพื้ร'แต้'ละบทความต้�องเหมอนเด้�มและไม'สามารถูเป็ล��ยีนแป็ลง โด้ยีป็ราศจำากการค�นหา น�กว�จำ�ยีในอนาคต้ต้�องสามารถูต้รวจำสอบ

ข�อม/ลท��ได้�มาว'าเป็$นความจำร�ง ซ*�งผ/�แต้'ง(author)ได้�อน�ญ่าต้ด้�วยี เหต้�ผลบางป็ระการ ต้�องแน'ใจำว'าวารสารเป็$นอ านาจำเด้6ด้ขาด้ในอนาคต้

แม�ว'าข�อม/ลบางจำ�ด้ถู/กเป็ล��ยีนไป็เป็$นร/ป็แบบใหม' ด้�งน�น พื้วกเราต้�องได้� ข�อม/ลจำร�งในการต้รวจำสอบด้�วยีโป็รแกรม SPSS เพื้�อว�เคราะห�ท��ข�อม/ล

ทางสถู�ต้�และใช้�เคร�อง Pc mac หรอ Linux เทป็แม'เหล6กหรอแผ'น DVD ในการท างานจำร�งเหมอนผ/�ป็ระพื้�นธ�

ความต้'อเน�อง น�กว�จำ�ยีต้�องม�ความสามารถูในการค�นหาข�อม/ล เข�าถู*งท าให�ช้�ด้ข�อม/ล

ใช้�ได้�และส�มพื้�นธ�ก�บบทความท��ยี�งอภ�ป็รายีอยี/'และต้รวจำสอบว'าช้�ด้ ข�อม/ลเป็$นช้�ด้เด้�ยีวก�นก�บท��ผ/�แต้'ง (author) ใช้�

วารสาร(journals) และช้�มช้นด้�านว�ทยีาศาสต้ร� (scientific community)จำ าเป็$นต้�องต้�ด้ต้ามบางข�นต้อนซ*�งสร�างความม��นใจำให�

ก�บพื้วกเราว'า ความจำร�งเหล'าน�จำะยี�งคงอยี/'ไม'ม�ว�นส�นส�ด้ ไม'ว'าม�การเป็ล��ยีนแป็ลงใด้เก�ด้ข*นในข�นต้อนของการกระจำายีข�อม/ลและการเข�าถู*งเครอข'ายี, ร/ป็แบบการเก6บข�อม/ล, โป็รแกรมข�อม/ลพื้นฐานและสถู�ต้�,

ระบบป็ฏ�บ�ต้�การ และอ�ป็กรณ�คอมพื้�วเต้อร�(computer hardware)

ความง'ายีต้'อการใช้�งาน ระบบง'ายีต้'อการใช้�งานท�ง ผ/�เร�ยีบเร�ยีง ผ/�ต้รวจำสอบ

แก�ไข ผ/�แต้'ง รวมท�งการจำ�ด้การซอฟแวร�และฮาร�ด้แวร�ต้ามมาต้รฐานการจำ�ด้เก6บ

การค��มครองทางกฎหมายี จำ านวนวารสารม�มากมายีในการจำ�ด้เก6บและทางท��จำะเผยีแพื้ร'ข�อม/ลบทความส'วนใหญ่'

อยี/'บนเว6บของผ/�แต้'งไม'ม�การต้รวจำสอบจำากคณะท างานการพื้�จำารณาใหม'ไม'ได้�ลง นามจำากผ/�แต้'ง ซ*�งผ�ด้กฎหมายีในการเผยีแพื้ร' ส าน�กพื้�มพื้�ม�ว�ธ�การในการต้�ด้ต้'อขอ

ล�ขส�ทธ�;และขอต้�พื้�มพื้� แต้'ร/ป็แบบการโอนล�ขส�ทธ�;ม�มาต้รฐานไม'ครอบคล�มถู*งส�ทธ�;ส��ง ต้�พื้�มพื้� เพื้ราะหากข�อม/ลไม'ได้�ถู/กต้รวจำสอบให�ถู/กต้�องอาจำม�กรรมส�ทธ�;, ท าลายีช้�อ

เส�ยีง, ข�อม/ลไม'เพื้�ยีงพื้อหยีาบคายีหรอเผยีแพื้ร'อยี'างผ�ด้กฎหมายี แน'นอนว'าวารสาร(journal)ไม'ควรคาด้หว�งท��จำะว'าจำ�างน�กกฎหมายีหรอต้�ด้ต้'อก�บคณะ

กรรมการพื้�จำารณาภายีใน ด้�งน�นป็8ญ่หาน�จำ าเป็$นต้�องหาทางแก�ไข ซ*�งไม'ท าให� มหาว�ทยีาล�ยี ส าน�กพื้�มพื้� หรอองค�กรท��เก��ยีวข�องก�บวารสารม�ความเส��ยีงต้'อ

กฎหมายี อ�กอยี'างหน*�ง คอ ข�อม/ลท��จำ�ด้ท าข*นมาด้�อยี/'แล�วด้�งน�นวารสารก6รวบรวมมาน�สามารถูใช้�ป็ระโยีช้น�ในการท างานได้�

Skill Needs

six areas of knowledge and skills:

1.Understanding software,2.Project planning and management,3.Collection definition,4.Metadata guidance,5.Submission review,6.Author training.

Competencies Required for Digital Curation: An Analysis of JobAdvertisements, (2013), Kim

Knowledge, Skills and Abilities Based on the requirements for the positions,

Knowledge, Skills, and Abilities (KSAs)

Count Percentage

Working in an Information TechnologyIntensive Environment

87 50%

Standards and Specifications 87 50%

Tools and Applications 77 45%

Project Management 72 42%

Functional Skills for Curation 70 40%

Personal and Interpersonal Skills

69

Knowledge, Skills, and Abilities (KSAs)

Count Percentage

Research and Trends 55 32%

Working Knowledge for Curation

50 29%

Liaison and Support 42 24%

Library/Archives Skills 34 20%

Professional Development 22 13%

Other Domain Knowledge 7 4%

Dataverse ‘s project

Problem?

What Is the Dataverse Network?

• The Dataverse Network allows researchers,journals and archives to share, cite, and preserve research data

• The Dataverse Network is the successor of the VDC (Virtual Data Center), also developed at Harvard

5 Key Features

1. Exchange Data Share Across Dataverse Networks and Other Archives Search, Browse, Analyze World Data Complex Object Relationships

Share Across Dataverse Networks and Other Archives

• A DVN may “harvest” metadata from other installed DVNs (or any OAI server Archive) to allow searching locally for their studies; Data is then retrieved remotely

Dataverse-DSpace Interoperability

Dataverse

Agent

(Via OAI)

Study URL

DSpace

DDI Record/ Content

SIP

Person sends URL

Ingest packager

Study URL

Example: Item in Dataverse

Example: Item in DSpace

Search, Browse, Analyze World Data

Complex Object Relationships

2. Security

5 Key Features

UNF calculated from the content not the file

(i.e. UNF:3:6:ZNQRI14053UZq389x0Bffg?==)

i.e. hdl:10527/abc

3. Validation & Verification

UNF

Handle ID

Share, Cite, Preserve

• Create a new standard for citing quantitative dat sets

5 Key Features

4. Statistics Analysis Online R Analysis

5 Key Features5. Virtual Host

http://uc.utcc.ac.th/dvn.html

Case Studies: UC-UTCC Research Center

http://department.utcc.ac.th/research/dbresearch/dataverse.html

Case Studies: Research Support Office

http://utcc2.utcc.ac.th/sealac/research.html

Case Studies: SEA-LAC Trade Center

top related