archive it2b

56
数字档案开发利用前沿 刘炜 上海图书馆 1 1377星期

Upload: keven-liu

Post on 31-May-2015

207 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Archive it2b

数字档案开发利用前沿

刘炜上海图书馆

113年7月7⽇日星期⽇日

Page 2: Archive it2b

213年7月7⽇日星期⽇日

Page 3: Archive it2b

•图书馆:人类精神创造的记录收藏之所

•档案馆:人类活动的选择性记录收藏之所

•博物馆:人类有特定目的的实物收藏之所

313年7月7⽇日星期⽇日

Page 4: Archive it2b

Library Archive Museum

图书馆、档案馆、博物馆构成传统社会人类所有社会

知识(记忆)的总和。

413年7月7⽇日星期⽇日

Page 5: Archive it2b

档案馆与图书馆

资料性 凭证性

513年7月7⽇日星期⽇日

Page 6: Archive it2b

干部人事档案与一般文书档案

干部人事档案 普通(文书)档案

目的 人事管理,内部 凭证/资料, 利用

立卷 以人为标目 各类文件皆可立档

真实性以当前情况为真,历史错误必须纠正

以保留原貌为真

生命周期 与干部任职周期一致根据档案管理要求,长期保存

存档形式不断积累,因人而变,动态

静态,原貌

613年7月7⽇日星期⽇日

Page 7: Archive it2b

大 纲

档案信息化一般过程、方法、目标、现状与问题等

数字档案前沿:数字人文和大数据

713年7月7⽇日星期⽇日

Page 8: Archive it2b

什么是档案?

档案:人类一切活动的记录留存。Who:国家机构、社会组织以及个人;

When:过去和现在;

What:政治、军事、经济、科学、技术、文化、宗教等活动;

Why:对国家和社会有保存价值;

How:各种文字、图表、声像等不同形式和载体。

813年7月7⽇日星期⽇日

Page 9: Archive it2b

什么是档案?

过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。

——中华人民共和国档案法

913年7月7⽇日星期⽇日

Page 10: Archive it2b

档案的分类

三种分类角度:

•概念分类:为了具体认识档案

•实体分类:为了科学管理档案

•检索分类:为了准确查寻档案。

1013年7月7⽇日星期⽇日

Page 11: Archive it2b

干部人事档案的数字化管理

•纸本为主,计算机辅助管理

•数字档案与纸本互为备份;

•数字档案为主,纸本为辅。

1113年7月7⽇日星期⽇日

Page 12: Archive it2b

档案事业规划目标

两个翻一番:档案馆面积翻一番、档案藏量翻一番一个翻两番:纸质档案数字化数量翻两番。

1213年7月7⽇日星期⽇日

Page 13: Archive it2b

档案信息化

“所谓档案信息化,就是在国家档案行政管理部门的统一规划和组织下,在档案管理活动中全面应用现代信息技术,对档案信息资源进行处置、管理和提供利用服务。”

——杨公之:《档案信息化导论》,中国档案出版社 2001年9月第一版

1313年7月7⽇日星期⽇日

Page 14: Archive it2b

档案信息化基本内容

• 基础设施建设

• 档案信息资源建设:目录建设、数字化

• 档案管理系统及网站建设

• 管理制度及标准规范建设

1413年7月7⽇日星期⽇日

Page 15: Archive it2b

档案馆网站国家档案局:www.saac.gov.cn。Alexa 流量排名: 全球914,125   中国 93,506  外链数: 767 上海档案信息网:www.archives.sh.cn。Alexa流量排名: 全球2,215,990 无国内排名,外链数: 79 浙江省档案馆:www.zjda.gov.cn。Alexa流量排名: 全球644,615   中国: 77,448  外链数: 97 

国家图书馆:www.nlc.gov.cn。Alexa流量排名: 全球 50,129   中国: 5,756  外链数: 3,338 上海图书馆:www.library.sh.cn。Alexa流量排名: 全球 88,223   中国: 10,474  外链数: 817 

1513年7月7⽇日星期⽇日

Page 16: Archive it2b

档案数字化

把原本以纸张载体(或缩微)为主要形式的档案转化成计算机可以处理的形式。一般须经过原件扫描和元数据加工,通过档案计算机管理系统来管理和使用。原生数字档案的收集也可作为数字档案进行管理和提供服务。

1613年7月7⽇日星期⽇日

Page 17: Archive it2b

档案数字化的优点

管理和使用方便快捷,能极大地促进利用,从而使档案馆的价值得到彰显;

支持远程访问,支持与上级及兄弟单位共享,甚至系统和区域内的档案馆藏连为一体;

数字化之后的档案作为原始档案的代表物,能够减少原件的使用从而促进原件的保存。

减少长期存储的成本,以及减少存储空间。

1713年7月7⽇日星期⽇日

Page 18: Archive it2b

档案数字化的缺点

计算机技术进步迅速,更新换代频繁,档案系统需要不断升级,以适应发展;

数字载体可靠性差,尚无法满足长期存储需求(目前一般依靠不断迁移升级存储来实现);

易于拷贝和篡改也带来安全性问题;

1813年7月7⽇日星期⽇日

Page 19: Archive it2b

1913年7月7⽇日星期⽇日

Page 20: Archive it2b

如何看待档案数字化

数字化不应看成是其它方式的替代,而应该作为一种补充。更好地保存原件。缩微技术在长久保存方面依旧有其难以替代的优势。保存原始资料提高了原始资料作为证据的内在价值。

2013年7月7⽇日星期⽇日

Page 21: Archive it2b

明确数字档案对象

��

������ ���

�����

��

����

��

��

���

�������

2113年7月7⽇日星期⽇日

Page 22: Archive it2b

应用相关国际标准

�*��&

���$��"

�!#

� ��

ISO 15489 ISO

23081

ISO 19005-

1 ISO 15836

��%

+)����

ISO 17799

ISO 18492

����

��������

ISO 14721 �,�

���

IEC 82045

ISO 19005-

1

�����

��'�����&

���� � ��% � ��(

ISO 9001 ���"%

2213年7月7⽇日星期⽇日

Page 23: Archive it2b

档案事业信息化问题

动力机制问题目标需求问题资源投入问题人才培养问题技术应用问题

2313年7月7⽇日星期⽇日

Page 24: Archive it2b

档案1.0封闭不透明以管理为中心满足一方需要害怕技术革新不重视服务效益档案员作为看门人具有权威性只喜欢“完美的”产品档案员因博学而重要传统坐等用户上门

档案2.0开放透明以用户为中心崇尚标准化拥抱新技术重视服务效益和社会影响档案员作为社会进步助推器认可渐进完善型产品档案员因工作而美丽创新与灵活性不断寻求改变以吸引新用户

走向档案2.0

2413年7月7⽇日星期⽇日

Page 25: Archive it2b

为什么要档案2.0

增强职业性和专业性促进技术进步带来更加广泛的用户实现更大的职业价值

2513年7月7⽇日星期⽇日

Page 26: Archive it2b

档案2.0五原则

档案是为了利用的为档案找用户为用户找档案节省用户时间档案馆是一个不断发展的有机整体

2613年7月7⽇日星期⽇日

Page 27: Archive it2b

数字人文

数字档案前沿

2713年7月7⽇日星期⽇日

Page 28: Archive it2b

什么是“人文”?

人文,是指“人文科学”(Humanities)

人文科学,通常指语言学(古代或现代),文学,历史,哲学,宗教,视觉和行为艺术

有时还包括人类学、地区研究、传播学、文化研究、法律等。

在我国,人文与社会科学通常不作严格区分

2813年7月7⽇日星期⽇日

Page 29: Archive it2b

什么是数字人文?

数字人文,是用计算机的方法研究人文科学

早期的例子如文献计量学,现在依赖于新的基础设施

依赖于对材料的细粒度管理,即对知识内容单元进行提取和重新组织、检索及可视化

海量、大范围的人文计算能够看到前人所无法看到的东西,得出以前不可能得出的结论

数据和方法,是数字人文的两大支柱

2913年7月7⽇日星期⽇日

Page 30: Archive it2b

3013年7月7⽇日星期⽇日

Page 31: Archive it2b

人死后的数字档案怎么办?

3113年7月7⽇日星期⽇日

Page 32: Archive it2b

互联网档案

3213年7月7⽇日星期⽇日

Page 33: Archive it2b

3313年7月7⽇日星期⽇日

Page 34: Archive it2b

3413年7月7⽇日星期⽇日

Page 35: Archive it2b

3513年7月7⽇日星期⽇日

Page 36: Archive it2b

各国的数字存档计划

•网站存档

•电邮存档

•数据Data存档

•多媒体存档

•社会性网络存档

•短信存档

• ......

3613年7月7⽇日星期⽇日

Page 37: Archive it2b

3713年7月7⽇日星期⽇日

Page 38: Archive it2b

英美政府数据公开计划

3813年7月7⽇日星期⽇日

Page 39: Archive it2b

3913年7月7⽇日星期⽇日

Page 40: Archive it2b

4013年7月7⽇日星期⽇日

Page 41: Archive it2b

数字人文基础设施

Digital Infrastructure研究机构、网络、计算设施、人员、数据资料

4113年7月7⽇日星期⽇日

Page 42: Archive it2b

盛宣怀档案库

盛宣怀(1844年11月4日-1916年4月27日)

4213年7月7⽇日星期⽇日

Page 43: Archive it2b

盛宣怀档案本体•数量:17.8万件,1亿多字•时间:自1856年至1936年跨度80年(前20年为其父亲盛康所记,死后20年为后人所记)•类型:日记、信函、文稿、帐册、上谕、奏折、文件登记簿、号簿、目录、账册、单据、发票、剪报、请帖等等。•盛宣怀家族史、盛宣怀与赈灾、盛宣怀与铁路、盛宣怀与近代教育、盛宣怀与西学、盛宣怀与晚清官场等•涉及重大事件如洋务运动、义和团运动、辛亥革命、中日战争、中外商务谈判、四川保路运动、东南互保事件等;•涉及人物如孙中山、李鸿章、黄兴、谭嗣同、梁启超、翁同和、沈葆桢、郑观应、张之洞、左宗棠、丁汝昌、袁世凯、辜鸿铭、胡雪岩、詹天佑等约三千人;

王元化先生说:“‘盛档’原件如能公布,将能补史之阙,纠史之偏,正史之讹。”

4313年7月7⽇日星期⽇日

Page 44: Archive it2b

数字视频档案如何⽀支持⼈人⽂文研究4413年7月7⽇日星期⽇日

Page 45: Archive it2b

趋 势

文献-数据:细粒度化字符-语义:知识化局部-网络:全球化分散-聚集:规模化(大数据)文字-图像:可视化

4513年7月7⽇日星期⽇日

Page 46: Archive it2b

大数据

数字档案前沿

4613年7月7⽇日星期⽇日

Page 47: Archive it2b

Source:(Kelly(Hodgkins(h4p://gizmodo.com/5813875/whatBhappensBinB60BsecondsBonBtheBinternet(

4713年7月7⽇日星期⽇日

Page 48: Archive it2b

4813年7月7⽇日星期⽇日

Page 49: Archive it2b

YottabyteZettabyteExabyte

Petabyte

兆、京(吉)、太、拍、艾、泽、尧字节4913年7月7⽇日星期⽇日

Page 50: Archive it2b

There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing.

从开天辟地至2003年,人类大约总共生产了5艾字节(exabytes)的信息。现在我们每两天就制造这么多信息。

----Eric Schmidt, Former Google CEO,

Techonomy Conference, August 4, 2010

http://techonomy.typepad.com/blog/2010/08/google-privacy-and-the-new-explosion-of-data.html

5013年7月7⽇日星期⽇日

Page 51: Archive it2b

什么是大数据?“Big data is data that exceeds the processing capacity of conventional database systems. The data is too big, moves too fast, or doesn’t fit the strictures of your database architectures. To gain value from this data, you must choose an alternative way to process it.”

大数据是超出了传统数据库系统处理能力的数据,由于体量太大、变化太快或很难削足适履应用于现有数据库架构,必须考虑其它处理手段,才能充分发挥价值。

----Edd Dumbill, From O’Reilly Reference: “What is big data? An introduction to the big data landscape.”, Edd Dumbill, http://

radar.oreilly.com/2012/01/what-is-big-data.html

5113年7月7⽇日星期⽇日

Page 52: Archive it2b

大数据的特征

VarietyFrom IBM

Volume

VelocityValue

5213年7月7⽇日星期⽇日

Page 55: Archive it2b

数字档案应用的将来

三级档案系统:脱机系统,政务联网,扩展应用系统,分别规定不同角色权限,实现不同功能需求数据同步根据要求分级别实现扩展应用采用开放数据方式,提供注册、认证等API服务整个系统作为政府公共数据平台的一部分,提供各类增值服务接口

5513年7月7⽇日星期⽇日

Page 56: Archive it2b

谢谢!

5613年7月7⽇日星期⽇日