digital arkivering och lagring

57
VASA YRKESHÖGSKOLA Kai Martonen Digital Arkivering och Lagring Företagsekonomi och turism 2008

Upload: majorwoody

Post on 18-Dec-2014

2.011 views

Category:

Documents


0 download

DESCRIPTION

My thesis from 2009 on digital archiving and storage

TRANSCRIPT

Page 1: Digital Arkivering och Lagring

VASA YRKESHÖGSKOLA

Kai Martonen

Digital Arkivering och Lagring

Företagsekonomi och turism

2008

Page 2: Digital Arkivering och Lagring

1

VASA YRKESHÖGSKOLA

Utbildningsprogrammet för företagsekonomi

ABSTRAKT

Författare Kai Martonen

Titel Digital Arkivering och Lagring

År 2008

Språk svenska

Sidantal 52

Handledare Kenneth Norrgård

Syftet med detta lärdomsprov är att ge läsaren insikt i riskerna med modern

datalagring och vilka lösningar som finns tillgängliga för enskilda konsumenter

och skapare av digital information. Arbetet omfattar teorier om hur digital

information uppkommer och hur den ändrat förfarandet med hänsyn till lagring

och arkivering. I teoridelen presenteras även tidiga, nutida och framtida

lagringslösningar med deras för och nackdelar. I den praktiska delen av arbetet

undersöks en ny lovande lagringsmetod genom cloud computing.

Ämnesord Data, Lagring, Digital, Information, Cloud, Computing

Page 3: Digital Arkivering och Lagring

2

VAASA POLYTECHNIC

Utbildningsprogrammet för företagsekonomi

ABSTRACT

Author Kai Martonen

Topic Digital Archiving and Storage

Year 2008

Language Swedish

Pages 52

Name of Supervisor Kenneth Norrgård

The aim of this thesis is to examine the risks associated with modern data

storage and what solutions are available for the consumer and creators of digital

information. The theory part examines the origins of digital information and

how it has changed procedures when it comes to storage and archiving. Early,

modern and future storage solutions are also explained in the theory part.

Finally, this thesis practically examines a promising storage method using cloud

computing.

Keywords Data, Storage, Digital, Information, Cloud, Computing

Page 4: Digital Arkivering och Lagring

3

INNEHÅLL

ABSTRAKT

ABSTRACT

1 INLEDNING 6

1.1 Problemställning 7

1.2 Avgränsning och disposition 7

1.3 Datasäkerhet 7

1.4 Bakgrund 8

2 DIGITALISERING 9

2.1 Ursprunget 10

2.2 Digitala bibliotek 10

2.3 Digitala arkiv 11

2.4 Digitaliseringsmetoder 12

2.5 Kostnadseffektivitet och globalisering 13

2.6 Standardiserade filformat 14

2.6.1 OOXML vs. ODF 15

3 LAGRINGSMEDIA 16

3.1 Magnetisk media 16

3.1.1 Magnetband 17

3.1.2 Hårdskivor 18

3.2 Flashbaserad media 21

3.2.1 SSD minne 22

3.3 Optisk media 23

3.3.1 CD 23

3.3.2 DVD 24

3.3.3 Blu-ray 24

3.4 Framtidens media 25

3.5 Digital lagringskostnader 26

Page 5: Digital Arkivering och Lagring

4

4 LÖSNINGAR 27

4.1 Lagringsklimat 28

4.2 Hårdvarulösningar 29

4.2.1 RAID 29

4.2.1.1 RAID 0 30

4.2.1.2 RAID 1 31

4.2.1.3 RAID 5 32

4.2.2 Nätverkslagring 33

4.2.2.1 DAS 34

4.2.2.2 NAS 35

4.2.2.3 SAN 36

4.2.3 Cloud computing 37

5 IMPLEMENTERING AV AMAZON S3 OCH JUNGLE DISK 39

5.1 S3-tjänsten 41

5.2 Jungle Disk 46

6 SLUTORD 53

KÄLLFÖRTECKNING

Page 6: Digital Arkivering och Lagring

5

1 INLEDNING

Den tidigaste arkiveringen av digital information gjordes av amerikanska

rymdforskningsinstitutet NASA. Från 50-talet och framåt har de varit i spetsen

för hur data lagras och används. Rymdsonder skickades ut i rymden och dessa

sände tillbaka oersättlig information till jorden, där de lagrades på magnetband

för framtida bruk. (Claesson & Larsson 2001)

Magnetbanden från rymdsonden Voyager I arkiverades i stora klimat-

kontrollerade rum för att dessa skulle hålla så länge som möjligt. Men när

forskarna ett antal år senare skulle analysera dem, visade det sig att stora delar

gått förlorade eftersom man hade glömt bort i vilket format informationen hade

sparats. (Claesson & Larsson 2001)

Några år senare var det Viking sondens tur, denna gång hade man allt under

kontroll, trodde man. När man tog fram magnetbanden märkte man att de hade

börja ruttna och istället för att utföra analyser måste man nu anlita experter för

att återskapa informationen från de förstörda banden. (Stepanek 1998)

En av dessa experter var Jeff Rothenberg som sedan detta uppdrag har jobbat på

problemet med långtidslagringen av digital information. Han myntade

ordspråket, “digital information håller för alltid, eller fem år – beroende på

vilket som kommer först”. (Stepanek 2008)

Page 7: Digital Arkivering och Lagring

6

1.1 Problemställning

I dagens samhälle lagrar vi allt mera information och det lagras allt mera

information om oss. Detta tack vare den digitala tekniken. Denna relativt nya

teknik har medfört många nya synsätt på hur information skall hanteras och

lagras för framtiden. Frågan jag ställer med detta arbete är; hur och var bör data

förvaras för att framtidssäkra informationen för kommande generationer? Hur

kan man bäst försäkra sig om att den digitala informationen som skapas idag kan

återskapas i framtiden? Vilka moderna lösningar erbjuder de bästa förhållandena

med tanke på långvarighet, säkerhet, användarvänlighet och kostnad?

1.2 Avgränsning och disposition

Ämnesområden i den teoretiska delen av detta arbete fokuserar på strategier och

lösningar gällande långtidslagring av digital information. De ämnen som arbetet

omfattar är uppkomsten av digital information, lagringshårdvara och

lagringslösningar. I den empiriska delen implementeras och analyseras en av de

senaste och intressantaste lagringslösningarna på en praktisk basis med

tillhörande observationer och kommentarer. Avslutningsvis presenteras

slutsatser och exempel på möjlig fortsatt forskning inom området.

1.3 Datasäkerhet

Datasäkerhet förknippas ofta med åtkomsten av konfidentiell information men

också allt mer med hanteringen och lagringen av informationen. Konfidentiell

information som t.ex. löner och patientjournaler lagras i databaser på servrar.

Även personlig information såsom digitala fotografier och e-post lagras ofta på

hårdskivan i hemdatorn. Det finns många områden som påverkas till olika grad

av övergången från analog till digital information, bland dessa kan nämnas

släktforskning, multimedia, bankärenden, brevväxling och till och med politiska

val i och med elektronisk röstning.

Page 8: Digital Arkivering och Lagring

7

1.4 Bakgrund

För att få ett begrepp om hur man skall gå till väga kan man se på den relativt

korta period som digital information producerats och arkiverats, vilka misstag

man begått och vad man kan lära sig av dem.

Då digital arkivering misslyckas finns det ofta en av två bidragande faktorer;

lagringsmediet är fysiskt skadat eller oläsbart på grund av dåliga rutiner, brist på

kunskap eller vilja, eller så är formaten på den digitala informationen

oanvändbar på grund av proprietära och icke standardiserade filformat. (Stander

& Merwe 2002)

Området med att framtidssäkra digital information är nytt och skiljer sig

dramatiskt från tidigare processer med analog media. Till skillnad från rutiner

gällande analog information, där passivitet är nyckeln, kräver den digitala

informationen ständig uppmärksamhet. I och med att existerande arkiverings-

metoder för digital media är relativt osäkra och ständig befinner sig i förändring,

kräver dessa med tiden, en migrering till nyare och bättre lagringsmetoder.

(Stander & Merwe 2002)

Varför övergår man då, i en allt större utsträckning, till digital information?

Hanteringen av digital information, speciellt i stora mängder, är mycket lättare

än dess analoga motpart. Till skillnad från analog media sker dessutom ingen

degradering av den digitala informationen, när man övergår till en ny

arkiveringsform eller lagringsmedia. Eftersom man med digital information kan

producera 100% identiska kopior skapas en redundans som hittills varit omöjlig

när det gäller analog information.

Page 9: Digital Arkivering och Lagring

8

2 DIGITALISERING

Digitalisering, som är en stor bidragande faktor till efterfrågan på stabila

långtidslagringslösningar, innebär att man överför analog information till ett

digitalt format. Digital information kan består av binär data, dvs. ettor och

nollor, som inte förändras eller degraderas vid migration från ett lagringsmedia

till ett annat. Motsatsen är analog information där data representeras av fysiska

förändringar i mediet, t.ex. LP-skivor och målningar. Varje kopia av analog

information är olika originalet och i de flesta fallen av sämre kvalitet.

(Emanuelsson 2006)

Idag föds nästan 100% av all ny information digitalt, allt från röntgenplåtar till

sjökort. En stor del av informationen som föds digitalt reproduceras även

analogt, t.ex. böcker, men i en allt större utsträckning finns det information som

bevaras digitalt under hela dess livstid, t.ex. digitala fotografier. (Smith 2003: 4-

10)

Page 10: Digital Arkivering och Lagring

9

2.1 Fördelar med digitaliseringen

Digitaliseringen av gammal analog information har flera fördelar. Sökning i det

digitaliserade materialet är enkelt, materialet kan dupliceras oändligt och spridas

över hela världen via t.ex. internet. Digitalisering är även av stort värde vid

exempelvis forskning och undersökning av ett ursprungsmaterial, som inte

skulle tåla den fysiska hanteringen, eller där materialet annars är onåbart.

(Emanuelsson 2006)

2.2 Digitala bibliotek

Det vanligaste digitaliseringsobjektet idag är böcker; bibliotek, frivillig-

organisationer och företag digitaliserar dessa för olika ändamål. Till de större

digitaliseringsprojekten hör bland annat Google Book Search och Project

Gutenberg. Google Book Search har i samarbete med de största biblioteken

runtom i världen redan digitaliserat över 7 miljoner böcker och man skannar

över 3000 böcker dagligen. (Herwig 2007)

Detta har väckt många frågor hos alla inblandade parter. Hur kan man balansera

konsumenternas stora efterfrågan på snabb och effektiv information, samtidigt

som man tar författarnas och förlagens rättigheter i beaktande? Google Book

Search har löst problemet genom att göra böckerna sökbara, men sökresultaten

består endast av ett kort textutdrag ur boken, varefter man satt in en länk till en

bokhandel, där man kan köpa boken i dess helhet, antingen digitalt eller i

analogt format. Denna lösning gäller tillsvidare endast i USA, i resten av

världen erbjuder Google Book Search söktjänster i böcker där upphovsrätten har

upphört. (Herwig 2007)

Page 11: Digital Arkivering och Lagring

10

2.3 Digitala arkiv

I Finland är det arkivverket, som består av riksarkivet och alla sju landsarkiv,

som kommit längst med digitaliseringen. År 2007 skannade man det miljonte

dokumentet, Finlands självständighetsförklaring. Även Museiverket och

Nationalbiblioteket har de senaste åren, med uppmuntran från EU, påbörjat

digitaliseringen av sina arkiv, i syftet att säkra det nationella och europeiska

kulturarvet. Riksarkivet i Sverige, som digitaliserar cirka 20 miljoner sidor

årligen, är idag ledande inom digitaliseringsprocessen och har gett Sverige

anseendet som ett genuint informationssamhälle. (Arkivverkets årsberättelse

2007: 8-9)

Arkivverket är idag redo att ta emot digitala handlingar från myndigheter och

organisationer, men detta har försvårats på grund av bristen på standardiserade

filformat och god arkiveringskunskap hos myndigheterna. Ända tills

standarderna är fastslagna och kunskapen finns, måste all digital information

som överlåts till arkivet medföljas med en parallell pappersversion.

(Arkivverkets årsberättelse 2007: 17-18)

Som en pilotstudie har arkivverket gett finska järnvägsverket tillstånd att helt

övergå till en varaktig digital arkivering. Järnvägsverket är en ny myndighet

som grundades 2007 i och med privatiseringen av järnvägarna. I samband med

grundandet av den nya myndigheten beslöts att den skulle ha ett papperslöst

kontor i form av ett elektroniskt ärendehanteringssystem. Detta beslut betyder

att de officiella handlingarna inte behöver förvaras i pappersform eller

digitaliseras i efterhand utan kan direkt undertecknas och arkiveras elektroniskt.

(Arkivverkets pressmeddelande 8/2008)

Page 12: Digital Arkivering och Lagring

11

2.4 Digitaliseringsmetoder

Böcker och dokument kan digitaliseras på tre sätt, genom fotografering, manuell

digitalisering eller OCR-mjukvara (Optical Characterization Recognition).

Genom att fotografera varje sida i en bok bygger man upp en digital

representation av boken som sedan kan läsas eller avsökas på t.ex. nätet. Denna

tidiga digitaliseringsmetod har många nackdelar. De digitala bilderna, som ofta

sparas i det okomprimerade men standardiserade TIFF-filformatet (Tagged

Image File Format), tar upp onödigt mycket utrymme och eftersom man inte kan

göra textsökningar på bilder, måste nyckelord manuellt associeras med

innehållet i bilderna. Nuförtiden används denna metod endast när både texten

och de fysiska sidorna är av intresse, t.ex. böcker med illustrationer eller

medeltida verk med artistisk kalligrafi. (Anderson & Tedd 2005: 299)

För att göra innehållet sökbart måste själva texten digitaliseras. Speciellt i de

äldre verken måste man då utföra en manuell digitalisering, vilket innebär att en

person översätter texten med hjälp av ordbehandlingsprogram. Denna metod är

kostsam både i tid och pengar. (Anderson & Tedd 2005: 299)

OCR är en metod som går ut på att ett datorprogram läser sidorna i den

skannade boken eller dokumentet och därefter överför texten till digitaliserad

form. Man överför alltså endast innehållet i texten och inte själva sidan som i

fotograferingsmetoden. OCR-metoden kräver större investeringar i mjukvara,

hårdvara och tar längre tid att utföra än fotografering. Men, med en exakthet på

99,8% är detta den ideala digitaliseringsmetoden, för verk som producerats med

moderna bokpressar och standardiserade typsnitt. (Anderson & Tedd 2005: 299)

Page 13: Digital Arkivering och Lagring

12

2.5 Kostnadseffektivitet och globalisering

Att lagra data i ett digitalt format har inte alltid varit det lönsammaste

alternativet, genom tiden har analog media, som t.ex. papper, haft stora

konkurrensfördelar. I mitten av 90-talet, i och med bättre digitala

lagringstekniker, övertog digital lagringsmedia pappret som det kostnads-

effektivaste lagringsmediet, åren därefter följde bild, ljud och video. Detta gav

upphov till nya konsumentprodukter som digitalkameror, mp3-spelare och andra

elektroniska prylar. (Morris & Truskowski 2003: 206)

Även produceringen och spridningen underlättas då informationen befinner sig i

ett digitalt format. Man kan säga att dessa nya kommunikationsmedel är en av

grundstenarna till en den ökande globaliseringen av digitala tjänster.

Digitaliseringen, de nya kommunikationsmedlen och relaterade tekniker ger, ur

ett internationellt perspektiv, en stor kostnadseffektivitet, men samtidigt även

stora omställningssvårigheter. (Miyashita 2003)

För att lösa dessa problem bildades världshandelsorganisationen (World Trade

Organization) i mitten av 90-talet. Organisationen har tre huvudavtal; GATT

(General Agreement on Tariffs and Trade) som reglerar varuhandel mellan

länder, GATS (General Agreement on Trade in Services) som reglerar tjänster

över landsgränser och TRIPS (Trade Related Aspects of Intellectual Property

Rights) som innehåller regler om bland annat upphovsrättsskydd och patent.

(Miyashita 2003)

Det är främst GATS och TRIPS avtalen som påverkar hur användningen av

digitala tjänster används och kommer att användas i framtiden. Den nya

tekniken medför att arbete kan utföras i låglöneländer i realtid för avsevärt

mindre kostnader och att omställningen från analog till digital information

accelereras på en global skala. (Miyashita 2003)

Page 14: Digital Arkivering och Lagring

13

2.6 Standardiserade filformat

I inledningen av detta arbete beskrevs hur NASA endast koncentrerade sig på

överlevnaden av det fysiska mediat i sin långtidslagringsstrategi, men snabbt

märkte man att även formatet som innehållet lagrats i påverkar långtids-

lagringen. Om man inte kan läsa innehållet spelar det ingen roll om det fysiska

mediat överlever.

I mitten av 80-talet, i och med persondatorns inträde på marknaden, uppstod det

problem när varje tillverkare av datorprogram föredrog sina egna proprietära

filformat. Hittills hade detta inte varit ett problem, men i och med en ökad

användning av persondatorer, måste standarder för filformat upprättas, så att de

kan avläsas även efter att hårdvaran eller mjukvaran övergetts.

Den internationella standardiseringsorganisationen (ISO) upprättade 1986 en

filformatsstandard för detta ändamål. Det var önskvärt att det rörde sig om ett

filformat som inte var beroende av operativsystem eller program och dessutom

skulle det vara läs- och skrivbart för människor samt enkelt att lära. Man kom

upp med SGML (Standard Generalized Markup Language) som fungerade som

en rosettasten för filformat. (Claesson & Larsson 2001)

När internet slog igenom på 90-talet var det viktigt att alla plattformar skulle

förstå innehållet på webbsidorna. Lösningen var HTML (HyperText Markup

Language) som bygger på SGML-standarden. (Claesson & Larsson 2001)

Mjukvarutillverkare var inte lika öppna till standardisering. De fortsatte att

använda sina egna proprietära filformat i syftet att tvinga konsumenterna att

använda endast program av en specifik tillverkare, ett indirekt tvång som

inverkade negativt på framtidsstödet av digital information. Bästa exemplet av

detta har varit mjukvaruföretaget Microsofts motstånd mot att använda öppna

filformat i sitt kontorspaket Office. (Kosek 2008: 51-55)

Page 15: Digital Arkivering och Lagring

14

2.6.1 OOXML vs. ODF

Microsoft har sedan mitten av 90-talet varit ledande inom kontorsapplikationer

med sitt Office-paket. Filformaten har dock alltid varit proprietära, vilket i stort

sett betyder att man är bunden till Microsofts produkter för att läsa och ändra

filerna. Microsoft Office var dock så populärt att dessa filformat, trots deras

proprietära natur, blev en sorts informell standard. (Kosek 2008: 51-55)

Samtidigt utvecklades, baserat på öppen källkod och SGML, en basstruktur för

arkivering av kontorsapplikationsfiler kallad XML. På denna grund skapade

flera av de största aktörerna på webben, bl.a. Google, Sun Microsystems och

IBM, ett öppet filformat för kontorsapplikationer kallat Open Document Format

(ODF). Denna filtyp, som godkändes som standard 2005, specificerade hur

dokument skall formateras så att de lätt kan läsas på webben, utan att behöva

installera kommersiella program. (Kosek 2008: 51-55)

Microsoft insåg snabbt att denna filformatsstandard hotade deras starka ställning

på marknaden, men istället för att adoptera den, föreslog de att deras nuvarande

filformat, OOXML (Office Open XML), skulle standardiseras. Tack vare

Microsofts starka ställning och trots många protester från resten av IT-

branschen, godkändes OOXML våren 2008 under stor dramatik. (Kosek 2008:

51-55)

OOXML har, till skillnad från andra XML-baserade filformat, olika

licensieringskrav, vilket i sin tur medför ett status quo i standardiserings-

processen, när det nu finns två tävlande filformat. Microsofts stängda men

populära OOXML och det öppna men inte långt implementerade ODF. Detta är

ett exempel på hur ekonomiska intressen kan låsa in användare i format vars

framtid inte kan garanteras. (Kosek 2008: 51-55)

Page 16: Digital Arkivering och Lagring

15

3 LAGRINGSMEDIA

Lagringsmedia är den fysiska lagringshårdvaran för data. I dag finns endast tre

sätt att lagra digital information på; magnetiskt, med flashminne eller optiskt.

Alla tre metoder har sina egna för- och nackdelar. När man bestämmer sig för

lagringsmedia finns det några faktorer som man måste observera som t.ex.

hållbarhet, framtidssäkring samt kostnad i tid och pengar.

Det har genom tiderna funnit många sorters lagringsmedia och många av dessa

har redan försvunnit. Många lagringsmedia som t.ex. hålkort och disketter har

föråldrats när nya och bättre media tagits fram. Andra försök att introducera nya

lagringsmedium har misslyckats på grund av proprietär teknik, där endast en

tillverkare har tillgången eller rättigheten till teknologin, eller bristen på

standardisering mellan tillverkarna, t.ex. Minidisc och Zip Disk, båda formaten

utvecklade av Sony. (Sorrel 2008)

3.1 Magnetisk media

De stora framstegen inom magnetisk media har spelat en stor roll i utvecklandet

av dagens IT-samhälle. I dagens läge sparas 90% av världens information på

magnetisk media. Magnetisk lagringsmedia delas in i två kategorier, hård media

och mjuk media. Till hård media räknas hårdskivor, till mjuk media räknas

disketter, kasetter och magnetband. All magnetisk media har en yta som är

belagt med ett ferromagnetiskt material. Genom att utsätta mediat för

elektromagnetiska fält, kan digital information lagras eller skrivas över med ny

data. Möjligheten att återanvända mediat, genom att radera gammal data, har

gjort magnetisk media mycket populärt. (Ross & Gow 1999: 1-9; Pinheiro,

Weber & Barroso 2007)

Page 17: Digital Arkivering och Lagring

16

Utan uppsyn och skötsel är magnetisk media dock inte ideal för

långtidsarkivering av information. Oavsett media avtar magnetismen med tiden,

mjuk magnetisk media har ett tunnare lager ferromagnetiskt material och avtar

därför snabbare än hård magnetisk media. De kemiska materialen som främst

används i de mjuka magnetiska media orsakar även oxidation och korrosion

vilket påverkar magnetismen negativt. Långtidsförvaring av hård magnetisk

media har också nackdelar eftersom de, förutom oxidation och korrosion, kan få

mekaniska och mjukvarufel. (Ross & Gow 1999: 1-9)

3.1.1 Magnetband

Magnetband hör till de stabilare magnetiska arkiveringsmedia, dess livslängd

kan vara upp till 75 år. Tidiga versioner av magnetband hade dock dåliga

magnetiska egenskaper, vilket ledde till användningen av mera kemikalier,

oxider och järnbaserade partiklar i tillverkningsprocessen. Dessa kemikalier

hade bra magnetiska egenskaper men orsakade polymererna, som håller ihop

själva bandet, att upplösas efter bara några år. Man började då använda tjockare

band, vilket i sin tur ger mindre utrymme för data. Det uppstod t.o.m. företag

som kemisk processade magnetbanden före arkiveringen, i hopp om att de skulle

hålla längre. På 80-talet hade man finslipat magnetbandsteknologin, men då

hade redan hårdskivan slagit igenom. Varför har magnetband då inte en högre

användningsgrad, då den har en god hållbarhet och ett väldigt lågt pris?

(Gilheany 2007; Jääskeläinen 2007: 38; Ross & Gow 1999: 1-9)

Till skillnad från övriga lagringsmedia finns det ingen enhetlig standard på

magnetband. Sedan 1951 har det funnits 33 olika magnetbandsstandarder och

varje tillverkare har sina egna proprietära format. Till varje format krävs även

skild hårdvara, som innebär höga initiella hårdvarukostnader för att skriva och

läsa av den digitala informationen. Dessa formatförändringarna medför därför,

trots magnetbandets relativt goda säkerhet och låga kostnad, en stor risk när det

kommer till långtidsarkivering, speciellt jämfört med hårdskivan. (Brodkin

2008: 22)

Page 18: Digital Arkivering och Lagring

17

3.1.2 Hårdskivor

Hårdskivan har länge använts jämsides med magnetband. Den erbjuder till

skillnad från magnetband en snabb och enkel åtkomst av data. Hårdskivor

kräver inte heller skild hårdvara för att läsa eller skriva data, vilket är fallet med

mjuk magnetisk media. Hårdskivan innehåller nämligen färdigt drivmotor, läs-

och skrivhuvud, elektroniska kretsar och mjukvara. All denna mekanik och de

snabbt roterande skivorna medför dock en större risk för komplikationer som

man bör vara medveten om. (Jääskeläinen 2007: 38)

Eftersom hårdskivan oftast är i daglig användning skulle man tro att de även

förstörs lättare. En undersökning gjord av Google mellan 2002 och 2007 visar

att det inte finns någon märkbar skillnad i krascher med hårdskivor i daglig

användning och hårdskivor som arkiverats på bokhyllan. Samma undersökning

visar också att risken för krascher endast ökar marginellt med tiden. Med

moderna hårdskivor kan man räkna med en livslängd på upp till fem år, om de

används dagligen och bevaras under optimala förhållanden. (Pinheiro, Weber &

Barroso 2007)

Diagram 1, risken för hårdskivskrascher ligger mellan 6 och 9 procent per år.

(Pinheiro, Weber & Barroso 2007)

0 %

2 %

4 %

6 %

8 %

10 %

1 år 2 år 3 år 4 år 5 år

Page 19: Digital Arkivering och Lagring

18

Ännu på tidigt 90-tal befann sig hårdskivan i utvecklingsstadiet och var långt

ifrån lämplig för långtidsdatalagring. Till de större problemen hörde

sammansmältning av läs- och skrivhuvudet, som sitter på ett avstånd av 15

miljondelar av en millimeter från de snurrande plattorna. De kunde fysiskt fästa

sig vid de snurrande plattorna och orsaka mekanisk skada, s.k. stiction, som

gjorde hårdskivan obrukbar. Moderna hårdskivor sätter automatiskt

skrivhuvudet i viloposition när de inte är i användning. (Ross & Gow 1999: 1-9)

De nya hårdskivor har fått bukt med barnsjukdomarna som plågade de tidiga

hårdskivorna, samtidigt som man sett en signifikant ökning av lagrings-

kapaciteten. Magnetbanden som länge tävlat med hårdskivorna gällande

lagringskapaciteten har lämnat på efterkälken. Mark Kryder från Carnegie

Mellon Universitys Data Storage Systems Center, och numera teknologichef för

Seagate Technologies, den ledande hårdskivstillverkaren, myntade, i mitten av

80-talet, Kryder’s Law: mängden data som kan sparas på en hårdskiva,

fördubblas varje år. (Walter 2005: 32-33)

Diagram 2, lagringskapacitetens utveckling för hårdskivor. (Walter 2005: 33)

0,01

0,1

1

10

100

1000

1980 1985 1990 1995 2000 2005 2010

GB

1980 1985 1990 1995 2000 2005 2010

GB

Page 20: Digital Arkivering och Lagring

19

Mätestickan för lagring är dock inte lagringskapacitet utan kostnad per gigabyte.

Följande är utvecklingen och prognosen för kostnad per gigabyte för hårdskivor

från 1992 till 2010. (Gilheany 2003)

Diagram 3, hårdskivans kostnadsutveckling i euro per gigabyte. (Gilheany

2003)

Utvecklingen visar en kostnadsminskning på 45 procent per år. Idag är

hårdskivan den mest kostnadseffektiva metoden för arkivering av digital

information.

Page 21: Digital Arkivering och Lagring

20

3.2 Flashbaserade minnen

Flashminnen bygger på transistorteknik och följer därför Moore’s Law som

säger att transistorernas effektivitet fördubblas vartannat år. Transistorer, eller

halvledare som de också kallas, är grundstenen inom modern elektronik och

väldigt flexibla. Vanligtvis används transistorer för databeräkning men i och

med den snabba utvecklingen används de i allt större grad även för datalagring.

Flashminnen består av miljontals transistorer som håller en svag elektrisk

laddning beroende på om de representerar en binär etta eller nolla. (Walter 2005:

32-33)

Till denna minnestekniks fördelar hör en snabb läs- och skrivhastighet, en låg

energikonsumtion och låga produktionskostnader, därför används den för

lagring av digital information i vardagselektronik, där dessa egenskaper har stor

betydelse, t.ex. mp3-spelare, digitalkameror och USB-stickor.

Nackdelarna är den relativt låga lagringskapaciteten, att de påverkas av

magnetiska störningar, t.ex. statisk elektricitet och det faktum att den svaga

elektriska laddningen i transistorerna långsamt avtar med tiden, man kan räkna

med att ett flashminne inte behåller data längre än tio år. Det största problemet

med flashminnen är dock att de har ett begränsat antal skriv- och läscykler.

Dessa nackdelar har kanske påverkat möjligheten att använda flashminnen för

långtidsdatalagring, men de många fördelarna har förstärkt denna teknologis

popularitet i vardagligselektroniken, där långtidsdatalagringen inte är av stor

betydelse. (Lai 2008)

Page 22: Digital Arkivering och Lagring

21

3.2.1 SSD-minne

SSD (Solid State Drive) bygger på samma transistorteknik som flashbaserade

minnen, men är anpassade för användning i bärbara datorer. Eftersom de inte

har några rörliga delar, t.ex. snurrande skivor, läs- och skrivhuvuden, är de

mycket robusta och energisnåla, vilket i sin tur betyder bättre stöttålighet och

batteritid. (Jääskeläinen 2007: 38)

Utåt påminner SSD-minnet om en vanlig hårdskiva, men består egentligen av en

mängd mindre flashminnen. Tack vare flashteknikens robusthet har SSD-

minnen använts i rymdforskningen, sjöfarten och räddningsverksamhet i åratal,

t.ex. svarta lådor i flygplan. Jämfört med hårdskivor tål de även höga

temperatur- och tryckskillnader. Vanliga hårdskivor kan inte användas på höjder

högre än 3 kilometer eftersom tryckskillnaden ändrar fysiskt hårdskivans

karaktär. (Jääskeläinen 2007: 38)

Det finns många fördelar med SSD-minnen, de är snabbare, tystare och kan ta

mera stryk än hårdskivor, men de har samma problem som flashminnen,

nämligen en begränsad livslängd. Beroende på tillverkare utlovas 1-5 miljoner

skriv- och läscykler, vilket är betydligt mindre än hårdskivor. SSD-minnen

befinner sig dock i en tidig utvecklingsperiod och elektroniken i nyare SSD-

minnen styr minnet så att varje transistor är i lika stor användning, detta

resulterar i att minnet tärs jämnare. SSD-minnen med mindre lagringskapacitet

tärs således också snabbare än de med större kapacitet. (Jääskeläinen 2007: 38)

Utvecklingstakten är som sagt fortfarande hög inom flashminnesteknologin och

2008 började man sälja bärbara konsumentdatorer med denna teknik. Det går

även att köpa hybridskivor som består till hälften av SSD-minne och andra

hälften av en vanlig hårdskiva. SSD-minnen har ungefär samma förutsättningar

för långtidslagring av data som magnetisk och optisk media, kostnaden är dock

ännu för hög. (Jääskeläinen 2007: 38)

Page 23: Digital Arkivering och Lagring

22

3.3 Optisk media

Optisk lagring använder sig av laser för att skriva och läsa digital information.

På grund av att de flesta optiska media inte kan återanvändas kallas detta format

WORM (Write Once, Read Many), det finns dock versioner som kan

återanvändas, men livslängden och antal skrivcykler på dessa är långt ifrån

optimala. (Jääskeläinen 2007: 38)

3.3.1 CD

CD-skivan (Compact Disc) var en av de första optiska lagringsmedia som

standardiserades och introducerades i slutet av 80-talet. Dessa tidiga versioner

av CD-skivan var inte anpassade för lagring, men tio år senare hade tekniken

mognat och priserna sjunkit till den grad att man började använda dem för

dagliga lagringsändamål. CD-skivor kommer i ett antal olika format varav CD-r

och CD-rw är de vanligaste, det sistnämnda formatet kan återanvändas men har

en betydligt kortare livslängd. (Emanuelsson 2006)

Tyvärr gjorde man kostnadsinbesparingar genom att använda billiga material-

kombinationer som zink, aluminium och plast, istället för den optimala material-

kombinationen guld och glas. Tidiga CD-skivor hade, och billiga CD-skivor har

än idag, problem med oxidation. Även de tryckta etiketterna på skivorna kan

medföra kemiska reaktioner som försämrar eller förstör läsbarheten. CD-skivor

av god kvalitet är svåra att hitta och oftast mer än dubbelt så dyra som de billiga.

Man kan därför säga att den teoretiskt förväntade livslängden på 20-50 år i

verkligheten bara är ungefär 10 år. (Emanuelsson 2006)

Med endast 600 megabyte utrymme och en relativt kort fysisk livslängd, i

kombination med allt större filstorlekar och mängd digital information som

skulle sparas, gav CD:n snabbt vika för DVD:n. (Emanuelsson 2006)

Page 24: Digital Arkivering och Lagring

23

3.3.2 DVD

DVD, eller Digital Versatile Disc, introducerades i mitten av 90-talet och hann

snabbt ikapp CD:ns popularitet. DVD:n bygger på samma teknologi, men dess

lagringskapacitet överstiger CD:ns 7 till 14 gånger om. Till skillnad från CD:n

använder DVD:n ett flertal lager för att lagra data, detta ger DVD:n en kapacitet

på 4,5 och 9 gigabyte, beroende på antal lager. (Emanuelsson 2006)

Både CD:n och DVD:n är format som länge föredragits av musik- och

filmbranschen. Eftersom både CD:n och DVD:n hade ett stort genomslag på

marknaden och de sedan länge är etablerade format, kan man säga att deras

tekniska livslängd är god, dvs. stödet för formaten är starkt förankrat. Tyvärr

lider de båda formatens fysiska livslängd på grund av billiga produktions-

metoder och material. (Emanuelsson 2006)

3.3.3 Blu-ray Disc

Blu-ray är den senaste generationen optisk media, och förkortas BD. Precis som

CD och DVD finns det flera format av Blu-ray, det vanligaste formaten håller

25 eller 50 gigabyte data. Beroende på antal lager kan en Blu-ray skiva hålla upp

till 8 lager data vilket skulle ge möjligheten att lagra upp till 200 gigabyte på en

skiva. Vi befinner oss ännu i ett tidigt skede i utvecklingen av denna teknik och

kostnaderna är ännu höga, man har dock lärt sig av de tidiga problemen med CD

och DVD-formaten. Blu-ray konsortiet, som kom upp med formatet, kräver att

tillverkarna av skivorna måste hålla sig till strikta standarder, med godkända

material och kemikalier i tillverkningsprocessen, som inte fräter eller oxiderar

skivan. (Järvinen 2008: 26)

Som man lärt sig av tidigare lanseringar av lagringsmedia som senare

misslyckats, är det inte själva tekniken som avgör om det lyckas utan

implementeringen kring det nya formatet. Det är ännu för tidigt att säga om Blu-

ray formatet har en strålande framtid, eller om det är en teknik som håller mera

än den kan lova.

Page 25: Digital Arkivering och Lagring

24

3.4 Framtidens media

Enligt många är det omöjligt för lagringskapaciteten i magnetisk media att

fördubblas varje år, ifall inte nya lagringsmetoder utvecklas. Den teknik som

används i dagens lagringsmedia har krympt till den partikelstorlek, att det är

svårt att rymma data på det minimala fysiska utrymmet, utan att de olika

magnetiska mönstren börjar påverka varandra eller inte går att avläsa. (Bartels

2001)

Teorin om holografisk lagring har funnits i decennier men först nu har man

börjat inse att utvecklingen måste påskyndas. Holografisk lagring bygger på

optisk lagring, men istället för endimensionell media (t.ex. CD- och DVD-

skivor) använder man tredimensionell lagring. Utvecklingen är ännu i ett så

tidigt stadium att man inte bestämt sig för hurudant format mediat kommer att

ha eller vilket material det kommer att bestå av, de tidiga prototyperna av

holografisk media har varit i skivformat. Problemet man stött på, är att utveckla

ett material som det går att lagra holografisk data på, men som inte sönderfaller i

samma takt som andra optiska media. (Ashley 2000: 341)

Page 26: Digital Arkivering och Lagring

25

3.5 Digitala lagringskostnader

Ur nedanstående diagram, gällande lagringskostnader, kan man se att den

magnetiska lagringstekniken är förmånligast per gigabyte, följt av optiska och

flashminnestekniken. Magnetbanden är billigast, men hårdvaran som krävs till

dessa kan kosta flera tusen euro. De optiska skivorna kräver också skild

hårdvara för att läsas och skrivas, men de är betydligt billigare. När det gäller

hårdskivor och flashminnen ger diagrammet en exakt kostnad, då dessa kan

användas utan någon extra hårdvara.

Diagram 4, lagringskostnader för olika media. (Tudor 2005; Järvinen 2008: 26)

0,00 € 0,50 € 1,00 € 1,50 € 2,00 € 2,50 € 3,00 €

CD-R

DVD-R

DVD-r 2

BD-R

BD-R 2

Flash

SSD

Hårdskiva

Magnetband

Page 27: Digital Arkivering och Lagring

26

4 LÖSNINGAR

Val av rätt media och hårdvara är inte den slutgiltiga lösningen för

långtidslagring av digital information. Eftersom ingen av de nuvarande

lagringsmedia teknikerna kan garantera att de håller data över en längre tid

krävs det även bra strategier för långtidslagring.

De ord som man stöter mest på när man pratar om datalagringslösningar och

strategier är redundans, diversifiering och migrering. Redundans går ut på att ha

fler än en kopia på den lagrade informationen, detta benämns ofta också som

säkerhetskopior. Säkerheten ökar dock inte ju fler kopior man har, kopiorna

måste även vara så diversifierade som möjligt. (Kennedy 2008: 34-35)

Diversifiering betyder lagring av viktig data på olika lagringsmedia i olika

fysiska utrymmen. Om alla säkerhetskopior är lagrade på samma sorts media

och även i samma fysiska utrymme sker en drastisk minskning av säkerheten.

Orsaken är att om det uppstår fel i lagringsmedia, ökar risken att felet upprepar

sig i de andra medierna av samma typ och om alla säkerhetskopior bevaras i

samma utrymmen kan de förstöras i t.ex. en brand eller naturkatastrof. (Kennedy

2008: 34-35)

Migrering är en viktig strategi för långtidslagring av digital information och går

ut på att överföra data från en, oftast äldre lagringsmedia, till en nyare. Själva

proceduren är lätt, eftersom den nya lagringsmedia oftast har större kapacitet

och är både billigare och snabbare. Det svåra är att finna rätt tid för migreringen,

man kan inte vänta för länge, tills det inte finns något stöd för den äldre

lagringsmedia eller den förstörts. Man kan inte heller migrera för ofta, eftersom

detta leder till onödiga kostnader. (Tristram 2002: 36-43)

Det gäller alltså att hitta rätt balans mellan redundans, diversifiering och

migrering samtidigt som man tar kostnad, livslängd, åtkomst och andra

riskfaktorer i beaktande. (Kennedy 2008: 34-35)

Page 28: Digital Arkivering och Lagring

27

4.1 Lagringsklimat

Uppbevaring av digital lagringsmedia kan delas in i två metoder, passiv och

aktiv. Den passiva lagringsmetoden påminner mycket om hur analog

information uppbevaras; ostört i kalla och mörka klimatkontrollerade utrymmen.

Vid aktiv uppbevaring är lagringsmediet i ständig användning och kräver därför

extra säkerhetsåtgärder.

För passiv uppbevaring gäller det, för såväl analoga som digitala lagringsmedia,

att ha ett lämpligt lagringsklimat, så att deras fysiska livslängd skall hållas så

lång som möjlig. Dessa utrymmen bör ha en kontrollerad luftfuktighet, under

60%, och en temperatur några grader under vanlig rumstemperatur. Stora

temperatur och luftfuktighetsskillnader bör också undvikas. Optisk

lagringsmedia skall helst förvaras i något svalare utrymmen medan magnetisk-

och flashmedia även bör skyddas mot elektrostatisk och magnetisk påverkan.

(Arkivverkets föreskrifter 2007, 15)

En fördel med magnetisk lagringsmedia är att de, istället för att vara inlåsta i

arkiv, ofta är i flitig användning. En stor del hårdskivorna som används för

arkiveringsändamål är kopplade till nätverk, ofta i serverutrymmen. Dessa

utrymmen måste därför uppfylla högre krav än de som är anpassade för passiv

långtidslagring. Bland annat krävs strömtillförsel som inte fluktuerar eller bryts

vid eventuella strömavbrott. Lagringsmedia i aktiv användning kräver också

speciella brandsläckningssystem för elektronik, skydd för elektromagnetiska

störningar och ett luftkylningssystem så att man undviker överhettning.

(Shimonski 2003: 47-48)

Page 29: Digital Arkivering och Lagring

28

4.2 Hårdvarulösningar

De flesta stora datortillverkare erbjuder lösningar för datalagring och nästan alla

är baserade på magnetisk lagringsmedia. Mindre företag och privatpersoner där

kostnaden spelar en stor roll och där den lagrade informationen är av mindre

betydelse kan använda sig av optiska lagringsmedia.

Moderna datalagringslösningar bygger på tre metoder, RAID, Nätverkslagring

och Cloud computing. Dessa tre metoder löser problemen med redundans,

diversifiering och migrering till olika grad och alla bygger de på nätverks-

teknologi. (Bartels 2007)

4.2.1 RAID

RAID (Redundant Array of Independent/Inexpensive Disks) var en av de första

largringslösningarna som började erbjudas i början av 90-talet. Genom att

använda sig av ett flertal koordinerade hårdskivor ger RAID en redundans som

en ensam hårdskiva inte kan ge, dessutom ger användningen av RAID-lösningar

bättre prestanda, speciellt snabbheten att läsa och skriva data när de används i

videoediteringssyfte. Det finns flera olika implementeringar av RAID beroende

på om det är effektiviteten eller säkerheten som prioriteras. (Morris &

Truskowski 2003: 206)

Page 30: Digital Arkivering och Lagring

29

4.2.1.1 RAID 0

RAID 0 är den enklaste lösningen och ger ingen egentlig säkerhetsförbättring,

trots att den använder sig av flera hårdskivor, tvärtom ökar säkerhetsrisken.

Eftersom moderna hårdskivor har flaskhalsar, i och med begränsade läs- och

skrivhastigheter, är de inte ideala för t.ex. editering av stora högupplösta

videofiler. Genom att använda ett flertal hårdskivor i RAID 0 konfiguration,

fördubblas hastigheten då flera hårdskivor delar på bördan, men eftersom

hårdskivorna innehåller gemensam data, går allt förlorat om en av hårdskivorna

skulle råka krascha. Ju fler hårdskivor som tillsätts desto bättre prestanda, men

även en större risk för krascher och förlorad data. Vid användningen av RAID 0

bör den digitala information som producerats därför genast överföras till en

lösning där lagring är prioriterad. (Farley 2002: 159-207)

Bild 1, RAID 0 konfigurering.

RAID 0

DISK 0 DISK 1

Page 31: Digital Arkivering och Lagring

30

4.2.1.2 RAID 1

RAID 1 innebär en spegling eller kloning av data över två eller fler hårdskivor,

det som skrivs på den primära hårdskivan överförs bit för bit till den, eller de,

sekundära hårdskivorna. Detta ger en dubbel redundans, men ingen

diversifiering. Denna sorts RAID-lösning är bäst då en hårdskiva kraschar eller

andra problem uppstår. (Farley 2002, 159-207)

Denna RAID-konfiguration används ofta i företag och organisationer där det är

viktigt att snabbt komma tillbaka efter en krasch. Beroende på vad som

prioriteras kan man säkerhetskopiera hela system inklusive operativsystem och

programvara eller endast den viktiga informationen. Den senare versionen tar

upp mindre utrymme, men ominstallationen av programvaran är en extra

kostnad både i tid och pengar, vilket många helst vill undvika. (Farley 2002:

159-207)

Bild 2, RAID 1 konfigurering.

RAID 1

DISK 0 DISK 1

Page 32: Digital Arkivering och Lagring

31

4.2.1.3 RAID 5

RAID 5, eller egentlig RAID, använder sig av tre eller flera hårdskivor, men

lagringskapaciteten är procentuellt mindre än andra RAID-lösningar. Varje

hårdskiva har en ständigt uppdaterad checksumma för innehållet i de andra

hårdskivorna och om en hårdskiva skulle råka krascha, kan man genom

informationen i de andra checksummorna återskapa den förlorade datan. RAID

5 är den säkraste och mest förekommande lösningen för datalagring och erbjuds

i ett flertal former från datortillverkare. (Farley 2002: 159-207)

Bild 3, RAID 5 konfigurering.

Nackdelen med denna lösning är att den är långsam, svår att implementera och

oftast inte tillräckligt fysiskt diversifierad. RAID 5 löser problemet med

redundans och migrering men bara delvis diversifieringen. RAID-lösningar

bevaras ofta i samma fysiska utrymmen, bränder, magnetiska och elektriska

störningar och liknande fall påverkar på så vis hela populationen av

lagringsmedia och inte enskilda media. (Farley 2002: 159-207)

DISK 0 DISK 1 DISK 2 DISK 3

RAID 5

Page 33: Digital Arkivering och Lagring

32

4.2.2 Nätverkslagring

Användning av nätverk för lagringsändamål har länge varit aktuellt, men inte

alltid praktiskt. I och med bättre ethernet tekniker, såsom gigabit ethernet, är

nätverkslagringslösningar nu mycket populära. Det är inte längre stora företag

som använder sig av filservrar för åtkomsten av information, denna teknik har

även börjat uppenbara sig i våra hem tack vare en stor ökning av digital

multimedia. Det räcker inte längre att bara ha en hylla för DVD-filmer,

nuförtiden förses nästan all hemelektronik med nätverksportar för uppkoppling

mot resten av hemelektroniken, inklusive lagringsmedia. Vi vill ha

informationen snabbare, enklare och överallt. Det finns tre olika nätverks-

lagringslösningar som används idag och de kan i sin tur ha olika RAID-

konfigurationer, oberoende av åtkomstsätt. (Alabi 2004)

Page 34: Digital Arkivering och Lagring

33

4.2.2.1 DAS

DAS (Direct Attached Storage) är den enklaste lösningen och går ut på att

lagringsmedia kopplas upp mot en server eller dator i ett nätverk. Lagringsmedia

är inte direkt uppkopplad till nätverket och kan inte nås om servern eller datorn

är urkopplad. För att komma åt den lagrade informationen måste klienten ha

behörighet till servern eller datorn, som i sin tur överför data från lagringsmediet

genom en ethernet anslutning. Servern eller datorn använder eget operativ-

system för att konfigurera den externa lagringsmedia. (Alabi 2004)

DAS

Bild 4, DAS arkitektur.

Denna lösning passar för hemmanätverk och mindre företag med få servrar.

DAS är svår att skala uppåt och om man räknar med att utöka antalet servrar bör

man satsa på NAS eller SAN-lösningar. (Alabi 2004)

Page 35: Digital Arkivering och Lagring

34

4.2.2.2 NAS

Ethernet NAS (Network Attached Storage) kan vara allt ifrån en hårdskiva, en

grupp hårdskivor eller en filserver, med eller utan RAID-konfiguration som

kopplats upp mot ett nätverk. Till skillnad från en DAS är lagringsmedia direkt

uppkopplat mot nätverket och fungerar som en dedikerad filserver, med ett eget

IP-nummer, enligt klient-server modellen. Det är sedan möjligt för personer med

åtkomst till nätverket att använda den för datalagring. (Alabi 2004)

Ethernet NAS kan ha flera konfigurationer, den används ofta som ett område för

säkerhetskopierade filer, medan originalen finns på den lokala hårdskivan. På

läroanstalter används denna lösning ofta som lagringsutrymme för studerande.

Eftersom ethernet NAS har sitt eget multiplattform operativsystem, är det

möjligt för datorer med olika filsystem, t.ex. Windows, Mac och Unix, att

använda sig av denna lösning samtidigt. (Alabi 2004)

NAS

Bild 5, NAS arkitektur.

Page 36: Digital Arkivering och Lagring

35

4.2.2.3 SAN

SAN (Storage Area Network) är steget upp från en NAS och består av flera

ihopkopplade datalagringsenheter över ett eget nätverk, ofta ljusfiber-

kabelnätverk. Denna lösning kan hantera stora datamängder som används av

bl.a. internet operatörer, mediebolag och superdatorer på forskningsanstalter

med stora lagrings- och distributionsbehov. (Alabi 2004)

Genom att använda sig av egna nätverk belastar inte SAN-lösningen existerande

nätverk. SAN-lösningar används ofta som lastbalanserare i stamnät för att jämna

ut trafiken till populära eller överbelastade servrar. Till skillnad från DAS och

NAS fungerar SAN inte på filsystemsnivå, utan överför alltid stora block av

data, istället för enskilda filer. (Alabi 2004)

SAN

ASIEN

EUROPA

USA

Bild 6, SAN arkitektur.

Page 37: Digital Arkivering och Lagring

36

4.2.3 Cloud computing

Trenden bland såväl företag som privatpersoner är att köpa nättjänster, istället

för att själva sköta driften av dyra servrar och krångliga applikationer.

Nättjänster är ofta mera kostnadseffektiva och låter företagen rikta in sig på sin

kärnverksamhet, istället för underhåll av sina egna IT-system. Dessutom

erbjuder de säkerhet genom redundans, diversifiering och migrering.

(Danielsson 2008)

Enligt en undersökning gjord av InformationWeek är lagring, arkivering och

säkerhetskopiering den tjänst som företag är mest intresserade av att utlokalisera

till utomstående nätföretag. (George 2007: 40)

Diagram 5, intresse för utlokalisering av tjänster på nätet, på skalan 0 till 5

(George 2007: 40)

0 1 2 3 4

Säkerhet och administration

Databaser

Server utrymmen

Databeräkning

Servrar

Kontorsapplikationer

Lagring och arkivering

2,6

2,7

2,8

2,9

3,0

3,2

3,3

Page 38: Digital Arkivering och Lagring

37

Cloud computing beskriver användningen av internet för de saker som tidigare

krävde installerad programvara på en lokal dator, server eller nätverk. Internet,

som i diagram ofta illustreras som ett moln, har flyttat fokusen från traditionella

mjuk- och hårdvaruprodukter till nätbaserade tjänster. Denna, relativt snabba

anpassning till nättjänster, har skapat många nya företag samtidigt som de

traditionella IT-företagen har haft stora anpassningsproblem. (Danielsson 2008)

Bland de första tjänster som flyttade ut på nätet var e-post och idag sker

majoriteten av e-post-trafiken via webbmail. Fördelen med webbmail är att

användaren har tillgång till sin e-post var än han eller hon befinner sig och

dessutom behöver man inte bekymra sig om säkerhetskopiering eftersom de

flesta nättjänster sköter säkerhetskopieringen för en. Nackdelen är tillgången till

tjänsten om denna ligger nere en längre tid, nättjänsteföretaget går under eller

om användaren saknar internetanslutning. Detta kan dock undvikas genom att

synkronisera innehållet på nätet med den lokala datorn. (Danielsson 2008)

Det är inte bara e-post som flyttat ut på nätet, vanliga redskapsprogram och

andra icke processorintensiva program används i allt större utsträckning på

nätet. Affärsmodellen för dessa tjänster går vanligen ut på reklamfinansiering

eller abonnemang. Den information som produceras, vare sig det är e-post,

textdokument eller kalkylblad, sparas även de på nätet. Nätföretaget Google,

som är ledande inom cloud computing, erbjuder upp till 7 gigabyte

lagringsutrymme för sina fria nättjänster, utrymmet går dock att utökas mot

betalning. För företag och privatpersoner är detta dock inte tillräckligt, eftersom

de ofta har mycket större behov. (George 2007: 40)

Page 39: Digital Arkivering och Lagring

38

5 IMPLEMENTERING AV S3 OCH JUNGLE DISK

Nätföretaget Amazons S3-tjänst (Simple Storage System), är ett populärt

multiplattformsystem för säkerhetskopiering och arkivering. Denna nättjänst

introducerades i USA i början av 2006 och i Europa i slutet av 2007. Företaget

har lång erfarenhet och en bra utbyggd infrastruktur för digital arkivering.

(Chaganti 2008)

Jämfört med andra stora konkurrenter som erbjuder datalagring på webben är

Amazons priser bara en bråkdel och baserar sig på den mängd data som laddas

upp, sparas och laddas ner. Den initiella kostnaden är hög eftersom det oftast är

en stor mängd data som överförs, men när allt väl är säkerhetskopierat är det

endast filer, där ändringar ägt rum, som uppdateras på S3. (Chaganti 2008)

Redundans uppkommer genom en RAID 5 konfigurering på Amazons servrar.

Problemet med diversifiering löses genom att distribuera den lagrade datan

mellan s.k. serverfarmer runtom i världen via en SAN och migrering underlättas

av att man använder standardiserade internetprotokoll. (Chaganti 2008)

Amazon S3 erbjuder endast lagringtjänster, hur man väljer att kommunicera

med tjänsten är upp till användaren själv. Genom att erbjuda programutvecklare

en API (Application Programming Interface) har Amazon gett tredje parter

möjlighet att utveckla och erbjuda klientprogram som sköter kommunikationen

mellan användaren och tjänsten. Det finns flera olika sorters program,

användargränssnitt och protokoll att välja emellan, beroende på användarens

behov. Man har utvecklat allt från webbapplikationer och FTP-lösningar (File

Transfer Protocol) till säkerhetskopierings- och synkroniseringsprogram för

kommunikation med tjänsten. (Chaganti 2008)

Page 40: Digital Arkivering och Lagring

39

Eftersom Amazon S3 är en internetbaserad lagringstjänst är det även möjligt att

direktlänka till filer. Själva webbutiken Amazon.com och andra populära sidor

använder S3-tjänsten när de serverar informationen till sina besökare. Genom att

använda S3 som en CDN (Content Delivery Network) underlättas nerladdningen

av bland annat bilder, som vanligtvis kräver stor bandbredd. Genom att sprida ut

bilderna på S3 servrar runtom i världen laddas de ner från den närmast belägna

serverfarmen. (Chaganti 2008)

Jag har i denna del av lärdomsprovet implementerat en Amazon S3-lösning med

det kommersiella programmet Jungle Disk som erbjuder mångfaldiga funktioner

till Amazons S3-tjänst.

Page 41: Digital Arkivering och Lagring

40

5.1 S3-tjänsten

S3 är en av flera tjänster som erbjuds av Amazon Web Services (AWS).

Registreringen är enkel och sker på internetadressen http://aws.amazon.com/s3/.

Alla transaktioner är SSL krypterade med 128-bitar och certifierade av Verisign.

Denna procedur utförs endast då ett nytt konto skall registreras, konfigureringen

av S3-tjänsten utförs på klientsidan.

Bild 7, registrering vid Amazons S3-tjänst.

Page 42: Digital Arkivering och Lagring

41

Betalning sker via kreditkort, direktdebitering från bankkonto eller via Amazons

eget betalsystem. Prissättningen varierar beroende på var man vill att den

fysiska lagringen skall ske men transaktionerna beräknas alltid i amerikanska

dollar. Kostnaden för tjänsten är något lägre i USA på grund av bättre utbyggd

infrastruktur och mera konkurrens. Det är dock möjligt för europeiska användare

att lagra data på de billigare amerikanska servrarna, men på grund av de långa

avstånden kommer tjänsten då att vara långsammare.

Bild 8, debitering i S3-tjänsten.

Page 43: Digital Arkivering och Lagring

42

Debiteringen sker månadsvis och baserar sig på flera faktorer. Priset beräknas

huvudsakligen på mängden gigabyte data som lagras på kontot. Detta pris

varierar beroende på den totala mängd data som lagras. Den lägsta nivån man

kan få mängdrabatt på är 50 terabyte, vilket i praktiken betyder att endast

företag omfattas av rabatten.

Lagring USA Europa

< 50 TB 0,15 0,18

50 - 400 TB 0,14 0,17

400 – 500 TB 0,13 0,16

> 500TB 0,12 0,15

Tabell 1, månadskostnad i dollar för lagring per gigabyte.

Den andra faktorn som påverkar priset är transportkostnaden. Detta är en

engångskostnad och beräknas per gigabyte som laddas upp till tjänsten.

Beroende på hur ofta säkerhetskopieringar eller uppdateringar görs kan denna

kostnad variera stort.

Uppladdning USA Europa

0,10 0,10

Tabell 2, uppladdningskostnad i dollar per gigabyte.

Page 44: Digital Arkivering och Lagring

43

Nerladdningskostnaden är något högre än uppladdningskostnaden eftersom det

då är Amazons servrar som sköter transporten. Det är även möjligt att få

mängdrabatt på nerladdnings-kostnaderna, detta baseras då på mängden terabyte

per månad som laddas ner. De stora datamängderna det är frågan om betyder att

det igen främst är företag som omfattas av rabatterna.

Nerladdning USA Europa

< 10 TB 0,17 0,17

10 – 50 TB 0,13 0,13

50 – 150 TB 0,11 0,11

> 150 TB 0,10 0,10

Tabell 3, nerladdningskostnad i dollar per gigabyte.

Om S3-tjänsten används för lagring för webbinnehåll, t.ex. multimedia, som

tillgås direkt från Amazons servrar, kan nerladdningsmängden bli mycket stor.

Flera largringskrävande webbsidor använder sig av S3-tjänsten, bland annat

använder många webbalbum tjänsten för att servera digital fotografier.

Om S3-tjänsten används för servering av webbinnehåll tillkommer en liten

extrakostnad som baserar sig på antalet kommandon som skickas till Amazons

servrar. Om en besökare till ett webbalbum efterfrågar ett fotografi, skickas ett

GET kommando till S3-tjänsten. Denna lilla extrakostnad beräknas per 10 000

efterfrågningar.

Kommandon USA Europa

1.000 CUT, COPY, POST och LIST kommandon 0,01 0,01

10.000 GET och övriga kommandon 0,01 0,01

DELETE kommandot 0,00 0,00

Tabell 4, kostnad i dollar för utförande av kommandon.

Page 45: Digital Arkivering och Lagring

44

När man registrerat ett konto på S3-tjänsten får man ett användarnamn och

lösenord, men på grund av säkerhetsrestriktioner får man inte själv välja dessa.

Access Key ID fungerar som användarnamn och Secret Access Key som

lösenord. Det är dock möjligt att ha flera lösenord till ett konto om man har flera

användare.

Bild 9, användarnamn och lösenord.

Page 46: Digital Arkivering och Lagring

45

5.2 Jungle Disk

Nästa steg är att installera ett program som skall sköta kommunikationen mellan

den lokala datorn och S3 tjänsten. Det längst utvecklade programmet för detta

ändamål är Jungle Disk som kan laddas ner från http://www.jungledisk.com/.

Bild 10, installation av Jungle Disk.

Jungle Disk är ett kommersiellt program med en engångskostnad på 20

amerikanska dollar, men finns även tillgänglig som en demoversion som är aktiv

i 30 dagar. Programmet är multiplattform vilket betyder att den kan köras på

Microsoft Windows, Apple OS X och Unix/Linux operativsystem. Jungle Disk

är inte bundet till antalet användare, endast till ett specifikt konto på Amazon

S3. Detta betyder att det kan köras av flera användare samtidigt, så länge de är

uppkopplade till samma Amazon S3 konto.

Page 47: Digital Arkivering och Lagring

46

Alternativa program är Bucket Explorer som kostar 50 dollar eller S3Drive som

har öppen källkod och är gratis. Eftersom S3 tjänsten är så flexibel finns det

även program som ger tillgång till S3 kontot som kan köras via kommandolinjen

i DOS och Linux. Det finns även FTP-program, plug-ins för webbläsare och

java-klienter på webbsidor som kan ge tillgång till S3 kontot.

Det finns tre versioner av Jungle Disk. Desktop versionen är till för

privatanvändare, workgroup versionen riktar in sig på företag och home server

versionen säkerhetskopierar informationen på en hemserver eller NAS. Detta

arbete gjordes i hemmiljö och således valdes desktop versionen.

Bild 11, användarnamn och lösenord.

För att få tillgång till lagringsutrymmet på Amazons servrar fyller man i Access

Key ID och Secret Access Key som man fick när man registrerade sig vid

tjänsten.

Page 48: Digital Arkivering och Lagring

47

Konfigureringsmenyn ger tre alternativ till hur Jungle Disk kan användas. Man

kan bestämma vilka mappar som automatiskt skall säkerhetskopieras till S3,

detta alternativ väljs om man inte manuellt vill flytta över filer. Eftersom

säkerhetskopieringen sker automatiskt kan det vara svårt att hålla uppsyn över

vilka filer och hur mycket information laddas upp till S3. Man kan dock

bestämma om hur ofta och om det bara är ändrade filer som skall laddas upp.

Bild 12, konfigurering av Jungle Disk.

Det andra alternativet är att använda S3 som ett virtuellt nätverksområde. I

denna konfiguration syns S3 som ett eget område, med mappar och filer, i den

lokala filhanteraren. Det går även att använda en kombination av båda. I detta

arbete används alternativ två där S3 agerar som ett eget nätverksområde.

Page 49: Digital Arkivering och Lagring

48

Eftersom S3 fungerar globalt måste man bestämma var geografiskt det är bäst

att lagra informationen. I detta arbete, där S3 simuleras som ett lokalt

nätverksområde, prioriteras snabbheten, därför väljs Amazons europeiska

serverfarmer, trots något högre lagrings- och transportkostnader.

Bild 13, geografiska lagringsplatser.

Page 50: Digital Arkivering och Lagring

49

Nästa steg i processen är att namnge det simulerade lokala området som

kommer att synas i filhanteraren, i detta arbete namnges området Jungle Disk.

Amazon S3 erbjuder ingen kryptering så eventuell känslig information måste

krypteras före den laddas upp. Jungle Disk ger användaren två alternativ när det

kommer till kryptering. Antingen är det endast uppladdningen som är krypterad

eller så krypteras både uppladdningen och all den information som lagras på

tjänsten. Jungle Disk använder sig av en 256-bits AES krypteringsalgoritm och

ingen annan än användaren har åtkomst till den krypterade informationen, inte

ens Amazon.

Bild 14, kryptering.

Den konfiguration som används i detta arbete är till för hemanvändare så

snabbheten prioriteras högre än säkerheten, därför väljs standard alternativet där

endast uppladdningen är krypterad.

Page 51: Digital Arkivering och Lagring

50

Nu är Jungle Disk färdigt konfigurerad. Om man vill ändra t.ex. namn på

området, antalet områden eller kryptering kan man göra det i efterhand i

applikationsfönstret.

Bild 15, konfigurationen färdigställd.

Jungle Disk fungerar i bakgrunden och kräver endast lite processorkraft.

Programmet startar upp automatiskt och påminner användaren om sin närvaro

genom en liten ikon i aktivitetsfältet.

Page 52: Digital Arkivering och Lagring

51

När Jungle Disk är rätt installerat syns lagringsutrymmet S3 som ett eget område

i filhanteraren. Härefter kan man manuellt flytta över viktiga dokument till och

från det nya området.

Bild 16, Jungle Disk i filhanteraren.

Amazon S3 har ett eget filsystem där data lagras i så kallade keys och buckets.

En key kan jämföras med en fil och en bucket motsvarar en katalog. På grund av

filsystemet som tjänsten använder finns det inte något hierarkiskt katalogdjup,

men Jungle Disk kan simulera detta med ett virtuellt filsystem. Detta syns i

filhanteraren när installationen är slutförd. Amazon S3 har inte heller stöd för

namnbyten efter att filer laddats upp på tjänsten. Namnbyten måste ske på det

lokala området och därefter laddas upp på nytt till lagringstjänsten.

Page 53: Digital Arkivering och Lagring

52

6 AVSLUTNING

Under de senaste 50 åren som man skapat digital information har vi haft dålig

erfarenhet med långtidslagringen. Först nu i och med IT-revolutionen och

informationssamhällets framfart, ser vi försök att lösa detta problem som

påverkar allt från det nationella kulturarvet till det globaliserade arbetssamhället.

Internets framgång har öppnat många nya portar, men har också skapat många

hinder. Framgången har till stor del berott på dess globala och öppna standarder,

något som hittills saknat motpart i den icke uppkopplade delen av

informationssamhället. Digitaliseringen har också påverkat vårt synsätt på hur

den digitala informationen skall lagras och de problem som uppstår i processen.

Beslut som berör långtidslagringen av digital information skall uppfylla tre

kriterier: tekniken, strategin och kostnaden. Tekniken och strategierna finns,

men som vi har sett är det ofta bristen på kunskap och vilja och således

finansiering som leder till försvinnandet av värdefull digital information eller

dess kostsamma återvinnande. Från mjukvarutillverkarnas sida har vi sett en

ökad, men motvillig förståelse för öppna standarder vilket är hoppingivande,

trots att det ofta krävs politisk påtryckning. Det verkar som om tillverkarna

kommit över det gamla synsättet med att binda sina kunder till lösningar som

endast gynnar dem och inte slutanvändaren, oavsett om det är nu eller om

hundra år.

Fördelarna med digitaliseringen är en överväldigande och snabb tillgång till

digital information, vilket passar vårt nya informationsdrivna samhälle. Den

digitala informationen kräver dock ett synsätt med långtidsperspektiv och

ständig uppmärksamhet. De dyra och invecklade strategierna med

långtidslagringen har visat sig kräva politiska beslut, men allt fler privatpersoner

ser nödvändigheten med dessa när den digitala informationen börjat påverka

deras egna liv. Detta är uppenbart från de hårdvarulösningar och nättjänster som

skapats under de senaste åren i hopp om att erbjuda svaret på frågan hur dagens

digitala information skall framtidssäkras för kommande generationer.

Page 54: Digital Arkivering och Lagring

53

KÄLLFÖRTECKNING

Tryckta verk och artiklar:

Anderson Ian G. & Tedd, Lucy A. 2005. Digital histories. s. 299

(http://site.ebrary.com/lib/vamklibrary/Doc?id=10103484&ppg=2)

Arkivverkets föreskrifter och anvisningar angående arkivutrymmen 2007.

s. 15 (www.narc.fi/Arkistolaitos/a/tiedostot/PDF/arkistotilamaarays_se.pdf)

Arkivverkets Årsberättelse 2007. s. 8-9, 17-18

(www.narc.fi/Arkistolaitos/a/tiedostot/PDF/vk2007.pdf)

Ashley, J. m.fl. Holographic data storage. IBM Journal of Research and

Development 3/2000. s. 341 (www.research.ibm.com/journal/rd/443/ashley.pdf)

Brodkin, John 2008. IBM, Sun each claim 'first' 1TB tape drive. Network

World. Vol. 25, nr. 28 s. 22

http://proquest.umi.com/pqdweb?did=1522796871&sid=1&Fmt=6&clientId=46

965&RQT=309&VName=PQD

Farley, Marc 2002. Building Storage Networks. s. 159-207

(http://site.ebrary.com/lib/vamklibrary/Doc?id=5008161&f00)

George, Randy. Cloud Storage’s Top Uses. Information Week 8/2007 s. 40

(proquest.umi.com/pqdweb?did=1585424621&sid=4&Fmt=6&clientId=46965

&RQT=309&VName=PQD)

Järvinen, Petteri. Blu-ray, viimeinen elokuvalevy. Tietokone 11/2008. s.26

Jääskeläinen, Ossi. Tallennustekniikan vallankumous. MikroPC 6/2007 s. 38

Page 55: Digital Arkivering och Lagring

54

Kennedy, Dennis. Master Your Disasters. ABA Journal 9/2008 s. 34-35

(proquest.umi.com/pqdweb?did=1557161061&sid=2&Fmt=3&clientId=46965

&RQT=309&VName=PQD&cfc=1)

Kosek, Jirka 2008. From the Office Document Format Battlefield. IT

Professional Magazine 3/2008 s. 51-55

(proquest.umi.com/pqdweb?did=1501873941&sid=2&Fmt=6&clientId=46965

&RQT=309&VName=PQD)

Lai S.K. Flash memories: Successes and challenges. IBM Journal of Research

and Development 5/2008 (www.research.ibm.com/journal/rd/524/lai.pdf)

Morris R. & Truskowski B. The evolution of storage systems. IBM Systems

Journal 2/2003 s. 206 (www.research.ibm.com/journal/sj/422/morris.pdf)

Ross, Seamus & Gow, Ann 1999. Electronic Libraries (eLib) Programme on the

Preservation of Electronic Materials s. 1-9

(www.ukoln.ac.uk/services/elib/papers/supporting/pdf/p2.pdf)

Shimonski, Robert 2003. Windows 2000 & Windows Server 2003 Clustering

and Load Balancing s. 47-48

(http://site.ebrary.com/lib/vamklibrary/Doc?id=10045497&f00)

Smith, Bernard. Preserving Tomorrow’s Memory: Preserving Digital Content

for Future Generations. International Preservation News 5/2003 s. 4-10

(www.ifla.org/VI/4/news/ipnn29.pdf)

Tristram, Claire. Data Extinction. Technology Review 8/2002 s. 36-43

(proquest.umi.com/pqdweb?did=195539721&sid=2&Fmt=6&clientId=46965&

RQT=309&VName=PQD)

Page 56: Digital Arkivering och Lagring

55

Walter, Chip. Kryder´s Law. Scientific American 8/2005 s. 32-33

(www.chipwalter.com/articles/profiles/kryder.pdf)

Internetkällor:

Alabi, Duran 2004. NAS, DAS or SAN? – Choosing the Right Storage

Technology for Your Organization (www.storagesearch.com/xtore-art1.html)

Arkivverket pressmeddelande 8/2008. Järnvägsverket först med elektronisk

arkivering.

(www.narc.fi/Arkistolaitos/sve/aktuellt/meddelande/meddelande_120808.html)

Bartels, Anna 2007. Datalagring, affärssystem, hållbarhet – långsiktigt digitalt

bevarande. (www.ida.liu.se/~HIIC70/exam/Framl0712/07BartelsManus.pdf)

Chaganti, Prabhakar 2008. Cloud Computing with Amazon Web Services

(www.ibm.com/developerworks/architecture/library/ar-

cloudaws1/index.html?S_TACT=105AGX20&S_CMP=EDU

Claesson, Henrik & Larsson, Karin 2001. Arkivering av digital information.

(https://gupea.ub.gu.se/dspace/bitstream/2077/1384/1/Henrik_Claesson-

Karin_La..pdf)

Danielsson, Lars 2008. Molnet som skuggar allt.

(www.idg.se/2.1085/1.184163/molnet-som-skuggar-allt)

Emanuelsson, Charlotte 2006. Digitalisering av kulturarvet – En studie av

digitalisering vid två museer. (bada.hb.se/bitstream/2320/1480/1/06-65.pdf)

Gilheany, Steve 2003. Projecting the Cost of Magnetic Disk Storage Over the

Next 10 Years (www.archivebuilders.com/whitepapers/22011p.pdf)

Page 57: Digital Arkivering och Lagring

56

Herwig, Malte 2007. Putting the World’s Books On The Web.

(www.spiegel.de/international/business/0,1518,473529,00.html)

Miyashita, Makiko 2003. The Impact of the Internet on Globalization.

(courses.washington.edu/com538/2003/student_presentations/MakikoMiyashita.

ppt)

Pinheiro, Eduardo & Weber, Wolf-Dietrich & Barroso, Luiz André 2007.

Failure Trends in a Large Disk Drive Population.

(research.google.com/archive/disk_failures.pdf)

Sorrel, Charlie 2008. 5 Obsolete Storage Formats.

(blog.wired.com/gadgets/2008/06/five-obsolete-s.html)

Stander A. & van der Merwe N. 2002. Long Term Data Storage: Are We

Getting Closer to a Solution? (www.codata.org/codata02/09info/Stander-

slides/Stander-paper.pdf)

Stepanek, Marcia 1998. Data Storage: From Digits to Dust.

(www.businessweek.com/archives/1998/b3574124.arc.htm)

Tudor, Marius 2005. Are flash solid state driver ready for the enterprise?

(www.embeddedstar.com/articles/2005/2/article20050207-1.html)