information retrieval: van specialisme tot commodity
TRANSCRIPT
![Page 1: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/1.jpg)
information retrieval: van specialisme tot commodity
online zoeken - 1980-2014
Eric Sieverts@sieverts
UB Utrecht HvA-MICGO Opleidingen
IBW UA - 4 april 2014
![Page 2: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/2.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
informatievoorziening van specialisme tot commodityhet komt nu gewoon "uit de muur"
maar soms wel wat veel .......
2
![Page 3: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/3.jpg)
de geschiedenis in één slide .....
Eric Sieverts, IBW-UA, 4-4-20143
![Page 4: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/4.jpg)
Eric Sieverts, IBW-UA, 4-4-20141980
verbinding met "The Cloud" anno 1980
datacom-kosten (PTT) : ca f 0,30 / kB
online informatie zoeken kunnen we al meer dan 40 jaar
4
![Page 5: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/5.jpg)
online verbinding anno 1980:300 baud acoustisch modemmet thermische lijnprinter
5 Eric Sieverts, IBW-UA, 4-4-2014
![Page 6: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/6.jpg)
online in1985: draagbare IBM PC met "domme terminal" software en 1200 bit/s modem
6 Eric Sieverts, IBW-UA, 4-4-2014
![Page 7: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/7.jpg)
ARPAnet 1969
7
en internet is zelfs nog ouder ….
![Page 8: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/8.jpg)
webzoekmachines zijn er al 20 jaar
webcrawlerin 1993 de eerste die ook tekst uit de pagina zelf indexeerde
8
![Page 9: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/9.jpg)
lycosin 1994 de eerste "echte", met bijna 1,5 miljoen pagina's
9
webzoekmachines zijn er al 20 jaar
![Page 10: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/10.jpg)
altavistain 1996 de nieuwste grootste, met ruim 30 miljoen pagina's
10
webzoekmachines zijn er al 20 jaar
![Page 11: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/11.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
Google vierde vorig jaarzijn 15de verjaardag
11
![Page 12: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/12.jpg)
agenda• informatiegroei / informatieinflatie
– wetenschap
– web
– data
• vinden van "al" die informatie– zoektrends voor de wetenschap
• resultaten vergelijking Scopus - WoS - Google Scholar
– zoektrends voor het web
• Google - meer of minder / beter of slechter
• semantisch zoeken
Eric Sieverts, IBW-UA, 4-4-201412
![Page 13: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/13.jpg)
1. de wetenschap
groei van te vinden informatie
![Page 14: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/14.jpg)
overhead sheet bijcolleges ca. 1985
bronnen:• Derek de Solla Price• Gale Directory• Ulrich's• ...
14 Eric Sieverts, IBW-UA, 4-4-2014
![Page 15: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/15.jpg)
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties
aantal tijdschriften
al 260 jaar verdubbeltjaarlijks aantal wetenschappelijkeartikelen elke 14 jaar
en aantal tijdschriftenook zo ongeveer
15 Eric Sieverts, IBW-UA, 4-4-2014
![Page 16: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/16.jpg)
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)
na (exponentiële) groei met factor 100.000neiging tot verzadiging?
NRC 12 maart 201116 Eric Sieverts, IBW-UA, 4-4-2014
![Page 17: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/17.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties(Eric Sieverts, 1981-1994)
jaarlijks aantalwetenschappelijke publicaties(NRC-Handelsblad, maart 2011)
exponentiële groei blijkt na 280 jaar toch nog niet afgevlakt
wetenschappers raken niet op?
• meer in china en india• nog meer "publish or perish" • …. ?
17
![Page 18: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/18.jpg)
publish or perish
©18
![Page 19: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/19.jpg)
extrapolatie naar 2024 ?
30 miljoen wetenschappelijke artikelen per jaar ?? database Scopus bevat dan 100 miljoen artikelen? Web of Science bevat dan 90 miljoen artikelen? Pubmed bevat dan 50 miljoen artikelen
maar blijven het (alleen) klassieke artikelen?
19 Eric Sieverts, IBW-UA, 4-4-2014
![Page 20: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/20.jpg)
"what next" voor wetenschappelijk publiceren ?• ook blogs
• ook tweets
• ook onderzoeksdata
• klassieke artikelen ontleed / opgesplitst tot "nanopublicaties":afzonderlijke beweringen die beschreven worden als RDF-tripels (zelfde techniek als voor "linked open data")
DNA variant NG_000007.3:g.70628G>A (Subject) has a frequency (Predicate) of 0.25% (Object). The assertion holds for the Sardinian population Provenance includes authors of the article (Giardine et. al.),the date when the nanopublication was created, et cetera.
voorbeeld
nog meer "items"
20
![Page 21: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/21.jpg)
Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011) doi:10.1038/ng0411-281
21 Eric Sieverts, IBW-UA, 4-4-2014
![Page 22: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/22.jpg)
trend: fragmentering van informatie
willen we dan nog naar artikelen zoeken
of naar die losse feiten of fragmenten?
22 Eric Sieverts, IBW-UA, 4-4-2014
![Page 23: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/23.jpg)
2. het web
groei van te vinden informatie
23
![Page 24: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/24.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
Dutch Home Pagenajaar 1993
Dutch Home Pagezomer 1994
![Page 25: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/25.jpg)
gegevens aanvankelijk uit:
1998
hoeveel doorzoeken webzoekmachines?
20011995
25 Eric Sieverts, IBW-UA, 4-4-2014
![Page 26: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/26.jpg)
1
10
100
1000
10000
100000
1000000
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
aantal miljoenenwebpagina's in grootstezoekmachine(verschillende bronnen)
15 jaar langverdubbelde elk jaar het aantal webpagina's in de grootste zoekmachine
content in betaalde online bronnen
milj
oene
n w
ebpa
gina
's?
hoeveel doorzoekenwebzoekmachines?
zie: Eric Sieverts. Van Lycos tot Google.in: NRC 9 februari 2013, special "Slimmer zoeken op internet" http://sieverts.pbworks.com/f/NRC_Lycos_Google.pdf
26 Eric Sieverts, IBW-UA, 4-4-2014
![Page 27: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/27.jpg)
but presently:
• do we want to find any page?
• does Google want to index any page?
• what is a web page anyhow?
september 2012: Google knew about the existence of30 trillion URL's 30,000,000,000,000
various estimates:presently about500,000,000,000 indexed pages
27 Eric Sieverts, IBW-UA, 4-4-2014
![Page 28: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/28.jpg)
extrapolatie naar 2024
4 biljard webpagina's in Google? (4.000.000.000.000.000)
maar blijft Google alles indexeren
en blijven het webpagina's?
28 Eric Sieverts, IBW-UA, 4-4-2014
![Page 29: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/29.jpg)
29
![Page 30: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/30.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
linked open data
• met linked open data komen losse feiten en gegevens gestandaardiseerd op internet beschikbaar
• in de linked open data cloud zijn al duizenden datasets met vele biljoenen RDF-tripels toegankelijk
• Google's Knowledge Graph bevat al miljarden gegevens
3030
![Page 31: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/31.jpg)
31
van web totlinked data
Tim Berners Lee:1989: "invented" the WWW2004: proposed the "semantic web"2006: designed "linked data"
as a step towards realisation of the semantic web
![Page 32: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/32.jpg)
dbpedia: data from Wikipedia
last.fm: artists
geonames:6.2 M toponyms
BBC: wildlifefinder
project GutenbergIMDB
music brainz
Reuters:openCalais
viaf: virtual internationalauthority file
LCSH
NY times
Flickr
"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussendoor standaardisering van dataformats en metadata,
kunnen computers betekenis van die data "begrijpen" en die data gebruiken
rechtspraak.nl
sept 2011
![Page 33: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/33.jpg)
trend: fragmentering van informatie
zoeken we in 2024 nog naar webpagina's of naar losse feiten en fragmenten?
33 Eric Sieverts, IBW-UA, 4-4-2014
![Page 34: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/34.jpg)
informatiegroei
informatie of data ?
&
informatieinflatie© Foam Amsterdam
Eric Sieverts, IBW-UA, 4-4-201434
![Page 35: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/35.jpg)
informatie of data?informatieinflatie
2000 Hall & Varian onderzoek:
gezamenlijk produceerden we dat jaar 1,5 exabyte (miljard gigabyte) informatie en dat verdubbelt elk jaar
(maar: is dat informatie of zijn het data?)
2011 uit een "infographic":in 2010 produceerden we gezamenlijk 2 zettabytes :
2 x 1021 bytes (2000 miljard gigabyte)
en dat verdubbelt elk jaar
[d.w.z. ruim 300 GB per persoon]35 Eric Sieverts, IBW-UA, 4-4-2014
![Page 36: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/36.jpg)
![Page 37: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/37.jpg)
Eric Sieverts, IBW-UA, 4-4-201437
![Page 38: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/38.jpg)
informatie of data?informatieinflatie
elk jaar verdubbelt aantal bytes dat we produceren is dat groei of inflatie?
• TXT documentje met mijn tekst: 50 kBvideoregistratie van mijn lezing: 500 MBdezelfde informatie(!?) maar 10.000 x zoveel data
• berichten op het web worden 100-voudig gerepliceerd, herblogd en geretweet
• van alles maken we ongecoördineerd back-ups
• ...
38 Eric Sieverts, IBW-UA, 4-4-2014
![Page 39: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/39.jpg)
Eric Sieverts, IBW-UA, 4-4-201439
YouTube groeit met 100 uur per minuut
![Page 40: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/40.jpg)
datavloedgolf
2011 - 1 biljoen YouTube filmpjes bekeken
2012 - Internet Archive: 10 PetaByte (1016)
2013 - 100 uur video per minuut YouTube - 4000 foto's per seconde Facebook
- 250 miljard foto's op Facebook
- 540 miljard tweets in Topsy zoekmachine
2014 - Beeld & Geluid (NL): 15 PetaByte
40 Eric Sieverts, IBW-UA, 4-4-2014
![Page 41: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/41.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
5 MB harde schijf in 1956
2 TB in 2013
prijs van opslagmedia:
in 1956: $ 7000 / MB / jaar lease
in 2013: $10 / TB (= $ 0,00001 / MB)
dataopslag
41
![Page 42: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/42.jpg)
1051 atomen
2110: ~1051 bits
2024: ~1026 bits (10 yottabyte)
2010: ~1022 bits
2000: ~1019 bits (1 exabyte)
onze jaarlijkse data productie
??
exponentiële groei blijftvoortduren ?
42
"grenzen aan de groei"
• minder produceren?
• niet alles (willen) bewaren?
Eric Sieverts, IBW-UA, 4-4-2014
![Page 43: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/43.jpg)
vinden van die informatie
1. de wetenschap
43
![Page 44: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/44.jpg)
vinden van wetenschappelijke informatie
1980 - 2005 - in bibliografische databases
belang van metadata - zoektermenuit thesauri en classificaties gestructureerd booleaans combinerenversnipperd aanbod
2005 - 2014 ….
Eric Sieverts, IBW-UA, 4-4-201444
![Page 45: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/45.jpg)
zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….)
• basis: booleaanse building block methode
• functionaliteit zeer stabiel (conservatief?) databases bij host Dialog waren tot vorig jaar nog vrijwel net zo te bevragen als 35 jaar geleden (als je dat wilde)
• ….
veiligheid lange tunnelsveiligheidveiligonveiligheidbeveiligingveiligheidsmaatregelen....
langlengte...
tunnelsverkeerstunnelsautotunnelsspoortunnels....
OR OR
ANDAND
Eric Sieverts, IBW-UA, 4-4-201445
![Page 46: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/46.jpg)
46
![Page 47: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/47.jpg)
zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….)
• ….
• zeer exacte zoekresultaten (aantallen)
• ook moderner uitziende interfaces (Ovid, Proquest, Ebsco, LexisNexis, …) nog niet erg gebruiksvriendelijk
• automatisch "vervangend zoeken" ten behoeve van gecontroleerd vocabulair (thesaurus) nog niet heel algemeen (wel bij PubMed, Ovid)
• automatisch "generiek zoeken" (zoekvraag uitbreiden met specifiekere begrippen - uit thesaurus) nog niet heel algemeen (wel bij PubMed)
• elk systeem heeft zijn eigen interface (en eigen zoeksyntax)
Eric Sieverts, IBW-UA, 4-4-201447
![Page 48: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/48.jpg)
2000
![Page 49: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/49.jpg)
zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….)
willen aanbieders hiermee gebruikers blijven trekken, dan moet • het er net zo makkelijk (& aantrekkelijk?) uitzien als
• het net zo makkelijk lijken als
• het een "experience" opleveren
discovery tools proberen dit wel te bieden >>
bij aanbieders van bibliografische databases
is dat allemaal (nog) meestal niet het geval
Eric Sieverts, IBW-UA, 4-4-201449
![Page 50: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/50.jpg)
vinden van wetenschappelijke informatie
1980 - 2005 - in bibliografische databases
belang van metadata - zoektermenuit thesauri en classificaties gestuctureerd booleaans combinerenversnipperd aanbod
2005 - 2014 - in "discovery tools"- in Google Scholar
belang van woorden uit de full-text (ongecontroleerd vocabulair)"bag of words" zoekactieséén ingang
Eric Sieverts, IBW-UA, 4-4-201450
![Page 51: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/51.jpg)
2000 - 2013discovery toolavant la lettre
51
![Page 52: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/52.jpg)
201152
![Page 53: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/53.jpg)
Eric Sieverts, SIG-CI, 1-11-2012
2011
year of the webscale discovery tools
53
![Page 54: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/54.jpg)
vinden van wetenschappelijke informatie
kenmerken "discovery tools"– ranking van resultaat op basis van best match
– facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata!
– beperken tot materiaal waarvoor toegang (licenties)
waardoor discovery = delivery
Eric Sieverts, IBW-UA, 4-4-201454
![Page 55: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/55.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
van google zijn we dat gewend
in fysieke bibliotheek was dat gewoon
maar in deze voorbeelden isde discovery wat beperkt .......
discovery = delivery
![Page 56: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/56.jpg)
vinden van wetenschappelijke informatie
kenmerken "discovery tools"– ranking van resultaat op basis van best match
– facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata!
– beperken tot materiaal waarvoor toegang (licenties)
– de catalogus is erin geïntegreerd
maar is die geschikt voor "discovery" ?
Eric Sieverts, IBW-UA, 4-4-201456
![Page 57: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/57.jpg)
voor informatie zoeken zijn (waren?) bibliotheekcatalogi geheel ongeschikt
voorbeeld: boek van 480 bladzijdenmet onderwerpsindex van 14 dichtbedrukte bladzijdenmet inhoudsopgave van 5 blz. met 21 hoofdstukken en 117 paragrafen
in een catalogus beschrevenmet 1 onderwerpscategorieen 1 (daaraan identiek!) trefwoord
57 Eric Sieverts, IBW-UA, 4-4-2014
![Page 58: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/58.jpg)
zelfs user-tags in Librarything bieden maar weinig meer zinvolle ingangen vergeleken met die inhoudsopgave
metadata in een bibliotheekcatalogus kunnen wel eens problematisch zijn
voorbeeld: boek van 480 bladzijdenmet onderwerpsindex van 14 dichtbedrukte bladzijdenmet inhoudsopgave van 5 blz. met 21 hoofdstukken en 117 paragrafen
58
![Page 59: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/59.jpg)
de 21 hoofdstukken op de bijbehorende website
een paar van de 117paragrafen uit de TOC
![Page 60: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/60.jpg)
vinden van wetenschappelijke informatie
kenmerken "discovery tools"– ranking van resultaat op basis van best match
– facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata!
– beperken tot materiaal waarvoor toegang (licenties)
– de catalogus is erin geïntegreerd
kenmerken Google Scholar– in ranking spelen citaties grote rol
nieuwste informatie wordt benadeeld **>>
– geen metadata, maar patroonherkenning
– vaak meer versies van artikelen, waarbij soms ook gratis (bijv. uit Institutioneel Repository)
Eric Sieverts, IBW-UA, 4-4-201460
![Page 61: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/61.jpg)
vinden van wetenschappelijke informatie
2012 - 2013 : UB Utrecht onderzocht – of eigen "discovery tool" Omega afgesloten kon worden
(leed onder wet van de remmende voorsprong)
– of Google Scholar en/of al aanwezige betaalde zoeksystemen als Web of Science en/of Scopus alternatief vormden voor nieuw in te richten discovery tool
– of catalogus t.z.t. als zoekhulpmiddel afgedankt kon worden
uitkomst: • meer nadruk op delivery dan op (eigen) discovery • verder met Google Scholar + Scopus + WoS
– met verbeterde link resolving
– met gerichte communicatie naar gebruikers
Eric Sieverts, IBW-UA, 4-4-201461
![Page 62: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/62.jpg)
Eric Sieverts
@sieverts
Bianca Kramer
@MsPhelps
onderdeel uit
dat onderzoek
62
![Page 63: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/63.jpg)
acromioclavicular joint fracture surgery
greenhouse emission dairy cattle
dangling bond passivation amorphous silicon
"verbal memory" children dyslexia
ethnicity "residential areas"
"sarbanes oxley" compliance legislation
modern literature cultural continuity
Medicine
Biology
Physics
Law
Humanities
Social sciences
Geosciences
![Page 64: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/64.jpg)
Medicine Physics Biology
Geosciences Social sciences Law Humanities
Overlap Scopus / Web of Science
![Page 65: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/65.jpg)
7 search queries
# p
ublic
atio
ns
← results Scopus + WoS
Scopus / WoS results found in Google Scholar ?
![Page 66: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/66.jpg)
# p
ublic
atio
ns
← results Scopus + WoS
![Page 67: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/67.jpg)
# p
ublic
atio
ns
← results Scopus + WoS
![Page 68: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/68.jpg)
# p
ublic
atio
ns
← results Scopus + WoS
![Page 69: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/69.jpg)
# p
ublic
atio
ns
← results Scopus + WoS
![Page 70: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/70.jpg)
← results Scopus + WoS
![Page 71: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/71.jpg)
Medicine Physics Biology
Geosciences Social sciences Law Humanities
![Page 72: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/72.jpg)
72
![Page 73: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/73.jpg)
73
![Page 74: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/74.jpg)
![Page 75: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/75.jpg)
7 search queries Scopus
1st 100 Google Scholar results: in Scopus / Wos ?
![Page 76: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/76.jpg)
7 search queries Web of Science
2
1st 100 Google Scholar results: in Scopus / Wos ?
![Page 77: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/77.jpg)
Medicine Physics Biology
Geosciences Social sciences Law Humanities
Scopus
![Page 78: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/78.jpg)
Medicine Physics Biology
Geosciences Social sciences Law Humanities
Web of Science
78
![Page 79: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/79.jpg)
vinden van die informatie
op het web: voorkeur slingert tussen zoekmachine en ontsluiting
![Page 80: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/80.jpg)
yahoo! directory
yahoo! directoryopen directorystartpagina's
lycosaltavista
web-2.0tagging/folksonomies
1990
2013
zoeken ontsluiten
semantisch zoeken
semantisch webcontent curation
80
![Page 81: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/81.jpg)
webzoekmachines• introduceerden best-match zoeken (i.p.v. booleaans)
• (ca. 1997) van "most of the terms" "all of the terms"
• (ca. 1998) suggesties voor alternatieve zoektermen(op basis van statistiek), vooral voor inperken van zoekactie, soms (AltaVista) ook geclusterd
(al deden online hosts ESA en Dialog anno 1985 al net zo iets, met ZOOM- of RANK-commando)
• (1998) introduceert link-statistiek als ranking parameter
• (2003-2008) suggesties voor extra termen verdwijnen weer(wel nog bij gespecialiseerde zoeksystemen)
• (2010) soort van verfijnen komt terug in de vorm van facetten (maar databases als Scopus waren daar al veel eerder mee)
• vermelde aantallen zoekresultaten kloppen van geen kant
• ….
Eric Sieverts, IBW-UA, 4-4-201481
![Page 82: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/82.jpg)
webzoekmachines• ….• doordat je zoveel vindt, vind je ook steeds meer niet
(niet > 1000 ! ook niet bij Google Scholar)• verbeteren zoekvraag door "did you mean:"• verbreden door automatisch zoeken op woordstammen• verbreden door automatisch zoeken op synoniemen,
samenstellingen, afkortingen, enz.• verbeteren zoekvraag zonder nog te vragen "did you
mean:"• niet zoeken wat je vraagt (de ingetikte zoekwoorden),
maar wat (zoekmachine denkt dat) je bedoelt: "user intent"
• ....
Eric Sieverts, IBW-UA, 4-4-2014
maar zoekspecialisten niet meer zo tevreden door die automatismes
82
![Page 83: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/83.jpg)
webzoekmachines• ….
• doordat je zoveel vindt, vind je ook steeds meer niet (niet > 1000 ! ook niet bij Google Scholar)
• verbeteren zoekvraag door "did you mean:"
• verbreden door automatisch zoeken op woordstammen
• verbreden door automatisch zoeken op synoniemen, samenstellingen, enz.
• verbeteren zoekvraag zonder nog te vragen "did you mean:"
• niet zoeken wat je vraagt (de ingetikte zoekwoorden), maar wat (zoekmachine denkt dat) je bedoelt: "user intent"
• (2011) introduceert "Verbatim" om toch weer"woordelijk" te laten zoeken
• ....
Eric Sieverts, IBW-UA, 4-4-201483
![Page 84: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/84.jpg)
webzoekmachines• ….
• is benchmark geworden voor (uiterlijk van) zoeksystemen
MAAR: syntax voor geavanceerde functies van Google (en Bing, Blekko,DuckDuckGo, ...) nog net zo ingewikkeld als Dialog anno 1980
EN: bij Google hangt zoekresultaat af van
welke browser landenversie taalinstelling of je ingelogd bent of je Google+ gebruiker bent ....
wekelijks verschijnen en verdwijnen functies en mogelijkheden (vooral bij Google)
Eric Sieverts, IBW-UA, 4-4-201484
![Page 85: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/85.jpg)
webzoekmachines• EN:
...
in hoog tempo verdwijnen functies en mogelijkheden als "graveyard of broken dreams" :
• helemaal verdwenen: + operator, ~ synonym operator timeline, wonder wheel, toolbar, sidewiki, searchwiki, ... real time results, code search, translated search, desktop search google buzz, google wave, google directory, google reader,
iGoogle, google answers, google talk, google sets, ...
• alleen maar verstopt: advanced search & settings (onder "tandwiel”) "similar page" & "cache"-links (onder groen driehoekje) material specific search (onder "grid") Scholar, Patents, Discussions (Groups), Blogs, Recipes
helemaal niet meer genoemd (je moet URL weten) "backlink search" niet meer in advanced search …
Eric Sieverts, IBW-UA, 4-4-201485
![Page 86: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/86.jpg)
webzoekmachines• ….
• personalisatie van (ranking van) zoekresultaat op basis van • eerder zoekgedrag• je "sociale kring"
meer algemeen gaan we:van zoeken filteren (via sociale media)
de "filter bubble"
Eric Sieverts, IBW-UA, 4-4-201486
![Page 87: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/87.jpg)
webzoekmachines• Google 2013: not STRINGS but THINGS
geen DOCUMENTEN maar DINGEN
geen 10 blue links maar ANTWOORDEN
van indexen op documenten (webpagina's) "graphs" van feiten en
gegevens
Google Knowledge Graph Bing Entity Engine (Satori) Facebook Graph search
semantisch web & semantisch zoeken ??
Eric Sieverts, IBW-UA, 4-4-201487
![Page 88: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/88.jpg)
semantisch web
semantisch zoeken
Eric Sieverts, IBW-UA, 4-4-201488
![Page 89: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/89.jpg)
Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem.Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken(binnenkort ook in het Nederlands)
89
gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook enstatistische analyse van eigen gegevens
![Page 90: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/90.jpg)
wat is in dit verband een "graph"? een netwerk van al die concepten met hun
onderlinge relaties en kenmerken
90
![Page 91: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/91.jpg)
graphs zijn nu "hot"
91
social graph uit Twitter
social graph uit Facebook
relaties in Freebase
Eric Sieverts, IBW-UA, 4-4-201491
![Page 92: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/92.jpg)
92
meer uit de Knowledge Graph
generieke vragen leveren lijstjes/"carousel",soms in meer rubrieken
Eric Sieverts, IBW-UA, 4-4-2014
![Page 93: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/93.jpg)
93 Eric Sieverts, IBW-UA, 4-4-2014
![Page 94: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/94.jpg)
94 Eric Sieverts, IBW-UA, 4-4-2014
![Page 95: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/95.jpg)
![Page 96: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/96.jpg)
maar niets overde diefstal ….
96
![Page 97: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/97.jpg)
97
feitelijk antwoordboven gewoneresultaten
Eric Sieverts, IBW-UA, 4-4-2014
![Page 98: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/98.jpg)
98
![Page 99: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/99.jpg)
Eric Sieverts, IBW-UA, 4-4-201499
![Page 100: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/100.jpg)
Eric Sieverts, IBW-UA, 4-4-2014100
![Page 101: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/101.jpg)
Eric Sieverts, IBW-UA, 4-4-2014101
![Page 102: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/102.jpg)
Eric Sieverts, IBW-UA, 4-4-2014102
![Page 103: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/103.jpg)
103
vergelijkingen
Eric Sieverts, IBW-UA, 4-4-2014
![Page 104: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/104.jpg)
Eric Sieverts, IBW-UA, 4-4-2014104
![Page 105: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/105.jpg)
Bing heeft zijn "Entity Engine" (Satori)maar die reageert nog niet altijd zo slim op combinaties van woorden
105
![Page 106: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/106.jpg)
Facebook Graph Search
alle gegevens die gebruikers registreren, worden gestructureerd opgeslagen in Facebook's graph (met gestandaardiseerde betekenis), waardoor ook gestructureerd gezocht kan worden
![Page 107: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/107.jpg)
![Page 108: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/108.jpg)
semantisch zoeken
drie soorten toepassingen
1. inschatten van de intentie van de zoeker - en liefst concreet antwoord in plaats van "10 blue links" (zoals bij Knowledge Graph)bijv.: zoekt mobiel in buurt van de Groenplaats naar “pizza”
>> adres van pizzeria in de buurt
2. bepalen van betekenis van woorden/tekst in documentenvooraf bij indexeren of achteraf in zoekresultaat;bijv.: herkennen van entiteiten of meegegeven metadata,
via complexe kennis van de wereld, concepten met tekst
associeren
3. automatisch aanpassen van zoekactie / zoekresultaat bijv.: toevoegen van betere en/of gerelateerde zoekwoorden,
zoekresultaat analyseren, (ook) in andere systemen zoeken
108 Eric Sieverts, IBW-UA, 4-4-2014
![Page 109: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/109.jpg)
interpretatie vannatuurlijke taal om tot concreetantwoord te komen
109
![Page 110: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/110.jpg)
1. antwoordmachines
110 Eric Sieverts, IBW-UA, 4-4-2014
maar willen we als informatieprofessionals wel antwoordmachines in paats van zoekmachines?
wie bepaalt wat juiste antwoord is ?
google ?
wikipedia ?
ik zelf ?
wie maakt afweging voor de juiste nuances ?
wie verzamelt voors en tegens ?
![Page 111: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/111.jpg)
2. betekenis in documenten
• herkennen van "entiteiten" in tekstzoals namen van plaatsen, personen, bedrijven, producten, ...
• automatische categorisering door via "machine learning" getraind systeem
• gebruik van "embedded metadata" / semantische coderingbijvoorbeeld binnen (X)HTML coderingen
• inhoudelijke koppeling met geselecteerde andere bronnen bijvoorbeeld via "linked data"
• ...
Eric Sieverts, IBW-UA, 4-4-2014111
![Page 112: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/112.jpg)
sentiment detection
112
![Page 113: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/113.jpg)
Google herkentobjecten in images
113
![Page 114: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/114.jpg)
pinterest biedt automatisch (?) gegenereerdefilters op onder meer recepten
?
![Page 115: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/115.jpg)
uit semantische codering
gestandaardiseerde markering van kenmerken in webpagina's
voorbeelden van “embedded metadata”:– recipe search bij Google en Yahoo– toepassing e-commerce ontology
daarbij gebruikte standaarden:– microformats / rich snippet markup / microdata / schema.org
(Google, Yahoo, Bing) onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek
– RDFa
115 Eric Sieverts, IBW-UA, 4-4-2014115
![Page 116: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/116.jpg)
in huidig Google-interface
onzichtbaar en minder
handig geworden;
NB: alleen in google.com
bij Yahoo overzichtelijker
116 Eric Sieverts, IBW-UA, 4-4-2014
![Page 117: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/117.jpg)
browser extensies (in Chrome) omembedded metadatauit pagina's te pikken
![Page 118: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/118.jpg)
standaardisatie van kenmerken van producten
met "GR-ontologie" volgens "RDFa“ in “XHTML”
118
![Page 119: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/119.jpg)
119 Eric Sieverts, IBW-UA, 4-4-2014
![Page 120: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/120.jpg)
120
Eric Sieverts, IBW-UA, 4-4-2014
![Page 121: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/121.jpg)
nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s
+ nu ook Yandex
121
![Page 122: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/122.jpg)
de concepten uit degood relations ontology zijn recent ook in schema.org geïncorporeerd
door Google, Bing en Yahoo vastgelegde standaard: microdata met hiërarchie van embeddable metadata kenmerken voor het web
![Page 123: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/123.jpg)
microdata en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
• Google biedt webmasters "Structured data testing tool" dat fouten in codering detecteert
zie blogpost op SearchEngineLand
http://searchengineland.com/how-to-use-rich-snippets-semantic-markup-to-send-rich-signals-139886
123 Eric Sieverts, IBW-UA, 4-4-2014
![Page 124: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/124.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over gevonden items
(zoals Google's rich snippets)
![Page 125: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/125.jpg)
in semantisch webwordt van "alles"
de betekenisvastgelegd
semantisch web
om betekenis ook te kunnen begrijpen zijn"ontologieën" nodig
125 Eric Sieverts, IBW-UA, 4-4-2014
![Page 126: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/126.jpg)
Originally from: http://www.emiliosanfilippo.it/?page_id=1172
ontologieën
![Page 127: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/127.jpg)
ontologieën
"Ontology is the philosophical study of the nature of being, becoming, existence, or reality, as well as the basic categories of being and their relations"
Wikipedia
filosofie kunstmatigeintelligentie
semantischweb
127
linked(open) data
Eric Sieverts, IBW-UA, 4-4-2014
![Page 128: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/128.jpg)
ontologieën
"een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen"
"kennis-representatie“ waarin kennis over (klein stukje van) de wereld in geformaliseerde vorm is weergegeven en die vollediger en meer complexe representatie van de werkelijkheid mogelijk maakt dan bijv. een thesaurus
filosofie kunstmatigeintelligentie
semantischweb
128
linked(open) data
Eric Sieverts, IBW-UA, 4-4-2014
![Page 129: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/129.jpg)
ontologieën
elk soort kennisorganisatiesysteem waarmee betekenisbeschreven kan worden, zoals• "echte" ontologieën• thesauri• taxonomieën• semantische netwerken• namenlijsten• concordanties• …
filosofie kunstmatigeintelligentie
semantischweb
129
linked(open) data
schema.orgis ook simpele vorm hiervan
Eric Sieverts, IBW-UA, 4-4-2014
![Page 130: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/130.jpg)
ontologieën
"conceptuele datamodellen" voor allerlei domeinen, zoals• foaf (persoonsgegevens)
• dublin core (15 velden voor vooral erfgoed)
• good-relations ontology (e-commerce)
• music ontology (muziek)
• skos (thesaurusrelaties)
• cidoc-crm (erfgoed)
definities van "velden", klassen van eigenschappen, e.d., meestal niet van hun inhouden
filosofie kunstmatigeintelligentie
semantischweb
130
linked(open) data
Eric Sieverts, IBW-UA, 4-4-2014
![Page 131: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/131.jpg)
voorbeeld van de relaties tussen concepten m.b.t.het standbeeld van Balzacdoor Rodin [CIDOC-CRM]
131
![Page 132: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/132.jpg)
132
![Page 133: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/133.jpg)
voorbeeld hoe diverse semantische standaarden
(ontologieën) via RDF werden gecombineerd
vroeger veel gebruikte standaarden voor beschrijvingselementen:• v: vcard• mo: music ontology• foaf: friend of a friend• owl: web ontology language• geo
maar worden nu algemeenvervangen door schema.org
133
oud
![Page 134: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/134.jpg)
ontologieën
voor “ontologieën” in het kader van semantisch web en linked data is essentieel dat:
– ontologie zo beschikbaar is dat een computer-programma hem kan lezen, verwerken en interpreteren
→ vereist gestandaardiseerde notaties en formele talen om ze te beschrijven, zoals
• rdf• rdfs• owl• skos• …
134 Eric Sieverts, IBW-UA, 4-4-2014
![Page 135: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/135.jpg)
fragment uit het linked dataVIAF-record voor Hugo Brandt Corstiusviaf.org/viaf/94439179/rdf.xml
135
![Page 136: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/136.jpg)
Eric Sieverts, IBW-UA, 4-4-2014
linked data in worldcat
136
![Page 137: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/137.jpg)
we've come a long way
van informatieschaarstenaar informatieoverload
van gespecialiseerde bestanden naar universele zoeksystemen
van complexe commandotalennaar systemen die onze vragen
begrijpen
maar :
- informatievaardige kritische gebruikers blijven nodig
- "there will always be a place for 10 blue links"
137 Eric Sieverts, IBW-UA, 4-4-2014
![Page 138: Information Retrieval: van specialisme tot commodity](https://reader038.vdocuments.net/reader038/viewer/2022102808/55d567e1bb61eb695e8b45b0/html5/thumbnails/138.jpg)
foto: Jan-Jaap Heine