keuzes in het zoekproces en structuur van het web

31
1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 19 november 2013 Wageningen

Upload: sydney-smith

Post on 31-Dec-2015

21 views

Category:

Documents


0 download

DESCRIPTION

Keuzes in het zoekproces en structuur van het web. Jeroen Bosman VOGIN, 19 november 2013 Wageningen. Kenmerken zoekexpert. Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica (“verzamelingenleer”) Zorgvuldig gebruik zoektools - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Keuzes in het zoekproces en structuur van het web

1

Keuzes in het zoekproces en

structuur van het web

Jeroen Bosman

VOGIN, 19 november 2013 Wageningen

Page 2: Keuzes in het zoekproces en structuur van het web

2

Page 3: Keuzes in het zoekproces en structuur van het web

3

Page 4: Keuzes in het zoekproces en structuur van het web

4

Page 5: Keuzes in het zoekproces en structuur van het web

5

Kenmerken zoekexpert• Kennis onderwerp• Bronnenkennis• Kennis zoektools• Talenkennis, taalcreativiteit• Logica (“verzamelingenleer”)

• Zorgvuldig gebruik zoektools• Snelheid (m.n. bij selecteren en evalueren)• Reflectie op eigen zoekproces (bv met reverse

search)

Page 6: Keuzes in het zoekproces en structuur van het web

6

Deel I: keuzes in het zoekproces

Page 7: Keuzes in het zoekproces en structuur van het web

7

Zoeksystematiek1. Vraaganalyse

• Wensen ‘opdrachtgever’• Verkenning• Opstellen zoekprofiel: waaraan moet de informatie voldoen, genereren

zoektermen2. Aanbod

• Keuze ingang(en): zoekmachines, databases, gidsen, bookmarksites3. Match

• Daadwerkelijk zoeken (gebruik syntax, opties en filters)• Selecteren (is het relevant?)

4. Nabewerking per relevante bron• Evaluatie (is het goed genoeg?)• Opslaan, printen, delen• Eventueel doorzoeken via auteurs en verwijzingen uit gevonden bronnen

5. Nabewerking zoekactie geheel• Bij doorlopende interesse evt. web en page alerts/feeds instellen• Expliciete reflectie op zoekproces en zoekresultaat

6. Vervolg op zoekactie• Eventueel andere ingangen of geheel andere typen bronnen (gedrukte

literatuur, deskundigen)

Page 8: Keuzes in het zoekproces en structuur van het web

8

Vraaganalyse 1: wensen opdrachtgever

• Opdrachtgever: wat wil men met de informatie?

• Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.)

• Randvoorwaarden: tijd, geld, vertrouwelijkheid

• Rapportagevorm (inhoudelijk, technisch)

Page 9: Keuzes in het zoekproces en structuur van het web

9

Vraaganalyse 2: Verkenning

• Welke vraag/onderwerp• Wat ligt er al, nuttig als uitgangspunt?• Inhoudelijk verkennen (via bv Wikipedia of

ander naslagwerk of via korte zoekactie)• Ideeën opdoen qua context, jargon,

zoektermen, typen bronnen, auteurs

Page 10: Keuzes in het zoekproces en structuur van het web

10

Vraaganalyse 3: Zoekprofiel• Onderscheiden elementen (variabelen)

• Welke?• Allebei even belangrijk?

• Vooraf genereren zoektermen• Uit reeds gevonden bronnen• Uit naslagwerken/zoekacties van verkenningsfase• Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus)• Uit keyword facets in bv. Scopus

• Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen

• Relevante typen informatie en publicaties• Relevante publicatieperiode

Page 11: Keuzes in het zoekproces en structuur van het web

11

Aanbod: Keuze zoekingang• Bepaald door zoekprofiel: onderwerp, type

informatie, type publicatie, relevante publicatiejaren, disciplinair perspectief

• Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties

• Bepaald door extra wensen:– Zoekmethode: catalogus-, bibliografische,

sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks)

– Zoeken in full-text, links naar full-text• Ook letten op volgorde ingangen (dekking,

bekendheid, selectiviteit, + afh. van doel)• Zie voor links naar ingangen de ‘startpagina’ bij

deze cursus

Page 12: Keuzes in het zoekproces en structuur van het web

12

Match 1: Zoektermen ingeven

• Let op woordvarianten en spelling:• Varianten in OR-relatie of:• Trunceren: alles wat met woordstam begint (alleen Exalead) • Automatische “stemming” (enkel-/meervoud enz. bij

Google?)• Oxford-English of American–English (s/z, ou/o)• Samenstellingen in Engels los: kwaliteitscontrole > quality

control• Denken in termen van het te vinden document

(jargon/slang), gebruik zinsnedes / exact phrase met “… …”

• Bij Google: wildcard binnen exact phrase “… * …”• Bij Google: verbatim/woord-voor-woord zoeken

Page 13: Keuzes in het zoekproces en structuur van het web

13

Match 2: zoektermen ingeven, vv.• Gebruik termsuggesties

– voor zoekactie: Google, Exalead, Bing, Yahoo– termen uit gevonden goede webpagina’s– hulpmiddelen: thesaurus, synoniemenwoordenb. (startpag.)

Bing Google Yahoo

Page 14: Keuzes in het zoekproces en structuur van het web

14

Match 3: zoektermen ingeven, vv.

• Gewicht aanbrengen met zoektermherhaling in Google

• Voorbeeldzoeken voor ‘lijstjes’• Iteratief proces: één of meer keren snelle

beoordeling zoekresultaat en aanpassing termen/instellingen– Aantallen treffers (in webzoekmachines): wel letten

op veranderingen, niet op absolute niveau

Page 15: Keuzes in het zoekproces en structuur van het web

15

Match 4: Selectie op relevantie• Wat voor rangorde hebben de resultaten?• De rangorde: beïnvloeden, vertrouwen of alles

bekijken?• Kijk naar meer dan titels:

– bij boeken/artikelen: • samenvattingen• citaties• omvang (bv LexisNexis)– bij web: • KWIC• domein/organisatie• wel/niet PDF• omvang (bv. bij images en video)• preview (niet meer bij Google-web)

Page 16: Keuzes in het zoekproces en structuur van het web

16

Nabewerking per bron 1: beoordeling• Formeel (vooral bij websites):

– Aanduiding maker/auteur (“about us”)

– Aanduiding postadres, telefoonnummer

– Aanduiding doel/doelgroep– Goede opmaak– Geen reclame en pop-ups– Heldere navigatie– Interne zoekfunctie– Voldoende snelheid server– Backlinks door gezaghebbende

organisaties– Up to date?– Zinnige datering inhoud– Geen grof taalgebruik– Geen kinderlijk taalgebruik– Geen storende taalfouten

• Beoordeling door anderen– Status bron (peer

reviewed, uitgever, gezaghebbende instantie)

– Affiliatie auteur– Plaats in citatienetwerk

(door wie, hoe vaak)

• Zelf, inhoudelijk– Bronvermelding

(voldoende, geen kernpublicaties gemist)

– Opbouw, argumentatie, methode, verantwoording

Page 17: Keuzes in het zoekproces en structuur van het web

17

Nabewerking per bron 2:

• opslaan (mail, document, Endnote / Refworks / Mendeley / Zotero / Evernote / Diigo e.d.

• versturen (handmatig, vanuit systeem)• bookmark (browser, Delicious, CiteUlike,

‘like’, +)• alert/spion (donderdag)• RSS-feed )met Feedly, Digg etc…. of Outlook

Page 18: Keuzes in het zoekproces en structuur van het web

18

Vervolg op zoekactie: Reflectie• Hoeveel gevonden in hoeveel tijd?• Voldoet oogst aan zoekprofiel?• Welke aspecten van zoekprofiel waren meest selectief?• Waren alle vooraf bedachte ingangen even nuttig?• Wat was de overlap tussen de ingangen?• Goede volgorde ingangen gehanteerd?• Wat had de zoekvraag moeten zijn om het beste gevonden

document direct te vinden (reverse earch)• Iets geleerd over eigen sterke/zwakke punten?

Page 19: Keuzes in het zoekproces en structuur van het web

19

Deel II: Structuur van het web

Page 20: Keuzes in het zoekproces en structuur van het web

20

Er is wel structuur: domeinen• soorten top-level-domains (TLD) iso-3166

– generiek: • com / org / net (vrij)• int / edu / gov / mil / arpa (beperkt)

– landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%)– jump: tv / nu / to / tk– nieuw: biz/info/name/coop/pro/aero/museum/mobi

• generieke ‘subtopleveldomeinen’:co / gob / ac / org etc. (zie http://www.iana.org/domains/root/db/

en http://www.whois365.com/en/listtld/gtld)• per 2009 ook URL’s in niet-Latijns schrift

Page 21: Keuzes in het zoekproces en structuur van het web

21

opbouw URL

• protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie

• http : // libguides. library . uu . nl / evalueren

Page 22: Keuzes in het zoekproces en structuur van het web

22

URL’s van databasepagina’s

• http://aleph.library.uu.nl/F/HDRH5QK8UGC775UMSMU44VT2GSG5VD5VKEI6FMCCN7G75L75LG-04490?func=find-b&find_code=WRD&request=geografische+huis&adjacent=N&x=43&y=11

• http://www.google.nl/search?as_q=vogin+wageningen&hl=nl&rlz=1R2MEDC_nlNL330&num=10&btnG=Google+zoeken&as_epq=&as_oq=&as_eq=&lr=lang_nl&cr=&as_ft=i&as_filetype=pdf&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=&as_rights=&safe=images

Page 23: Keuzes in het zoekproces en structuur van het web

23

zoektools: wanneer wat?

• indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk:

zoekmachines• indien zoekvraag breed, exploratief,

inventariserend, met weinig voorkennis, met relatief veel tijd:

onderwerpsgidsen, door mensen gemaakte overzichten

Page 24: Keuzes in het zoekproces en structuur van het web

24

Onderwerpsgidsen: algemeen

+ geen zoektermen nodigvaak actueelannotatiesweinig ruis

-

onvolledigdode linksvoorkeur makerhoudt groei niet bijvoor homepages

Page 25: Keuzes in het zoekproces en structuur van het web

25

Onderwerpsgidsen• Alle onderwerpen: Open Directory, Yahoo• Nederlands: startpagina, meta: startnederland• Breed wetenschappelijk: Infomine • Web2.0-variant: Digg (nieuws)• Sociaal met voting: Reddit• Zoeken:

– via Yahoo (per onderwerp onder ‘webdirectories’)– via Open Directory– via Pinakes (wetenschappelijk)– vragen aan collegae– vragen via discussielijsten, twitter etc.

Page 26: Keuzes in het zoekproces en structuur van het web

26

Zoekmachines: dekking

• > 15% van de webpagina’s in geen enkele van de grootste zoekmachines

• van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, Live/Bing 62% (http://www.cs.uiowa.edu/~asignori/web-size/)

• overlap eerste pagina slechts 10% (Spink studie 2006)• dekking zeer ongelijkmatig• verschil in actualiteit

Page 27: Keuzes in het zoekproces en structuur van het web

27

Zoekmachines: ontwikkeling• 1994 Webcrawler, Lycos, Alta Vista (10)• 1995 concurrentie Hotbot, Excite, Yahoo (50)• 1997 Northern Light, MSN, sterke groei web > 200• 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100)• 2002 komst Teoma, Wisenut, Gigablast (1000)• 2003 renaissance AV, glorietijd Google (3000)• 2004 consolidatie/concurrentie (4000):

– Google+Blogger, verbreding: boeken, kritiek, beursgang– Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW– Microsoft: introductie MSNsearch beta: zelf indexeren

• 2005 verbreding/innovatie/content (5000-10000)– Samenwerking content providers-zoekmachines?– Teoma wordt Ask en opkomst Amazon met A9– Doorgroei Gigablast (2000)

• 2006-2007 puur zoeken raakt op achtergrond (20000-40000)– Live gelanceerd, YouTube gekocht– uploaden, web 2.0– gemengde content (Google universal, iGoogle bv.)– specifieke diensten (Google CSE bv)

• 2008 Google universal verder ingevoerd (>100000)• 2009 Nieuwe zoekmachine van Microsoft: Bing (>400000)• 2010 Yahoo stopt eigen index; Instant search en preview bij Google (>800000)• 2011 Groei Blekko / Google+ en effect op rest Google• 2012 Pinterest / Facebook in search• 2013 Google Now

Page 28: Keuzes in het zoekproces en structuur van het web

28

Zoekmachines: wat vind je niet?

• recente webpagina’s/wijzigingen• dynamisch gegenereerde pagina’s• informatie in databases• pagina’s met no robots file• pagina’s met toegangsrestricties• verdwenen pagina’s maar:

– Cache (bij Google link in preview)– Wayback Machine archive.org– kleinere archiveringsacties KB en BL

Page 29: Keuzes in het zoekproces en structuur van het web

29

Zoekmachines: beperkingen Google

• genest Booleaans zoeken > Bing/Exalead• zeer grote pagina’s soms niet volledig

geïndexeerd? > Yahoo• + niet bruikbaar voor exact search van 1 woord• truncatie en fonetisch zoeken > Exalead?• zoekgeschiedenis zonder inloggen: Bing• webpagina’s met audio: Exalead

Page 30: Keuzes in het zoekproces en structuur van het web

30

Land/taalversies Google

•Interfacetaal– beïnvloedt ook (ranking) resultaat!

•Taalinstelling zoekactie– voorkeuren eenmalig of ‘implied’ door zoekterm

•Landsversie: – beïnvloedt ranking sterk– ncr: no country redirect

–Let ook bij Bing op landsinstelling: alleen VS versie heeft alle functionaliteit

Page 31: Keuzes in het zoekproces en structuur van het web

Personalisation/localisation

• Localisatie effect sterker dan personalisatie• Effect beperken:

– Voeg "&pws=0“ toe om in Google personalisation uit te zetten

– Gebruik een Chrome incognito window– Log niet in– Zet locatie in mobiel apparaat uit

31