topic modeling sosiologin työkaluna

20
Topic modeling sosiologin työkaluna Alustavia havaintoja tekstin koneellisesta analysoinnista Tuukka Ylä-Anttila

Upload: tuukka-ylae-anttila

Post on 14-Apr-2017

106 views

Category:

Science


5 download

TRANSCRIPT

Page 1: Topic modeling sosiologin työkaluna

Topic modelingsosiologin työkaluna

Alustavia havaintojatekstin koneellisesta analysoinnista

Tuukka Ylä-Anttila

Page 2: Topic modeling sosiologin työkaluna

Topic modeling luokittelee tekstiaineiston ”aiheisiin”:usein yhdessä esiintyvien sanojen joukkoihin

Page 3: Topic modeling sosiologin työkaluna
Page 4: Topic modeling sosiologin työkaluna
Page 5: Topic modeling sosiologin työkaluna

Topic modeling ja sosiologia• Sanaklusterit tulkitaan yleensä ”aiheiksi”, mutta jos

tutkitaan sosiaalisesti vakiintuneita tapoja puhua jostain (diskurssi, kehys), niin...• Bail, 2014; DiMaggio, Nag & Blei, 2013: topicit

tulkittavissa ”kehyksiksi”• 3 kokeilua

Page 6: Topic modeling sosiologin työkaluna
Page 7: Topic modeling sosiologin työkaluna

1: ”Topic Modeling the Global Climate Policy Debate” (Eranti, Kukkonen & Ylä-Anttila 2015)• New York Times & The Hindu hakusanalla “climate

change” or “global warming” ilmastoneuvottelujen aikaan 1997, 2009 ja 2011• 677 käsin koodattua ”vaadetta”, joista koodattu

puhujaryhmä (expert, govt, NGO)• Puhuvatko asiantuntijat, hallitukset ja kansalaisjärjestöt

eri tavalla ilmastonmuutoksesta? Puhutaanko USA:ssa ja Intiassa eri tavoin?• Aineisto MALLETiin niin, että yksi vaade oli yksi tiedosto,

nimetty esim. nyt_expert132.txt, tiedostoja muutama tuhat

Page 8: Topic modeling sosiologin työkaluna
Page 9: Topic modeling sosiologin työkaluna
Page 10: Topic modeling sosiologin työkaluna
Page 11: Topic modeling sosiologin työkaluna
Page 12: Topic modeling sosiologin työkaluna
Page 13: Topic modeling sosiologin työkaluna
Page 14: Topic modeling sosiologin työkaluna

2: Suomi24-kokeilu• ”Esi-” tai ”protopoliittinen puhe”: mitä ja miten

arkisia huolenaiheita politisoidaan?• (Chantal Mouffe, Peter Dahlgren,

Iris Marion Young, Kari Palonen...)

• Demokraattisen kulttuurin jäljet näkyvät politisaation reunaehdoissa• Miten löytää nettikeskusteluista politisaation

paikkoja, siis ”esipoliittista”, ja analysoida sitä?• Aineiston ”tislaaminen”?

Page 15: Topic modeling sosiologin työkaluna

”Mitä saa, jos heittää LDA:lle kasan lajittelematonta Suomi24-aineistoa?”

Page 16: Topic modeling sosiologin työkaluna

Mitä jos äskeistä karkeaa mallia käyttäisi esipoliittisen puheenetsimiseen, ja sitten jatkomallintaisi sitä aineiston osaa?

Page 17: Topic modeling sosiologin työkaluna
Page 18: Topic modeling sosiologin työkaluna

3: Vastatietodiskurssien leviäminen laitamedioista yleisempään julkisuuteen: MV-lehti, Hommaforum, Suomi24?• Hypoteesi:

Page 19: Topic modeling sosiologin työkaluna
Page 20: Topic modeling sosiologin työkaluna

Topic modeling sosiologin työkaluna: alustavia havaintoja• Aineiston tunteminen ja teoreettinen tulkinta

• Pitää osata kysyä oikeita kysymyksiä ja arvioida tuloksia• Kvalitatiivisten menetelmien hyödyntäminen

• Luokittelut, ”tislaaminen”• Käsityötä on suht paljon

• Näissä käytetty bash- ja Python-skriptejä BeautifulSoup-kirjastolla, Exceliä, wgetiä, MALLETia ja FinnPos-lemmatisoijaa, joita kaikkia piti opetella käyttämään

• Algoritmi ”black box”• Kuinka hyvin tutkijan täytyy tuntea käyttämänsä algoritmi?

• Puuttuu menetelmällinen konsensus joten pitää mennä ad hoc• Miten määritellään ja sitten operationalisoidaan vaikka ”kehys”? • Miten validoidaan että löydetty ”topic” on (tietty) ”kehys”?

• Tutkimusasetelmat, joissa tästä käpistelystäon muutakin kuin kuriositeettihyötyä• ”Digitalisaation” vaikutus maailmaan jota tutkitaan vs. tutkimusmenetelmiin –

molemmat!