topic modeling sosiologin työkaluna
TRANSCRIPT
Topic modelingsosiologin työkaluna
Alustavia havaintojatekstin koneellisesta analysoinnista
Tuukka Ylä-Anttila
Topic modeling luokittelee tekstiaineiston ”aiheisiin”:usein yhdessä esiintyvien sanojen joukkoihin
Topic modeling ja sosiologia• Sanaklusterit tulkitaan yleensä ”aiheiksi”, mutta jos
tutkitaan sosiaalisesti vakiintuneita tapoja puhua jostain (diskurssi, kehys), niin...• Bail, 2014; DiMaggio, Nag & Blei, 2013: topicit
tulkittavissa ”kehyksiksi”• 3 kokeilua
1: ”Topic Modeling the Global Climate Policy Debate” (Eranti, Kukkonen & Ylä-Anttila 2015)• New York Times & The Hindu hakusanalla “climate
change” or “global warming” ilmastoneuvottelujen aikaan 1997, 2009 ja 2011• 677 käsin koodattua ”vaadetta”, joista koodattu
puhujaryhmä (expert, govt, NGO)• Puhuvatko asiantuntijat, hallitukset ja kansalaisjärjestöt
eri tavalla ilmastonmuutoksesta? Puhutaanko USA:ssa ja Intiassa eri tavoin?• Aineisto MALLETiin niin, että yksi vaade oli yksi tiedosto,
nimetty esim. nyt_expert132.txt, tiedostoja muutama tuhat
2: Suomi24-kokeilu• ”Esi-” tai ”protopoliittinen puhe”: mitä ja miten
arkisia huolenaiheita politisoidaan?• (Chantal Mouffe, Peter Dahlgren,
Iris Marion Young, Kari Palonen...)
• Demokraattisen kulttuurin jäljet näkyvät politisaation reunaehdoissa• Miten löytää nettikeskusteluista politisaation
paikkoja, siis ”esipoliittista”, ja analysoida sitä?• Aineiston ”tislaaminen”?
”Mitä saa, jos heittää LDA:lle kasan lajittelematonta Suomi24-aineistoa?”
Mitä jos äskeistä karkeaa mallia käyttäisi esipoliittisen puheenetsimiseen, ja sitten jatkomallintaisi sitä aineiston osaa?
3: Vastatietodiskurssien leviäminen laitamedioista yleisempään julkisuuteen: MV-lehti, Hommaforum, Suomi24?• Hypoteesi:
Topic modeling sosiologin työkaluna: alustavia havaintoja• Aineiston tunteminen ja teoreettinen tulkinta
• Pitää osata kysyä oikeita kysymyksiä ja arvioida tuloksia• Kvalitatiivisten menetelmien hyödyntäminen
• Luokittelut, ”tislaaminen”• Käsityötä on suht paljon
• Näissä käytetty bash- ja Python-skriptejä BeautifulSoup-kirjastolla, Exceliä, wgetiä, MALLETia ja FinnPos-lemmatisoijaa, joita kaikkia piti opetella käyttämään
• Algoritmi ”black box”• Kuinka hyvin tutkijan täytyy tuntea käyttämänsä algoritmi?
• Puuttuu menetelmällinen konsensus joten pitää mennä ad hoc• Miten määritellään ja sitten operationalisoidaan vaikka ”kehys”? • Miten validoidaan että löydetty ”topic” on (tietty) ”kehys”?
• Tutkimusasetelmat, joissa tästä käpistelystäon muutakin kuin kuriositeettihyötyä• ”Digitalisaation” vaikutus maailmaan jota tutkitaan vs. tutkimusmenetelmiin –
molemmat!