s.m. iacus - social media, big data & statistics
Post on 29-Jun-2015
37.701 Views
Preview:
TRANSCRIPT
Social Media, Big Data & Sta1s1cs
Voices from the Blogswe capture the sentiment of the net
Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs
Cosa si intende per Big Data?
35% della popolazione mondiale sul Web (raddoppiata tra il 2006 e il 2011)il 72% di questi scrive e partecipa sui social media500 milioni di tweet al giorno in tutto il mondo e oltre 500 milioni di account15% della popolazione USA su Twitter, l’8% ogni giorno10 milioni di tweet durante le ore dei dibattiti presidenziali Obama-Romney
!!!
Cosa si intende per Big Data in Italia?
75% della popolazione italiana usa Internet40% della popolazione italiana è attivo sui social media20% parla di temi politici e sociali in rete19 milioni di italiani accendono ad internet in mobilità mobile400 mila tweet nella prima serata di Sanremo4.7 milioni di account Twitter attivi settimanalmente
Quali sfide per la Sta1s1ca?
Cara<eris1che dell’analisi dei Social Media
dati geo-localizzati (Twitter)analisi retrospettive (catturare l’opinione nel momento in cui viene espressa)analisi real-time (monitoraggio continuo dei temi di interesse)velocità di esecuzione di analisi raccolta di opinioni non sollecitateanalisi censuarie: si analizza l’intera popolazione di tweet espressi su un particolare tema
popolazione sui social media non rappresentativa di quella demograficanon si possono fare domande, si può solo ascoltarese un tema non interessa i social, non si può indagareanalisi testuale, il linguaggio cambia a seconda dei temi
very Big data
Ogge<o dell’analisi: distribuzione aggregata
Ciò che interessa non è la classificazione dell’opinione in un singolo testo ma la distribuzione aggregata delle opinioni
Non ci interessa l’ago nel pagliaio...
...ma cara2erizzare l’intero pagliaio!
Problema sta1s1co: errore di classificazione
Anche il miglior classificatore sta1s1co a<ribuisce una risposta ad un testo non le<o con una certa probabilità < 1
L’errore di missclassifica4on sia amplifica quando si aggregano le s1me anziché ridursi
Risultato: s1me fortemente distorte e con alta variabilità
Come funziona in pra1ca?
Post Cat Word:nuclear
Word:fear
Word:radiation
Word:pollution
Word:waste
Word:economic
post#1 a favore 1 0 0 0 0 1post#2 NA 1 0 0 0 1 0post#3 contro 1 1 1 1 1 0post#4 contro 1 1 1 1 1 0post#5 a favore 1 0 1 0 0 1
... ... ... ... ... ... ... ...post#1000 NA 1 0 0 0 0 1
train set
train set
train set
test set
test set
train set
Codificamanuale
Stemming
Come funziona in pra1ca?
test set
Post Di Word:nuclear
Word:fear
Word:radiation
Word:pollution
Word:waste
Word:economic
post#1 a favore 1 0 0 0 0 1
Di = “a favore” Si = (1,0,0,0,0,1)
Goal: stima della distribuzione P(D)
0
0,1
0,2
0,3
0,4
a favore ok, ma ho paura contrario contrario, ma economico
10%
40%
20%
30%
Come funziona in pra1ca?
test set
Approccio sta1s1co classico
P(D) = P(D|S) * P(S) train & test train+testgoal
modello sta1s1co classicoproduce missclassifica1on
distribuzione degli stem
S1me distortealta variabilità
Come funziona in pra1ca?
test set
Approccio sta1s1co innova1vo (King&Hopkins, 2010)
P(S) = P(S|D) * P(D) traintrain+test goal
P(S|D) * P(S) = P(D) -1
ed eccoil goal
Semplice quanto inver1re una matriceNessun problema di Big Data
Accorgimen1 necessari
U1lizzare tecniche supervised, cioè con codificatori umani NO: dizionari ontologiciNO: pure machine learning Why human and not
ontological dictionaries?
๏ “What a nice rip-off” (“che bella fregatura”)
50% positive & 50% negative=
misclassification
100% negative=
no misclassification
Semantic rules do work ? ๏ Language evolves continuously: one cannot code all
possible semantic rules unless reading the posts !!!
“horses andbayonets” ????
ironic ! Guardare ai da1
Guardare nei da1
Soluzione: l’approccio di Voices from the Blogs
Screening(di cosa parlano i testi?)
CrawlerFase dicodifica
Stemming
AnalisiStatistica
Esempio1: Monitoraggio con1nuo di Twi<er-‐Felicità
49 Milioni di tweet in 12 mesi, media di 130mila a secmana
Esempio2: Analisi retrospecva geolocalizzata
5,8 Milioni di tweet in 12 mesi su 5 paesi in 5 lingue
20
30
40
50
Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12
% d
i fav
orev
oli
Monti Merkel Hollande Rajoy Cameron
Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12
Popularity
Spain on Mariano Rajoy
time frameoctober 2011
september 2012
Germany on Angela Merkel
Popularity: 34%123.887 posts - Males: 81%
Italy on Mario Monti
Popularity: 44%430.945 posts - Males: 59% Popularity: 36%
2.018.509 posts - Males: 69%
UK on David Cameron
Popularity: 32%1.539.921 posts - Males: 72%
France onFrançois Hollande
Popularity: 27%1.710.111 posts - Males: 65%
5.823.373total
tweetsanalyzed
5 countries5 different languages
Periodo o<. 2011-‐o<.2012
100
10000
Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12
num
ero
di p
ost i
n sc
ala
loga
ritm
ica
Monti Merkel Hollande Rajoy Cameron
Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12
Numb
er of
twee
ts - lo
g sca
le
Esempio3: Analisi retrospecva geolocalizzata
2,4 Milioni di tweet, Gen-‐Ago 2012, analisi su Europa a 15
Europe
Euro Sentiment2.413.971 Tweet
15 European Countries January - August 2012
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.55
47%
40%45%
15%16%23%
41%
37%
54%
44%
21% 33%
51%
36%
10%
20%
30%
40%
50%
60%
10% 20% 30% 40% 50% 60%
Eurobarometer (source: European Commission)
Euro
Senti
ment
on Tw
itter
Eurobarometro
Belgium
NetherlandsFrancePortugal
Spain
DenmarkItaly
Greece
Sweden
UKIreland
Finland
Austria Luxemburg
Germany
Correlation = 0.55
Euroscetticismo
Esempio4: Previsioni ele<orali presidenziali USA
50 Milioni di tweet in 40 gg
Follower: Obama 16,8 M Romney 0,6 M
Distanza guardando alle intenzioni di voto molto minore
Da1 simili a quelli dei sondaggi tradizionali ma in tempo reale
La rete amplifica i cambiamen1 di opinione e an1cipa le espressioni di voto
35,0%
40,0%
45,0%
50,0%
28/9 30/9 2/10 4/10 6/10 8/10 10/10 12/10 14/10 16/10 18/10 20/10 22/10 24/10 26/10 28/10 30/10 1/11 3/11 5/11
Obama Romney
Firstdebate
Seconddebate
Thirddebate
#Mourdock
#Benghazi
(“Other” & “Don’t know” omitted)
#Sandy
#revenge/love
#who cares of “47%”
#US2012 Presidential Elections
Esempio4: Previsioni ele<orali presidenziali USA
Previsione: Obama +3,5%, Effettivo +2,8%
5 Nov, 24h ora italianaPorta a Porta, Rai1
Sbagliati solo 2 stati, solo Nate Silver ci ha battuto!
Esempio5: Fes1val di Sanremo 2013
Indovina1 2 vincitori del Fes1val
Esempio6: Popolarità dei leader
Esempio7: Elezioni Poli1che 2013
E’ possibile prevedere la propensione al voto ascoltando Twi<er?
Sì, ma...
Esempio7: Elezioni Poli1che 2013
E’ possibile prevedere la propensione al voto ascoltando Twi<er?
Sì, ma... AGCOM blocca lo speciale Elezioni del Corriere della Sera che mostra l’analisi di VfB poiché il dato è ritenuto equiparabile a sondaggio di opinione
Conclusioni
La società è cambiata e si organizza in re1 virtuali e fisiche
Siamo sempre più connessi in rete e interconnessi
CATI & CAWI sono ormai strumen1 supera1
I campioni “rappresenta1vi” non sono più tali (tassi di risposta a<orno al 10% e ricampionamen1 anche tramite randomizzazione dei numeri di cellulare!!!)
L’analisi dei da1 provenien1 dai social network è oggi uno strumento indispensabile (ma non esclusivo) per la conoscenza ma servono tecniche sta1s1che adeguate
top related