s.m. iacus - social media, big data & statistics

Social Media, Big Data & Sta1s1cs

Voices from the Blogswe capture the sentiment of the net

Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs

Cosa si intende per Big Data?

35% della popolazione mondiale sul Web (raddoppiata tra il 2006 e il 2011)il 72% di questi scrive e partecipa sui social media500 milioni di tweet al giorno in tutto il mondo e oltre 500 milioni di account15% della popolazione USA su Twitter, l’8% ogni giorno10 milioni di tweet durante le ore dei dibattiti presidenziali Obama-Romney

Cosa si intende per Big Data in Italia?

75% della popolazione italiana usa Internet40% della popolazione italiana è attivo sui social media20% parla di temi politici e sociali in rete19 milioni di italiani accendono ad internet in mobilità mobile400 mila tweet nella prima serata di Sanremo4.7 milioni di account Twitter attivi settimanalmente

Quali sfide per la Sta1s1ca?

Cara<eris1che dell’analisi dei Social Media

dati geo-localizzati (Twitter)analisi retrospettive (catturare l’opinione nel momento in cui viene espressa)analisi real-time (monitoraggio continuo dei temi di interesse)velocità di esecuzione di analisi raccolta di opinioni non sollecitateanalisi censuarie: si analizza l’intera popolazione di tweet espressi su un particolare tema

popolazione sui social media non rappresentativa di quella demograficanon si possono fare domande, si può solo ascoltarese un tema non interessa i social, non si può indagareanalisi testuale, il linguaggio cambia a seconda dei temi

very Big data

Ogge<o dell’analisi: distribuzione aggregata

Ciò che interessa non è la classificazione dell’opinione in un singolo testo ma la distribuzione aggregata delle opinioni

Non ci interessa l’ago nel pagliaio...

...ma cara2erizzare l’intero pagliaio!

Problema sta1s1co: errore di classificazione

Anche il miglior classificatore sta1s1co a<ribuisce una risposta ad un testo non le<o con una certa probabilità < 1

L’errore di missclassifica4on sia amplifica quando si aggregano le s1me anziché ridursi

Risultato: s1me fortemente distorte e con alta variabilità

Come funziona in pra1ca?

Post Cat Word:nuclear

Word:fear

Word:radiation

Word:pollution

Word:waste

Word:economic

post#1 a favore 1 0 0 0 0 1post#2 NA 1 0 0 0 1 0post#3 contro 1 1 1 1 1 0post#4 contro 1 1 1 1 1 0post#5 a favore 1 0 1 0 0 1

... ... ... ... ... ... ... ...post#1000 NA 1 0 0 0 0 1

train set

test set

train set

Codificamanuale

Stemming

test set

Post Di Word:nuclear

Word:fear

Word:radiation

Word:pollution

Word:waste

Word:economic

post#1 a favore 1 0 0 0 0 1

Di = “a favore” Si = (1,0,0,0,0,1)

Goal: stima della distribuzione P(D)

a favore ok, ma ho paura contrario contrario, ma economico

test set

Approccio sta1s1co classico

P(D) = P(D|S) * P(S) train & test train+testgoal

modello sta1s1co classicoproduce missclassifica1on

distribuzione degli stem

S1me distortealta variabilità

test set

Approccio sta1s1co innova1vo (King&Hopkins, 2010)

P(S) = P(S|D) * P(D) traintrain+test goal

P(S|D) * P(S) = P(D) -1

ed eccoil goal

Semplice quanto inver1re una matriceNessun problema di Big Data

Accorgimen1 necessari

U1lizzare tecniche supervised, cioè con codificatori umani NO: dizionari ontologiciNO: pure machine learning Why human and not

ontological dictionaries?

๏ “What a nice rip-off” (“che bella fregatura”)

50% positive & 50% negative=

misclassification

100% negative=

no misclassification

Semantic rules do work ? ๏ Language evolves continuously: one cannot code all

possible semantic rules unless reading the posts !!!

“horses andbayonets” ????

ironic ! Guardare ai da1

Guardare nei da1

Soluzione: l’approccio di Voices from the Blogs

Screening(di cosa parlano i testi?)

CrawlerFase dicodifica

Stemming

AnalisiStatistica

Esempio1: Monitoraggio con1nuo di Twi<er-‐Felicità

49 Milioni di tweet in 12 mesi, media di 130mila a secmana

Esempio2: Analisi retrospecva geolocalizzata

5,8 Milioni di tweet in 12 mesi su 5 paesi in 5 lingue

Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12

Monti Merkel Hollande Rajoy Cameron

Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12

Popularity

Spain on Mariano Rajoy

time frameoctober 2011

september 2012

Germany on Angela Merkel

Popularity: 34%123.887 posts - Males: 81%

Italy on Mario Monti

Popularity: 44%430.945 posts - Males: 59% Popularity: 36%

2.018.509 posts - Males: 69%

UK on David Cameron

Popularity: 32%1.539.921 posts - Males: 72%

France onFrançois Hollande

Popularity: 27%1.710.111 posts - Males: 65%

5.823.373total

tweetsanalyzed

5 countries5 different languages

Periodo o<. 2011-‐o<.2012

Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12

Monti Merkel Hollande Rajoy Cameron

Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12

ts - lo

Esempio3: Analisi retrospecva geolocalizzata

2,4 Milioni di tweet, Gen-‐Ago 2012, analisi su Europa a 15

Europe

Euro Sentiment2.413.971 Tweet

15 European Countries January - August 2012

40%45%

15%16%23%

21% 33%

10% 20% 30% 40% 50% 60%

Eurobarometer (source: European Commission)

Eurobarometro

Belgium

NetherlandsFrancePortugal

DenmarkItaly

Greece

Sweden

UKIreland

Finland

Austria Luxemburg

Germany

Correlation = 0.55

Euroscetticismo

Esempio4: Previsioni ele<orali presidenziali USA

50 Milioni di tweet in 40 gg

Follower: Obama 16,8 M Romney 0,6 M

Distanza guardando alle intenzioni di voto molto minore

Da1 simili a quelli dei sondaggi tradizionali ma in tempo reale

La rete amplifica i cambiamen1 di opinione e an1cipa le espressioni di voto

28/9 30/9 2/10 4/10 6/10 8/10 10/10 12/10 14/10 16/10 18/10 20/10 22/10 24/10 26/10 28/10 30/10 1/11 3/11 5/11

Obama Romney

Firstdebate

Seconddebate

Thirddebate

#Mourdock

#Benghazi

(“Other” & “Don’t know” omitted)

#Sandy

#revenge/love

#who cares of “47%”

#US2012 Presidential Elections

Esempio4: Previsioni ele<orali presidenziali USA

Previsione: Obama +3,5%, Effettivo +2,8%

5 Nov, 24h ora italianaPorta a Porta, Rai1

Sbagliati solo 2 stati, solo Nate Silver ci ha battuto!

Esempio5: Fes1val di Sanremo 2013

Indovina1 2 vincitori del Fes1val

Esempio6: Popolarità dei leader

Esempio7: Elezioni Poli1che 2013

E’ possibile prevedere la propensione al voto ascoltando Twi<er?

Sì, ma...

Esempio7: Elezioni Poli1che 2013

E’ possibile prevedere la propensione al voto ascoltando Twi<er?

Sì, ma... AGCOM blocca lo speciale Elezioni del Corriere della Sera che mostra l’analisi di VfB poiché il dato è ritenuto equiparabile a sondaggio di opinione

Conclusioni

La società è cambiata e si organizza in re1 virtuali e fisiche

Siamo sempre più connessi in rete e interconnessi

CATI & CAWI sono ormai strumen1 supera1

I campioni “rappresenta1vi” non sono più tali (tassi di risposta a<orno al 10% e ricampionamen1 anche tramite randomizzazione dei numeri di cellulare!!!)

L’analisi dei da1 provenien1 dai social network è oggi uno strumento indispensabile (ma non esclusivo) per la conoscenza ma servono tecniche sta1s1che adeguate

s.m. iacus - social media, big data & statistics

tutto il mondo e oltre

big data sta1s1cs voices

tweet durante

cosa si intende

temi politici e sociali

ogni giorno

milano voices

mila tweet nella prima

Documents

s.m presantation

scientific abstract katsnelson, s.m ... scientific abstract...

valentina och s.m

s.m. arq com

trabajo de s.m. s.o

s.m assignment

the s.m. stoller corporation

elbashir s.m.(2001).pdf

as s.m. alessandro vetriani

· a Ábaco ábaco s.m. abandono abandono s.m. abecedario...

s.m. iacus (university of milan) - welcome to rmetrics...

daftar wisudawan program diploma iii (d-iii) kebidanan dan...

-s.m. introduction & contexts

père rosaire côté, s.m

s.m presentation

s.m. wright ppt

s.m public kids magazine

s.m. viramani

s.m case (revlon)

kdcx879 s.m