clustering reddit: learning from the front page of the internet - sara di bartolomeo

40
Learning from the Front Page of the Internet

Upload: data-driven-innovation

Post on 09-Apr-2017

64 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Learning from the Front Page of the Internet

Ciao!Sono Sara Di BartolomeoStudentessa del corso di studi magistrale in Ingegneria Informatica alla Sapienza

1.Introduzione

“Cosa pensano gli altri”È da sempre stata un fattore rilevante nel processo

con cui prendiamo delle decisioni o costruiamo le nostre idee.

Quante volte avete chiesto a un amico di consigliarvi un film?

Quante volte avete confrontato con qualcuno le vostre idee politiche?

81%Hanno cercato recensioni

online su un prodotto almeno una volta

20%Cerca recensioni almeno

una volta al giorno

73-78%Sostiene che le recensioni influenzino largamente i

propri acquisti

32%Hanno pubblicato una recensione almeno una

volta

Di tutti gli utenti su internet...

Source: http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf

31%

Source: http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf

Usa internet per confrontare le proprie idee con altri

Per confrontare le proprie idee con persone appartenenti alle stesse cerchie

Per confrontare le proprie idee con persone appartenenti ad altre cerchie

Visita regolarmente siti che mettono in dubbio le proprie opinioni

Postano i propri commenti su politica o attualità online

28%

34%

29%

8%

58% ritiene che le opinioni che cerca su internet siano incomplete, mancanti o confuse.

→ migliorare i sistemi di accesso alle informazioni?

Come si descrive un’opinione con i

numeri?

2.Reddit

Reddit:

Reddit è un’enorme community che permette agli utenti di condividere link, opinioni, discussioni.

234.000.000 utenti

2 milioni di commentiAl giorno

853.834 subreddit

“The Front Page of the Internet”

Perché Reddit:

▷ La comunità è varia e abbraccia un enorme numero di utenti, anche molto diversi tra loro

▷ Gli argomenti trattati sono estremamente vari e coprono moltissimo campi

▷ La popolarità di Reddit fa sì che i contenuti al suo interno influenzino anche il resto del web, e oltre

▷ Vogliamo sfruttare la struttura di Reddit per acquisire informazioni

3.Definire gli interessi

Assunzione:Se un utente parla di un argomento,

allora è interessato a quell’argomento

Mettiamo una casella per ogni possibile interesse e scriviamoci dentro 1 se l’utente è interessato a quell’argomento o 0 se

l’utente non è interessato all’argomento.

Cucina Videogiochi Arte Storia ...

Sara 0 1 1 0 ...

Cucina Videogiochi Arte Storia ...

Sara 0 1 1 0 ...

Mario 1 1 0 1 ...

Giorgio 0 1 0 0 ...

... ... ... ... ... ...

0,25

0,33

0,5

Jaccard Similarity:

La distanza vettoriale è un’indicazione di quanto sono simili gli interessi di due utenti

Cucina Videogiochi Arte Storia ...

Sara 0 1 1 0 ...

Mario 1 1 0 1 ...

Giorgio 0 1 0 0 ...

... ... ... ... ... ...

Sara Mario Giorgio ...

Cucina 0 1 0 ...

Videogiochi 1 1 1 ...

Arte 1 0 0 ...

Storia 0 1 0 ...

... ... ... ... ...

[In base a cosa scegliamo gli argomenti di

interesse?

Tecnologia

Programmazione Devices Videogiochi ...

Java Python

Flask

Nintendo

Reddit è diviso in subreddit

r/AskReddit

r/boardgames

r/Physics

r/relationships

r/drawing

r/gamedev

r/archlinux

r/Python

r/thalassophobia

r/worldnews

r/Android

Un occhio umano può chiaramente capire che si parla di programmazione, ma come fa un programma a fare la stessa cosa?

Ogni post appartiene a una subreddit

4.Sentiment Analysis

the process of computationally identifying and categorizing opinions expressed in a piece of text, especially in order to

determine whether the writer's attitude towards a particular topic, product, etc. is positive, negative, or

neutral.

Sentiment Analysis:

Positive Negative

...bright

brightenbrighterbrightestbrilliancebrilliances

brilliantbrilliantly

briskbrotherlybullish

buoyantcajolecalm

calmingcalmnesscapabilitycapablecapablycaptivate

captivatingcarefreecashback

...

...cashbackscatchycelebratecelebratedcelebrationcelebratorychampchampioncharismacharismaticcharitablecharmcharmingcharminglychastecheapercheapestcheercheerfulcheerycherishcherishedchic...

...annoyanceannoyances

annoyedannoying

annoyinglyannoys

anomalousanomaly

antagonismantagonist

antagonisticantagonize

anti-anti-american

anti-israelianti-occupationanti-proliferation

anti-semitesanti-social

anti-usanti-whiteantipathy

antiquated...

...anxiousanxiouslyanxiousnessapatheticapatheticallyapathyapocalypseapocalypticapologistapologistsappalappallappalledappallingappallinglyapprehensionapprehensionsapprehensiveapprehensivelyarbitraryarcanearchaicarduous...

WORTHLESS PRETENTIOUS TRASH

positive 0.208 0.388 0.402

negative 0.791 0.611 0.597

WORTHLESS PRETENTIOUS TRASH:Negativo con probabilità 0.898Positivo con probabilità 0.101

Naive Bayes:

IMDBrating:

Reazioni al trailer di Ghostbusters [2016]

← negative

positive →

“Honestly, it looks pretty dope”

“Seems alright”

“Haha pathetic”

“Looks terrible”

Reazioni a Interstellar [2014]IMDB score: 8.6

“Forget about plot holes and the rushed storyline etc. This is surely the greatest cinematic experience I’ve ever had. Truly a grand masterpiece in that regard.”

“Matt Damon is a dick”

“Space doesn’t care about your grandiose bullshit speech”

“Saw the movie and hated it. I was really looking forward to it being a huge Cristopher Nolan fan. Boring, long, overly pretentious.”

5.Il contesto è rilevante

Latent Semantic Indexing

Assunzione:

La stessa parola nello stesso contesto ha lo stesso significato

Problema:Non abbiamo idea inizialmente di quali siano gli

argomenti della discussione.

Latent Semantic Indexing

0.716 matt_damon 0.343 fuck 0.161 shit 0.092 appears 0.078 time 0.076 dick

0.310 tars 0.310 humor

0.362 age 0.354 older 0.346 stay 0.225 interstellar 0.154 love 0.148 nolan 0.144 man 0.144 travel

0.265 question 0.197 wormhole 0.196 scene 0.174 great 0.145 think

...

0.716 matt_damon 0.343 fuck 0.161 shit 0.092 appears 0.078 time 0.076 dick

In questo film Matt Damon interpreta un personaggio che non ha la simpatia del pubblico...

"The whole movie seemed like a whole series of nods to 2001, starting with the teacher who was convinced about the moon landings being faked."

"Did anyone notice the organ crescendo repeated throughout the film was the last chord of Also Sprach Zarathustra. Surely a nod to 2001."

"Their square and non-human design was such a HUGE contrast with their character - It made their dialogue seem more human to me. Also the design seemed like a huge nod to Kubrick's 2001."

Gli archi sono più forti in base a quanto ‘simili’ sono i commenti

summary:

true heroes of this movie: TARS & CASE

Keywords: tars movie humorous planet true case robot scene roller unique robots ...

“typical of TARS to hog all the glory. he does enough talking for the both of them, though.”

“TARS was a STAR in Interstellar.”

“Anyone else really want a TARS after this movie or is it just me? true heroes of this movie: TARS & CASE”

“Poor CASE. Everyone credits all the great things he does to TARS just because he has a higher humor setting.”

Grazie dell’ascolto (:

Potete trovarmi a :

[email protected]

https://picorana.github.io/

I grafici interattivi sono disponibili a

https://picorana.github.io/subreddit_recommender

Repository del progetto:

https://github.com/picorana/subreddit_recommender