principios matemáticos para detectar manipulaciones de personas apoyándose del big data

Principios Matemáticos para detectar manipulaciones de personas apoyándose del Big Data

Principios Matemáticos para

detectar manipulaciones de

personas apoyándose del Big Data

Manu Alén

CES Lope de Vega

19-11-16

Abstract: Detectar las manipulaciones de una persona

puede resultar en ciertas ocasiones complicado pues

poseemos una incertidumbre sobre si X persona dice o no

la verdad, y si no la dice, si lo hace de manera

intencionada o no. Es por esta razón el motivo por el que

se redacta este estudio, para tratar de enfocar este

problema desde un marco Matemático, apoyándonos del

Big Data


Introducción:

El Big Data es sin duda, una gran fuente de información, es un gran recurso; y como

todo recurso depende de su uso, pues si se dispone de una mala intención, puede resultar

muy peligroso que descuidemos información que cualquiera que la analice pueda saber

quién es una persona, qué piensa, cómo actúa y por qué.

Esa Información obtenida, será procesada y analizada de forma Matemática para así

saber si una determinada persona es o no, una manipuladora, es decir, miente

intencionadamente para obtener un beneficio.

Éste estudio puede resultar que se mete en el marco moral, pero nada más lejos de la

realidad, este estudio sólo tiene la intención de, explicar mediante un ejemplo real,

cómo se podría saber si una persona es o no una manipuladora.

Cierto es que este estudio puede presentar importantes aplicaciones a, por ejemplo, el

marco jurídico, pues mediante un análisis sencillo del Big Data de una persona y su

procesamiento Matemático, podría saber si miente o no.

Para ilustrar este estudio, se presenta un caso real, el cual se ha tomado como ejemplo

para explicar detalladamente el estudio.


Montando el escenario:

Se ilustrará pues, la imagen del perfil de Instagram de la persona que se ha usado para

explicar el estudio. Sus datos personales se han censurado para así, salvaguardar su

intimidad.

Imagen 1: Perfil de Instagram de la persona

Será importante recordar datos importantes como la edad del usuario, lo que estudio y

dónde lo estudia, además de tomar importante nota de su Blog. Tendremos en cuenta

también las publicaciones que ha realizado.

Imagen 2: Todas las entradas en el blog del usuario en cuestión


Para el estudio, necesitaremos disponer de una fuente en la que el usuario manifieste sus

pensamientos, para esto, usaremos su blog, un blog en el que escribe sobre lo que le

apetece. Esto es importante recalcarlo pues las entradas que escriban se considerarán, en

teoría, aleatorias, pues como el mismo usuario ha especificado, escribe sobre lo que

quiere, por lo que un día escribe sobre lo que se le ocurra y otro día habla sobre otra

cosa que se le ocurra. “Aleatoriamente”.

Imagen 3: Para vislumbrar mejor las entradas que ha escrito, se presenta en una gráfica

Si introducimos en una tabla las veces que ha escrito sobre una u otra categoría y

posteriormente lo pasamos a una gráfica, observamos los resultados que muestra la

Imagen 3, siendo una clara dominante, la categoría de “Opinión”, siendo más de dos

veces la categoría segunda, la Narrativa; algo que llama la atención en un blog en el que

supuestamente escribe lo que se le ocurre, de forma “aleatoria”.


Imagen 4: Visión de cuántas entradas sobre cada categoría debería haber escrito.

Teniendo en cuenta el número de entradas publicadas y las categorías, es fácil obtener el

porcentaje de entradas que debería haber escrito sobre cada categoría. El resultado es el

que muestra la línea negra de la Imagen 4.

P(X=K)=(𝑛𝑘)𝑝𝑘 ∙ 𝑞𝑛−𝑘

Al ser cada entrada independiente de la anterior y constante, podemos usar la función de

la distribución binomial. Lo agrupamos en Bins tenemos.


Imagen 5: Gráfica de probabilidad

Introduciendo nuestro número de datos, 26 y la probabilidad de que cada en cada

bloque-se han cogido, por sencillez, dos de 13 cada uno-. Obtenemos que cada bloque

debería hablarse en su blog 13 veces y no 15 como lo hace.

Imagen 6: Digitalización de la gráfica anterior


A continuación, se digitalizará la gráfica anterior. Antes, se comentará lo que es

digitalizar. Una señal digital es una señal discreta, es decir, aquella señal que puede

tomar finitos valores de un rango y su salto de un valor a otro es de forma simultánea. E

este caso, como tomará dos valores, 0 ó 1, se llamará señal digital.

Teniendo en cuenta que el valor con mayor probabilidad es el 13; que tiene un 0.15, se

indicará que toda probabilidad por debajo de 0.13, valdrá un 0; es decir, será falso -

false- y toda probabilidad mayor de 0.13 será un 1, es decir, erddero-true-.

Con esta condición, observamos que los valores verdaderos son solamente el 12, 13 y

14; los valores centrales. El 15 -número de veces que ha escrito entradas de opinión,

tiene el valor false. Lo que nos ofrece los primeros indicios de que podría estar

manipulando.

Imagen 7: Visión general de las entradas que escribió por mes

Disponiendo de una visión más gráfica del número de entradas que ha escrito por mes,

observamos que el mes de marzo, ha sido el mes que más ha publicado en el Blog. No

obstante, observamos también, que el mes de mayo y junio, no ha publicado ninguna,

cuando la media de entradas por mes es de 3. Eso llama la atención y se tratará de

resolver el por qué.

Si echamos la vista atrás hasta las primeras páginas de este estudio, recordaremos que el

usuario del que se ha mostrado el perfil de Instagram, tiene 18 años y que está

estudiando Periodismo y Comunicación Audiovisual, lo que nos explica el por qué de

que no haya publicado nada.


Como sabemos, tiene 18 años, con lo cual nos hace pensar que está en la Universidad-

efectivamente está en la Universidad pues así lo especifica en su perfil-. Lo que nos

obliga a ver que se ha tenido que examinar de selectividad para poder acceder a la

Universidad, una prueba de selectividad que fue en junio, de ahí que ese mes-el mes del

examen- y el mes de mayo-mes de preparación de selectividad- no haya publicado nada

en el blog. Usando Matemáticas muy sencillas, sabemos ya muchas cosas sobre el

usuario.

Imagen 8: ¿Por qué ha publicado tanto en marzo?

Una pregunta que nos debemos hacer es que por qué el mes en el que más ha publicado

en el blog es marzo y no otro mes cualquiera. Siempre dispondremos de la mentalidad

científica de preguntar constantemente ¿por qué?

Creando una tabla con todas las publicaciones en Instagram de este usuario desde que se

inició en dicha red social, vemos que la suma de todas las fotos subidas, son 83; las

mismas que mostraba la Imagen 1.

Observamos además, que los meses en los que más fotografías ha subido a Instagram,

son los meses de septiembre del 2014 y octubre del 2016. No obstante marzo del mismo

año, solamente ha publicado 2 fotos. Esto se hace para saber si el motivo por el cual ha

publicado más entradas en el blog, es el mes de marzo porque dispone de más tiempo

libre.


Imagen 9: Visión en gráfica de las publicaciones en Instagram de este usuario

Apoyándonos de una gráfica por año, vemos cuáles son los meses en los que más ha

publicado en Instagram. Esta visión se puede mejorar aún más.

Imagen 10: Gráfica que reúne todos los años

Y como se ha hecho alusión anteriormente, los meses en los que más publicaciones ha

realizado en Instagram, son septiembre del 2014 y octubre del 2016.


Imagen 11: Media de publicaciones en Instagram por año

Si hacemos la media de publicaciones en Instagram por año, veos que en 2013, la media

es de una publicación al mes; en 2014, 1.9166≈2 fotos al mes; en 2015, 1.5 y en 2016,

2.5 fotos por mes.

Si observamos las fotos que ha subido a Instagram en el mes de marzo del 2016, vemos

que son 2, es decir, por debajo de la media. Esto se entiende, ya que teniendo en mente

que debía centrarse en estudios, en el blog-mes en el que más entradas publicó-,

Instagram Twitter, Facebook. Las cosas de las que tiene que encargarse viene dado por

la siguiente función.

T=B+I+𝑇𝑤+F+E+⋯+𝑋𝑅𝑆

Donde T son las Tareas que tiene que realizar, B es el blog, I es Instagram, 𝑇𝑤 es

twitter, F es Facebook, E son los Estudios y 𝑋𝑅𝑆 es cualquier red social.


Imagen 12: Monotema en artículos de Opinión

Si se analiza la idea principal de cada artículo de opinión, se obtiene que de las 15

entradas, 14 son sobre socialismo o cualquier tema que abarque el socialismo. Al ser la

mayoría de las entradas de opinión sobre el mismo tema o con la misma idea de fondo

podemos pensar varias cosas:

1. Es monotemático y no tiene capacidad intelectual para más

2. Quiere hablar sobre socialismo para “meter” esa idea de manera intencionada y

manipular a sus lectores

Ambas son un gran problema.

Además, para comprobar estas supuestas manipulaciones, podemos estudiar los 9

últimos meses de su blog y ver cuántas entradas ha publicado en cada mes.

Empezamos en febrero de 2016 y se termina en octubre del mismo año, ya que aún

estamos en noviembre y aún tiene la posibilidad de escribir más entradas este mes. El

tensor quedaría.

𝑇𝑖𝑗=(3 7 50 0 05 5 2

)


Si por lo que sea nos encontrásemos con un tensor invariante a partir del producto

tensorial de un vector covariante y uno contravariante, 𝑇𝑖𝑗, podríamos contraer sus

índices según la notación de Einstein sumando los elementos de la diagonal.

𝑇11+𝑇2

2+𝑇33=T

3+0+2=5

Y quedaría

𝑇𝑖𝑖′=˄𝑖

𝑖′𝑇𝑖𝑖˄𝑖′

𝑖 =𝛿𝑖𝑖𝑇𝑖

𝑖=𝑇𝑖𝑖

Aunque volviendo con nuestro tensor, veremos si es antisimétrico, es decir, si en

algunas de sus componentes, si al intercambiar 2 de ellas, el tensor cambia de signo, al

cambiar 2 de ellas lo recupera, al cambia 2 de ellas cambia de signo, así sucesivamente.

T[11]=-T11= -3

T[22]=-T22=0

T[33]=T33=2

T[12]=-T21=𝑇12−𝑇21

2=7−0

2= -3.5

T[13]=-T31=𝑇13−𝑇31

2=5−5

2=0

T[23]=-T32=𝑇23−𝑇32

2=0−5

2= 2.5

Siendo el tensor resultante

𝑇𝑖𝑗=(−3 −3.5 0−3.5 0 2.50 2.5 2

)


Cumpliendo con que un tensor simétrico r de dimensión N será la suma acumulada de

posibles combinaciones de cada índice del tensor.

∑ ∑ ∑ ⋯

𝑛

𝑖3=𝑖2+1

𝑛

𝑖2=𝑖1+1

𝑛

𝑖1=1

∑ 1

𝑛

𝑖𝑟=𝑖𝑟−1+1

Donde r y N son análogos al número combinatorio.

(𝑁𝑟)=

𝑁!

𝑟!(𝑁−𝑟)!

Así pues, al ser un tensor antisimétrico, deducimos que al no poseer simetría-algo que

debería ocurrir en un proceso aleatorio como éste, podemos afirmar ya sí que sí de

manera razona, que este usuario se trata de un manipulador, el cual ha meditado sobre lo

que iba a publicar y lo que iba a decir y que está-sin que suene conspiranoico-

“planeando” algo para manipular a sus lectores.

Éste método se podría usar para, por ejemplo, juicios, para asegurar con gran

probabilidad de acierto que el culpable es culpable y el inocente es inocente. La

probabilidad de acierto es grande.

principios matemáticos para detectar manipulaciones de personas apoyándose del big data

Science