sentiment analysis for spanish language

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 1 / 54

Clasificación automática de la orientación semántica deopiniones mediante características lingüísticasFacultad de Ciencias, UNAM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro28 de Mayo de 2015

mailto:[email protected]




COMIA 2015 - Contenidos1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones




Siguiente sección1 Introducción

Introducción









Introducción - Minería de opiniones

Figura: Communications of the ACM, Vol. 56 No. 4, Paginas 82-89





Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas







Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.

Las empresas pueden mejorarsus ventas







Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas




Introducción - Minería de opinionesDefiniciónMinería de opiniones:Se refiere al estudio computacional de opiniones, sentimientos,evaluaciones, actitudes, apreciaciones, afecciones, puntos de vista,emociones y subjetividades expresadas en texto.





Subtareas dentro de la minería de opiniones:

• Turney (2002)• Determinó la orientación semántica a partir de bigramas

(¿Positivo o Negativo?).• Bo Pang et al (2008):

• Identificación de opiniones, polaridad del sentimiento, resumir deforma automática la orientación de una opinión.

• Liu Bing et al (2010)• análisis de sentimiento en oraciones de comparación, detección de

SPAM, detección de opiniones neutrales y engañosas.





Subtareas dentro de la minería de opiniones:• Turney (2002)

• Determinó la orientación semántica a partir de bigramas(¿Positivo o Negativo?).

• Bo Pang et al (2008):• Identificación de opiniones, polaridad del sentimiento, resumir de

forma automática la orientación de una opinión.• Liu Bing et al (2010)

• análisis de sentimiento en oraciones de comparación, detección deSPAM, detección de opiniones neutrales y engañosas.








forma automática la orientación de una opinión.

• Liu Bing et al (2010)• análisis de sentimiento en oraciones de comparación, detección de

SPAM, detección de opiniones neutrales y engañosas.








forma automática la orientación de una opinión.• Liu Bing et al (2010)

• análisis de sentimiento en oraciones de comparación, detección deSPAM, detección de opiniones neutrales y engañosas.





Introducción









Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).




Corpus de opiniones


2800 opiniones de lavadoras enEspañol.

Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.





Corpus de opiniones


2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.

El numero total de lexemas dela colección es de 845,280.





Corpus de opiniones


2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.





Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.




Corpus de opiniones


• La colección fue anotada con su lema y categoría gramatical.

• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.





Corpus de opiniones


• La colección fue anotada con su lema y categoría gramatical.• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.





Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).




Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.

Opiniones pagadas porfabricantes





Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.Opiniones pagadas porfabricantes





Corpus de opiniones

La tarea para este corpus es la de predicción:

• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.




Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.






Corpus de opiniones



• Errores gramaticales como ortográficos y de puntuación

• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.




Corpus de opiniones







Corpus de opiniones

Figura: Descripción del corpus de reseñas comerciales




Corpus de opinionesEn el área de aprendizaje automáticose ha considerado el problema deldesequilibrio de clases.

Modificación del algoritmo Sun,Yanmin et al (2007).

Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).





Modificación del algoritmo Sun,Yanmin et al (2007).Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)

Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).





Modificación del algoritmo Sun,Yanmin et al (2007).Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).




Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.

2 Se toman cada bigrama para realizar una búsqueda en la Webempleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica





• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.2 Se toman cada bigrama para realizar una búsqueda en la Web

empleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica





ObservaciónEl puntaje PMI de dos palabras w1 y w2 se obtiene mediante la

probabilidad de que las dos palabras aparezcan juntas dividida por laprobabilidad de que las dos palabras aparezcan juntas dividida por las

probabilidades de cada palabra en forma individual:

PMI(w1,w2) = log[ P(w1,w2)P(w2)P(w2)

](1)





La orientación semántica se calculó de la siguiente forma:

Observación

SO(frase) = log[hits(Frase NEAR excellent)hits(poor)hits(frase NEAR poor)hits(excellent)

](2)





La orientación semántica debigramas fue utilizada paradeterminar la orientaciónsemántica de opinionescompletas.

• Turney tomó 410comentarios deepinions.com

• Los resultados oscilaronentre el 66% y 84% deprecisión.





ConclusiónLos bigramas morfosintácticos son una buena característica paramétodos no supervisados

• Suponemos que para métodos supervisados podrían sermejores.





En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio







• Sustantivo - adjetivo

• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio







• Sustantivo - adjetivo• Verbo - adverbio

• Adverbio - adjetivo• Adjetivo - adverbio







• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo

• Adjetivo - adverbio







• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio





Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.





• Bigramas adverbio-adjetivo y adjetivo-adverbio.

• Aunque en Español la forma adverbio-adjetivo es común tambiénencontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente





• Bigramas adverbio-adjetivo y adjetivo-adverbio.• Aunque en Español la forma adverbio-adjetivo es común también

encontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente





Introducción









Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.




Clasificación


• Gran variedad de funciones kernel.

• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.





Clasificación


• Gran variedad de funciones kernel.• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.





Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.





Introducción









Preprocesamiento de datos

Una de las ventajas de usar un lenguaje de propósito general comoPython es la gran cantidad de bibliotecas robustas para implementardistintos métodos y manipular datos.

Figura: pandas (Python for data analysis)





Introducción









SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.





• Fuertes bases teóricas

• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.






• Fuertes bases teóricas• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.





Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).





Introducción









Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.




Experimentos


Una biblioteca de código abiertoy propósito general.

Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.




Experimentos


Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.

Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.




Experimentos


Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.





Introducción









El truco del kernel

Figura: Truco del kernel




El truco del kernel

Distintas funciones kernel:

• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)




El truco del kernel

Distintas funciones kernel:• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)





Introducción









Evaluación

• Exactitud:Calcula el subconjunto de la precisión del conjunto de etiquetaspredichas para una muestra que exactamente corresponden alconjunto de etiquetas del conjunto de entrenamiento.

• F1-score:Promedio balanceado entre la precisión y el recall,

• Score:Se refiere a la media de la precisión, dados los datos y etiquetasde prueba.




Evaluación

• Recall:Es la capacidad que tiene un estimador de encontrar todas lasmuestras positivas. El recall es el radio tp

tp+fn donde tp es elnumero de verdaderos positivos y fn es el numero de falsosnegativos.

• Precisión:Intuitivamente podemos decir que es la capacidad que tiene unestimador de no etiquetar como positiva una muestra que esnegativa. El radio de precisión: tp

tp+fp donde tp es el numero deverdaderos positivos y fp el numero de falsos positivos.




Evaluación

• Perdida de Hamming:En clasificación multiclase, la perdida de Hamming corresponde ala distancia de Hamming entre el subconjunto de instancias deentrenamiento y el subconjunto de instancias predichas.

• Similaridad de Jaccard:Útil para comparar el conjunto de etiquetas predichas para unamuestra correspondiente a un conjunto de etiquetas en los datosde entrenamiento.

• F-Beta Score:Esta métrica es la media harmónica balanceada entre la precisióny el recall, alcanzando su óptimo valor en 1 y su peor valor en 0.





Introducción









Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada




Grid search


Un estimador

Un espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada




Grid search


Un estimadorUn espacio de parámetros

Un método para buscar omuestrear candidatosUn esquema de validacióncruzada




Grid search


Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatos

Un esquema de validacióncruzada




Grid search


Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada




Grid search

ObservaciónUna Grid search es una búsqueda exhaustiva a través de unsubconjunto del espacio de hiper-parámetros de un algoritmo deaprendizaje.





Introducción









Evaluando el rendimiento base

ObservaciónEvaluar la tasa base de éxito puede aportar un valor mínimo que otroestimador debe superar.(e.g. tareas de clasificación).




Evaluando el rendimiento basePara comparar el resultado usamosun clasificador que usa estrategiassimples:

Es aleatorio.

Siempre predice la etiqueta másfrecuente en el conjunto deentrenamiento.

ObservaciónEsto es equivalente a usar laestrategia de clasificación másfrecuente que implementa laherramienta con la que se hizo elentrenamiento.




Evaluando el rendimiento basePara comparar el resultado usamosun clasificador que usa estrategiassimples:

Es aleatorio.Siempre predice la etiqueta másfrecuente en el conjunto deentrenamiento.

ObservaciónEsto es equivalente a usar laestrategia de clasificación másfrecuente que implementa laherramienta con la que se hizo elentrenamiento.




Evaluando el rendimiento base

Se obtuvieron los siguientes resultados con el sistema base (i.e.clasificación más frecuente):

• Exactitud: 0.33• F1 score: 0.33• Score:0.32• Recall: 0.33• Precisión: 0.32• Perdida de Hamming: 0.66• Similaridad de Jaccard: 0.33• F-Beta score: 0.20





Introducción









ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07




Resultados

Figura: Rendimiento del sistema con distintas configuraciones




Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.





Introducción









Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)




Conclusiones


• Exploramos las características de una colección de opiniones

• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)




Conclusiones


• Exploramos las características de una colección de opiniones• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)




COMIA 2015

¡Gracias por su atenció[email protected]@fciencias.unam.mx






sentiment analysis for spanish language

Data & Analytics

introduccin introduccin

ventas alonso palomino

minera de opiniones

experimentos experimentos

resultados resultados

enorme cantidad de comentarios

libre acceso

recurso valioso