sentiment analysis for spanish language

131
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM) COMIA 2015 28 de Mayo de 2015 1 / 54 Clasificación automática de la orientación semántica de opiniones mediante características lingüísticas Facultad de Ciencias, UNAM. Alonso Palomino Garibay y Sofía N. Galicia-Haro 28 de Mayo de 2015

Upload: pgalonso

Post on 15-Aug-2015

44 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: sentiment analysis for spanish language

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 1 / 54

Clasificación automática de la orientación semántica deopiniones mediante características lingüísticasFacultad de Ciencias, UNAM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro28 de Mayo de 2015

Page 2: sentiment analysis for spanish language

COMIA 2015 - Contenidos1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 2 / 54

Page 3: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 3 / 54

Page 4: sentiment analysis for spanish language

Introducción - Minería de opiniones

Figura: Communications of the ACM, Vol. 56 No. 4, Paginas 82-89

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 4 / 54

Page 5: sentiment analysis for spanish language

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Page 6: sentiment analysis for spanish language

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Page 7: sentiment analysis for spanish language

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Page 8: sentiment analysis for spanish language

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.

Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Page 9: sentiment analysis for spanish language

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Page 10: sentiment analysis for spanish language

Introducción - Minería de opinionesDefiniciónMinería de opiniones:Se refiere al estudio computacional de opiniones, sentimientos,evaluaciones, actitudes, apreciaciones, afecciones, puntos de vista,emociones y subjetividades expresadas en texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 6 / 54

Page 11: sentiment analysis for spanish language

Introducción - Minería de opiniones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 7 / 54

Page 12: sentiment analysis for spanish language

Introducción - Minería de opiniones

Subtareas dentro de la minería de opiniones:

• Turney (2002)• Determinó la orientación semántica a partir de bigramas

(¿Positivo o Negativo?).• Bo Pang et al (2008):

• Identificación de opiniones, polaridad del sentimiento, resumir deforma automática la orientación de una opinión.

• Liu Bing et al (2010)• análisis de sentimiento en oraciones de comparación, detección de

SPAM, detección de opiniones neutrales y engañosas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54

Page 13: sentiment analysis for spanish language

Introducción - Minería de opiniones

Subtareas dentro de la minería de opiniones:• Turney (2002)

• Determinó la orientación semántica a partir de bigramas(¿Positivo o Negativo?).

• Bo Pang et al (2008):• Identificación de opiniones, polaridad del sentimiento, resumir de

forma automática la orientación de una opinión.• Liu Bing et al (2010)

• análisis de sentimiento en oraciones de comparación, detección deSPAM, detección de opiniones neutrales y engañosas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54

Page 14: sentiment analysis for spanish language

Introducción - Minería de opiniones

Subtareas dentro de la minería de opiniones:• Turney (2002)

• Determinó la orientación semántica a partir de bigramas(¿Positivo o Negativo?).

• Bo Pang et al (2008):• Identificación de opiniones, polaridad del sentimiento, resumir de

forma automática la orientación de una opinión.

• Liu Bing et al (2010)• análisis de sentimiento en oraciones de comparación, detección de

SPAM, detección de opiniones neutrales y engañosas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54

Page 15: sentiment analysis for spanish language

Introducción - Minería de opiniones

Subtareas dentro de la minería de opiniones:• Turney (2002)

• Determinó la orientación semántica a partir de bigramas(¿Positivo o Negativo?).

• Bo Pang et al (2008):• Identificación de opiniones, polaridad del sentimiento, resumir de

forma automática la orientación de una opinión.• Liu Bing et al (2010)

• análisis de sentimiento en oraciones de comparación, detección deSPAM, detección de opiniones neutrales y engañosas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54

Page 16: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 9 / 54

Page 17: sentiment analysis for spanish language

Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54

Page 18: sentiment analysis for spanish language

Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.

Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54

Page 19: sentiment analysis for spanish language

Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.

El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54

Page 20: sentiment analysis for spanish language

Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54

Page 21: sentiment analysis for spanish language

Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54

Page 22: sentiment analysis for spanish language

Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.

• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54

Page 23: sentiment analysis for spanish language

Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54

Page 24: sentiment analysis for spanish language

Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54

Page 25: sentiment analysis for spanish language

Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54

Page 26: sentiment analysis for spanish language

Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.

Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54

Page 27: sentiment analysis for spanish language

Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54

Page 28: sentiment analysis for spanish language

Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54

Page 29: sentiment analysis for spanish language

Corpus de opiniones

La tarea para este corpus es la de predicción:

• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Page 30: sentiment analysis for spanish language

Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Page 31: sentiment analysis for spanish language

Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Page 32: sentiment analysis for spanish language

Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación

• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Page 33: sentiment analysis for spanish language

Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Page 34: sentiment analysis for spanish language

Corpus de opiniones

Figura: Descripción del corpus de reseñas comerciales

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 14 / 54

Page 35: sentiment analysis for spanish language

Corpus de opinionesEn el área de aprendizaje automáticose ha considerado el problema deldesequilibrio de clases.

Modificación del algoritmo Sun,Yanmin et al (2007).

Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54

Page 36: sentiment analysis for spanish language

Corpus de opinionesEn el área de aprendizaje automáticose ha considerado el problema deldesequilibrio de clases.

Modificación del algoritmo Sun,Yanmin et al (2007).Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)

Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54

Page 37: sentiment analysis for spanish language

Corpus de opinionesEn el área de aprendizaje automáticose ha considerado el problema deldesequilibrio de clases.

Modificación del algoritmo Sun,Yanmin et al (2007).Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54

Page 38: sentiment analysis for spanish language

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.

2 Se toman cada bigrama para realizar una búsqueda en la Webempleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Page 39: sentiment analysis for spanish language

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.

2 Se toman cada bigrama para realizar una búsqueda en la Webempleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Page 40: sentiment analysis for spanish language

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.2 Se toman cada bigrama para realizar una búsqueda en la Web

empleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Page 41: sentiment analysis for spanish language

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.2 Se toman cada bigrama para realizar una búsqueda en la Web

empleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Page 42: sentiment analysis for spanish language

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.2 Se toman cada bigrama para realizar una búsqueda en la Web

empleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Page 43: sentiment analysis for spanish language

Bigramas afirmativos

ObservaciónEl puntaje PMI de dos palabras w1 y w2 se obtiene mediante la

probabilidad de que las dos palabras aparezcan juntas dividida por laprobabilidad de que las dos palabras aparezcan juntas dividida por las

probabilidades de cada palabra en forma individual:

PMI(w1,w2) = log[ P(w1,w2)P(w2)P(w2)

](1)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 17 / 54

Page 44: sentiment analysis for spanish language

Bigramas afirmativos

La orientación semántica se calculó de la siguiente forma:

Observación

SO(frase) = log[hits(Frase NEAR excellent)hits(poor)hits(frase NEAR poor)hits(excellent)

](2)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 18 / 54

Page 45: sentiment analysis for spanish language

Bigramas afirmativos

La orientación semántica debigramas fue utilizada paradeterminar la orientaciónsemántica de opinionescompletas.

• Turney tomó 410comentarios deepinions.com

• Los resultados oscilaronentre el 66% y 84% deprecisión.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54

Page 46: sentiment analysis for spanish language

Bigramas afirmativos

La orientación semántica debigramas fue utilizada paradeterminar la orientaciónsemántica de opinionescompletas.

• Turney tomó 410comentarios deepinions.com

• Los resultados oscilaronentre el 66% y 84% deprecisión.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54

Page 47: sentiment analysis for spanish language

Bigramas afirmativos

La orientación semántica debigramas fue utilizada paradeterminar la orientaciónsemántica de opinionescompletas.

• Turney tomó 410comentarios deepinions.com

• Los resultados oscilaronentre el 66% y 84% deprecisión.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54

Page 48: sentiment analysis for spanish language

Bigramas afirmativos

ConclusiónLos bigramas morfosintácticos son una buena característica paramétodos no supervisados

• Suponemos que para métodos supervisados podrían sermejores.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 20 / 54

Page 49: sentiment analysis for spanish language

Bigramas afirmativos

ConclusiónLos bigramas morfosintácticos son una buena característica paramétodos no supervisados

• Suponemos que para métodos supervisados podrían sermejores.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 20 / 54

Page 50: sentiment analysis for spanish language

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Page 51: sentiment analysis for spanish language

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo

• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Page 52: sentiment analysis for spanish language

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio

• Adverbio - adjetivo• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Page 53: sentiment analysis for spanish language

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo

• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Page 54: sentiment analysis for spanish language

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Page 55: sentiment analysis for spanish language

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Page 56: sentiment analysis for spanish language

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Page 57: sentiment analysis for spanish language

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Page 58: sentiment analysis for spanish language

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Page 59: sentiment analysis for spanish language

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Page 60: sentiment analysis for spanish language

Bigramas afirmativos

• Bigramas adverbio-adjetivo y adjetivo-adverbio.

• Aunque en Español la forma adverbio-adjetivo es común tambiénencontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54

Page 61: sentiment analysis for spanish language

Bigramas afirmativos

• Bigramas adverbio-adjetivo y adjetivo-adverbio.

• Aunque en Español la forma adverbio-adjetivo es común tambiénencontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54

Page 62: sentiment analysis for spanish language

Bigramas afirmativos

• Bigramas adverbio-adjetivo y adjetivo-adverbio.• Aunque en Español la forma adverbio-adjetivo es común también

encontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54

Page 63: sentiment analysis for spanish language

Bigramas afirmativos

• Bigramas adverbio-adjetivo y adjetivo-adverbio.• Aunque en Español la forma adverbio-adjetivo es común también

encontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54

Page 64: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 24 / 54

Page 65: sentiment analysis for spanish language

Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54

Page 66: sentiment analysis for spanish language

Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.

• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54

Page 67: sentiment analysis for spanish language

Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54

Page 68: sentiment analysis for spanish language

Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54

Page 69: sentiment analysis for spanish language

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Page 70: sentiment analysis for spanish language

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Page 71: sentiment analysis for spanish language

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Page 72: sentiment analysis for spanish language

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Page 73: sentiment analysis for spanish language

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Page 74: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 27 / 54

Page 75: sentiment analysis for spanish language

Preprocesamiento de datos

Una de las ventajas de usar un lenguaje de propósito general comoPython es la gran cantidad de bibliotecas robustas para implementardistintos métodos y manipular datos.

Figura: pandas (Python for data analysis)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 28 / 54

Page 76: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 29 / 54

Page 77: sentiment analysis for spanish language

SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54

Page 78: sentiment analysis for spanish language

SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas

• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54

Page 79: sentiment analysis for spanish language

SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54

Page 80: sentiment analysis for spanish language

SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54

Page 81: sentiment analysis for spanish language

Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54

Page 82: sentiment analysis for spanish language

Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54

Page 83: sentiment analysis for spanish language

Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54

Page 84: sentiment analysis for spanish language

Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54

Page 85: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 32 / 54

Page 86: sentiment analysis for spanish language

Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54

Page 87: sentiment analysis for spanish language

Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.

Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54

Page 88: sentiment analysis for spanish language

Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.

Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54

Page 89: sentiment analysis for spanish language

Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54

Page 90: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 34 / 54

Page 91: sentiment analysis for spanish language

El truco del kernel

Figura: Truco del kernel

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 35 / 54

Page 92: sentiment analysis for spanish language

El truco del kernel

Distintas funciones kernel:

• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54

Page 93: sentiment analysis for spanish language

El truco del kernel

Distintas funciones kernel:• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54

Page 94: sentiment analysis for spanish language

El truco del kernel

Distintas funciones kernel:• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54

Page 95: sentiment analysis for spanish language

El truco del kernel

Distintas funciones kernel:• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54

Page 96: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 37 / 54

Page 97: sentiment analysis for spanish language

Evaluación

• Exactitud:Calcula el subconjunto de la precisión del conjunto de etiquetaspredichas para una muestra que exactamente corresponden alconjunto de etiquetas del conjunto de entrenamiento.

• F1-score:Promedio balanceado entre la precisión y el recall,

• Score:Se refiere a la media de la precisión, dados los datos y etiquetasde prueba.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 38 / 54

Page 98: sentiment analysis for spanish language

Evaluación

• Recall:Es la capacidad que tiene un estimador de encontrar todas lasmuestras positivas. El recall es el radio tp

tp+fn donde tp es elnumero de verdaderos positivos y fn es el numero de falsosnegativos.

• Precisión:Intuitivamente podemos decir que es la capacidad que tiene unestimador de no etiquetar como positiva una muestra que esnegativa. El radio de precisión: tp

tp+fp donde tp es el numero deverdaderos positivos y fp el numero de falsos positivos.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 39 / 54

Page 99: sentiment analysis for spanish language

Evaluación

• Perdida de Hamming:En clasificación multiclase, la perdida de Hamming corresponde ala distancia de Hamming entre el subconjunto de instancias deentrenamiento y el subconjunto de instancias predichas.

• Similaridad de Jaccard:Útil para comparar el conjunto de etiquetas predichas para unamuestra correspondiente a un conjunto de etiquetas en los datosde entrenamiento.

• F-Beta Score:Esta métrica es la media harmónica balanceada entre la precisióny el recall, alcanzando su óptimo valor en 1 y su peor valor en 0.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 40 / 54

Page 100: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 41 / 54

Page 101: sentiment analysis for spanish language

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Page 102: sentiment analysis for spanish language

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimador

Un espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Page 103: sentiment analysis for spanish language

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetros

Un método para buscar omuestrear candidatosUn esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Page 104: sentiment analysis for spanish language

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatos

Un esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Page 105: sentiment analysis for spanish language

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Page 106: sentiment analysis for spanish language

Grid search

ObservaciónUna Grid search es una búsqueda exhaustiva a través de unsubconjunto del espacio de hiper-parámetros de un algoritmo deaprendizaje.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 43 / 54

Page 107: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 44 / 54

Page 108: sentiment analysis for spanish language

Evaluando el rendimiento base

ObservaciónEvaluar la tasa base de éxito puede aportar un valor mínimo que otroestimador debe superar.(e.g. tareas de clasificación).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 45 / 54

Page 109: sentiment analysis for spanish language

Evaluando el rendimiento basePara comparar el resultado usamosun clasificador que usa estrategiassimples:

Es aleatorio.

Siempre predice la etiqueta másfrecuente en el conjunto deentrenamiento.

ObservaciónEsto es equivalente a usar laestrategia de clasificación másfrecuente que implementa laherramienta con la que se hizo elentrenamiento.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54

Page 110: sentiment analysis for spanish language

Evaluando el rendimiento basePara comparar el resultado usamosun clasificador que usa estrategiassimples:

Es aleatorio.Siempre predice la etiqueta másfrecuente en el conjunto deentrenamiento.

ObservaciónEsto es equivalente a usar laestrategia de clasificación másfrecuente que implementa laherramienta con la que se hizo elentrenamiento.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54

Page 111: sentiment analysis for spanish language

Evaluando el rendimiento basePara comparar el resultado usamosun clasificador que usa estrategiassimples:

Es aleatorio.Siempre predice la etiqueta másfrecuente en el conjunto deentrenamiento.

ObservaciónEsto es equivalente a usar laestrategia de clasificación másfrecuente que implementa laherramienta con la que se hizo elentrenamiento.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54

Page 112: sentiment analysis for spanish language

Evaluando el rendimiento base

Se obtuvieron los siguientes resultados con el sistema base (i.e.clasificación más frecuente):

• Exactitud: 0.33• F1 score: 0.33• Score:0.32• Recall: 0.33• Precisión: 0.32• Perdida de Hamming: 0.66• Similaridad de Jaccard: 0.33• F-Beta score: 0.20

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 47 / 54

Page 113: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 48 / 54

Page 114: sentiment analysis for spanish language

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

Page 115: sentiment analysis for spanish language

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

Page 116: sentiment analysis for spanish language

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

Page 117: sentiment analysis for spanish language

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

Page 118: sentiment analysis for spanish language

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

Page 119: sentiment analysis for spanish language

Resultados

Figura: Rendimiento del sistema con distintas configuraciones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 50 / 54

Page 120: sentiment analysis for spanish language

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Page 121: sentiment analysis for spanish language

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Page 122: sentiment analysis for spanish language

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Page 123: sentiment analysis for spanish language

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Page 124: sentiment analysis for spanish language

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Page 125: sentiment analysis for spanish language

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Page 126: sentiment analysis for spanish language

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 52 / 54

Page 127: sentiment analysis for spanish language

Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54

Page 128: sentiment analysis for spanish language

Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54

Page 129: sentiment analysis for spanish language

Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones

• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54

Page 130: sentiment analysis for spanish language

Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54

Page 131: sentiment analysis for spanish language

COMIA 2015

¡Gracias por su atenció[email protected]@fciencias.unam.mx

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 54 / 54