caracterización de una entidad basada en opiniones: un estudio de caso
DESCRIPTION
Slides for the paper presentation at SEPLN 2009 Conference. San Sebastián, Spain.TRANSCRIPT
Caracterización de una entidad
basada en opiniones:
un estudio de caso
Damiano Spina, Enrique Amigó,
Julio Gonzalo
Grupo PLN y RI de la UNED
{damiano,enrique,julio}@lsi.uned.es
nlp.uned.es
Bernardino Beotas
Grupo ALMA
www.grupoalma.com
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Informe de reputación de la UNED ?
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Informe de reputación de la UNED
Desventajas
Ventajas
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Caracterización de una entidad basada
en opiniones (opinion-based entity profiling)
– Cuáles son los comentarios (positivos y negativos)
más recurrentes de los usuarios
– Esencial para una buena gestión de reputación
• Reflejan la imagen que los usuarios tienen de la entidad
– No se trata de forma explícita en el área de las
tecnologías de la lengua
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Índice
• Tecnologías relacionadas
• Estudio de caso
• Aproximación baseline: clustering
• ¿Puede Wordnet contribuir a solucionar el
problema?
• Conclusiones y posibilidades futuras
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Gestión de la reputación online
Monitorización
AnálisisGestión
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Tecnologías relacionadas
Minería de opiniones
(análisis de sentimientos)
Detección de subjetividad
Polaridad, orientación semántica
Extracción de emociones en
texto
Extracción del opinante
Resumen de opiniones
Análisis basado en
características
(Pang y Lee, 2008)
(Wiebe, Wilson y Cardie, 2005)
(Turney, 2002)(Strapparava y Mihalcea, 2008)
(Kim y Hovy, 2005)
(Strapparava y Mihalcea, 2008)
(Hu y Liu, 2004; Liu, Hu, y Cheng, 2005; Gamon et al., 2005)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Tecnologías relacionadas
Análisis de blogs
Descubrimiento de tendencias
Influencia en blogs
Búsqueda y filtrado de blogs
Resumen de posts
(Agarwal y Liu, 2008)
(Glance, Hurst y Tomokiyo, 2004) (Java et al., 2006)
(Mishne y de Rijke, 2006) (Hu, Sun y Lim, 2007)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Tecnologías relacionadas
Opinion-based entity profiling
Minería de opiniones (análisis de sentimientos)
…
Resumen de opiniones
Análisis basado en características
Análisis de blogs
Descubrimiento de tendencias …
(Glance, Hurst y Tomokiyo, 2004)
(Agarwal y Liu, 2008)(Pang y Lee, 2008)
(Strapparava y Mihalcea, 2008)(Hu y Liu, 2004; Liu, Hu, y Cheng,
2005; Gamon et al., 2005)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Estudio de caso: UNED
• Universidad Nacional de Educación a
Distancia (UNED)
• Más del 50% recolectadas en el estudio
pertenecen a sitios de valoraciones
– Sólo hay opiniones
• detección de subjetividad
– Ventajas y desventajas
• polaridad
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Estudio de caso: UNED
Ventajas f
trabajar y estudiar a la vez 21
Flexibilidad de horarios 23
Desventajas f
Más difícil que la presencial 15
Algunos problemas técnicos y administrativos
1
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Estudio de caso: UNED
Ventajas f
trabajar y estudiar a la vez 21
Flexibilidad de horarios 24
Desventajas f
Más difícil que la presencial 15
Algunos problemas técnicos y administrativos
2
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Estudio de caso: UNED
Ventajas f
trabajar y estudiar a la vez 21
Flexibilidad de horarios 25
Desventajas f
Más difícil que la presencial 15
Algunos problemas técnicos y administrativos
5
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Estudio de caso: UNED
Ventajas f
trabajar y estudiar a la vez 21
Flexibilidad de horarios 26
Desventajas f
Más difícil que la presencial 15
Algunos problemas técnicos y administrativos
4
Esfuerzo8 personas-hora 206 opiniones
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Estudio de caso: UNED
Desventajas
Ventajas
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Dificultades de la tarea
Ventaja Expresiones
Flexibilidad de horarios Libertad de horarios, estudias a tu ritmo, adaptabilidad a tiempos, gestionas tu propio tiempo, vas a tu aire
No tener que asistir a clase Estudias en casa, no hay que ir a clase, no requiere desplazarse, no presencial
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Dificultades de la tarea
Ventaja Expresiones
Flexibilidad de horarios Libertad de horarios, estudias a tu ritmo, adaptabilidad a tiempos, gestionas tu propio tiempo, vas a tu aire
No tener que asistir a clase Estudias en casa, no hay que ir a clase, no requiere desplazarse, no presencial
Desventaja Expresiones
Estudiar por cuenta propia Has de ser muy constante, soledad, saber organizarse
Más difícil que la presencial Es mucho más difícil, muy dura
Precio Gasto económico, qué cara
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Aproximación baseline: clustering
• Algoritmo de clustering Lingo– Pensado para agrupar resultados de un motor de búsqueda (snippets)
– Latent Semantic Indexing
• Adaptación al castellano– Extensión de la lista de palabras vacías
• 146 -> 446 palabras
– Eliminación de tildes
– Penalización para los descriptores compuestos por un solo término
• Ventajas y desventajas consideradas de forma independiente
• Entrenamiento de los umbrales– De forma cruzada
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Aproximación baseline: clustering
• Evaluación
– Precisión y cobertura BCubed
• Cumple todas las restricciones formales descritas en Amigó et al. (2009)
– Pureza y pureza inversa
– Medida F con α=0.5
– Baselines
• Uno en uno: cada documento forma un cluster
• Todos en uno: todos los documentos se agrupan en un único cluster
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Resultados
PurezaPureza Inversa
F(P,PI)Precisión BCubed
CoberturaBCubed
F BCubed
Ventajas
Uno en uno 1.00 0.14 0.25 1.00 0.14 0.25
Todos en uno 0.25 1.00 0.40 0.12 1.00 0.22
Lingo 0.59 0.59 0.59 0.46 0.50 0.48
PurezaPureza Inversa
F(P,PI)Precisión BCubed
CoberturaBCubed
F BCubed
Desventajas
Uno en uno 1.00 0.18 0.31 1.00 0.18 0.31
Todos en uno 0.16 1.00 0.27 0.07 1.00 0.13
Lingo 0.48 0.61 0.54 0.34 0.50 0.40
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Resultados
PurezaPureza Inversa
F(P,PI)Precisión BCubed
CoberturaBCubed
F BCubed
Ventajas
Uno en uno 1.00 0.14 0.25 1.00 0.14 0.25
Todos en uno 0.25 1.00 0.40 0.12 1.00 0.22
Lingo 0.59 0.59 0.59 0.46 0.50 0.48
PurezaPureza Inversa
F(P,PI)Precisión BCubed
CoberturaBCubed
F BCubed
Desventajas
Uno en uno 1.00 0.18 0.31 1.00 0.18 0.31
Todos en uno 0.16 1.00 0.27 0.07 1.00 0.13
Lingo 0.48 0.61 0.54 0.34 0.50 0.40
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Análisis de fallos
• Errores de precisión– “permiten”, “pueden”
– “estudiar a distancia” vs. “hay que estudiar más”
• Errores de cobertura– Sesgo positivo: clusters que asocian aspectos menos
comentados
– Los aspectos más comentados tienden a dispersarse en varios clusters• “no tener que asistir a clase “ se agrupa en los clusters “No
hay que ir a clase”, “No tienes que desplazarte”, “No requiere presencia”, “comodidad” y “no acudir a clases”
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
¿Puede WordNet contribuir a
solucionar el problema?Precio
Gasto económico
{importe1, precio1}
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
¿Puede WordNet contribuir a
solucionar el problema?Precio
Gasto económico
{importe1, precio1}
{coste1, costo1}
hipónimo
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
¿Puede WordNet contribuir a
solucionar el problema?Precio
Gasto económico
{importe1, precio1}
{coste1, costo1}
{gastos1, gasto1, desembolso2}
hipónimo
hipónimo
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
¿Puede WordNet contribuir a
solucionar el problema?Precio
Gasto económico
{importe1, precio1}
{coste1, costo1}
{gastos1, gasto1, desembolso2}
hipónimo
hipónimo
Muy difícil
Requiere mucho esfuerzo {esfuerzo1, afán1, dedicación1, desvelo1}
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
¿Puede WordNet contribuir a
solucionar el problema?Precio
Gasto económico
{importe1, precio1}
{coste1, costo1}
{gastos1, gasto1, desembolso2}
hipónimo
hipónimo
Muy difícil
Requiere mucho esfuerzo {esfuerzo1, afán1, dedicación1, desvelo1}
{dificultad2}
hipónimo
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
¿Puede WordNet contribuir a
solucionar el problema?
Ejemplo Expresión 1 Expresión 2
7 Estudiar a tu ritmo Gestionas tu propio tiempo
8 Gestionas tu propio tiempo Libertad de horarios
9 Adquisición efectiva de conocimientos
Se aprende de verdad
10 Soledad Debe de gustarte hablarte a ti mismo
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Conclusiones
• Caracterización (profiling) de una entidad
basada en opiniones
• Costosa de realizar manualmente
• Difícil de abordar automáticamente
– Expresiones cortas
– Paráfrasis
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Posibilidades futuras
• Creación de corpus de opiniones– Entidades de distintos dominios
– Incluyendo otras fuentes de información• Foros, blogs, redes sociales
• Evaluación comparativa de distintos algoritmos de clustering
• Uso de otras bases de conocimiento– eXtended WordNet
– WordNet Domains
– SUMO
• Uso de algoritmos de desambiguación (Agirre y Sora, 2009)
• Estudiar la agrupación de opiniones considerando la variable temporal– Qué se dice de la entidad
– Cómo varía en función del tiempo
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
¡Muchas gracias!
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Métricas BCubed