Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing
Rafael Bello Pérez
Departamento de Ciencias de la Computación
Universidad Central de Las Villas
Con soporte de conferencias de
Dr. Francisco Herrera Triguero
Dpto. Ciencias de la Computación e I.A., Universidad de Granada
España
Grupo de investigación SCI2Shttp://sci2s.ugr.es
Business analytics
Business analytics (BA) es la exploración metódica e iterativa de los datos de una organización basada en análisis estadístico; es usado por las empresas para tomar decisiones basada en los datos.
Davenport, Thomas H.; Harris, Jeanne G.. Competing on analytics: the new science of winning. Boston, Mass.: Harvard Business School Press. ISBN 978-1-4221-0332-6. 2007.Beller, Michael J.; Alan Barnett. "Next Generation Business Analytics". Lightship Partners LLC. 2009.Bartlett, Randy. A Practitioner’s Guide To Business Analytics: Using Data Analysis Tools to Improve Your Organization’s Decision Making and Strategy. McGraw-Hill. ISBN 978-0071807593. 2013.
Business analytics vs Business intelligence
BI responde a preguntas como Que sucedió? Cuando? Quién? Cuánto?BA responde a preguntas como Por qué sucedió? Sucederá otra vez? Que sucederá si se cambia X?============================================BI incluye la elaboración de reportes, monitoreo automatizado, OLAP (online analytical processing), etc..BA incluye análisis estadístico cuantitativo, minería de datos, modelación predictiva, pruebas multivariadas.============================================BI tradicionalmente se focaliza en usar un conjunto consistente de métricas para medir el desempeño alcanzado y para guiar los planes de negocio basado en los datos del negocio.BA se focaliza en desarrollar nuevos indicios y comprender el desempeño alcanzado por el negocio basado en datos y métodos de análisis, incluyendo modelos explicativos y predictivos para soportar la toma de decisiones por los humanos o de forma totalmente automatizada.
Business analytics vs Business intelligence
Como resultado:
Cada vez más las aplicaciones de BI incluyen los facilidades de BA.
Business analytics: nuevos entornos Las empresas deben adaptarse a las nuevas preferencias de los clientes, o mejor aún, anticiparse a ellas.Los análisis de audiencia proporcionan pistas sobre futuras tendencias del mercado, indican las oportunidades que deben tomarse y muestran cómo se desarrollan las expectativas del cliente.Los directivos de las empresas necesitan disponer de la información que han dejado tras de sí los usuarios de Internet para prever el desarrollo de futuros productos, y precisamente esta información, proporcionada por Business Analytics, les permitirá que tomen las decisiones correctas sobre la estrategia de su empresa.
Guardar datos sobre el soporte en línea y las redes sociales corporativas proporciona a las empresas una fuente de información básica para su actividad, rendimiento y clientes; esto respalda el hecho de que los datos online forman parte de Business Analytics.
Grandes volúmenes de datos
Business analytics: nuevos entornos
Grandes volúmenes de datos
Big data
Business analytics y Big data
Business analytics Big data
Según algunos enfoques:Independientemente de cuán grande sean los datos que usted está usando para hacer BA, existe una persona monitoreando el proceso y tomando decisiones después de posiblemente discutir con un equipo de expertos.
En un verdadero entorno de big data, los humanos se mantienen apartados del trabajo de las maquinas, a las que la dejan hacer.
Business analytics y Big data
Big data analyticsBDA es el proceso de examinar grandes conjuntos de datos conteniendo una variedad de tipos de datos (mezcla de datos estructurados, semi estructurados y no estructurados) para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias de los consumidores y otras informaciones útiles para el negocio.
Estos hallazgos analíticos pueden conducir a mejorar la eficiencia operacional, las ventajas competitivas sobre la competencia e incrementar la eficacia del negocio.
Big data analytics refiere el proceso de coleccionar, organizar y analizar grandes conjuntos de datos (big data) para descubrir patrones y otra información útil.
Big data analytics
El objetivo primario del BDA es ayudar a las compañías a tomar decisiones de negocio más informadas a partir del empleo de científico de datos, expertos en modelos predictivos y otros profesionales para analizar grandes volúmenes de datos en diferentes formatos que no son considerados en las aplicaciones convencionales de BI (los datos semi o no estructurados no encajan bien los tradicionales sistemas de data warehouse basados en bases de datos relacionales).
Big data analytics
El objetivo primario del BDA es ayudar a las compañías a tomar decisiones de negocio más informadas a partir del empleo de científico de datos, expertos en modelos predictivos y otros profesionales para analizar grandes volúmenes de datos en diferentes formatos que no son considerados en las aplicaciones convencionales de BI (los datos semi o no estructurados no encajan bien los tradicionales sistemas de data warehouse basados en bases de datos relacionales).
BDA tiene lugar donde BA y el BI resultan insuficientes
4 entornos de trabajo
BI reactivo: ofrece los reportes de negocio estándares, reportes ad hoc, OLAP y otras alertas basadas en métodos analíticos que consideran el pasado de forma estática lo que limita el número de situaciones que se pueden tratar. Big data BI reactivo: los reportes se generan a partir de grandes conjuntos de datos, pero las decisiones se toman de forma reactiva.Big analytics proactivo: comprende la toma de decisiones mirando hacia adelante considerando modelación predictiva, minería de texto, optimización, pronostico y análisis estadístico; se pueden identificar tendencias, determinar condiciones para tomar decisiones; pero big analytics no se puede ejecutar sobre big data debido al marco computacional tradicional que utiliza.Big data analytics proactivo: usando big data analytics se puede procesar grandes volúmenes de información para transformar las decisiones en el negocio, y haciéndolo de forma proactiva permite enfrentar el futuro con conocimiento y una percepción mejor de las cosas.
Minería de Datos
Somos Ricos en Datos, pero Pobres en información
Data mining- buscar conocimiento (patrones interesantes) en los datos.
Que hacer con los Datos
Motivación
El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar, y descubrir el conocimiento de los datos recopilados de manera oportuna y en una forma escalable
El problema de la explosión de información:
existencia de herramientas para la recolección de información madurez de la tecnología de bases de datos bajo precio del hardware
cantidades gigantescas de datos almacenados en bases de datos, data warehouses y otros tipos de almacenes de información
Somos ricos en datos pero pobres en conocimiento
La Minería de Datos es una forma de
aprender del pasado para tomar mejores decisiones
en el futuro
Minería de Datos
Nuevas necesidades de análisis datos
¿Para qué se utiliza el ‘conocimiento’ obtenido?
hacer predicciones sobre nuevos datos explicar los datos existentes resumir una base de datos masiva para facilitar la toma
de decisiones visualizar datos altamente dimensionales, extrayendo
estructura local simplificada, …
¿Qué es la Minería de Datos?
Informalmente se asocia Minería de Datos con KDD
Problema de KDD
Datos Fuente
Datos Preprocesados
Modelos
Conocimiento e Implantación
Comprensión del Problema y de los Datos
Preprocesamiento de Datos
Minería de Datos
Interpretación y Evaluación
Etapas en un proceso de KDD
¿Qué es la Minería de Datos?
Aplicaciones empresariales / industrialesToma de decisiones en banca, seguros, finanzas,
marketing, control de calidad, retención de clientes, predicción, políticas de acción (sanidad, etc.), …
Aplicaciones en investigación científicaMedicina, astronomía, geografía, genética,
bioquímica, meteorología, etc.
Aplicaciones en Internet/Redes SocialesMinería de textos y de datos en la web
Minería de Datos. Áreas de aplicación
18
Big Data
Datos son el centro de la
futura sociedad de la
economía del
conocimiento
19
No hay una definición estándar
Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento de datos tradicionales
“Big Data” son datos cuyo
volumen, diversidad y complejidad
requieren nueva arquitectura,
técnicas, algoritmos y análisis
para gestionar y extraer valor y
conocimiento oculto en ellos ...
¿Qué es Big Data?
20
¿Qué es Big Data?
Las 3 V’s de Big Data
BD
[1] Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang ZhangInformation Sciences 275 (2014) 314–347[2] Eric Savitz, Gartner: Top 10 Strategic Technology Trends for 2013, October 2012. <http://www.forbes.com/sites/ericsavitz/2012/10/23/gartner-top-10-strategic-technology-trends-for-2013/>.[3] Eric Savitz, Gartner: 10 Critical Tech Trends for the Next Five Years, October 2012. <http://www.forbes.com/sites/ericsavitz/2012/10/22/gartner-10-critical-tech-trends-for-the-next-five-years/>.
No hay dudas de que la competitividad en la productividad de los negocios y las tecnologías seguramente van a converger a las exploraciones en Big data[1].
BD aparece listada en:
Top 10 Strategic Technology Trends For 2013 [2]Top 10 Critical Tech Trends For The Next Five Years [3]
BD
Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang Zhang, Information Sciences 275 (2014) 314–347
Richard T. Kouzes, Gordon A. Anderson, Stephen T. Elbert, Ian Gorton, Deborah K. Gracio, The changing paradigm of data-intensive computing, Computer 42 (1) (2009) 26–34.
BD representa una oportunidad:
Tomar decisiones basadas en el uso intensivo de los datos.
BD representa un reto:
Hay que manejar inconsistencias, datos incompletos, escalabilidad, corriente continua de datos, problemas de seguridad.
Se requieren nuevas tecnologías para el almacenamiento, operaciones de entrada/salida de datos y procesamiento.
BD
Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang Zhang, Information Sciences 275 (2014) 314–347
Richard T. Kouzes, Gordon A. Anderson, Stephen T. Elbert, Ian Gorton, Deborah K. Gracio, The changing paradigm of data-intensive computing, Computer 42 (1) (2009) 26–34.
BD obliga a:
Trabajar con mucha informacion privada y romper con los enfoques clasicos de seguridad de los datos.
Manipular enormes cantidades de datos no estructurados.
Mucho intercambio y cooperacion internacional.
Romper con el enfoque relacional de las bases de datos.
Buscar nuevas alternativas para el procesamiento paralelo.
24
El volumen de datoscrece exponencialmente Crecimiento x 44 de 2009 a 2020 De 0.8 zettabytes a 35ZB
Crecimiento exponencial en los datos generados/almacenados
1ª:Volumen
¿Qué es Big Data? 3 V’s de Big Data
25
Los DATOS se generan muy rápido y necesitan ser procesados rápidamente
Online Data Analytics Decisiones tardías oportunidades perdidasA diferencia del clásico data warehouses que generalmente “almacena” data, big data es más dinámico, las decisiones tomadas usando BD pueden afectar los próximos datos.
Ejemplos: E-Promociones: Basadas en la posición actual e historial de
compra envío de promociones en el momento de comercios cercanos a la posición
Monitorización/vigilancia sanitaria: Monitorización sensorial de las actividades del cuerpo cualquier medida anormal requiere una reacción inmediata
2ª:Velocidad
¿Qué es Big Data? 3 V’s de Big Data
26
Varios formatos y estructuras:
Texto, numéricos, imágenes, audio, video, secuencias, series temporales …
Una sola aplicación puede generar muchos tipos de datos
Extracción de conocimiento Todos estos tipos de datos necesitan ser analizados
conjuntamente
Extracción de conocimiento Todos estos tipos de datos necesitan ser analizados
conjuntamente
3ª:Variedad
¿Qué es Big Data? 3 V’s de Big Data
27
¿Qué es Big Data?
Big data incluye datos estructurados con datos no estructurados, imágenes, vídeos …
28
4ªV
¿Qué es Big Data?
Veracidad
Veracidad4ª V
29
¿Qué es Big Data?
5ªV = Valor
Aproximaciones
y tecnologías
innovativas
5 V’s --> Valor
30
Big Data. Aplicaciones
Astronomía Telefonía
Procesamiento deinformación WEB
Tráfico en Internet
Transacciones de tarjetas de crédito
Genómica
31
Tratamiento computacional
MapReduce: Paradigma de Programación para Big Data (Google)
Plataforma Hadoop (Open access)
Librería Mahout para Big Data. Otras librerías
32
Escalabilidad de grandes cantidades de datos Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días Exploración en un clúster de 1000 nodos = 33 minutos
Solución Divide-Y-Vencerás
MapReduce– Modelo de programación de datos paralela
– Concepto simple, elegante, extensible para múltiples aplicaciones
• Creado por Google (2004)– Procesa 20 PB de datos por día (2004)
• Popularizado por el proyecto de codigo abierto Hadoop– Usado por Yahoo!, Facebook, Amazon, …
MapReduce
33
Características División del problema en subproblemas que puedan ser
resueltos con los recursos computacionales existentes. Distribuir los subproblemas en un cluster de nodos de
trabajo. Resolver los problemas por separado y en paralelo. Combinar las soluciones encontradas a los
subproblemas para resolver el problema original. Concreción en dos pasos: Map step and Reduce step. Esencia: transferir código de programa a los nodos
de datos en lugar de transferir los datos a través de la red (supera el cuello de botella de la transferencia de datos en
aplicaciones distribuidas).
MapReduce
MapReduce
MapReduce es el entorno más popular para Big Data
Basado en la estructura Valor-llave.
Dos operaciones:1. Función Map : Procesa
bloques de información2. Función Reduce function:
Fusiona los resultados previos de acuerdo a su llave.
+ Una etapa intermedia de agrupamiento por llave
J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusters, Communications of the ACM 51 (1) (2008) 107-113.
mapmap map map
Shuffling: group values by keys
reduce reduce reduce
map (k, v) → list (k’, v’)reduce (k’, list(v’)) → v’’
(k , v)(k , v)(k , v) (k , v)
(k’, v’)(k’, v’)(k’, v’)(k’, v’)
k’, list(v’)k’, list(v’)k’, list(v’)
v’’v’’v’’
35
Problema: encontrar el costo promedio por año a partir de una gran lista de registros de costos.
Cada registro puede contener valores para varios atributos, pero al menos incluye el año y el costo.
Función Map: extrae a partir de cada registro los pares <año,costo> y genera estos como salida.
Etapa Shuffle: agrupa los pares <año, costo> por el correspondiente año, creando una lista de costos por año <año, list(cost)>.
Etapa Reduce: computa el promedio de todos los costos contenidos en la lista de cada año.
MapReduce
Un ejemplo
36
Hadoop
Storm
MapReduce: implementaciones
Variantes
37
Hadoop
http://hadoop.apache.org/
38
Map ReduceLayer
HDFSLayer
Task tracker
Task tracker
Jobtracker
Jobtracker
Task tracker
Task tracker
NamenodeNamenode
Data nodeData node
Data nodeData node
http://hadoop.apache.org/
Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop
Creado por Doug Cutting (chairman of board of directors of the Apache Software Foundation, 2010)
Hadoop
Desarrollos
Enfoque InMemoryHDFS Hadoop + SPARK
Ecosistema Apache Spark
Futura versión de Mahout con Spark
40
Enfoque multidisciplinario para descubrir conocimiento
• Estadísticas, • Aprendizaje automático (machine learning),• Redes neuronales artificiales,• Reconocimiento de patrones,• Métodos de optimización,• Análisis de redes sociales, • Procesamiento de señales,• Visualización de datos.
41
Mahout
Cuatro grandes áreas de aplicación
Agrupamiento
Sistemas de Recomendaciones
Clasificación
Asociación
42
Mahout ¿Qué algoritmos puedo encontrar para Hadoop?
Analizamos 10 algoritmos muy conocidos
Hadoop
Palit, I., Reddy, C.K., 2012. Scalable and parallel boosting with mapReduce. IEEE TKDE 24 (10), pp. 1904-1916.
(Amazon EC2 cloud, CGL-MapReduce: (modelos iterativos de MapReduce)
Decision trees (C4.5, Cart)(MReC4.5)K-MeansSVMApriorikNNNaïve BayesEM (Expectation Maximization)PageRankAdaboost
No disponibles
MapReduce
Generation 1st Generation
2nd Generation 3nd Generation
Examples SAS, R, Weka, SPSS, KEEL
Mahout, Pentaho, Cascading
Spark, Haloop, GraphLab, Pregel, Giraph, ML over Storm
Scalability Vertical Horizontal (over Hadoop)
Horizontal (Beyond Hadoop)
Algorithms Available
Huge collection of algorithms
Small subset: sequential logistic regression, linear SVMs, Stochastic Gradient Descendent, k-means clustering, Random forest, etc.
Much wider: CGD, ALS, collaborative filtering, kernel SVM, matrix factorization, Gibbs sampling, etc.
Algorithms Not Available
Practically nothing
Vast no.: Kernel SVMs, Multivariate Logistic Regression, Conjugate Gradient Descendent, ALS, etc.
Multivariate logistic regression in general form, k-means clustering, etc. – Work in progress to expand the set of available algorithms
Fault-Tolerance
Single point of failure
Most tools are FT, as they are built on top of Hadoop
FT: HaLoop, SparkNot FT: Pregel, GraphLab, Giraph
44
Granular computing“… there is an assumption that divide and conquer method can be used to improve the existed knowledge reduction algorithms in rough set theory and granular computing. It may be a good way to solve the problem of huge data mining.”
Huge Data Mining Based on Rough Set Theory and Granular Computing. Feng Hu ; Wang, Guoyin. Proc. De Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT '08. IEEE/WIC/ACM International Conference on (Volume:3 ), pp. 655 – 658. ISBN: 978-0-7695-3496-1, IEEE Press. Sydney, Australia.
Una alternativa para BD
45
Granular computing“Soft Computing being regarded as a plethora of technologies of fuzzy sets (or Granular Computing), neurocomputing and evolutionary optimization brings forward a number of unique features that might be instrumental to the development of concepts and algorithms to deal with big data.”
Information Granularity, Big Data, and Computational Intelligence. Witold Pedrycz, Shyi-Ming Chen (Eds). ISBN: 9783319082530, Springer, p. 444. 2014.
Una alternativa para BD
46
Granular computing“Granular computing (GrC) is an emerging computation theory to build an efficient computational model for complex applications with huge amounts of data, information and knowledge.”
2014 IEEE International Conference on Granular Computing, Oct 22-24, 2014, Noboribetsu, Hokkaido, JAPAN.
Una alternativa para BD
Granular computing y Big data
La computación granular es una de alternativas para tratar a Big data.
Big data grandes volúmenes de datos
Computación granular abstracción reducción de datos
Granular computing Big data
Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. C.L. Philip Chen, Chun-Yang Zhang. Information Sciences 275 (2014) 314–347
Descubrimiento de conocimiento
Problema/Datos Brutos
Datospara Análisis
DatosPreprocesados
Patrones/Modelos
Conocimiento
Selección
Preprocesamiento
Minería de Datos
InterpretaciónEvaluación
Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento.
preprocesamiento
Preprocesamiento de DatosPreprocesamiento de Datos
Granulación de la información
Nuevo!
Reducción de Datos
Selección deCaracterísticas
Selección de Instancias
AgrupamientoCompactación
Discretización
PREPROCESAMIENTO de Datos: MEJORAR CALIDAD DE LOS DATOS
Computación granular (granular computing)
Termino usado para cubrir cualquier teoría, metodología, técnicas y herramientas que hacen uso de gránulos (subconjuntos del universo) en la solución de problemas.
La granulación facilita transformar los datos en conocimiento.
Yao, Y.Y., Granular computing: basic issues and possible solutions,Proceedings of the 5th Joint Conference on Information Sciences, 186-189, 2000.Yao, Y.Y., Information granulation and rough set approximation, Inter-national Journal of Intelligent Systems, 16, 87-104, 2001.Yao, Y.Y., Probabilistic Approaches to Rough Sets. Expert Systems, Vol. 20, No. 5, 287-297, 2003.
Granular computing The term granular computing is first used by this speaker in 1996-97 to label a subset of Zadeh’s granular mathematics as his research topic in BISC.
(Zadeh, L.A. (1998) Some reflections on soft computing, granular
computing and their roles in the conception, design and utilization of information/intelligent systems, Soft Computing, 2, 23-25.)
Computación granular (granular computing)
Granulación del universo descomposición del universo en familias de subconjuntos (agrupamientos de los objetos en gránulos).
Granulo conjunto de objetos inseparables, similares.
Granulo grupos, clases, intervalos, clusters
Los elementos dentro de un granulo se consideran como un todo, en lugar de individualmente.
Zadeh, L.A. Towards a theory of fuzzy information granulation and itscentrality in human reasoning and fuzzy logic, Fuzzy Sets and Systems,19, 111-127, 1997.
Computación granular (granular computing)
Granulo intención descripción propiedades del granulo.
Granulo extensión elementos que conforman la descripción
Grupo de objetos Granulo
Vecindad espacial, closeness, cohesión, etc.
Granulación: métodos
• Cómo juntar objetos para formar un granulo?
• Métodos de construcción gránulos, vistas granuladas, y jerarquías.
Computación granular
Diferentes niveles de granulación.
Comprensión del problema difiere dependiendo del nivel de la granulación.
Ejemplos de granulación:
Partición. Cubrimiento.
Tipos de granulación
A partition
Granule A
Granule B
f, g, h i, j, k
Granule Cl, m, n
Cubrimiento
Given a granulation(has overlapping)
Neighborhood A
Neighborhood B
f, g, h
i, j, k, l
Neighborhood C
m, n
Computación con Gránulos
Mappings:Las conexiones entre diferentes perspectivas de
granularidad pueden ser definidas como mappings.
Granularidad condicional Vs
Granularidad de decisión
Computación granular
Granular computing incluye metodologías computacionales basadas en:
• Lógica borrosa (fuzzy logic), • Computación con palabras (computing with words), • Computación con intervalos (interval computing), • Conjuntos aproximados (rough sets), etc.
Feature Subset Selection using Granular InformationShounak Roychowdhury0-7803-7078-3/24M1 IEEE, pp 2041-2044
Fuzzy Sets - 1965 Lotfi Zadeh, Berkely
Fuzzy sets son conjuntos cuyos elementos tienen grados de membresía, como una extensión de teoría de conjuntos clásica.
Big Data: Selected Computational Intelligence approaches
Fuzzy (F)-Granulation:
1
0.5
Feature j
Mem
ber
ship
val
ue
low medium high
cLcM cH
L M
function
Variable lingüística
Agresividad
Membership (Degree of
Truth)1.0
0.0
-1 1 0 0.5
Medio AltoBajo
Computación granular con FS
example: rule set
R : if X is small then Y is small
if X is medium then Y is large
if X is large then Y is small
1
medium large
0
small
vLAZ 09-12-00
La estructura básica de un SIB
Rough SetsRough Sets
UncertaintyHandling
GranularComputing
(Using lower & upper approximations) (Using information granules)
Computación granular con RS
Granulación en RST:
• clase de equivalencia es un granulo.• partición es una granulación del universo.
Particionamiento del universo según los rasgos de condición Conditional granules.
Particionamiento del universo según el rasgo de decisión Decision granules.
Granular Rough Theory: A representation semantics oriented theory of roughness. Bo Chen, Ming Sun, Mingtian ZhouApplied Soft Computing 9 (2009) 786–805
EJEMPLOS DE GRANULOS
GC={P2,P5} GD={P1, P2, P3, P6}
Paciente Dolor de cabeza
Dolor muscular
Temperatura
Gripe
P1 no si alta Si
P2 si no alta Si
P3 si si muy alta Si
P4 no si normal No
P5 si no alta No
P6 no si muy alta Si
EJEMPLOS DE GRANULOS Ai(x)Ai(y) |Ai(x)-Ai(y)|1 GC={P2,P4} GD={P1, P2, P4}
Paciente Presión Peso Volumen Energía
P1 18 100 78 78
P2 31 89 67 78.9
P3 8 90 65 56
P4 30.9 89.3 66.2 79
P5 2 8 9 11
P6 50 67 66 87
d A U,DS
La Teoría de Conjuntos Aproximados (Rough Sets Theory, RST) fue introducida por Z. Pawlak en 1982.
Pawlak, Z. (1982). "Rough Sets." International journal of Computer and Information Sciences 11: 341-356.
Donde denota la clase de x de acuerdo a la relación de inseparabilidad B.
Bx][
)()( yaxa ii
Los objetos (x,y) son inseparables si tiene igual valor para un subconjunto de rasgos.
B RE
Ejemplo:temperatura = 37.8 grados puede ser considerada igual a otra de 37.9 grados, al medir la temperatura corporal de dos personas.
d A U,DS
Alternativas
Slowinski, R. and D. Vanderpooten (1997). Similarity relation as a basis for rough approximations. Advances in Machine Intelligence & Soft-Computing. IV: 17-33.Pawlak, Z. and A. Skowron (2007). "Rough sets: Some extensions." Information Sciences 177: 28-40.
dominios
Aproximaciones Inferior y SuperiorEjemplo de DS
X1R X2R
U Headache Temp. FluU1 Yes Normal NoU2 Yes High YesU3 Yes Very-high YesU4 No Normal NoU5 NNNooo HHHiiiggghhh NNNoooU6 No Very-high YesU7 NNNooo HHHiiiggghhh YYYeeesssU8 No Very-high No
Aproximaciones Inferior y Superior
R = {Headache, Temp.}U/R = { {u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}}
X1 = {u | Flu(u) = yes} = {u2,u3,u6,u7}X2 = {u | Flu(u) = no} = {u1,u4,u5,u8}
RX1 = {u2, u3}
= {u2, u3, u6, u7, u8, u5}
RX2 = {u1, u4}
= {u1, u4, u5, u8, u7, u6}
X1R
X2R
u1
u4u3
X1 X2
u5u7u2
u6 u8
Reducto.
Dado un sistema de información S=(U,A), donde U es el universo y A es el conjunto de atributos, un reducto de este es un conjunto mínimo de atributos BA tal que IA = IB.
Aplicabilidad de la RST en el Aprendizaje automático
a) Análisis de los atributos a considerar. Selección de los atributos. Análisis de la dependencia entre atributos. Reducción de atributos. Calculo de la importancia de un atributo. Calculo de la calidad de un Training set.
b) Formulación del conocimiento descubierto. Descubrimiento de reglas causales. Cálculo de la certidumbre de las reglas causales.
Big Data + Granular computing (fuzzy)
On the use of MapReduce to build Linguistic Fuzzy Rule BasedClassification Systems for Big Data
Fuzzy Rule Based Classification Systems (FRBCSs) son un método efectivo para la clasificación afectado por el crecimiento exponencial del espacio de búsqueda (caso BD)
CI approaches
Fuzzy Rule Based Classification Systems en Big Data
Alternativas para grandes datos:
Distribuir la creación de la base de reglas.Paralelización del método de construcción de las reglas.
Modificar para BD
Modelos existentes no adecuados para BD.
Y.Jin,Fuzzy modeling of high-dimensional systems: complexity reduction and interpretability improvement, IEEE Trans. Fuzzy Syst. 8(2) (2000) 212–221
CI approaches
Chi-FRBCS-BigData
Diseño basado en MapReduce. Usa dos procesos diferentes de MapReduce
Fase 1: Construir la Fuzzy Rule Base Fase 2: Estimar las clases de los ejemplos
pertenecientes al big data Dos versiones las cuales difieren en la función
Reduce Chi-FRBCS-BigData-Max Chi-FRBCS-BigData-Average
V. López, S. Río, J.M. Benítez, F. Herrera, On the use of MapReduce to build Linguistic Fuzzy Rule Based Classification Systems for Big Data. Fuzz-IEEE Conference, 2014.
Big Data + Granular computing (fuzzy)
Building the RB with Chi-FRBCS-BigData
Train set map1
Train set mapn
…
Train set map2
RB1
RB2
RBn
…
Mappers RB generation
Original train set
RBR
Final RB generation
RBR
DB
Final KB
INITIAL MAP REDUCE FINAL
La clave del enfoque de particionamiento de datos de MapReduce es usualmente la fase reduce: Dos alternativas de reducers (Max vs average weights)
Big Data + Granular computing (fuzzy)
ROUGH SETS y BIG DATAQué hacer cuando el tamaño del sistema de decisión es extremadamente grande para computar con eficiencia los conceptos de la RST y aplicar los métodos basados en ellos para el descubrimiento de conocimiento?
Complejidad computacional de encontrar las
aproximaciones: O(lm2),
Costo computacional de encontrar un reducto:
acotado por l2m2.
l es el cantidad de atributos que describen los objetos
m es la cantidad de objetos en el universo.
ROUGH SETS y BIG DATA
COMPUTAR LA RST BASADO EN MAPREDUCE.
HADOOP FILE SYSTEM AND FUNDAMENTAL CONCEPT OF MAPREDUCE INTERIOR AND CLOSURE ROUGH SET APPROXIMATIONSInternational Journal of Advanced Research in Computer and Communication EngineeringVol. 2, Issue 10, pp 3960-3963, October 2013
ROUGH SETS y BIG DATA
Diseñar algoritmos paralelos para computar;•Clases equivalencias,•Clases de decisión,•Asociaciones entre las clases de equivalencia y las clases de decisión. •Aproximaciones.
A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223
ROUGH SETS y MapReduceACCIONES PARA COMPUTAR ROUGH SETS EN EL CONTEXTO DE BIGDATA
Dado un sistema información S(U, A{d}):
•Particionar el universo U.•A partir de cada subconjunto construir las clases de equivalencia usando la función Map.•Estas clases de equivalencias se pueden combinar si ellas tienen la misma información respecto a los atributos de condición en A.•A partir de cada subconjunto construir las clases de decisión de acuerdo al rasgo de decisión d.•Estas clases de decisión se pueden combinar si ellas corresponden al mismo valor de decisión.
Estos pasos se pueden ejecutar en paralelo.
A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223
ROUGH SETS y MAPREDUCEDado el sistema de decisión S = (U,C D).
Creación de subsistemas {S1, S2, …, Sm}, donde Si = (Ui,C D) U=UiConstrucción de clases de equivalencia para cada subsistema Si, i {1, 2, . . .,m}, Ui/B, B C
Teorema:Para cada subsistema se pueden computar las clases de equivalencia independientemente. Las clases de equivalencia de diferentes subsistemas se pueden unir si su información es la misma.Por eso, las clases de equivalencias del sistema de decisión S se pueden computar en paralelo.
U/B= {E1,E2, . . .,Et} Ui/B={Ei1; Ei2; . . . ; Eipi}. Ej= {F Eall : FB= EjB}
A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223
Agregación de clases de Agregación de clases de equivalenciaequivalencia
Computo de las aproximaciones con MAPREDUCE
Dado el sistema de decisión S = (U,C D). Si = (Ui, C D) U=UiU/B= {E1,E2, . . .,Et} Ui/B={Ei1; Ei2; . . . ; Eip i}.U/D = {D1,D2, . . .,Dr}, i {1, 2, . . .,m}, Ui/D={Di1; Di2; . . . ; Diqi}.
•Las clases de decisión y de equivalencia pueden ser calculadas en paralelo según MapReduce.•Las asociaciones entre las clases de equivalencia y las clases de decisión también se pueden computar en paralelo.•Las aproximaciones inferior y superior se computan mediante las asociaciones entre las clases de equivalencia y las clases de decisión.•Las aproximaciones obtenidas en paralelo son las mismas obtenidas por el método serial.
TODO DEMOSTRADO EN TEOREMAS DEL ARTICULO:
A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223
RST + MAPREDUCE en MLBasado en la implementación de RST sobre MapReduce publicado en:
A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223.
Se han desarrollado aplicaciones para el descubrimiento de conocimiento:
J. Zhang, T. Li, and Y. Pan, “Parallel rough set based knowledge acquisition using mapreduce from big data,” in Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications, ser. BigMine ’12. New York, NY, USA: ACM, 2012, pp. 20–27.
PLAR: Parallel Large-scale Attribute Reduction on Cloud SystemsJunbo Zhang,Tianrui Li_, Senior Member, IEEE, and Yi Pan, Senior Member, IEEE
RST + MAPREDUCE en selección de rasgosAlgoritmo paralelo para la reducción del sistema de informacion
Input: A decision table S = ∪Si DIVISION EN SUBSISTEMAS Output: reduction of S
1. Computar reducción Redi a partir de los subsistemas Si.2. Agregar los atributos resultantes en AttrSet (en ∪Redi).3. Eliminar los rasgos redundantes.
Attribute Reduction for Massive Data Based on Rough Set Theory and MapReduce. Yong Yang, Zhengrong Chen, Zhu Liang, and Guoyin Wang. LNAI 6401, pp. 672–678, 2010.
Otros métodos de descubrimiento de conocimiento usando RS en Big data
Parallel rough set based knowledge acquisition using MapReduce from big data.Junbo Zhang, Tianrui Li, Yi Pan. Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications, pp. 20-27. ACM Press. ISBN: 978-1-4503-1547-0. 2012.
An agent model for incremental RS-based rule induction: a big data analysis in sales promotion. Yu-Neng Fan, Ching-Chin Chern. 46th Hawaii International Conference on System Sciences. © 2012 IEEE DOI 10.1109/HICSS.2013.79 pp. 985-994.
91
Desafíos en Big Data
Comentarios Finales
http://www.kdnuggets.com/2013/12/3-stages-big-data.htmlBy Gregory Piatetsky, Dec 8, 2013.
En muchas nuevas aplicaciones – reconocimiento facial, comprensión del habla, recomendaciones, detección de fraudes – mas datos no produce mejores resultados
Para ayudar a esclarecer los diferentes significados de "Big Data", el Dr. Piatetsky propuso considerar 3 etapas para Big Data.
92
http://economia.elpais.com/economia/2013/09/27/actualidad/1380283725_938376.html
Comentarios Finales
La demanda de profesionales formados en Ciencia de Datos y Big Data es enorme.
Se estima que la conversión de datos en información útil generará un mercado de 132.000 millones de dólares en 2015 y que se crearán más de 4.4 millones de empleos.
España necesitará para 2015 más de 60.000 profesionales con formación en Ciencia de Datos y Big Data.
Oportunidades en Big Data
Una demanda creciente de profesionales en “Big Data” y “Ciencia de Datos”
http://www.informaticahabana.cu/
III International Conference on Informatics and
Computer Sciences (CICCI 2016)For further information please
contact Dra. Yailén Martínez, [email protected].
https://www.facebook.com/CICCI.Informatica.Cuba