inteligencia de negocio basada en ingenieria de...

99
INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE INFORMACION CASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN Estudiante Ing. Gonzalo Damián SANTOS Director Dr. Dario RODRIGUEZ Profesor Adjunto Regular área Ingeniería de Software (UNLa) Asesor Tecnológico Lic. Sebastian MARTINS Dr(C) Responsable Laboratorio de Ingeniería de Explotación de Información (UNLa) TESIS PRESENTADA PARA LA OBTENCIÓN DEL GRADO DE MAGISTER EN GESTIÓN DE PEQUEÑAS Y MEDIANAS EMPRESAS DEPARTAMENTO DE DESARROLLO PRODUCTIVO Y TECNOLOGICO UNIVERSIDAD NACIONAL DE LANUS OCTUBRE, 2016

Upload: doanphuc

Post on 16-May-2018

213 views

Category:

Documents


1 download

TRANSCRIPT

INTELIGENCIA DE NEGOCIO BASADA ENINGENIERIA DE EXPLOTACION DE

INFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA

DE LA CONSTRUCCIÓN

Estudiante

Ing. Gonzalo Damián SANTOS

Director

Dr. Dario RODRIGUEZProfesor Adjunto Regular área Ingeniería de Software (UNLa)

Asesor Tecnológico

Lic. Sebastian MARTINS Dr(C)Responsable Laboratorio de Ingeniería de Explotación de Información (UNLa)

TESIS PRESENTADA PARA LA OBTENCIÓN DEL GRADO DEMAGISTER EN GESTIÓN DE PEQUEÑAS Y MEDIANAS EMPRESAS

DEPARTAMENTODE DESARROLLO PRODUCTIVO Y TECNOLOGICO

UNIVERSIDAD NACIONAL DE LANUS

OCTUBRE, 2016

i

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

ii

DEDICATORIA

A mis padres por haberme ensañado todo lo que sé.

A Erica por ser mi compañera de la vida.

A Valentino por iluminarme cada día.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

iii

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

iv

RESUMENLas PyMEs son empresas que tienden a priorizar la producción y comercialización de

productos y/o servicios, y que no suelen, ya sea por falta de recursos o por desconocimiento,

aplicar disciplinas de inteligencia de negocio para el conocimiento o la mejora de sus

procesos.

La explotación de la información es la sub-disciplina de la inteligencia de negocios que más

ha crecido en los últimos años. Existen innumerables ejemplos de casos de aplicación reales

que demuestran su utilidad en entornos donde se cuenta con un alto número de variables y

grandes volúmenes de datos.

En esta tesis se desarrolla un caso de intervención sobre una PyME del área de la

construcción, donde se explora la aplicación de los procesos de explotación de la

información en base a la metodología CRISP-DM. Se requirió la introducción de los

conceptos y herramientas en un entorno limitado casi exclusivamente al ingreso de datos,

pero no al análisis de los mismos. Como resultado del trabajo realizado, ha sido posible

obtener reglas de comportamiento significativas para el negocio.

ABSTRACTPyMEs are companies that tend to prioritize the production and commercialization of

products and services and that don’t usually apply business intelligence, mainly because of

the lack of resources or knowledge, when trying to gain insight in their business or process

improvement.

Information mining is the sub-discipline of business intelligence that has shown the biggest

growth in the last years. There are countless examples of real case scenarios that

demonstrate the use of these tools and technics in environments with a big number of

variables and data records.

This thesis develops an intervention case on a PyME from the construction industry. It

explores the use of information mining processes based on the CRISPDM methodology. It

was necessary to introduce the concepts and tools in an environment mostly limited to data

registration rather than data analysis. As a result, it’s been possible to identify significant

behavioral rules for the business.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

v

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

vi

AGRADECIMIENTOS

A la Universidad Nacional de Lanús por aceptarme primero como docente y más

tarde como alumno. En particular, al Departamento de Desarrollo Productivo y

Tecnológico, por darme la posibilidad complementar mi formación de grado

incorporando conceptos y herramientas muy útiles para mi desempeño profesional.

Al Dr. Darío Rodriguez por dirigir mi trabajo. Supo guiarme hacia el descubrimiento

y comprensión de las definiciones teóricas y las herramientas prácticas de los

procesos de explotación de la información, una ciencia que desconocía hasta el

momento de iniciar la tesis. Gracias a su esfuerzo, predisposición y dedicación fue

posible alcanzar el título de Magíster.

Al Dr. Ramón García Martínez por el apoyo inicial en el desarrollo de la tesis. Su

aporte fue fundamental para la selección del tema y del equipo de trabajo.

Al Lic. Sebastian Martins por el apoyo técnico y la asistencia en la aplicación de

herramientas para la obtención de los resultados de esta tesis. Su aporte fue muy

valioso y pude sacar provecho de su experiencia.

Al Ing. Guillermo Etchechoury quien además de ser un mentor profesional, es un

amigo. Gracias a él pude contar con información real para dar sustento a este trabajo.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

vii

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

viii

INDICE

1 INTRODUCCION .................................................................................................................................. 1

1.1 ESTRUCTURA GENERAL DE LA TESIS .................................................................................... 2

2 ESTADO DE LA CUESTION ............................................................................................................... 3

2.1 INTELIGENCIA DE NEGOCIOS ................................................................................................... 3

2.2 EXPLOTACIÓN DE INFORMACIÓN........................................................................................... 5

2.3 PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN.............................................................. 62.3.1 DESCUBRIMIENTO DE REGLAS DE COMPORTAMIENTO .............................................. 62.3.2 DESCUBRIMIENTO DE GRUPOS........................................................................................... 72.3.3 PONDERACIÓN DE INTERDEPENDENCIA DE ATRIBUTOS ............................................ 82.3.4 DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS .................................... 92.3.5 PONDERACIÓN DE REGLAS DE COMPORTAMIENTO O DE PERTENENCIA AGRUPOS................................................................................................................................................. 10

2.4 MODELO CRISP-DM..................................................................................................................... 132.4.1 LA METODOLOGÍA CRISP-DM............................................................................................ 142.4.2 EL MODELO DE REFERENCIA ............................................................................................ 14

2.5 ANÁLISIS DE CASOS DE APLICACIÓN ................................................................................... 352.5.1 MEDICORP – EMPRESA DE DISTRIBUCIÓN FARMACÉUTICA .................................... 362.5.2 STEELCORP – COMPAÑÍA DE HIERROS Y ACERO......................................................... 392.5.3 CATEGORIZACIÓN DE TELEVIDENTES............................................................................ 41

3 CASO DE INTERVENCIÓN Y PREGUNTAS................................................................................. 45

3.1 SEFINPOL S.A. ................................................................................................................................ 453.1.1 INNOVACIÓN E INVERSIONES ........................................................................................... 473.1.2 RECURSOS FÍSICOS Y TECNOLÓGICOS ........................................................................... 473.1.3 RECURSOS FINANCIEROS ................................................................................................... 48

3.2 APORTE DE LOS PROCESOS DE EXPLOTACIÓN DE LA INFORMACIÓN EN ELNEGOCIO.................................................................................................................................................. 48

3.3 SUMARIO DE INVESTIGACIÓN ................................................................................................ 50

4 MATERIALES Y METODOS ............................................................................................................ 51

4.1 MATERIALES ................................................................................................................................. 514.1.1 FUENTES DE DATOS ............................................................................................................. 514.1.2 HERRAMIENTAS DE EXPLOTACIÓN DE INFORMACIÓN ............................................. 55

4.2 MÉTODOS........................................................................................................................................ 604.2.1 PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN APLICADOS AL DOMINIO ........ 604.2.2 ALGORITMOS DE EXPLOTACIÓN DE INFORMACIÓN APLICADOS AL DOMINIO .. 61

5 RESULTADOS E INTERPRETACION ............................................................................................ 63

5.1 DESCRIPCIÓN DE LOS DATOS.................................................................................................. 63

5.2 ADAPTACIÓN DE LOS DATOS................................................................................................... 64

5.3 DESCRIPCIÓN ESTADÍSTICA .................................................................................................... 65

5.4 RESULTADOS OBTENIDOS ........................................................................................................ 665.4.1 ANÁLISIS POR PRODUCTO.................................................................................................. 665.4.2 RESULTADOS PARA PRODUCTOS LPC/LPCM................................................................. 72

6 CONCLUSIONES ................................................................................................................................ 75

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

ix

6.1 APORTACIONES DE LA TESIS .................................................................................................. 75

6.2 FUTURAS LÍNEAS DE INVESTIGACIÓN................................................................................. 77

7 REFERENCIAS.................................................................................................................................... 79

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

x

INDICE DE FIGURAS

Figura 2.1 Descubrimiento de reglas de comportamiento................................................................................ 7

Figura 2.2 Descubrimiento de grupos .............................................................................................................. 8

Figura 2.3 Ponderación de interdependencia de atributos ................................................................................ 9

Figura 2.4 Descubrimiento de reglas de pertenencia a grupos ....................................................................... 11

Figura 2.5 Ponderación de reglas de comportamiento o de pertenencia a grupos.......................................... 13

Figura 2.6 Estructura Modelo CRISP-DM..................................................................................................... 14

Figura 2.7 Ciclo de vida del modelo CRISP-DM........................................................................................... 15

Figura 2.8 Fases y actividades........................................................................................................................ 16

Figura 2.9 Entendimiento de Negocio............................................................................................................ 18

Figura 2.10 Entendimiento de los datos ......................................................................................................... 23

Figura 2.11 Preparación de los datos.............................................................................................................. 26

Figura 2.12 Modelado .................................................................................................................................... 28

Figura 2.13 Evaluación................................................................................................................................... 31

Figura 2.14 Implantación ............................................................................................................................... 33

Figura 3.1 Logo Sefinpol S.A......................................................................................................................... 45

Figura 4.1 Relaciones entre entidades del dominio........................................................................................ 52

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

xi

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

xii

INDICE DE TABLAS

Tabla 4.1 Análisis de Herramientas................................................................................................................ 60

Tabla 5.1 Descripción general de la base de datos ......................................................................................... 65

Tabla 5.2 Distribución de registros por año.................................................................................................... 65

Tabla 5.3 Ranking de productos más vendidos .............................................................................................. 66

Tabla 5.4 Correlación de Artículos................................................................................................................. 67

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

xiii

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

xiv

ACRONIMOS

ANN: Artificial Neural Networks (Redes Neuronales Artificiales).

CRISP-DM: Cross Industry Standard Process for Data Mining (Proceso estándar

inter-industria para la minería de datos).

DM: Data Mining (Minería de datos).

ERP: Enterprise Resource Planning (Planeamiento de recursos empresariales).

KPI: Key Performance Indicator (Indicador clave de rendimiento).

MLP: Multi-layer Perceptron (Perceptrón multi-capa).

OLAP: On Line Analytic Processing (Procesamiento analítico en línea).

PyME: Pequeña y Mediana Empresa.

SQL: Standard Query Language (Lenguaje estándar de consulta).

TDNN: Time Delay Neural Networks (Redes neuronales de retraso temporal).

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

xv

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

1

1 INTRODUCCION

Las “Pequeñas y Medianas Empresas” son organizaciones que, en sus primeros años

de vida, por lo general no ven la necesidad de implementar un sistema informático de

gestión para sus procesos. Suelen enfocarse especialmente a las actividades

productivas y de comercialización para lograr una rápida inserción en el mercado,

elemento fundamental para facilitar su permanencia. A medida que el negocio se

establece, las operaciones se tornan más voluminosas y las necesidades de

registración y control decantan la implementación de sistemas informáticos de

gestión. En esta etapa, las empresas sistematizan sus procesos y, en poco tiempo, se

encuentran manejando una gran cantidad de variables, aún sin entender

completamente su utilidad. El siguiente salto en esta evolución se presenta cuando

surge la necesidad de mejorar los procesos y, en este sentido, es necesario comenzar a

medir el rendimiento de los mismos. Para esto, se comienza a analizar la información

a través de reportes que integran todos los datos registrados en el sistema de gestión.

El análisis de compras busca identificar patrones en el comportamiento de los clientes

a la hora de elegir un producto. Mediante la implementación de distintas técnicas

estadísticas, informáticas y de explotación de información, se pretende identificar

conjunto de productos que indiquen un comportamiento de compras similar entre

distintos clientes.

A partir de las relaciones identificadas, se podrá mejorar la atención de los clientes y

especializar las tareas de marketing y de ventas a los mismos. Adicionalmente, se

busca favorecer a la planificación y análisis de la producción y demandas futuras.

En este trabajo se realiza en primer lugar una descripción de las técnicas y

herramientas disponibles en el área de la explotación de la información, para luego

demostrar su aplicación en un caso real en una PyME del sector de la construcción.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

2

1.1 ESTRUCTURA GENERAL DE LA TESIS

En el “Capítulo 2 - Estado de la Cuestión” se presentan los conceptos referidos a la

disciplina de la Inteligencia de Negocios, se describe brevemente el campo de la

Ingeniería de Explotación de Información y se detallan los procesos de explotación

de información. Luego, en el mismo capítulo, se analizará la metodología CRISP-DM

[Chapman et al., 1999] que es un modelo de procesos diseñado y desarrollado por y

para expertos del ámbito de la explotación de la información. El capítulo concluye

con el análisis de casos reales de aplicación de técnicas de explotación de la

información en diversos negocios.

El “Capítulo 3 – Caso de intervención y preguntas” presenta a la empresa tomada

como referencia para el desarrollo de la tesis. Describe sus características y detalla el

aporte de los procesos de explotación de la información en su negocio. Por último, se

plantean las preguntas de investigación.

El “Capítulo 4 – Materiales y Métodos” se presenta las bases de datos y las

herramientas utilizadas a lo largo del trabajo.

En el “Capítulo 5 - Resultados e Interpretación” se realiza una descripción de los

datos de entrada, el trabajo realizado durante su adaptación para el uso en las

herramientas de explotación de la información y los resultados obtenidos.

En el “Capítulo 6 - Conclusiones” se presentan las aportaciones de la tesis y se

señalan futuras líneas de investigación relacionadas a los temas tratados durante el

desarrollo de la misma.

En el “Capítulo 7 - Referencias” se listan todas las publicaciones consultadas para el

desarrollo de esta tesis.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

3

2 ESTADO DE LA CUESTION

En este capítulo se introducen distintos conceptos relevantes para el desarrollo del

proyecto: la disciplina a partir de la cual se enfoca la solución realizada (sección 2.1),

se describe brevemente el campo de la Ingeniería de Explotación de Información

(sección 2.2), se detallan los procesos de explotación de información (sección 2.3),

conformado por cinco procesos: descubrimiento de reglas de comportamiento

(Sección 2.3.1), descubrimiento de grupos (Sección 2.3.2), descubrimiento de

atributos significativos (Sección 2.3.3), descubrimiento de reglas de pertenencia a

grupos (Sección 2.3.4) y ponderación de reglas de comportamiento o de pertenencia

(Sección 2.3.5). Luego, se describirá el detalle de tareas y componentes necesarios

para utilizar la metodología CRISP-DM (Sección 2.4). Por último, se realizará un

análisis de casos reales de aplicación (Sección 2.5).

2.1 INTELIGENCIA DE NEGOCIOS

Se denomina inteligencia de negocio (Business Intelligence, BI) al conjunto de

estrategias y herramientas [Reinschmidt y Allison, 2000] enfocadas a la

administración y creación de conocimiento mediante el análisis de datos existentes en

una organización [Koubarakis y Plexousakis, 2000; Grigori et al., 2001; Grigori, et

al., 2004; Mäkipää, 2004; Negash, 2008].

Involucra el uso de los datos de una organización para facilitarle a las personas que

realizan la toma de decisiones estratégicas del negocio, la comprensión del

funcionamiento actual y la anticipación de acciones para dar una dirección bien

informada a la organización [Thomas, 2001; 2003; Lönnqvist y Pirttimäki, 2006].

El sistema de información que se utiliza para la inteligencia de negocios integra

diferentes datos extraídos del área de producción, con información relacionada con la

organización o sus ámbitos y con datos económicos [Schiefer et al., 2004].

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

4

Las herramientas de inteligencia de negocios son software de aplicación diseñados

para colaborar con la inteligencia de negocios en los procesos de las organizaciones

[Pirttimäki et al., 2006].

Específicamente se trata de herramientas que asisten el análisis y la presentación de

los datos [Reiter et al., 2000; Morik y Rüping, 2002; Moss, 2003; Rudin y Cressy,

2003; Nguyen et al., 2005].

Este conjunto de herramientas y metodologías tienen en común las siguientes

características [Osterwalder, 2004]:

Accesibilidad a la información: Los datos son la fuente principal de este

concepto. Lo primero que deben garantizar este tipo de herramientas y técnicas

será el acceso de los usuarios a los datos, con independencia de la procedencia

de éstos.

Apoyo en la toma de decisiones: Se busca ir más allá en la presentación de la

información, de manera que los usuarios tengan acceso a herramientas de

análisis que les permitan seleccionar y manipular sólo aquellos datos que les

interesen.

Orientación al usuario final: Se busca independencia entre los conocimientos

técnicos de los usuarios y su capacidad para utilizar estas herramientas.

De acuerdo a su nivel de complejidad, las herramientas de inteligencia de negocios se

pueden clasificar en [Langseth y Vivatrat, 2003; Dasgupta y Vankayala, 2007]:

Cuadro de Mando Integral: También conocidos como Business Intelligence

Dashboards, o Dashboards Ejecutivos. Son resúmenes visuales de información

de la organización, que pretende mostrar de una mirada la comprensión global

de las condiciones de la organización mediante métricas e indicadores clave de

desempeño (KPIs). Esta es una herramienta de inteligencia de negocios en uso

desde hace unos pocos años.

Procesamiento Analítico en Línea (OLAP / On Line Analytic Processing): Es

la capacidad de algunos sistemas de soporte de decisiones gerenciales, que

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

5

permiten examinar de manera interactiva grandes volúmenes de información

desde varias perspectivas.

Aplicaciones de Reportes: Genera vistas de datos agregadas para mantener a la

gestión informada sobre el estado de la organización.

Explotación de Información: Extracción de información de las bases de datos

acerca del objeto observado, mediante la utilización de aplicaciones que

pueden aislar e identificar patrones o tendencias del objeto observado en un

alto volumen de datos. Hay una gran variedad de técnicas de Explotación de

Información que revelan distintos tipos de patrones.

2.2 EXPLOTACIÓN DE INFORMACIÓN

La explotación de información se ha definido, aunque utilizando el termino Minería

de datos en su lugar, como la búsqueda de patrones interesantes y de reglas

importantes en grandes masas de información [Fayad et al., 1996; Grossman et al.,

1999]. También fue definida como el proceso de descubrir nuevas correlaciones,

patrones y tendencias significativas utilizando grandes cantidades de datos

almacenados en repositorios, usando tecnologías de reconocimiento de patrones, así

como técnicas matemáticas y de estadística [Larose, 2005].

La Ingeniería de Explotación de Información estudia los procesos de extracción de

conocimiento no trivial que recibe de manera implícita en los datos que se almacenan

en grandes bases de datos. Estos procesos se valen de algoritmos de Minería de Datos

(DM, Data Mining) [García-Martínez et al., 2011]. Dicho conocimiento es

previamente desconocido y puede resultar útil para algún proceso [Stefanovic et al.,

2006]. Para un experto, o para el responsable de un sistema, normalmente no son los

datos en sí lo más relevante, sino el conocimiento oculto presente en sus relaciones,

fluctuaciones y dependencias.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

6

2.3 PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN

Los procesos de explotación de información definen las técnicas o algoritmos a

utilizar en base a las características del problema de explotación. En [Britos, 2008] se

presentan los siguientes procesos de explotación de información: descubrimiento de

reglas de comportamiento (Sección 2.3.1), descubrimiento de grupos (Sección 2.3.2),

descubrimiento de atributos significativos (Sección 2.3.3), descubrimiento de reglas

de pertenencia a grupos (Sección 2.3.4) y ponderación de reglas de comportamiento o

de pertenencia (Sección 2.3.5).

2.3.1 DESCUBRIMIENTO DE REGLAS DE COMPORTAMIENTO

En [Britos y García-Martínez, 2009] se define que el proceso de descubrimiento de

reglas de comportamiento aplica cuando se requiere identificar cuáles son las

condiciones para obtener determinado resultado en el dominio del problema. Son

ejemplos de problemas que requieren este proceso: identificación de características

del local más visitado por los clientes, identificación de factores que inciden en el

alza las ventas de un producto dado, establecimiento de características o rasgos de los

clientes con alto grado de fidelidad a la marca, establecimiento de atributos

demográficos y psicográficos que distinguen a los visitantes de un website, entre

otros. Para el descubrimiento de reglas de comportamiento definidos a partir de

atributos clases en un dominio de problema que representa la masa de información

disponible, se propone la utilización de algoritmos de inducción TDIDT para

descubrir las reglas de comportamiento de cada atributo clase. Este proceso y sus

subproductos pueden ser visualizados gráficamente en la figura 2.1. Como resultado

de la aplicación del algoritmo de inducción TDIDT al atributo clase se obtiene un

conjunto de reglas que definen el comportamiento de dicha clase.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

7

Figura 2.1 Descubrimiento de reglas de comportamiento[Britos y García-Martínez, 2009]

2.3.2 DESCUBRIMIENTO DE GRUPOS

En [Britos y García-Martínez, 2009] se define que el proceso de descubrimiento de

grupos aplica cuando se requiere identificar una partición en la masa de información

disponible sobre el dominio de problema. Son ejemplos de problemas que requieren

este proceso: identificación de segmentos de clientes para bancos y financieras,

identificación de tipos de llamadas de clientes para empresas de telecomunicación,

identificación de grupos sociales con las mismas características, identificación de

grupos de estudiantes con características homogéneas, entre otros. Para el

descubrimiento de grupos a partir de masas de información del dominio de problema

sobre las que no se dispone ningún criterio de agrupamiento “a priori” se propone la

utilización de Mapas Auto Organizados de Kohonen o SOM por su sigla en inglés. El

uso de esta tecnología busca descubrir si existen grupos que permitan una partición

representativa del dominio de problema que la masa de información disponible

representa. Este proceso y sus subproductos pueden ser visualizados gráficamente en

la figura 2.2.

En primer lugar se identifican todas las fuentes de información (bases de datos,

archivos planos, entre otras), se integran entre sí formando una sola fuente de

información a la que se llamará datos integrados. Con base en los datos integrados se

aplican mapas auto-organizados (SOM). Como resultado de la aplicación de SOM se

obtiene una partición del conjunto de registros en distintos grupos a los que se

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

8

Figura 2.2 Descubrimiento de grupos

[Britos y García-Martínez, 2009]

llamará grupos identificados. Para cada grupo identificado se generará el archivo

correspondiente.

2.3.3 PONDERACIÓN DE INTERDEPENDENCIA DE ATRIBUTOS

En [Britos y García-Martínez, 2009] se define que el proceso de ponderación de

interdependencia de atributos aplica cuando se requiere identificar cuáles son los

factores con mayor incidencia (o frecuencia de ocurrencia) sobre un determinado

resultado del problema. Son ejemplos de problemas que requieren este proceso:

factores con incidencia sobre las ventas, rasgos distintivos de clientes con alto grado

de fidelidad a la marca, atributos claves que convierten en vendible a un determinado

producto, características sobresalientes que tienen los visitantes de un website, entre

otros. Para ponderar en qué medida la variación de los valores de un atributo incide

sobre la variación del valor de un atributo clase se propone la utilización de Redes

Bayesianas. El uso de esta tecnología busca identificar si existe interdependencia en

algún grado entre los atributos que modelan el dominio de problema que la masa de

información disponible representa. Este proceso y sus subproductos pueden ser

visualizados gráficamente en la figura 2.3. En primer lugar se identifican todas las

fuentes de información (bases de datos, archivos planos, entre otras), se integran entre

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

9

sí formando una sola fuente de información a la que se llamará datos integrados. Con

base en los datos integrados se selecciona el atributo clase (atributo A en la Figura).

Figura 2.3 Ponderación de interdependencia de atributos[Britos y García-Martínez, 2009]

Como resultado de la aplicación del aprendizaje estructural de las Redes Bayesianas

al archivo con atributo clase identificado se obtiene el árbol de aprendizaje; a este se

le aplica el aprendizaje predictivo Redes Bayesianas y se obtiene el árbol de

ponderación de interdependencias que tiene como raíz al atributo clase y como nodos

hojas a los otros atributos con la frecuencia (incidencia) sobre el atributo clase.

2.3.4 DESCUBRIMIENTO DE REGLAS DE PERTENENCIA AGRUPOS

En [Britos y García-Martínez, 2009] se define que el proceso de descubrimiento de

reglas de pertenencia a grupos aplica cuando se requiere identificar cuáles son las

condiciones de pertenencia a cada una de las clases en una partición desconocida “a

priori”, pero presente en la masa de información disponible sobre el dominio de

problema. Son ejemplos de problemas que requieren este proceso: tipología de

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

10

perfiles de clientes y caracterización de cada tipología, distribución y estructura de

los datos de mi website, segmentación etaria de mis estudiantes y comportamiento de

cada segmento, clases de llamadas telefónicas en una región y caracterización de cada

clase, entre otros. Para el descubrimiento de reglas de pertenencia a grupos se

propone la utilización de mapas auto-organizados (SOM) para el hallazgo de los

mismos y; una vez identificados los grupos, la utilización de algoritmos de inducción

(TDIDT) para establecer las reglas de pertenencia a cada uno. Este proceso y sus

subproductos pueden ser visualizados gráficamente en la figura 2.4.

En primer lugar se identifican todas las fuentes de información (bases de datos,

archivos planos, entre otras), se integran entre sí formando una sola fuente de

información a la que se llamará datos integrados. Con base en los datos integrados se

aplican mapas auto-organizados (SOM). Como resultado de la aplicación de SOM se

obtiene una partición del conjunto de registros en distintos grupos a los que se llama

grupos identificados. Se generan los archivos asociados a cada grupo identificado. A

este conjunto de archivos se lo llama grupos ordenados. El atributo “grupo” de cada

grupo ordenado se identifica como el atributo clase de dicho grupo, constituyéndose

este en un archivo con atributo clase identificado (GR). Se aplica el algoritmo de

inducción TDIDT al atributo clase de cada grupo GR y se obtiene un conjunto de

reglas que definen el comportamiento de cada grupo.

2.3.5 PONDERACIÓN DE REGLAS DE COMPORTAMIENTO ODE PERTENENCIA A GRUPOS

En [Britos y García-Martínez, 2009] se define que el proceso de ponderación de

reglas de comportamiento o de la pertenencia a grupos aplica cuando se requiere

identificar cuáles son las condiciones con mayor incidencia (o frecuencia de

ocurrencia) sobre la obtención de un determinado resultado en el dominio del

problema, sean estas las que en mayor medida inciden sobre un comportamiento o las

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

11

Figura 2.4 Descubrimiento de reglas de pertenencia a grupos[Britos y García-Martínez, 2009]

que mejor definen la pertenencia a un grupo. Son ejemplos de problemas que

requieren este proceso: identificación del factor dominante que incide en el alza las

ventas de un producto dado, rasgo con mayor presencia en los clientes con alto grado

de fidelidad a la marca, frecuencia de ocurrencia de cada perfil de clientes,

identificación del tipo de llamada más frecuente en una región, entre otros.

Para la ponderación de reglas de comportamiento o de pertenencia a grupos se

propone la utilización de redes bayesianas. Esto puede hacerse a partir de dos

procedimientos dependiendo de las características del problema a resolver: cuando no

hay clases/grupos identificados; o cuando hay clases/grupos identificados. El

procedimiento a aplicar cuando hay clases/grupos identificados consiste en la

utilización de algoritmos de inducción TDIDT para descubrir las reglas de

comportamiento de cada atributo clase y posteriormente se utiliza redes bayesianas

para descubrir cuál de los atributos establecidos como antecedentes de las reglas tiene

mayor incidencia sobre el atributo establecido como consecuente. Este proceso y sus

subproductos pueden ser visualizados gráficamente en la figura 2.5.

En primer lugar se identifican todas las fuentes de información (bases de datos,

archivos planos, entre otras), se integran entre sí formando una sola fuente de

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

12

información a la que se llamará datos integrados. Con base en los datos integrados se

selecciona el atributo clase (atributo A en la figura 2.5). Como resultado de la

aplicación del algoritmo de inducción TDIDT al atributo clase se obtiene un conjunto

de reglas que definen el comportamiento de dicha clase. Seguidamente, se construye

un archivo con los atributos antecedentes y consecuentes identificados por la

aplicación del algoritmo TDIDT.

Como resultado de la aplicación del aprendizaje estructural de las Redes Bayesianas

al archivo con atributo clase obtenido por la utilización del algoritmo TDIDT (en la

figura 2.5), se obtiene el árbol de aprendizaje; a este se le aplica aprendizaje

predictivo y se obtiene el árbol de ponderación de interdependencias que tiene como

raíz al atributo clase (en este caso el atributo consecuente) y como nodos hojas a los

atributos antecedentes con la frecuencia (incidencia) sobre el atributo consecuente. El

procedimiento a aplicar cuando no hay clases/grupos identificados consiste en

identificar todas las fuentes de información (bases de datos, archivos planos, entre

otras), se integran entre sí formando una sola fuente de información a la que se

llamará datos integrados. Con base en los datos integrados se aplican mapas auto-

organizados (SOM).

Como resultado de la aplicación de SOM se obtiene una partición del conjunto de

registros en distintos grupos a los que se llamará grupos identificados. Para cada

grupo identificado se generará el archivo correspondiente. A este conjunto de

archivos se lo llama grupos ordenados. El atributo “grupo” de cada grupo ordenado

se identifica como el atributo clase de dicho grupo, constituyéndose este en un

archivo con atributo clase identificado (GR). Como resultado de la aplicación del

aprendizaje estructural se obtiene el árbol de aprendizaje; a este se le aplica el

aprendizaje predictivo y se obtiene el árbol de ponderación de interdependencias que

tiene como raíz al atributo grupo y como nodos hojas a los otros atributos con la

frecuencia (incidencia) sobre el atributo grupo.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

13

Figura 2.5 Ponderación de reglas de comportamiento o de pertenencia a grupos[Britos y García-Martínez, 2009]

2.4 MODELO CRISP-DM

CRISP-DM [Chapman et al., 1999] es un modelo de procesos diseñado y

desarrollado por y para expertos del ámbito de la explotación de la información.

Surgió para estandarizar una disciplina que, desde 1990, estaba creciendo en forma

exponencial pero a base de pruebas y errores.

El modelo fue concebido para ser independiente de la industria, las herramientas o las

aplicaciones en las que se utilice y logró establecerse como un estándar de facto para

los proyectos de explotación de la información. Es el resultado de un esfuerzo

coordinado de varios profesionales quienes, lejos de construir un rígido modelo

teórico, orientaron el desarrollo en búsqueda de un modelo práctico, basado en

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

14

experiencias de la vida real. En las subsecciones siguientes se presenta una traducción

libre del mismo adaptado al marco teórico de Ingeniería de Explotación de

Información desarrollado en la Universidad Nacional de Lanús.

2.4.1 LA METODOLOGÍA CRISP-DM

La metodología CRISP-DM está estructurada en base a un modelo jerárquico de

procesos, agrupando un conjunto de tareas para cuatro niveles de abstracción: fase,

tarea genérica, tarea específica, instancia de proceso (figura 2.6).

2.4.2 EL MODELO DE REFERENCIA

El modelo de referencia se basa en un ciclo de vida común para todos los proyectos

de explotación de la información (figura 2.7). En él se muestran las fases del

proyecto, sus tareas y las relaciones entre estas. Estas relaciones no son rígidas ni

estáticas y varían en cada proyecto en función de los objetivos y los intereses de los

usuarios y, sobre todo, de los datos.

Figura 2.6 Estructura Modelo CRISP-DM[Chapman et al., 1999]

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

15

Los proyectos de explotación de la información no necesariamente concluyen con la

implantación de la solución final. En muchas ocasiones, las lecciones aprendidas

disparan nuevos cuestionamientos de negocios.

Figura 2.7 Ciclo de vida del modelo CRISP-DM[Chapman et al., 1999]

A continuación, se describe brevemente cada fase (figura 2.8):

• Entendimiento de Negocio:

Esta fase se enfoca en entender los objetivos del proyecto y los requerimientos desde

una perspectiva de negocios, para luego convertir este conocimiento en la definición

de un problema de explotación de la información y en la elaboración de un plan

preliminar para alcanzar dichos objetivos.

• Entendimiento de los Datos:

En esta fase, se parte de un conjunto de datos sobre los que se realizan actividades

para comprenderlo en mayor detalle, identificar problemas o detectar posibles

subconjuntos que complementen los datos sobre los que se va a trabajar.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

16

Figura 2.8 Fases y actividades

• Preparación de los Datos:

Esta fase abarca todas las actividades que permitirán construir el conjunto de datos a

ser procesado mediante la fase de modelado. Estas actividades suelen ejecutarse

repetidas veces y sin un orden predefinido. Se deben seleccionar tablas, registros y

atributos y realizar las transformaciones y adaptaciones necesarias para las

herramientas de modelado.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

17

• Modelado:

En esta fase se seleccionan las técnicas de modelado y se determinan los parámetros

necesarios para obtener resultados óptimos. Algunas técnicas poseen requerimientos

específicos sobre el conjunto de datos y es por eso que puede ser necesario volver a la

fase de “Preparación de los Datos”.

• Evaluación:

Para esta etapa ya habrá un modelo de alta calidad desde el punto de vista del análisis

de los datos. Antes de pasar a la última etapa, la de implantación, es importante

realizar un análisis más minucioso del modelo y de los pasos ejecutados en su

construcción. El objetivo principal es determinar si algún aspecto del negocio no fue

debidamente tenido en cuenta.

• Implantación:

Por lo general, la creación del modelo no es el fin del proyecto. Incluso si el

propósito fuera obtener un mayor entendimiento de los datos, aún será necesario

presentarlos de una forma que pueda ser entendida por el cliente. En algunos casos, la

fase de implantación puede ser tan simple como la obtención de un reporte o tan

compleja como la ejecución de procesos repetidos de explotación de la información a

lo largo de la organización.

2.4.2.1 ENTENDIMIENTO DE NEGOCIO

La fase de entendimiento del negocio está compuesta por cuatro tareas principales:

“Determinar objetivos del negocio”, “Valoración de la situación”, “Determinar los

objetivos de DM” y “Realizar el plan del proyecto”. Las tareas y sus entregables se

esquematizan en la figura 2.9:

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

18

Figura 2.9 Entendimiento de Negocio[Chapman et al., 1999]

2.4.2.1.1DETERMINAR LOS OBJETIVOS DE NEGOCIO

Tarea Determinar los objetivos de negocio

Muchas veces, los clientes se encuentran frente a muchos objetivos y

restricciones que, en primera instancia, podrían parecer contradictorios.

En ocasiones, puede ocurrir que incluso no tengan definiciones muy

claras, requiriendo un análisis profundo para entender el contexto desde

el punto de vista del negocio. Deben realizarse lo antes posible para

obtener mejores resultados. En caso contrario, podría invertirse mucho

esfuerzo en búsqueda de los objetivos equivocados.

Salidas Preliminares

Registrar, desde el inicio del proyecto, toda la información referente al

negocio de la organización.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

19

Objetivos de Negocio

Describir los objetivos principales del cliente, desde el punto de vista del

negocio. También, aquellos cuestionamientos secundarios que el cliente

quiera responder.

Criterios de éxito.

Determinar los criterios que permitirán evaluar si los resultados

obtenidos serán considerados válidos y fieles a las expectativas del

cliente. Dichos criterios podrán enumerarse de una manera objetiva o

subjetiva (determinando quién será el encargado de juzgarlos).

2.4.2.1.2EVALUAR LA SITUACIÓN

Tarea Evaluar la situación

Esta tarea se centra en el descubrimiento de recursos, supuestos,

restricciones y cualquier otro factor que deba ser considerado en la

determinación de los objetivos y del plan del proyecto. Si bien la tarea

precedente determinaba los preliminares de la situación, en este caso se

buscará un mayor nivel de detalle.

Salidas Inventario de Recursos

Listar todos los recursos disponibles para el proyecto, por ejemplo:

personal, datos, recursos informáticos, software, etc.

Requerimientos, supuestos y restricciones.

Listar todos los requerimientos del proyecto, incluyendo el cronograma,

la calidad de los resultados, la seguridad y cualquier aspecto legal que

deba ser considerado. Es importante contar con los permisos para poder

trabajar con los datos.

Listar todos los supuestos tomados durante el proyecto. Algunos podrán

ser validados durante el proceso de explotación de la información. Otros,

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

20

basados en el negocio, pueden no ser validados aun cuando determinen

el éxito del proyecto.

Listar las restricciones del proyecto que pueden ser, por ejemplo, sobre

la disponibilidad de recursos o sobre los datos, dependiendo de las

herramientas de modelado utilizadas.

Riesgos y contingencias.

Listar todos los riesgos o eventos que, en caso de ocurrir, podrían

impactar negativamente en el proyecto. Determinar también cuáles

serían los posibles planes de contingencia.

Terminología.

Definir un glosario de términos relevantes para el proyecto, incluyendo

terminología propia del negocio pero también del proceso de explotación

de la información.

Costos y Beneficios.

Realizar un análisis de costo beneficio para el proyecto, comparando los

costos de su ejecución frente a los posibles beneficios para el negocio.

2.4.2.1.3DETERMINAR LOS OBJETIVOS DEL PROCESO DEEXPLOTACIÓN DE LA INFORMACIÓN

Tarea Determinar los objetivos del proceso de explotación de la

información

Estos objetivos son expresados en términos del proceso de explotación

de la información. Por ejemplo, predecir el comportamiento de clientes

frente a un determinado contexto de la organización.

Salidas Objetivos del proceso de explotación de la información

Describir las salidas esperadas que permitirán alcanzar los objetivos de

negocio planteados.

Criterios de éxito para el proceso de explotación de la información.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

21

Definir los criterios de éxito para los resultados del proyecto en términos

técnicos. Como en el caso de los criterios de éxito identificados para el

negocio, estos también pueden ser objetivos o subjetivos.

2.4.2.1.4DESARROLLAR EL PLAN DEL PROYECTO

Tarea Desarrollar el plan del proyecto.

Describir el plan propuesto para alcanzar los objetivos del proceso de

explotación de la información y, en consecuencia, los objetivos del

negocio. Debería especificar los pasos que se van a ejecutar a lo largo

del proyecto, incluyendo la selección inicial de técnicas y herramientas.

Salidas Plan del proyecto

Listar las etapas a ejecutar en el proyecto, identificando duración,

recursos, entradas, salidas, dependencias e interacciones.

Como parte del plan del proyecto se deberán analizar las dependencias

entre el calendario y los riesgos, determinando acciones y

recomendaciones en caso de que estos últimos ocurran.

El plan del proyecto es un documento dinámico. Luego de cada fase se

realizará una revisión que podrá determinar actualizaciones o

correcciones.

Evaluación inicial de herramientas y técnicas.

Al finalizar esta fase, también se realizará una evaluación inicial de las

técnicas y herramientas disponibles. Es importante realizarlo en forma

temprana puesto que podrán influenciar en la ejecución del resto del

proyecto.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

22

2.4.2.2 ENTENDIMIENTO DE LOS DATOS

La fase de entendimiento de los datos está compuesta por cuatro tareas principales:

“Recolectar los datos iniciales”, “Descripción de los datos”, “Exploración de los

datos” y “Verificación de la calidad de los datos”. Las tareas y sus entregables se

esquematizan en la figura 2.10.

2.4.2.2.1RECOLECTAR CONJUNTO DE DATOS INICIAL

Tarea Recolectar conjunto de datos inicial.

Se busca adquirir el conjunto inicial de datos a utilizar en el proyecto. Si

los datos se adquieren desde distintas fuentes, pueden integrarse en esta

etapa o en la de preparación de datos.

Salidas Reporte del conjunto inicial de datos.

Listar el conjunto de datos adquiridos junto con los métodos que se

utilizaron y los problemas que se enfrentaron.

2.4.2.2.2DESCRIBIR LOS DATOS

Tarea Describir los datos.

Examinar a alto nivel las propiedades de los datos y de los reportes.

Salidas Reporte de descripción de datos.

Describir los datos adquiridos incluyendo: el formato de los datos, la

calidad de los datos, la cantidad de registros y campos de cada tabla, etc.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

23

Figura 2.10 Entendimiento de los datos[Chapman et al., 1999]

2.4.2.2.3EXPLORAR LOS DATOS

Tarea Explorar los datos.

Esta tarea resuelve todos los interrogantes del proceso de explotación de

la información utilizando consultas a la base de datos o reportes.

Contempla, por ejemplo: determinación de atributos clave, relaciones

entre atributos o análisis estadísticos. Estos análisis pueden permitir

alcanzar los objetivos de la explotación de la información o contribuir a

la definición o preparación de los datos.

Salidas Reporte de exploración de datos.

Describe los resultados de la tarea, incluyendo las hipótesis iniciales que

podrán tener impacto en el resto del proyecto. Se pueden agregar

diagramas o gráficos para ilustrar las características de los datos.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

24

2.4.2.2.4VERIFICAR LA CALIDAD DE LOS DATOS

Tarea Verificar la calidad de los datos.

Examina la calidad de los datos respondiendo, por ejemplo, si los datos

están completos, si son correctos y no poseen errores, etc.

Salidas Reporte de calidad de los datos.

Lista los resultados del análisis de la calidad de los datos. Si hay

problemas, hay que listar posibles soluciones.

2.4.2.3 PREPARACIÓN DE LOS DATOS

La fase de preparación de los datos está compuesta por cinco tareas principales:

“Seleccionar los datos”, “Limpiar los datos”, “Estructurar los datos”, “Integrar los

datos” y “Formateo de los datos”. Las tareas y sus entregables se esquematizan en la

figura 2.11.

Salidas Conjunto de Datos.

Es el conjunto de datos (o los conjuntos de datos) que se obtienen como

resultado luego de la fase de Preparación de los Datos. Serán utilizados

para el modelado o para la obtención de resultados con mayor nivel de

análisis.

Descripción de Datos.

Describe el conjunto de datos (o los conjuntos de datos) que serán

utilizados en el modelado o para la obtención de resultados con mayor

nivel de análisis.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

25

2.4.2.3.1SELECCIONAR LOS DATOS

Tarea Seleccionar los datos.

Seleccionar los datos que van a ser utilizados en el análisis. Dentro de

los criterios de selección se consideran: relevancia para los objetivos del

proyecto de explotación de la información, restricciones técnicas o de

calidad sobre los datos. La selección se realiza tanto sobre los atributos

como sobre los registros.

Salidas Criterios de inclusión o exclusión.

Listar los datos a incluir o excluir y las razones de estas decisiones.

2.4.2.3.2LIMPIAR LOS DATOS

Tarea Limpiar los datos.

Incrementar la calidad de los datos hasta el nivel requerido por las

técnicas de análisis seleccionadas. Puede incluir la selección de

conjuntos vacíos de datos, el ingreso de datos por defecto o la estimación

de datos faltantes.

Salidas Reporte de limpieza de datos.

Describir qué decisiones y acciones se tomaron para resolver los

problemas de calidad de los datos reportados durante la tarea de

“verificar la calidad de los datos”.

2.4.2.3.3CONSTRUIR LOS DATOS

Tarea Construir los datos.

Esta tarea implica la construcción de los datos como por ejemplo,

atributos derivados, registros nuevos o transformación de los valores de

los atributos existentes.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

26

Figura 2.11 Preparación de los datos[Chapman et al., 1999]

Salidas Atributos derivados.

Se trata de nuevos atributos que se construyen a partir de uno o más

atributos existentes en los registros (por ejemplo: área = base por altura).

Registros generados.

Existe la posibilidad de crear registros completamente nuevos por

ejemplo para clientes que no compraron en el período analizado. Estos

registros pueden no estar en el conjunto original de datos pero pueden ser

necesarios para el modelo seleccionado.

2.4.2.3.4INTEGRAR LOS DATOS

Tarea Integrar los datos.

En esta tarea se busca combinar datos de múltiples tablas o registros para

generar nuevos registros o valores.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

27

Salidas Combinación de datos.

La combinación de tablas se refiere a la integración de datos de diversas

tablas y con distinta información acerca del mismo objeto. Por ejemplo,

podemos contar con los registros de ventas de cada sucursal de una

empresa, registros con las condiciones demográficas de las ciudades de

cada sucursal y registros las características propias de cada una de ellas.

Todas estas tablas/registros pueden integrarse en una única tabla con

registros para cada sucursal.

También se refiere a la agregación, donde nuevos valores son

computados aplicando cálculos sobre valores de varios registros. Por

ejemplo, si contamos con una tabla con las ventas de cada compra,

podemos obtener una tabla con la suma de compras por cliente.

2.4.2.3.5FORMATEAR LOS DATOS

Tarea Formatear los datos.

El formateo de datos busca principalmente modificaciones sintácticas de

los datos, procurando no modificar su significado pero sí respetar

cualquier necesidad de adaptación requerida por el modelo.

Salidas Datos formateados.

Algunas herramientas poseen requerimientos en el orden de los atributos.

Por ejemplo, pueden requerir que el primer atributo sea una clave de

identificación o puede haber indicaciones en cuanto al orden de los

registros en las distintas tablas. En algunos casos, deben trabajar con

datos ordenados en forma ascendente o descendente según algún criterio

aunque también están aquellas que necesariamente deben contar con los

datos desordenados para obtener resultados óptimos.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

28

2.4.2.4 MODELADO

La fase de modelado está compuesta por cuatro tareas principales: “Seleccionar

técnica de modelado”, “Generar el plan de prueba”, “Construir el modelo” y “Evaluar

el modelo”. Las tareas y sus entregables se esquematizan en la figura 2.12.

Figura 2.12 Modelado[Chapman et al., 1999]

2.4.2.4.1SELECCIONAR LA TÉCNICA DE MODELADO

Tarea Seleccionar la técnica de modelado.

El primer paso en el armado del modelo es la selección de la técnica a

utilizar como por ejemplo árboles de decisión con C4.5 o generación de

redes neuronales.

Salidas Técnicas de Modelado.

Documentar las técnicas de modelado seleccionadas.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

29

Supuestos de Modelado.

Documentar las suposiciones tomadas para cada técnica de modelado

seleccionada.

2.4.2.4.2GENERAR PRUEBAS DE DISEÑO

Tarea Generar pruebas de diseño.

Antes de construir el modelo se deberá definir casos de prueba para

evaluar su calidad y validez. Por lo general, esto determina la creación

de dos conjuntos de datos, uno de pruebas y otro de entrenamiento.

Salidas Prueba de Diseño.

Describe el plan de entrenamiento, testeo y evaluación de modelos.

2.4.2.4.3CONSTRUIR EL MODELO

Tarea Construir el modelo.

Ejecutar las herramientas de modelado en los conjuntos de datos para

crear los modelos correspondientes.

Salidas Configuración de parámetros.

Listar los parámetros y los valores requeridos para cada herramienta de

modelado.

Modelos.

Son los modelos producidos por las técnicas de modelado.

Descripción de Modelos.

Describe los modelos resultantes y la interpretación en términos del

negocio.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

30

2.4.2.4.4EVALUAR EL MODELO

Tarea Evaluar el modelo.

La interpretación de los modelos es responsabilidad del ingeniero de

explotación de la información, de acuerdo a su conocimiento, los

criterios de éxito definidos y los casos de prueba planificados. Esta tarea

interfiere con la siguiente fase del proyecto: “evaluación”. En este caso,

el ingeniero juzga el éxito de la aplicación de técnicas de modelado y

descubrimiento desde un punto de vista técnico. Luego contactará a

expertos en el negocio para validar los resultados en ese contexto.

El ingeniero buscará priorizar los modelos en función del grado de

cumplimiento de los criterios de éxito.

Salidas Evaluación de modelos.

Resumen de los resultados de la tarea de evaluación de modelos, listando

la calidad de cada uno y realizando una lista priorizada en función del

grado de cumplimiento de los criterios de éxito.

Revisión de parámetros de configuración.

Como resultado de la evaluación surgirá un mejorado conjunto de

valores para los parámetros de los modelos.

2.4.2.5 EVALUACIÓN

La fase de evaluación está compuesta por tres tareas principales: “Evaluar los

resultados”, “Revisión del proceso” y “Determinar los próximos pasos”. Las tareas y

sus entregables se esquematizan en la figura 2.13.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

31

Figura 2.13 Evaluación[Chapman et al., 1999]

2.4.2.5.1EVALUAR LOS RESULTADOS

Tarea Evaluar los resultados.

Las tareas de evaluación anteriores se centraban en la certeza y validez

del modelo. En este caso se evaluará el grado en el que los modelos

alcanzan los objetivos del negocio y buscan determinar aspectos a

mejorar en el modelo. También se pueden evaluar los modelos en casos

reales si las restricciones de costos lo permiten. Además, se evalúan los

resultados obtenidos por el proceso de explotación de la información

Salidas Evaluación de los resultados del proceso de explotación de la

información en base a los criterios de éxito del negocio.

Resumen de la evaluación de los resultados en términos de los criterios

de éxito, incluyendo una conclusión de si el proyecto alcanza los

objetivos planteados.

Modelos Aprobados.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

32

Aquellos modelos que cumplan con los criterios de negocio serán

considerados “modelos aprobados”.

2.4.2.5.2PROCESO DE REVISIÓN

Tarea Proceso de revisión.

A esta altura, el modelo resultante debería satisfacer las necesidades de

negocio. Es momento de realizar un análisis más profundo para

determinar si se ha omitido la ejecución de alguna actividad importante.

También se revisarán aspectos de la calidad de los modelos y procesos.

Salidas Revisión del proceso.

Resumen del proceso de revisión para remarcar las actividades que no

fueron tenidas en cuenta.

2.4.2.5.3DETERMINAR LOS PRÓXIMOS PASOS

Tarea Determinar los próximos pasos.

En línea con los resultados de la evaluación, hay que decidir de qué

manera seguir en el proyecto. Se puede finalizar esta etapa y pasar a la

implantación, continuar con las iteraciones o iniciar un nuevo proyecto.

Será importante analizar los recursos disponibles.

Salidas Lista de posibles acciones.

Listado de potenciales acciones a ejecutar y las justificaciones.

Lista de posibles acciones.

Listado de potenciales acciones a ejecutar y las justificaciones

Decisión.

Enunciar y justificar las decisiones a tomar en cuanto a los próximos

pasos.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

33

2.4.2.6 IMPLANTACIÓN

La fase de implantación está compuesta por cuatro tareas principales: “Plan de

implantación”, “Plan de monitoreo y mantención”, “Informe final” y “Revisión del

proyecto”. Las tareas y sus entregables se esquematizan en la figura 2.14.

Figura 2.14 Implantación[Chapman et al., 1999]

2.4.2.6.1PLANIFICAR LA IMPLANTACION

Tarea Planificar la implantación.

Esta tarea toma los resultados de la evaluación y determina un plan para

la ejecución de la implantación.

Salidas Plan de implantación.

Estrategia de implantación (todos los pasos y de cómo ejecutarlos).

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

34

2.4.2.6.2PLANIFICAR MONITOREO Y MANTENIMIENTO

Tarea Planificar monitoreo y mantenimiento.

El monitoreo y el mantenimiento son aspectos importantes si los

resultados del proceso de explotación se vuelve parte del día a día del

negocio. Planificar esta etapa evita gastos innecesarios por el incorrecto

uso. Para esto, será necesario determinar un plan detallado para la

ejecución.

Salidas Plan de monitoreo y mantenimiento.

Resumen de la estrategia de monitoreo y mantenimiento.

2.4.2.6.3GENERAR EL REPORTE FINAL

Tarea Generar el reporte final.

Al final del proyecto, el líder y su equipo deben escribir el reporte final.

Dependiendo del plan de implantación, este reporte puede ser sólo un

resumen del proyecto y las experiencias o una presentación detallada de

los resultados.

Salidas Reporte Final.

Es el reporte final del proyecto. Incluye todos los entregables y organiza

y resume los resultados.

Presentación final.

Es la presentación a utilizar en la presentación de las conclusiones al

cliente.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

35

2.4.2.6.4REVISIÓN DEL PROYECTO

Tarea Revisión del proyecto.

Evaluar los aspectos positivos y negativos del proyecto y documentar las

lecciones aprendidas.

Salidas Documentar la experiencia.

Resumir las experiencias importantes que dejó el proyecto, tanto

positivas como negativas, en búsqueda de mejorar futuros proyectos de

explotación de la información.

2.5 ANÁLISIS DE CASOS DE APLICACIÓN

En este apartado se expone el análisis de casos reales de aplicación de técnicas de

explotación de la información en diversos negocios.

En general, todos los trabajos identifican los siguientes criterios de éxito [Watson y

Wixom, 2007] en este tipo de proyectos:

Compromiso de la Dirección. Para que el proceso sea exitoso, debe ser

impulsado desde la alta Dirección.

El uso de la información y del análisis debe ser parte de la cultura de la

organización. Es necesario dejar de lado la intuición.

Debe existir una buena dirección en las actividades de explotación de la

información. Deben destinarse los fondos, la priorización de los proyectos, la

gestión de los mismos y la consecución de los estándares de calidad.

Calidad de los datos. La falta de estándares de calidad sobre los datos ponen en

peligro el proceso de explotación de la información. Los resultados alcanzados

no podrán aceptarse si partieron de información que no es confiable.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

36

Los usuarios deben tener las herramientas y el entrenamiento necesario.

En el resto del apartado se presentarán algunos de los casos de éxito estudiados.

2.5.1 MEDICORP – EMPRESA DE DISTRIBUCIÓNFARMACÉUTICA

Según [Dhond, et Al., 2000], las grandes organizaciones, en especial aquellas

dispersas en grandes áreas geográficas, requieren generalmente grandes inversiones

en inventarios para estar preparados para satisfacer las necesidades de los clientes. La

optimización de inventarios implica determinar cuánto de cada producto es necesario

almacenar en cada depósito para dar respuesta a esa demanda. Si se decide minimizar

la disponibilidad, los clientes insatisfechos podrían acudir a la competencia. Por otro

lado, el almacenaje excesivo implica grandes costos financieros. Además, algunos

productos tienen períodos cortos de expiración por lo que deben ser reemplazados

periódicamente. La mejor forma de manejar el inventarios es mediante la predicción

de las demandas de los clientes y actuando en consecuencia.

Medicorp es una organización con cientos de puntos de venta y billones de dólares

por año de facturación. Las ventas exceden los u$s 15 billones anuales, distribuidos

en sus más de 4500 tiendas a lo largo de 25 estados de Estados Unidos. Satisfacen

aproximadamente el 12% de la demanda de ese país. Para mantener su

posicionamiento en el mercado, Medicorp está obligada a mantener grandes

inventarios de productos. Lo que se busca es definir qué cantidad de cada droga debe

tener en un depósito y en un período determinado. Si un cliente no encuentra lo que

busca, recurrirá a la competencia. Medicorp no puede mantener grandes cantidades

de productos por el costo financiero que esto implicaría, además de que varias drogas

poseen cortos períodos de vencimiento.

Históricamente, Medicorp ha mantenido aproximadamente u$s 1 billón de dólares en

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

37

inventarios, utilizando técnicas de regresión para determinar los niveles de productos.

El objetivo fijado fue la determinación del menor nivel de inventario para alcanzar la

mayor satisfacción de los clientes. Se busca satisfacer el 95% de los pedidos de los

consumidores.

Luego de analizar varias alternativas y de utilizar las técnicas de gestión de

inventarios convencionales, Medicorp adoptó un enfoque de tres semanas de

inventarios. Este enfoque implica el estudio regresivo de la información histórica

para pronosticar la demanda de las próximas tres semanas. Cada depósito planifica

semanalmente y recibe los artículos dos días más tarde. Históricamente, este modelo

permitió satisfacer el 95% de la demanda de los clientes.

Para obtener una solución mejor, se analizaron los datos almacenados en el sistema

de información transaccional de la compañía. En la etapa de modelado, se obtuvieron

datos con las siguientes características:

Campo fecha: fecha en que se dispensó una droga.

Número NDC: Identifica unívocamente a una droga.

Código de cliente: Identifica unívocamente a un cliente.

Cantidad: cantidad comprada de la droga.

Sexo: Sexo del cliente.

Días de duración: Indica cuántos días le durará esa dosis al cliente.

Costo unitario: Costo unitario de la droga.

Precio: precio de venta de la droga.

Antes de usar redes neuronales, se realizó un análisis preliminar para determinar

tendencias por temporadas, correlación entre campos y la significancia de los valores.

Algunos de los resultados obtenidos son:

La mayoría de las drogas no mostraron relación con las temporadas.

Las mujeres son más cuidadosas en el consumo de las drogas que los hombres,

lo que indica que es más probable que completen las prescripciones.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

38

Las ventas aumentan en jueves y viernes, lo que significa que los pedidos de

reposición deberían ser los días lunes.

Las ventas (en cantidades) mostraron distintos niveles de variabilidad:

o Drogas de consumo crónico: bajos niveles de variación.

o Drogas para tratamientos agudos: Altos niveles de variación.

No hay una teoría general que especifique el tipo de red, el número de capas, el

número de nodos o el algoritmo de aprendizaje para un determinado problema. Es por

esto que los analistas deben experimentar con un alto número de redes neuronales

antes de determinar cuál es la apropiada para el problema a resolver. En el caso de

Medicorp, los modelos MLP (Multi Layer Perceptron) y TDNN (Time Delay Neural

Networks) ofrecieron los mejores resultados.

El modelado de predicciones en cortos intervalos temporales es muy difícil porque

requiere muchos puntos de pronóstico, hay mucha variación en las ventas y muestran

menor dependencia de las ventas históricas. El uso de arquitecturas MLP para

determinar las ventas diarias arrojaron resultados poco satisfactorios. Por lo tanto, el

paso siguiente fue modelar para largos períodos temporales.

Como se esperaba, las predicciones en base semanal arrojaron resultados más

precisos, y las mensuales, aún mejores que las semanales. En el caso del análisis

anual, el error promedio fue de tan solo 2%. De todas formas, el análisis temporal

resultó ser el más apropiado en términos de la precisión de los resultados y la

usabilidad de la información.

La red neuronal fue entrenada con las ventas históricas usando dos métodos: el

estándar y el iterativo. Supongamos que las ventas semanales de un artículo fueron

“10, 20, 30, 40, 50, 60, 70, 80, 90, 100, etc”. En el método estándar se presentarán los

datos históricos como “10, 20, 30” y se le pedirá a la red que prediga el cuarto valor:

“40”. Luego se le presentarán los datos “40, 50, 60” y se le pedirá el próximo: “70”.

Se continúa este proceso hasta que se hayan agotado todos los datos. Por otro lado, en

el método iterativo se presentarán los datos “10, 20, 30” y se le pedirá que prediga el

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

39

cuarto valor: “40”. Luego, se presentarán los datos “20, 30, 40” y se le pedirá el

próximo: “50”. Se continúa con el proceso hasta agotar todos los datos.

El método iterativo produce gran cantidad de datos de entrenamiento, a costa de la

calidad de esos datos. Este método puede “confundir” a la red por la similitud entre

conjuntos de datos.

Como se mencionó anteriormente, Medicorp busca “minimizar el inventario de

drogas, maximizando los niveles de cumplimiento de la demanda de los clientes”.

Para esto, se determinaron distintos modelos de inventario utilizando dos parámetros

“incumplimiento de pedidos” y “días de abastecimiento”. El primero identifica la

cantidad de veces que un cliente tuvo que ir a la competencia por la falta de un

artículo. El segundo, indica cuánto tiempo un determinado artículo puede

almacenarse en el depósito. El MLP permitió mantener el 95% de satisfacción de los

clientes con una reducción de inventarios del 66%

El modelo sugiere que, comparando con el modelo de las tres semanas, el nivel de

inventario debe ser reducido para los ítems más populares e incrementado para los no

populares. Esta inferencia parece poco intuitiva a primera vista. Sin embargo,

teniendo en cuenta que los ítems con alta rotación son movidos en grandes cantidades

y que pueden ser repuestos en intervalos semanales, se pueden reducir los niveles de

inventarios sin impactar la probabilidad de existencia al momento del despacho. Con

este modelo, se logró reducir el inventario a la mitad del original.

2.5.2 STEELCORP – COMPAÑÍA DE HIERROS Y ACERO

El horno de explosión es el elemento principal de cualquier compañía de fundición

[Dhond, et Al., 2000]. En su interior, el oxígeno del acero se oxida y es removido

para conseguir un acero líquido casi puro. Este, se constituye en el principal material

para este tipo de industrias. Como con cualquier producto, la calidad de este acero

líquido puede variar. Las dos características más importantes son: 1) la cantidad y

composición de impurezas, y 2) la temperatura del metal cuando es removido del

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

40

horno. La calidad del acero líquido es importante porque determina cuan costosa será

la producción de los artículos en los que se utilizará. Por lo tanto, es crucial que la

temperatura se mantenga dentro de un rango óptimo de valores. El horno es muy

difícil de modelar por la complejidad de las condiciones de transferencia de calor y

de masa que ocurren en su interior. Por años, los operadores concordaron en que no

hay un método universal para controlar el proceso y proyectar los resultados. La

temperatura del metal caliente y los contenidos de silicio son indicadores importantes

del estado del material dentro del horno y del acero líquido que se obtendrá como

resultado.

En este caso de estudio se presentan los resultados del uso de ANNs (Artificial

Neural Networks, Redes neuronales artificiales) como un medio para modelar estas

relaciones complejas entre variables. El estudio se basó en la recolección de datos de

tres meses de operación de un horno de SteelCorp. SteelCorp es una fundición

asiática de acero y hierro y posee varios hornos ubicados en diferentes localizaciones.

Muchos de esos hornos son técnicamente avanzados y registran datos cada

determinado intervalo de tiempo.

Los datos recolectados del horno no eran suficientemente consistentes para utilizar

directamente en el modelado. Algunas de las razones fueron los problemas inherentes

a los datos, como por ejemplo la falta de valores, valores poco normales u omisiones

en los tiempos no operativos entre producciones. Por lo tanto, debieron ejecutarse

muchos reprocesos para obtener un conjunto de datos más apropiado para el

entrenamiento de redes neuronales.

Los valores extremadamente anormales se ajustaron para tornar los datos más

consistentes. Los valores que excedían en más de dos desvíos estándar de la media

fueron modificados para que estuvieran dentro de ese rango. En algunos casos, se

determinó un valor mínimo para las variables. Este proceso eliminó valores fuera de

los rangos en el conjunto de datos.

Uno de los mayores problemas fue la imprecisión de los valores de temperatura del

metal caliente. Este parámetro sólo puede ser medido una vez por hora, mientras que

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

41

los otros datos son tomados cada cinco minutos. Se utilizó interpolación lineal para

aproximar los valores faltantes.

Los datos provenientes del horno contenían un total de 9100 valores tomados cada 5

minutos. Para algunos parámetros se observaban rápidas modificaciones, pero en el

caso de la temperatura los cambios eran mucho más lentos. En el corto plazo, las

mediciones de temperatura cada 5 minutos no repercutían en las salidas obtenidas. El

conocimiento del dominio de SteelCorp indicó que el tiempo indicado para recolectar

los datos sería cada una hora. Es por esto que grupos de 12 valores se promediaron

para mejorar la capacidad predictiva de la red neuronal, a costa de reducir la cantidad

de datos para entrenamiento (aproximadamente 960 datos).

Los datos iniciales contenían 35 parámetros de entrada. Un análisis preliminar

determinó que algunos de ellos eran redundantes mientras que otros no eran útiles

para determinar la temperatura del metal caliente ni el porcentaje de silicio. Por lo

tanto, se realizó un análisis de sensibilidad luego del cual quedaron solo 11 variables

como las realmente importantes.

En el caso de la temperatura del metal, se encontró que el parámetro más significativo

para determinar el valor de la misma son los valores precedentes de temperatura. Este

tipo de predicciones son muy útiles porque el operador puede modificar los

parámetros durante la producción de forma tal de mantener el proceso dentro de los

rangos esperados. El modelo alcanzado oculta la complejidad de la relación entre las

variables.

Al haber podido entrenar a las redes para predecir valores con un alto grado de

exactitud, se dejó planteado el escenario para ponderar el peso de cada una de ellas en

los resultados finales.

2.5.3 CATEGORIZACIÓN DE TELEVIDENTES

Un análisis sobre la categorización de televidentes [Spangler, et Al., 2003] afirma que

el surgimiento de los dispositivos personales de grabación de videos (PVR por sus

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

42

siglas en inglés) permite que los usuarios cambien la forma en que se consumen los

contenidos televisivos, en especial, los comerciales. Al tener la posibilidad de grabar

sus programas o cambiar de un video a otro saltando las publicidades, el modelo de

negocio gobernante se ve amenazado, proyectándose una caída del 20% en el alcance

de los comerciales.

Dentro de toda amenaza existe una oportunidad, y este caso no es la excepción. Esos

mismos dispositivos pueden grabar los patrones de consumo de programas por parte

de los usuarios facilitando que, luego de aplicar técnicas de explotación de la

información, las compañías publicitarias puedan enfocar sus estrategias de una

manera más eficiente. Las técnicas de explotación de la información personalizar los

comerciales, haciendo que la influencia sea mucho mayor por cada usuario. Con

menor cantidad de exposiciones, la penetración alcanzada será mucho mayor al

contar con contenidos específicos para cada cliente.

En este sentido, se desarrolló un sistema de categorización de televidentes

(denominado ADS por sus siglas en inglés: Advertising Delivery System) que

identifica y analiza los datos demográficos y de comportamiento de cada uno de los

usuarios.

Los patrones analizados incluyen: tipos de shows vistos, frecuencia, el tiempo que se

ven y en qué momentos. En líneas generales, se puede decir que por ejemplo, un

aviso publicado a todos los televidentes tendrá un 25.18% de probabilidad de ser

visto por una mujer de entre 18 y 34 años. Por otro lado, si ese aviso es enviado a

aquellos destinatarios seleccionados por el sistema, el porcentaje asciende al 58.06%,

es decir, es 2.3 veces más probable de ser visto.

Para generar los distintos perfiles se tomaron datos demográficos (edad, género),

geográficos (área, mercado, tipos de mercados) y de comportamiento (intereses y

estilos de vida). El análisis incluyó los datos de 11000 televidentes distribuidos en

5000 hogares. Cabe destacar que el sistema se encuentra limitado por la realidad de

que el hecho de emitir un comercial no garantiza que el usuario esté observándolo

parcial o totalmente.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

43

Como herramientas de análisis se decidió utilizar redes neuronales. El proceso inició

por la limpieza y reestructuración de los datos demográficos y de comportamiento,

acorde a los modelos seleccionados. El paso siguiente fue la creación de datos de

entrada, separando los atributos entre dependientes e independientes y agrupándolos

para diferentes períodos de tiempo.

El primer procesamiento produjo un conjunto de datos que pudieron ser tratados con

varios algoritmos, incluyendo:

• Redes neuronales

• Análisis lineal

• Regresión lineal

• Árboles de decisión

• Clasificación Bayesiana.

El modelo resultante permitió garantizar que de cada 143 televidentes que reciban un

comercial, 100 serán aquellos para los que era destinado.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

44

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

45

3 CASO DE INTERVENCIÓN Y PREGUNTAS

En este capítulo se presenta a la Compañía bajo estudio (Sección 3.1), se realizará

una breve reseña histórica (Sección 3.2) y se describirá el aporte que esta tesis puede

realizar al negocio de la misma (Sección 3.3). Por último, se presenta el sumario de

investigación (Sección 3.4), determinado luego de las entrevistas realizadas con los

representantes de la organización.

3.1 SEFINPOL S.A.

Sefinpol S.A. es una empresa que busca ofrecer a sus clientes soluciones innovadoras

en el campo tecnológico y de gestión de proyectos, brindando a sus empleados y

colaboradores oportunidades de desarrollo y a sus accionistas rentabilidad creciente y

sustentable.

Figura 3.1 Logo Sefinpol S.A.

Cuenta con tres unidades de negocio:

• RedEco Termofusión: RedEco es la unidad de negocios de Sefinpol S.A.

orientada a la fabricación de tubos y accesorios para conducción de agua. La

misión de RedEco es asegurar la oferta de una amplia gama de soluciones

tipificadas para el mercado de la construcción, comprometidas con la

responsabilidad social y ambiental en toda su cadena de valor, con excelencia

de calidad y alto respaldo tecnológico.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

46

• Diseño y Fabricación de Matrices: La empresa cuenta con una vasta

experiencia en la transformación de materiales plásticos, lo que le permite

llevar adelante distintos proyectos, desde el momento de su concepción hasta

su finalización, comprendiendo el verdadero valor que tienen para el cliente

variables tales como: plazo de entrega, calidad y costo del molde.

Así, el proceso de fabricación, abarca desde el diseño de componentes y la

producción de prototipos, hasta el desarrollo, la construcción y el ajuste de los

moldes en la planta.

La organización se especializa en la fabricación y armado de moldes para

inyección y matrices para extrusión, a partir de una ingeniería aplicada al

desarrollo y el uso de tecnologías innovadoras, que permiten optimizar la

productividad, simplificar los ciclos y satisfacer los requerimientos de los

clientes, con diseños orientados a minimizar los tiempos de preparación,

montaje y producción.

• Ingeniería de Proyectos: La compañía ofrece al mercado local e internacional

soluciones vinculadas a la evaluación, desarrollo y ejecución de Proyectos

Industriales basados en la sólida base de conocimiento y experiencia de las

personas que integran el plantel de Sefinpol s.a.

Estudios de Factibilidad Integrales de proyectos industriales

(Estratégico/comercial, Tecno estructura, Desarrollo Organizacional,

Factibilidad Económico Financiera).

Gestión de Proyectos: Diseño, ejecución, puesta en marcha y operación en

régimen de plantas de procesos.

Sefinpol S.A. fue fundada el 14 de octubre del año 2009 (constitución de la sociedad)

por el Ing. Guillermo Sívori, el Dr. Jorge Fullone y el Ing. Guillermo Etchechoury.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

47

En un predio de casi 5 (cinco) hectáreas se destinó 1,5 hectáreas al emprendimiento

de Sefinpol s.a. De acuerdo a lo establecido con el Municipio de Alte. Brown, hacia

fines del 2009 comenzaron las obras de apertura de calles (Madariaga y Caferata

Norte), alumbrado público y forestación.

En enero de 2010 se inició la ejecución de la obra civil (etapa I) destinada al

emprendimiento finalizando hacia octubre del mismo año.

3.1.1 INNOVACIÓN E INVERSIONES

Las unidades productivas están diseñadas, en su concepción de proceso, su

equipamiento y sus instalaciones, con tecnologías innovadoras de clase mundial, tales

como inyectoras ARBURG de origen alemán, líneas de extrusión CINCINNATI de

origen austríaco y periféricos SICA de origen italiano, cuyo funcionamiento se apoya

en servicios electromecánicos de primera línea de la industria nacional, que

conjuntamente garantizan una alta productividad, centrando el resultado en satisfacer

altos estándares de calidad de proceso y producto al cliente.

• El monto de inversiones directas, para el diseño, puesta en marcha y

estabilización en régimen del 50 % de capacidad productiva al fin del primer

año, supera los $ 8.000.000 (ocho millones de pesos).

• La composición de origen de la inversión es totalmente nacional.

3.1.2 RECURSOS FÍSICOS Y TECNOLÓGICOS

La planta está diseñada, en una etapa inicial, para una capacidad de producción de

hasta 3.000 toneladas / año para el mix de productos de la línea RedEco, con una

potencia instalada de 750 Kw.

El proyecto final, contempla una expansión que permitirá una producción de 6.000

toneladas / año y una potencia instalada de 1500 Kw.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

48

La tecnología de producción está basada en procesos tipificados y trazables con

control analógico / digital.

La infraestructura definida en la etapa inicial, comprende las siguientes instalaciones:

• Superficie del Predio: 15.000 m2

• Superficie cubierta aproximada: 2.200 m2

• Superficie destinada a Producción y Almacenes: 1.500 m2

• Superficie Área de Servicios, Área de Administración y Otros: 700 m2

3.1.3 RECURSOS FINANCIEROS

La inversión en el desarrollo de la Planta, el equipamiento y la financiación del

capital de trabajo se fundamenta en aportes de capital directo de los accionistas (100

% de la inversión y puesta en marcha). El acceso al crédito en operación de régimen

fue garantizado por créditos disponibles de los bancos CREDICOOP, NACIÓN,

CMF, etc.

3.2 APORTE DE LOS PROCESOS DE EXPLOTACIÓN DELA INFORMACIÓN EN EL NEGOCIO

Actualmente, Sefinpol S.A. cuenta con un sistema ERP para gestionar los procesos

que dan soporte a su negocio. Si bien la información que puede obtenerse del mismo

cumple con las necesidades operativas, no logra generar un aporte significativo a la

planificación estratégica de la Compañía. La implementación de procesos de

explotación de la información representaría un salto de calidad en la gestión de la

Organización. La utilización de estas tecnologías obligaría a la revisión de procesos

de recolección de datos, paso fundamental para una posterior mejora en la capacidad

para la toma de decisiones.

El mercado en el que compite Sefinpol S.A. está dominado por un conjunto reducido

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

49

de grandes empresas con muchos años de experiencia. Siendo una empresa joven, el

camino para ganarse un lugar entre sus competidores supo tornarse muy dificultoso.

Contar con herramientas de explotación de la información representaría un rasgo

distintivo, dándole mayores posibilidades de ganar una posición en el mercado con

acciones estratégicamente diseñadas y ejecutadas. La aplicación de campañas de

marketing especializadas permitirá generar relaciones con nuevos clientes y fidelizar

a los existentes.

La organización cuenta con un Directorio compuesto por tres miembros que a su vez

son los socios fundadores. El segundo nivel del organigrama lo ocupan las gerencias

de administración y finanzas, producción y gestión comercial. Las reuniones de

relevamiento contaron con la participación del gerente comercial y de uno de los

Directores.

La entrevista partió desde la explicación del tipo de análisis que puede brindar la

aplicación de herramientas de explotación de la información en el ámbito comercial.

Se utilizó una presentación de Power Point con el resumen de los conceptos más

importantes y con ejemplos prácticos de aplicación (algunos de los cuales fueron

resumidos en el capítulo 2). Partir desde la teoría para luego demostrar la aplicación

práctica, favoreció la comprensión y el interés de los entrevistados, quienes

rápidamente identificaron los potenciales beneficios que esta disciplina podría

aportar.

Le empresa realiza continuamente acciones que le permitan conocer en mayor

profundidad el mercado en el que opera. Si bien cuenta con reportes de históricos de

ventas, la preparación y obtención de los resultados suele ser muy costosa debido al

tratamiento previo y posterior, principalmente en planillas de Excel. Pueden, por

ejemplo, obtener rankings de ventas por artículo o por cliente, pero no tienen

herramientas que permitan integrar las distintas variables para descubrir

conocimiento. Por este motivo, la empresa demostró gran aceptación a la posibilidad

de aplicar técnicas de explotación de la información que permitan identificar patrones

de compra entre los artículos o los clientes.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

50

Existe un interés particular en hallar patrones entre los clientes que compran los

productos de la familia LPC/LPCM, con el objetivo de aplicar acciones que

incrementen la venta de dichos productos.

Los artículos de la familia LPC son variantes de llaves de paso. En particular, estos

son los productos de mayor rentabilidad para la Compañía y es por eso que merecen

un estudio particular. Cabe mencionar que su comercialización se encuentra limitada

por el hecho de que en todos los casos, a lo sumo se necesitan dos llaves de paso por

ambiente de una construcción, una para el agua fría y otra para el agua caliente.

3.3 SUMARIO DE INVESTIGACIÓN

De lo expuesto precedentemente surgen las siguientes preguntas de investigación:

Pregunta 1:

¿Es posible detectar patrones de compra entre los clientes de la Compañía,

permitiendo enfocar las estrategias comerciales en búsqueda de

maximizar los beneficios? En caso afirmativo: ¿Cuáles?

Pregunta 2:

¿Existe algún patrón de compra significativo para los artículos de la

familia LPC/LPCM (llaves de paso)? En caso afirmativo: ¿Cuáles?

Se proponen soluciones a los interrogantes planteados y su correspondiente

validación en los próximos capítulos.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

51

4 MATERIALES Y METODOS

En la primera sección de este capítulo se comenzarán describiendo las tablas

principales seleccionadas de la base de datos proveniente del sistema ERP de la

Compañía. Luego, en la sección 4.2, se detallarán las herramientas y metodologías

utilizadas para la obtención de los resultados.

4.1 MATERIALES

Los datos analizados en este trabajo provienen del sistema de gestión utilizado

actualmente en la empresa bajo estudio. Dicho sistema es un ERP desarrollado sobre

tecnología Java y utilizando el motor de bases de datos de Microsoft SQL Server

2012. Toda la operatoria de la Organización se encuentra alcanzada por el ERP,

incluyendo los procesos administrativos, comerciales y productivos.

4.1.1 FUENTES DE DATOS

Este apartado describe el modelo comercial del sistema de gestión utilizado por la

Compañía. Se analizan las entidades intervinientes y se destacan sus atributos

principales.

4.1.1.1 MODELO COMERCIAL

La base de datos utilizada cuenta con registros de todas las transacciones efectuadas

por la compañía desde sus inicios hasta el momento de inicio de este trabajo (2010-

2014). Sin embargo, para este trabajo sólo fueron tenidos en cuenta los datos

provenientes del modelo comercial.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

52

La entidad principal de la gestión comercial son los “Clientes” que son las empresas

que realizan las compras. Los clientes se encuentran categorizados según el “Canal de

Venta” en el que operan. Cada compra efectuada queda materializada a través de una

“Factura” que es el documento legal que respalda la transacción. Las facturas detallan

los “Artículos” que el cliente está solicitando. Estos artículos se agrupan lógicamente

según sus características físicas según distintas “Familias de Artículos”.

Las entidades alcanzadas por el modelo comercial y sus relaciones pueden verse

esquematizado en la siguiente figura.

Figura 4.1 Relaciones entre entidades del dominio

4.1.1.2 CLIENTES

Los clientes representan a las empresas u organismos que realizan compras. Las

tablas cuentan con una gran cantidad de campos para almacenar los datos de los

clientes. A continuación, se listan los principales:

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

53

• Cliente: Código con el que se identifica al cliente. La codificación puede ser

alfanumérica y de hasta 16 caracteres.

• Nombre Fantasía: Nombre con el que identificará al cliente. Es el nombre

fantasía, el que se inicializará en todas las transacciones como descripción del

cliente.

• Razón Social: Es el nombre legal del cliente. Se utiliza en los reportes e

informes en los que deban aparecer los datos formales del cliente.

• Dirección: Dirección legal del cliente.

• Origen: Origen del cliente. Las opciones son "nacional" si el cliente tiene

dirección en el mismo país que la empresa y "exterior" si el cliente está situado

en un país distinto a la empresa.

• País: País al que pertenece el cliente.

• Provincia: Provincia a la que pertenece el cliente.

• Ciudad: Ciudad a la que pertenece el cliente.

• Código Postal: Código postal asociado al cliente.

• Cód. Legal: Código de documento legal que identifica al cliente del punto vista

legal. Ejemplo: CUIT, CI, RUC.

• Nro. Legal: Número de documento legal, número de cédula o número de RUC,

etc.

• Inicio Actividad: Fecha de alta del cliente.

• Forma Pago: Código de forma de pago por defecto del cliente.

• Lista de Precio: Código de lista de precio especial del cliente.

• Zona Comercial: Código de zona comercial a la que pertenece el cliente.

• Mercado: Mercado al que pertenece el cliente.

• Canal: Código de canal asociado al cliente.

• Vendedor: Código de vendedor que por defecto gestiona con el cliente.

• Consumo Final: S si el cliente es consumidor final y una N en caso contrario.

• Calificación: Código de calificación crediticia asociada al cliente.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

54

• Status Crediticio: Status crediticio del cliente. Las opciones son: H (habilitado),

S (suspendido), C (controlado).

4.1.1.3 CANALES DE VENTA

Los canales de venta son divisiones del mercado de venta desde un punto de vista

estratégico comercial. Las empresas pueden segmentar a sus clientes según sus

tamaños, el medio que utilizan para comprar, el tipo de productos que compran, etc.

En el caso de la empresa bajo estudio, sólo se identifican dos canales: comercios y

distribuidores.

Los canales se identifican por un código alfanumérico y una cadena representando la

descripción.

4.1.1.4 FACTURAS

Las facturas son los documentos legales a través de los cuales se materializan las

ventas. Poseen un encabezado con los datos del comprobante (fecha de emisión,

cliente, número de factura, código de documento, montos netos y totales, sucursal de

venta, vendedor asociado, etc.) y un detalle de los artículos vendidos (código de

artículo, descripción, precio, descuentos, cantidades, etc.).

4.1.1.5 ARTÍCULOS

Los artículos representan a los productos que la empresa puede comercializar. En

otros, están determinados por:

• Código Artículo: Código con el que identificará al artículo.

• Nombre: Nombre con el que identificará al artículo.

• Familia: Código de familia al que pertenece el artículo.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

55

• Sub-Familia: Código de subfamilia al que pertenece el artículo.

• Unidad Stock: Código de unidad en que se almacena el artículo.

• Línea Comercial: Código de línea comercial asociada al artículo.

4.1.1.6 FAMILIAS DE ARTÍCULOS

Las familias de los artículos son segmentaciones lógicas del universo de artículos. Se

basan en criterios como por ejemplo, el tipo de artículo, los insumos requeridos para

su fabricación, el tipo de solución o servicio que brindan, etc.

En el caso de la empresa bajo estudio, las familias de artículos son: Materia Prima,

Bienes de Uso, Producto Terminado, Productos Semielaborados, Repuestos,

Servicios.

4.1.2 HERRAMIENTAS DE EXPLOTACIÓN DE INFORMACIÓN

Como se indica en la sección 2.4, la ingeniería de explotación de información (en

ocasiones referida erróneamente como minería de datos) consta de una serie de etapas

que buscan estructurar la ejecución de las tareas requeridas para una correcta y

exitosa aplicación de las tecnologías al dominio a estudiar.

a) Analizar el dominio: como primera instancia se requiere realizar un análisis

detallado de las características del dominio y la situación problemática a partir

de la cual surge la necesidad de aplicar explotación de información, en caso

que esta resuelva dicho problema. Una vez comprendido el dominio, el

problema y que el mismo puede ser resuelto mediante el análisis de patrones

ocultos en los datos, se procede a realizar los siguientes pasos.

b) Analizar los datos: En esta instancia se realiza una evaluación de que se

poseen los datos necesarios para poder construir un modelo que explique el

comportamiento oculto del dominio en análisis, y que el mismo posee la

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

56

calidad requerida para obtener información relevante para el proceso de toma

de decisiones.

c) Adaptar los datos a las tecnologías: A partir de la naturaleza de los datos en

estudio, el tipo de dato utilizado para almacenar dicha información, la

necesidad de generar nuevos campos como resultado de la transformación de

uno o más campos existentes, y la calidad de los datos, puede ser necesario

aplicar tareas de corrección y reestructuración del formato de los datos para

que los mismos puedan ser aplicados a los tipos de datos que el modelo puede

utilizar.

d) Modelado: A partir del problema/s a resolver, se identifican cuáles son los

modelos (procesos/algoritmos) a utilizar para dar solución a los mismos.

e) Evaluación de los resultados obtenidos: En esta instancia se realiza una

evaluación de la calidad de los resultados obtenidos desde dos perspectivas:

verificación y validación. En la primera de ellas, mediante la utilización de

algún tipo de métrica (como por ejemplo la tasa de error) para evaluar cuan

representativo de los datos a evaluar es el modelo obtenido. Adicionalmente, es

necesario realizar un control con los expertos del negocio (validación) con el

objetivo de determinar si los patrones identificados tienen valor respecto del

comportamiento de dichas variables en el dominio de estudio.

f) Presentación de los resultados: Una vez identificado y comprendido que los

resultados obtenidos son de valor para la organización, el último paso es

garantizar que los mismos sean comprendidos por los miembros que

requirieron.

Las herramientas de explotación de información existentes en la actualidad, se

enfocan en aquellas tareas asociadas con las etapas b, c, d y e. La mayoría de ellas

permiten la vinculación de los datos almacenados en bases de datos (u otra fuente de

dato electrónica) al programa, y presentan elementos para la verificación de los

resultados, quedando la validación por fuera de la misma. La tabla 4.1 presenta un

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

57

resumen de las herramientas analizadas al momento de llevar a cabo el proyecto,

considerando los siguientes factores:

• Integración de los datos: Grado en que la herramienta brinda la posibilidad de

adquirir los datos disponibles en las distintas fuentes de datos para la

aplicación de las técnicas de explotación de información. La escala utilizada

para el indicador es:

o 1: brinda opciones restringidas de acceso a fuentes de datos de tipo

archivo.

o 2: brinda variadas opciones de acceso a fuentes de datos pero no incluye

conexión con base de datos.

o 3: brinda amplias opciones de acceso a los datos incluyendo conexión

con distintas bases de datos.

• Transformación de los datos: Grado en que la herramienta permite adaptar

los datos a las necesidades del proceso. La escala utilizada para el indicador es:

o 0: no brinda opciones para transformar los datos.

o 1: brinda opciones básicas de transformación de los datos

(discreto/numérico).

o 2: brinda amplias opciones de transformación de los datos

(discreto/numérico, segmentación, binarización, entre otros).

o 3: brinda amplias opciones de transformación de los datos incluyendo la

posibilidad de programar opciones propias.

• Modelado: Grado en el cual la herramienta brinda un conjunto de técnicas de

explotación de información útil para los procesos requeridos. La escala

utilizada para el indicador es:

o 1: no contempla todos las técnicas requeridas para el/los procesos

identificados

o 2: contempla las técnicas requeridas para el/los procesos identificados,

pero no dispone de varios algoritmos a elegir para el modelado.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

58

o 3: contempla las técnicas requeridas para el/los procesos identificados, y

dispone de varios algoritmos a elegir para el modelado.

• Evaluación de los resultados: Grado en que la herramienta permite validar la

representatividad de los resultados respecto de los datos. La escala utilizada

para el indicador es:

o 1: brinda opciones restringidas de evaluación de los resultados.

o 2: brinda amplias opciones de evaluación de los resultados.

o 3: brinda amplias opciones de evaluación de los resultados incluyendo la

posibilidad de programar opciones propias.

• Costo: Si la herramienta es gratuita o paga. La escala utilizada para el

indicador es:

o 0: gratuita.

o 1: paga, pero brinda una opción gratuita restringida.

o 2: solo paga.

• Open Source: si la herramienta permite el acceso a su código fuente. La escala

utilizada para el indicador es:

o 0: No.

o 1: Si.

• Conocimiento del equipo: Grado en que el equipo de explotación de

información conoce la herramienta. La escala utilizada para el indicador es:

o 0: el equipo no posee conocimientos sobre la herramienta.

o 1: algunos miembros del equipo poseen conocimientos iniciales sobre la

herramienta.

o 2: algunos miembros del equipo poseen conocimientos avanzados sobre

la herramienta.

o 3: todos los miembros del equipo poseen conocimiento sobre la

herramienta.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

59

Las herramientas que se tuvieron en consideración para el proyecto son un

subconjunto de aquellas disponibles, eligiendo aquellas que presentan una interfaz

gráfica que facilite el trabajo a los miembros de equipo. Ellas son:

• TANAGRA: [Rakotomalala, 2005] es un software gratuito desarrollado en

DELPHI con propósitos académicos y de investigación. Este propone varios

métodos de explotación de información de las áreas de: análisis exploratorio de

los datos, el aprendizaje estadístico, aprendizaje automático (machine learning)

y bases de datos. TANAGRA es un proyecto open source permitiendo el

acceso al código fuente, su modificación y mejora.

• RAPIDMINER: [Rapidminer, 2016] es una herramienta desarrollada en java

la brinda una opción gratuita con funcionalidades reducidas y una versión

paga. La misma presenta una estructura modular la cual permite integrar

mediante la interfaz otros paquetes de funcionalidades de programas externos

(plugins), así como extender las funcionalidades con otros lenguajes cono

python y R.

• WEKA: [Hall, et. Al., 2009] es una herramienta gratuita desarrollada en Java

la cual brinda herramientas para las tareas de pre procesamiento de los datos,

clasificación, regresión, clustering, reglas de asociación y visualización.

Además permite la integración de nuevas herramientas, así como la

conformación de esquemas de trabajo automatizado.

• SPSS: [IBM, 2011] es una herramienta paga desarrollada por IBM la cual

brinda herramientas de análisis estadístico, reporte y generación de modelos

predictivos. A través de su interfaz permite identificar patrones y tendencias

en conjunto de datos estructurados y no estructurados.

A partir del análisis realizado, se determina que la herramienta a utilizar es WEKA,

debido a que la misma es gratuita y Open Source (permitiendo el control,

comprensión y modificación del funcionamiento del sistema), sumado a que es una

de las que el equipo posee mayor conocimiento.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

60

Integraciónde los datos

Transformaciónde los datos

ModeladoEvaluación delos resultados

CostoOpen

SourceConocimiento

del equipo

TANAGRA 1 2 2 2 0 1 2RapidMiner 3 3 3 2 1 0 1

WEKA 3 3 3 2 0 1 2SPSS 3 3 3 2 2 0 1

Tabla 4.1 Análisis de Herramientas

4.2 MÉTODOS

En esta sección se describen los procesos de explotación de información utilizados

para dar solución a las preguntas problemas del negocio (sección 4.2.1) y los

algoritmos seleccionados para cada proceso utilizado (sección 4.2.2).

4.2.1 PROCESOS DE EXPLOTACIÓN DE INFORMACIÓNAPLICADOS AL DOMINIO

A partir de los problemas de negocios identificados, surge como necesidad identificar

y comprender reglas existentes entre los clientes asociadas a sus compras, pudiendo

identificar vinculaciones entre los productos, comprendiendo aquellos factores

prioritarios al momento de realizar algún tipo de compra. Para dar solución a este

problema, se aplicaron en primera instancia los procesos de descubrimiento de

reglas de comportamiento y posteriormente el proceso de ponderación de reglas

de comportamiento o pertenencia a grupos (detallados en la sección 2).

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

61

4.2.2 ALGORITMOS DE EXPLOTACIÓN DE INFORMACIÓNAPLICADOS AL DOMINIO

A partir de los procesos de explotación de información previamente identificados, se

determina la familia de algoritmos y la forma de aplicación (vinculación entre las

salidas de un algoritmo y otro), siendo necesario definir el/los algoritmos dentro de la

familia de algoritmos disponibles para la aplicación del problema, buscando aquel

que brinde una mejor performance de acuerdo a las características del dominio y las

particularidades de sus datos. Para ello se tuvieron en consideración los siguientes

algoritmos:

• Familia TDIDT (Top-Down Induction of Decision Tree): es una familia de

algoritmos de aprendizaje supervisado cuya característica distintiva es que

determina mediante reglas expresadas en forma de árboles de decisiones,

generadas a partir de algún criterio de decisión (por ejemplo: ganancia de

información, precisión, entre otros) que permite determinar qué atributos de la

base de conocimientos permiten describir de la mejor forma posible los valores

posibles del atributo clase. Si bien este algoritmo tiene ciertas limitaciones

respecto a la forma de los patrones que puede identificar, su mayor fortaleza es

la facilidad de comprender los resultados obtenidos, siendo de vital

importancia en aquellos proyectos cuyo dominio de aplicación requiere

precisión acerca de los criterios empleados. El algoritmo utilizado en este

proyecto es la versión desarrollada en java basada en el algoritmo C4.5

[Quinlan, 2014], conocida como J4.8.

• Naive Bayes: Este algoritmo perteneciente a la familia del aprendizaje

supervisado forma parte de la familia de clasificadores probabilísticos simples

basados en la aplicación del teorema de Bayes, que tiene como precondición la

independencia entre las variables a analizar. Este algoritmo permite identificar

gracias a su característica probabilística la ponderación de que ocurra un

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

62

evento a partir de una o más condiciones particulares, siendo un indicador de la

influencia de dicha condición para que ocurra el evento X.

• Reglas de Asociación: Se utilizó el algoritmo APRIORI [Agrawal & Srikant,

1994] el cual a partir de frecuencias individuales en un conjunto de datos es

utilizada para determinar patrones que vinculan a un conjunto de elementos

frecuentes. Estos patrones son identificados a partir de reglas que describen la

asociación entre dichos elementos.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

63

5 RESULTADOS E INTERPRETACION

La presente sección comenzará por detallar la estructura y el contenido de la base de

datos bajo estudio (sección 5.1). Luego se enumerarán las modificaciones realizadas

sobre los mismos para favorecer el resultado de la aplicación de los procesos de

explotación de la información (sección 5.2). A continuación, se realizará un análisis

estadístico de estos datos (sección 5.3). En las secciones restantes se presentarán los

resultados obtenidos por productos (sección 5.4).

5.1 DESCRIPCIÓN DE LOS DATOS

A partir de los datos disponibles en los registros de la organización, se genera una

base de análisis a partir de las facturaciones realizadas por la empresa en el periodo

2010-2014. Dicha base de datos, está compuesta por 493 columnas y 14751 registros.

Cada registro está compuesto por:

• Código de titular (cod_tit): Código numérico de seis dígitos utilizado para

identificar a los clientes.

• Número de Factura (nro_factura): Número entero que identifica a cada factura

emitida durante el período bajo estudio.

• Fecha de Documento (fec_doc): Fecha de emisión de la factura.

• Columnas por artículos: A los 490 artículos comercializado por la Compañía se

le asignó una columna distinta en la tabla de datos. Luego, para cada registro

(factura) se utilizó la columna correspondiente para indicar la cantidad de

unidades vendidas.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

64

5.2 ADAPTACIÓN DE LOS DATOS

A continuación se lista el conjunto de tareas de limpieza y adaptación de datos

realizadas:

o Se ordenaron los datos por fecha.

o Se eliminaron los registros del año 2010, dado que había solo algunos del

último mes.

o Se generaron 2 columnas con el año y el mes de la factura.

o Se eliminaron los registros que no tienen ningún producto comprado.

o Se eliminaron 12 registros.

o Se eliminan los atributos con 100% de nulos:

o Se eliminaron 7 productos (CS20002, VEP20002, VEP25002,

VEP32002, VMP20002, VMP25002 y VMP32002).

o Se eliminan los productos que tienen menos del 95%.

o Se eliminaron un total de 400 Productos, quedando un total de 93:

o Se eliminaron nuevos registros nulos luego de eliminar los productos menos

solicitados.

o Se eliminaron 1244 registros.

o Se identifican valores para los productos menores o iguales a 0.

o A los 0: Se decide considerarlos como nulos.

Se eliminan 220 registros al poseen todos los valores nulos.

o A los <0: Se elimina el registro.

Se eliminan 923 registros.

o Se identifican y eliminan 54 columnas de productos, dado que su porcentaje es

menor al 95%, quedando 39 productos.

o Se eliminan 1143 registros sin elementos.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

65

5.3 DESCRIPCIÓN ESTADÍSTICA

En esta sección se presenta una breve descripción estadística de la base de datos

utilizada para el análisis de la canasta de mercado.

En la tabla 5.1, se describe de manera general el conjunto de datos, indicando el total

de registros, de valores nulos, de valores posibles, el porcentaje de nulos respecto el

total de datos y la cantidad de ítems promedio por factura.

Total registros 11221

Total productos 39

Total de valores posibles 437619

Total de valores nulos 369017

Porcentaje de nulos 84,32%

Ítems promedio por factura 6

Tabla 5.1 Descripción general de la base de datos

En la tabla 5.2, se presenta la distribución de registros por año.

Año Registros

2011 1299

2012 3385

2013 3625

2014 2912

Tabla 5.2 Distribución de registros por año

Por último en la tabla 5.3, se presentan en forma ordenada los cinco productos más

vendidos en el periodo de análisis, indicando el número total de apariciones y su

porcentaje respecto el total de transacciones.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

66

ProductoNúmero de

Apariciones

Porcentajede

Apariciones

Pack x 15 unid. de Tubo PN 20x4mx25mm (código TF20251) 4638 41,33%

Pack x 20 unid. de Tubo PN 20x4mx20mm (código TF20201) 4373 38,97%

Bolsa x 25 unid. de Codo 90º20mm (código CO20001) 4204 37,47%

Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (código CIF20121) 4073 36,30%

Bolsa x 25 unid. de Codo 90º25mm (CO25001) 3862 34,42%

Tabla 5.3 Ranking de productos más vendidos

5.4 RESULTADOS OBTENIDOS

En las secciones siguientes se realizará una descripción de los resultados obtenidos

luego de la ejecución del proceso de explotación de la información.

5.4.1 ANÁLISIS POR PRODUCTO

Para el siguiente análisis, se estudiaron las compras (facturas) realizadas durante el

periodo 2011-2014, con el objetivo de identificar relaciones en la compra de un

producto determinado. A continuación, se describen los resultados obtenidos.

En primer lugar, el análisis realizado ha permitido detectar que los clientes suelen

respetar criterios de compras altamente estandarizados. Por lo general, los productos

son solicitados en conjuntos y en cantidades que se repiten en el tiempo, reflejando

características propias de la industria de la construcción donde la variedad de

artículos y las cantidades requeridas para la construcción de los distintos ambientes

de una casa se mantiene de proyecto a proyecto. Por ejemplo, al momento de

planificar la construcción de un baño o una cocina, suelen utilizarse caños y

accesorios con diámetros estándar, una cantidad por lo general similar de accesorios

tipo curva o tipo T y, a lo sumo, se requerirán más o menos metros de caños para

interconectar los distintos ambientes.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

67

Se identifica una relación reciproca de compra entre los pares de productos:

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201) y Pack x 15 unid. de

Tubo PN 20 x 4 m x 25 mm (TF20251),

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001) y Bolsa x 25 unid. de Codo

90º 25 mm (CO25001), y

o Bolsa x 25 unid. de Cupla 20 mm (US20001) y Bolsa x 25 unid. de Cupla 25

mm. (US25001).

La correlación de dichos artículos se muestra en la tabla 5.4.

TF20201 TF20251 CO20001 CO25001 US20001 US25001TF20201 XTF20251 XCO20001 XCO25001 XUS20001 XUS25001 X

Tabla 5.4 Correlación de Artículos

Adicionalmente, se identifica que los dos primeros pares de productos, suelen

llevarse en conjunto. Es decir: si el cliente compra el par de productos <Codo

90º25mm (CO25001); Tubo PN 20x4mx20mm (TF20201)>, o el par < Codo

90º20mm (CO20001); Tubo PN 20x4mx25mm (TF20251)> entonces es altamente

probable que dicho cliente esté interesado en comprar el par restante.

Esto se debe a que las dos medidas más utilizadas en la construcción son las de

20mm y 25mm por lo que, al llevar tubos de ese diámetro, lo mismo ocurrirá con los

codos ya que son los accesorios más utilizados.

Adicionalmente se considera relevante destacar, que entre los 4 productos

mencionados, existe una relación de compra más fuerte entre:

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001),

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

68

o Pack x 15 unid. de Tubo PN 20 x 4 m x 25 mm (TF20251), y

o Bolsa x 25 unid. de Codo 90º 25 mm (CO25001).

Los siguientes productos suelen requerirse en conjunto, sin identificarse una

tendencia significante entre algún par posible de elementos:

o Bolsa x 25 unid. de Cupla 20 mm (US20001),

o Bolsa x 25 unid. de Cupla 25 mm (US25001),

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001), y

o Bolsa x 25 unid. de Codo 90º 25 mm (CO25001).

Finalmente, al igual que en el párrafo previo, los siguientes productos suelen

requerirse en conjunto, sin identificarse una tendencia significante entre algún par

posible de elementos:

o Bolsa x 25 unid. de Codo 90º 25 mm (CO25001),

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001),

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201), y

o Pack x 15 unid. de Tubo PN 20 x 4 m x 25 mm (TF20251).

A continuación se presentan relaciones halladas para distintos productos

significantes.

5.4.1.1 ANÁLISIS PRODUCTO “BOLSA X 25 UNID. DE CODO 90º 20 MM”(CO20001)

El accesorio en forma de codo de 90° y con un diámetro de 20mm es uno de los

artículos más utilizados en cualquier tipo de obra ya que, por ejemplo, permite rodear

paredes o cambiar la dirección de los tubos en la instalación. Es de esperar que, junto

con este artículo se requieran accesorios como cúpulas, tee y tubos de la misma

medida o incluso de la medida mayor, la de 25 mm.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

69

El cliente tiende a comprar dicho elemento, cuando compra “Bolsa x 25 unid. de

Cupla 25 mm” (CO25001) y alguna de las siguientes combinaciones de productos:

o Bolsa x 25 unid. de Tee Normal 20 mm. (TE20001) y Bolsa x 25 unid. de

Cupla 20 mm (US20001).

o Bolsa x 25 unid. de Tee Normal 20 mm. (TE20001) y Bolsa x 25 unid. de Tee

Normal 25 mm. (TE25001).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201), Pack x 15 unid. de

Tubo PN 20 x 4 m x 25 mm (TF20251) y Bolsa x 25 unid. de Cupla 20 mm

(US20001).

o Bolsa x 25 unid. de Tee Normal 20 mm. (TE20001) y Bolsa x 25 unid. de

Cupla 25 mm (US25001).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201) y Bolsa x 25 unid.

de Cupla 20 mm (US20001).

o Bolsa x 25 unid. de Tee Normal 20 mm. (TE20001) y Pack x 15 unid. de Tubo

PN 20 x 4 m x 25 mm (TF20251).

o Pack x 15 unid. de Tubo PN 20 x 4 m x 25 mm (TF20251), Bolsa x 25 unid. de

Cupla 20 mm (US20001) y Bolsa x 25 unid. de Cupla 25 mm (US25001).

o Pack x 15 unid. de Tubo PN 20 x 4 m x 25 mm (TF20251) y Bolsa x 25 unid.

de Cupla 20 mm (US20001).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201), Pack x 15 unid. de

Tubo PN 20 x 4 m x 25 mm (TF20251) y Bolsa x 25 unid. de Cupla 25 mm

(US25001).

o Bolsa x 25 unid. de Cupla 20 mm (US20001) y Bolsa x 25 unid. de Cupla 25

mm (US25001).

o Bolsa x 25 unid. de Tee Normal 20 mm. (TE20001).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201) y Bolsa x 25 unid.

de Cupla 25 mm (US25001).

o Bolsa x 25 unid. de Cupla 20 mm (US20001).

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

70

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201) y Pack x 15 unid. de

Tubo PN 20 x 4 m x 25 mm (TF20251).

o Pack x 15 unid. de Tubo PN 20 x 4 m x 25 mm (TF20251) y Bolsa x 25 unid.

de Cupla 25 mm (US25001).

o Bolsa x 25 unid. de Tee Normal 25 mm. (TE25001).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201).

o Bolsa x 10 unid. de Codo 90º32mm (CO32001).

o Bolsa x 25 unid. de Cupla 20 mm (US20001) y Bolsa x 25 unid. de Cupla 25

mm (US25001).

5.4.1.2 ANÁLISIS PRODUCTO “BOLSA X 25 UNID. DE CUPLA 25 MM”(CO25001)

El cliente tiende a comprar dicho elemento, cuando compra Bolsa x 25 unid. de Codo

90º 20 mm (CO20001) y alguna de las siguientes combinaciones de productos:

o Bolsa x 25 unid. de Tee Normal 20 mm. (TE20001) y Bolsa x 25 unid. de Tee

Normal 25 mm. (TE25001).

o Pack x 15 unid. de Tubo PN 20 x 4 m x 25 mm (TF20251), Bolsa x 25 unid. de

Cupla 20 mm (US20001) y Bolsa x 25 unid. de Cupla 25 mm (US25001).

o Bolsa x 25 unid. de Tee Normal 20 mm. (TE20001) y Bolsa x 25 unid. de

Cupla 25 mm (US25001).

o Bolsa x 25 unid. de Cupla 20 mm (US20001) y Bolsa x 25 unid. de Cupla 25

mm (US25001).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201), Pack x 15 unid. de

Tubo PN 20 x 4 m x 25 mm (TF20251) y Bolsa x 25 unid. de Cupla 25 mm

(US25001).

o Bolsa x 25 unid. de Tee Normal 25 mm. (TE25001).

o Pack x 15 unid. de Tubo PN 20 x 4 m x 25 mm (TF20251) y Bolsa x 25 unid.

de Cupla 25 mm (US25001).

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

71

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201) y Bolsa x 25 unid.

de Cupla 25 mm (US25001).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201), Pack x 15 unid. de

Tubo PN 20 x 4 m x 25 mm (TF20251) y Bolsa x 25 unid. de Cupla 20 mm

(US20001).

o Bolsa x 25 unid. de Cupla 25 mm (US25001).

o Bolsa x 10 unid. de Codo 90º32mm (CO32001).

o Pack x 15 unid. de Tubo PN 20 x 4 m x 25 mm (TF20251) y Bolsa x 25 unid.

de Cupla 20 mm (US20001).

5.4.1.3 ANÁLISIS PRODUCTO PACK X 15 UNID. DE TUBO PN 20 X 4 M X25 MM (TF20251)

El cliente tiende a comprar dicho artículo, cuando compra alguna de las siguientes

combinaciones de productos:

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001), Bolsa x 25 unid. de Codo

90º25mm (CO25001), Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm

(TF20201) y Bolsa x 25 unid. de Cupla 25 mm (US25001).

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001), Bolsa x 25 unid. de Codo

90º25mm (CO25001), Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm

(TF20201) y Bolsa x 25 unid. de Cupla 20 mm (US20001).

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001), Pack x 20 unid. de Tubo PN

20 x 4 m x 20 mm (TF20201) y Bolsa x 25 unid. de Cupla 25 mm (US25001).

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001), Bolsa x 25 unid. de Codo

90º25mm (CO25001) y Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm

(TF20201).

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001), Pack x 20 unid. de Tubo PN

20 x 4 m x 20 mm (TF20201) y Bolsa x 25 unid. de Cupla 20 mm (US20001).

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

72

o Bolsa x 25 unid. de Codo 90º 20 mm (CO20001), Bolsa x 25 unid. de Tee

Normal 25 mm. (TE25001) y Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm

(TF20201).

o Bolsa x 25 unid. de Codo 90º25mm (CO25001), Pack x 20 unid. de Tubo PN

20 x 4 m x 20 mm (TF20201) y Bolsa x 25 unid. de Cupla 25 mm (US25001).

o Bolsa x 25 unid. de Codo 90º25mm (CO25001), Pack x 20 unid. de Tubo PN

20 x 4 m x 20 mm (TF20201) y Bolsa x 25 unid. de Cupla 20 mm (US20001).

o Bolsa x 25 unid. de Codo 90º25mm (CO25001) y Pack x 20 unid. de Tubo PN

20 x 4 m x 20 mm (TF20201).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201) y Pack x 10 unid. de

Tubo PN 20 x 4 m x 32 mm (TF20321).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201), Bolsa x 25 unid. de

Cupla 20 mm (US20001) y Bolsa x 25 unid. de Cupla 25 mm (US25001).

o Pack x 20 unid. de Tubo PN 20 x 4 m x 20 mm (TF20201) y Bolsa x 25 unid.

de Cupla 25 mm (US25001).

5.4.2 RESULTADOS PARA PRODUCTOS LPC/LPCM

Se obtuvieron resultados relevantes solo para 2 productos pertenecientes a dicha

familia debido a no contar con suficientes datos para derivar conclusiones respecto a

los restantes.

5.4.2.1 ANÁLISIS PRODUCTO LPC20001

Los clientes compraron “Bolsa x 5 unid. de llave de paso con campana cromada x 20

mm” (LPC20001) si además compraron:

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

73

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121) y Bolsa

x 8 unid. de Cupla HM con inserto M 25x3/4" (UIM25341) (291 casos sobre

391, 74%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121), Pack x

20 unid. de Tubo PN 20x4mx20mm (TF20201) y Pack x 15 unid. de Tubo PN

20x4mx25mm (TF20251) (279 casos sobre 377, 74%).

o Bolsa x 25 unid. de Codo 90º20mm (CO20001), Bolsa x 25 unid. de Tee

Normal 20 mm. (TE20001) (257 casos sobre 348, 74%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121), Bolsa x

25 unid. de Codo 90º20mm (CO20001), Pack x 20 unid. de Tubo PN

20x4mx20mm (TF20201) (248 casos sobre 336, 74%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121), Bolsa x

25 unid. de Codo 90º20mm (CO20001), Pack x 20 unid. de Tubo PN

20x4mx20mm (TF20201) y Pack x 15 unid. de Tubo PN 20x4mx25mm

(TF20251) (224 casos sobre 304, 74%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121) y Pack x

20 unid. de Tubo PN 20x4mx20mm (TF20201) (315 casos sobre 428, 74%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121) y Bolsa

x 25 unid. de Tee Normal 20 mm. (TE20001) (231 casos sobre 314, 74%).

5.4.2.2 ANÁLISIS PRODUCTO LPC25001

Los clientes compraron “Bolsa x 5 unid. de llave de paso con campana cromada x

25mm” (LPC25001) si además compraron:

o Bolsa x 25 unid. de Cupla 20 mm (US20001) y Bolsa x 25 unid. de Cupla 25

mm (US25001) (259 casos sobre 347, 75%)

o Pack x 15 unid. de Tubo PN 20x4mx25mm (TF20251) y Bolsa x 25 unid. de

Cupla 25 mm (US25001) (235 casos sobre 315, 75%).

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

74

o Bolsa x 25 unid. de Codo 90º25mm (CO25001) y Bolsa x 25 unid. de Cupla 25

mm (US25001) (285 casos sobre 386, 74%).

o Bolsa x 25 unid. de Codo 90º20mm (CO20001), Bolsa x 25 unid. de Codo

90º25mm (CO25001) y Bolsa x 25 unid. de Cupla 25 mm (US25001) (239

casos sobre 326, 73%).

o Bolsa x 25 unid. de Cupla 25 mm (US25001) (355 casos sobre 485, 73%).

o Bolsa x 25 unid. de Codo 90º20mm (CO20001) y Bolsa x 25 unid. de Cupla 25

mm (US25001) (266 casos sobre 365, 73%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121) y Bolsa

x 8 unid. de Cupla HM con inserto M 25x3/4" (UIM25341) (282 casos sobre

391, 73%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121) y Bolsa

x 25 unid. de Cupla 25 mm (US25001) (246 casos sobre 344, 72%).

o Bolsa x 25 unid. de Codo 90º25mm (CO25001) y Bolsa x 25 unid. de Cupla 20

mm (US20001) (250 casos sobre 351, 71%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121) y Bolsa

x 10 unid. de Cupla HM con inserto M 20x1/2" (UIM20121) (250 casos sobre

351, 71%)

o Bolsa x 8 unid. de Cupla HM con inserto M 25x3/4" (UIM25341) (382 casos

sobre 540, 71%).

o Bolsa x 25 unid. de Codo 90º20mm (CO20001), Bolsa x 25 unid. de Codo

90º25mm (CO25001) y Pack x 15 unid. de Tubo PN 20x4mx25mm (TF20251)

(285 casos sobre 404, 71%).

o Bolsa x 25 unid. de Codo 90º25mm (CO25001) y Pack x 15 unid. de Tubo PN

20x4mx25mm (TF20251) (318 casos sobre 452, 70%).

o Bolsa x 10 unid. de Codo a 90ºHH con inserto H 20x1/2" (CIF20121) y Bolsa

x 10 unid. de Cupla HH con inserto H 20x1/2" (UIF20121) (270 casos sobre

384, 70%).

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

75

6 CONCLUSIONES

En este capítulo se presentan los resultados obtenidos (Sección 6.1) y se señalan las

líneas de investigación futuras que fueron detectadas durante el desarrollo del trabajo

(Sección 6.2)

6.1 APORTACIONES DE LA TESIS

Para la realización de este trabajo de intervención sobre una PyME de la industria de

la construcción se contó con el aporte de dos de sus integrantes, el Presidente y el

gerente comercial, quienes, luego de comprender los conceptos y herramientas

contemplados en el proceso de explotación de la información, plantearon dos

interrogantes principales:

Pregunta 1:

¿Es posible detectar patrones de compra entre los clientes de la Compañía,

permitiendo enfocar las estrategias comerciales en búsqueda de

maximizar los beneficios? En caso afirmativo: ¿Cuáles?

Pregunta 2:

¿Existe algún patrón de compra significativo para los artículos de la

familia LPC/LPCM (llaves de paso)? En caso afirmativo: ¿Cuáles?

En referencia al primer interrogante, se detectaron reglas de comportamiento que

determinan la combinación de artículos en las compras de los clientes. En general, los

clientes suelen respetar criterios de compra altamente estandarizados. Los productos

son solicitados en conjuntos y en cantidades que se repiten en el tiempo, reflejando

características propias de la industria de la construcción donde la variedad de

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

76

artículos y las cantidades requeridas para la construcción de los distintos ambientes

de una casa se mantiene de proyecto a proyecto. Por ejemplo, al momento de

planificar las obras requeridas para un baño o una cocina, suelen utilizarse caños y

accesorios con diámetros estándar, una cantidad por lo general similar de accesorios

tipo curva o tipo T y, a lo sumo, se requerirán más o menos metros de caños para

interconectar a los distintos ambientes.

Estas relaciones fueron validadas con los expertos del negocio quienes afirmaron que,

si bien eran conocidas en forma empírica, las herramientas disponibles en su sistema

de gestión nunca habían permitido comprobarlas fehacientemente.

En cuanto al segundo interrogante, durante las reuniones de relevamiento se detectó

que, a priori, la comercialización de los artículos de la familia LPC se encuentra

limitada por el hecho de que en todos los casos, a lo sumo se necesitan dos llaves de

paso por ambiente de una vivienda, una para el agua fría y otra para el agua caliente.

Al tratarse de los productos de mayor rentabilidad para la Compañía, los

entrevistados presentaron un interés especial en la detección de reglas de

comportamiento. En este sentido, se concluyó que estos productos, cuya

comercialización se consideró en un principio como independiente del resto, sí

mantienen relaciones de compras con otros artículos. Existen combinaciones con

porcentajes de ocurrencia mayores al 70%; es decir que en el 70% de las operaciones

de compra de los productos de la familia LPC, los clientes además llevaron uno, dos

y hasta tres artículos más en forma conjunta. Los directivos han identificado a estos

resultados como muy importantes para la compañía puesto que permiten generar

estrategias comerciales que permitan incrementar los niveles de venta. Es de esperar

que, en caso de generar packs con todos los artículos involucrados, los clientes

decidan comprar estas promociones aun cuando en un primer momento no hubieran

detectado la necesidad de adquirirlos todos juntos.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

77

6.2 FUTURAS LÍNEAS DE INVESTIGACIÓN

Se detectó que, si bien las bases de datos y los distintos formularios del sistema se

encuentran bien diseñados desde el punto de vista informático y del modelo de

negocios, el desconocimiento por parte de los usuarios o la inexistencia de un

responsable que coordine los datos desde el punto de vista del negocio, hace que

muchos de los campos no se estén utilizando en la actualidad, perjudicando o

impidiendo análisis mucho más profundos. En líneas generales, se prioriza la gestión

administrativa y operativa y no se dedican los recursos necesarios para favorecer el

análisis a través de las herramientas de inteligencia de negocio. A partir de las

sugerencias emitidas por los expertos, la alta gerencia ha tomado la decisión de

comenzar a utilizar las distintas variables y opciones que brinda el sistema, para

luego poder obtener mejores resultados en los procesos de explotación de la

información.

Al no contar con los datos en la base de datos, no se han podido realizar análisis por,

por ejemplo, zonas geográficas, características constitutivas de los productos,

familias de artículos, negocios, etc. Siendo que estos son campos que el sistema está

preparado para gestionar, se propondrá un plan de trabajo para realizar las

definiciones correspondientes e incorporarlos a la operatoria cotidiana.

Luego de analizarlo con la alta gerencia, se planteó el interés en estudiar:

• Estacionalidad de las ventas: Determinar, en función de las fechas de las

ventas, posibles períodos de alta o baja en las distintas operaciones de cada

artículo o conjunto de artículos.

• Relaciones con indicadores de la industria de la construcción: Determinar si

existen relaciones entre los indicadores de la industria, ya sea de organismos

públicos o privados, y los registros de ventas de la compañía.

• Canales de venta: Definición de nuevos canales de venta en función de los

clientes y los históricos de ventas.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

78

• Clasificación crediticia: El sistema cuenta actualmente con un campo para

categorizar a los distintos clientes en función de su comportamiento crediticio.

Se pretenden detectar nuevos grupos en función de la información histórica de

ventas y cobranzas.

La experiencia profesional indica que el escenario presente en la empresa bajo

estudio, lejos de representar un caso aislado, suele replicarse en la mayoría de las

PyMEs. Por lo general, las empresas no cuentan con los recursos ni el conocimiento

necesario para establecer políticas y procedimientos que faciliten el análisis de sus

negocios a través de la explotación de la información. En este sentido, se deja

también planteada la intención de realizar un estudio más amplio que permita

diagnosticar la capacidad de las PyMEs para incorporar a la explotación de la

información dentro de sus procesos habituales. Es decir, en qué medida están

preparadas para realizar el cambio cultural y estratégico requerido.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

79

7 REFERENCIAS

Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules.

En Proc. 20th int. conf. very large data bases, VLDB. Vol. 1215, pp.

487-499.

Britos, P. V., & García Martínez, R. (2009). Propuesta de Procesos de Explotación de

Información. En XV Congreso Argentino de Ciencias de la

Computación. Workshop de Base de Datos y Minería de Datos. pp.

1041-1050. ISBN 978-897-24068-4-1.

Chapman, P., Clinton, J., Keber, R., Khabaza, T., Reinartz, T., Shearer, C., Wirth, R.

(1999). Step by step data mining guide. CRISP-DM 1.0.

Dasgupta, S., Vankayala, K. (2007). Developing Realtime Business Intelligence

Systems. The Agile Way. En Proceedings 1st Annual 2007 IEEE

Systems Conference. pp. 63-69.

Dhond, A., Gupta, A., & Vadhavkar, S. (2000, August). Data mining techniques for

optimizing inventories for electronic commerce. En Proceedings of the

sixth ACM SIGKDD international conference on Knowledge discovery

and data mining. pp. 480-486. ACM.

Piatetsky-Shapiro, G. (1996). Advances in knowledge discovery and data

mining (Vol. 21). U. M. Fayyad, P. Smyth, & R. Uthurusamy (Eds.).

Menlo Park: AAAI press.

García-Martínez, R., Britos, P., Pesado, P., Bertone, R., Pollo-Cattaneo, F.,

Rodríguez, D., Pytel, P., Vanrell. J. (2011). Towards an Information

Mining Engineering. En Software Engineering, Methods, Modeling

and Teaching. Sello Editorial Universidad de Medellín. ISBN 978-

958-8692-32-6. pp. 83-99.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

80

García Martínez, R., & Britos, P. (2004). Ingeniería de Sistemas Expertos. Editorial

Nueva Librería. ISBN 987-1104-15-4.

Giudici, Paolo. (2003). Applied Data Mining: statistical methods for business and

industry. Editorial Wiley. ISBN 0-470-84679-8.

Grigori, D., Casati, F., Castellanos, M., Dayal, U., Sayal, M., & Shan, M. C. (2004).

Business process intelligence. Computers in industry, 53(3), pp. 321-

343.

Grossman, R., Kasif, S., Moore, R., Rocke, D., & Ullman, J. (1999, January). Data

mining research: Opportunities and challenges. En Report of three NSF

workshops on mining large, massive, and distributed data.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H.

(2009). The WEKA data mining software: an update. ACM SIGKDD

explorations newsletter, 11(1), pp. 10-18.

IBM, 2011. IBM SPSS Software. http://www.ibm.com/analytics/us/en/technology/

spss/spss.html (Último acceso 01/08/2016).

Koubarakis, M., & Plexousakis, D. (2000, June). A formal model for business

process modeling and design. En International Conference on

Advanced Information Systems Engineering. pp. 142-156. Springer

Berlin Heidelberg.

Langseth, J., & Vivatrat, N. (2003). Why proactive business intelligence is a hallmark

of the real-time enterprise: Outward bound. Intelligent

enterprise,5(18), pp. 34-41.

Larose, D. T. (2005). Discovering Knowledge in Data, an introduction to

DataMining. John Wiley & Sons, inc. ISBN 0-471-66657-2.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

81

Lönnqvist, A., & Pirttimäki, V. (2006). The measurement of business

intelligence. Information systems management, 23(1), 32.

Mäkipää, M. (2004). The Role and Types of Business Information in Different

“Schools of Thought” of Strategic Management. Proceedings

Frontiers of E-Business Research. pp. 414-427.

Morik, K., & Rüping, S. (2002, August). A multistrategy approach to the

classification of phases in business cycles. En European Conference on

Machine Learning. pp. 307-318. Springer Berlin Heidelberg.

Moss, L. T. (2003). Nontechnical Infrastructure for BI Applications. DM

REVIEW, 13, pp. 42-45.

Negash, S., Gray, P. (2008). Business Intelligence. En Handbook on Decision

Support Systems 2, ed. F. Burstein y C. Holsapple (Heidelberg,

Springer), pp. 175-193.

Nguyen, T. M., Schiefer, J., & Tjoa, A. M. (2005, November). Sense & response

service architecture (SARESA): an approach towards a real-time

business intelligence solution and its use for a fraud detection

application. En Proceedings of the 8th ACM international workshop on

Data warehousing and OLAP. pp. 77-86. ACM.

Osterwalder, A. (2004). The business model ontology: A proposition in a design

science approach. Tesis Doctoral. Universidad de Lausanne.

Quinlan, J. R. (2014). C4. 5: programs for machine learning. Elsevier.

Pirttimäki, V., Lönnqvist, A., & Karjaluoto, A. (2006). Measurement of business

intelligence in a Finnish telecommunications company. The Electronic

Journal of Knowledge Management, 4(1), pp. 83-90.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

82

Rakotomalala, R. (2005). TANAGRA: a free software for research and academic

purposes. En Proceedings of EGC. Vol. 2, pp. 697-702.

Rapidminer, (2016). RapidMiner. https://rapidminer.com/ (Último acceso

01/08/2016).

Reinschmidt, J., & Francoise, A. (2000). Business intelligence certification

guide. IBM International Technical Support Organisation.

Reiterer, H., Mußler, G., Mann, T. M., & Handschuh, S. (2000, July). INSYDER—an

information assistant for business intelligence. In Proceedings of the

23rd annual international ACM SIGIR conference on Research and

development in information retrieval. pp. 112-119. ACM.

Rudin, K., & Cressy, D. (2003). Will the Real Analytic Application Please Stand

Up?. DM REVIEW, 13, pp. 30-41.

Schiefer, J., Jeng, J. J., Kapoor, S., & Chowdhary, P. (2004, July). Process

information factory: a data management approach for enhancing

business process intelligence. In e-Commerce Technology, 2004. CEC

2004. Proceedings. IEEE International Conference. pp. 162-169.

IEEE.

Spangler, W. E., Gal-Or, M., & May, J. H. (2003). Using data mining to profile TV

viewers. Communications of the ACM, 46(12), pp. 66-72.

Stefanovic, N., Majstorovic, V., & Stefanovic, D. (2006). Supply Chain Business

Intelligence Model. In Proceedings 13th International Conference on

Life Cycle Engineering. pp. 613-618.

Thomas Jr, J. H. (2001). Business intelligence–why. eAI Journal, 2001. pp. 47-49.

Thomsen, E. (2003). BI’s Promised Land. Intelligent Enterprise, 6(4). pp 21-25.

INTELIGENCIA DE NEGOCIO BASADA EN INGENIERIA DE EXPLOTACION DE NFORMACIONCASO DE INTERVENCION EN UNA PYME DE LA INDUSTRIA DE LA CONSTRUCCIÓN

TESIS DE MAESTRIA ING. GONZALO DAMIÁN SANTOS

83

Watson, H. J., & Wixom, B. H. (2007). The current state of business

intelligence. Computer, 40(9), pp. 96-99.