informe de tesisrepositorio.usil.edu.pe/bitstream/usil/3607/3/2017... · 2019. 8. 14. · de...

FACULTAD DE INGENIERÍA

Carrera de Ingeniería Informática y de Sistemas

PROPUESTA DE ANÁLISIS DE DATOS NO ESTRUCTURADOS PARA GENERAR DECISIONES

OPORTUNAS EN LA EMPRESA GMD

Tesis para optar el Título Profesional de Ingeniero Informático y de

Sistemas

KATIA ELIZABETH GARVICH SAN MARTÍN

Asesor:

Marco Antonio Bazalar Herrera

Lima - Perú

2017

2

JURADO DE LA SUSTENTACIÓN ORAL

………………………….

Presidente

Isabel Juana, Guadalupe Sifuentes

………………………….

Jurado 1

Samuel Alonso, Oporto Díaz

…………………………

Jurado 2

Percy, Diez Quiñones Panduro

Entregado el: 30/10/2017 Aprobado por:

…………………………………… ………………………………………

Graduando Asesor de Tesis

Katia Elizabeth, Garvich San Martín Marco Antonio, Bazalar Herrera

3

UNIVERSIDAD SAN IGNACIO DE LOYOLA

FACULTAD DE INGENIERÍA

DECLARACIÓN DE AUTENTICIDAD

Yo, Katia Elizabeth Garvich San Martín, identificada con DNI N° 45508147 Bachiller del

Programa Académico de la Carrera de Ingeniería Informática y Sistemas de la Facultad

de Ingeniería de la Universidad San Ignacio de Loyola, presento mi tesis titulada:

Propuesta de análisis de datos no estructurados para generar decisiones oportunas en la

empresa GMD.

Declaro en honor a la verdad, que el trabajo de tesis es de mi autoría; que los datos, los

resultados y su análisis e interpretación, constituyen mi aporte. Todas las referencias han

sido debidamente consultadas y reconocidas en la investigación.

En tal sentido, asumo la responsabilidad que corresponda ante cualquier falsedad u

ocultamiento de la información aportada. Por todas las afirmaciones, ratifico lo expresado,

a través de mi firma correspondiente.

Lima, octubre de 2017

……………………………………………

Katia Elizabeth, Garvich San Martín

DNI N° 45508147

4

EPÍGRAFE

La información es la gasolina del sigo XXI

y el análisis de datos es el motor de

combustión.

(Peter Sondergaard, 2014)

Vicepresidente de Gartner

5

ÍNDICE GENERAL

DEDICATORIA 10

AGRADECIMIENTOS 11

RESUMEN 12

ABSTRACT 13

INTRODUCCIÓN 14

IDENTIFICACIÓN DEL PROBLEMA 15

FORMULACIÓN DEL PROBLEMA 19

Problema General 19

Problemas específicos 19

MARCO REFERENCIAL 21

Antecedentes Internacionales 21

Antecedentes Nacionales 25

Estado del Arte 26

Marco Teórico 30

Big Data. 30

Características del Big Data. 30

Tipos de Datos. 34

Tipos de análisis 35

Estructura de la solución de Análisis de Datos No estructurados. 36

Cuando considerar una solución de Análisis de Datos No estructurados. 38

Beneficios de la solución de Análisis de Datos No estructurados. 39

Desafíos del Análisis de Datos No Estructurado. 41

OBJETIVOS 42

Objetivo general 42

Objetivos específicos 42

JUSTIFICACIÓN DE LA INVESTIGACIÓN 43

Justificación Teórica 43

Justificación Práctica 43

ALCANCE DEL PROYECTO 44

LIMITACIONES DEL PROYECTO 44

HIPOTESIS 45

MATRIZ DE CONSISTENCIA 46

MARCO METODOLÓGICO 48

Metodología y Enfoque 48

Paradigma 48

6

Método 49

VARIABLES 49

Variable Independiente 49

Variable Dependiente 49

POBLACIÓN Y MUESTRA 50

Población 50

Muestra 50

UNIDAD DE ANÁLISIS 50

INSTRUMENTOS Y TÉCNICAS 51

Instrumentos 51

Técnicas 54

PROCEDIMIENTOS Y MÉTODO DE ANÁLISIS 56

Procedimiento 56

Método de Análisis 56

PROPUESTA DE ANÁLISIS DE DATOS NO ESTRUCTURADOS 57

Metodología para el desarrollo de la Tesis 57

Situación actual de la organización 59

Capacidades técnicas y de negocio de GMD 59

Capacidades Técnicas. 60

Capacidades de Negocio. 61

Planeamiento del proyecto de Tesis 63

Plan de Gestión del Tiempo. 63

Plan de Gestión de riesgos. 64

Requerimientos del Proyecto 64

Requerimientos Funcionales. 65

Requerimientos No Funcionales. 66

Análisis de las Principales plataformas de Big Data 67

Presupuesto e Inversión 70

Diseño de la infraestructura 71

Plataforma de Análisis de grandes volúmenes de datos 74

Sistema Hadoop. 75

Stream computing. 75

Integración de información y Gobierno. 76

Aceleradores. 76

Interfaces de usuario. 76

Gestión de análisis y decisiones. 76

Herramientas para el análisis de grandes volúmenes de datos 77

7

InfoSphere BigInsights. 77

InfoSphere Streams. 88

InfoSphere Information Server. 92

IBM Cognos. 101

Propuesta de Análisis de Datos No Estructurados Completa 117

RESULTADOS 118

DISCUSIÓN 127

CONCLUSIONES 129

RECOMENDACIONES 131

REFERENCIAS 132

ANEXOS 134

Anexo 1: Formato de Encuesta 134

Anexo 2: Respuestas de la encuesta 137

Anexo 3: Validación de encuesta por Juicio de Expertos 144

Anexo 4: Presupuesto 146

Anexo 5: Cronograma 147

Anexo 6: Aprobación del Gerente Línea de GMD 148

Anexo 7: Uso de productos IBM Big Data sobre el Cloud de GMD 149

ÍNDICE DE TABLAS

TABLA N° 1: Evaluación pregunta 1 15



TABLA N° 4: Capacidades funcionales y productos IBM para Big Data. 29

TABLA N° 5: Hipótesis 45

TABLA N° 6: Matriz de consistencia 47

TABLA N° 7: Variables e Indicadores 49

TABLA N° 8: Estadístico Alfa de Cronbach del instrumento 54

TABLA N° 9: Estadísticas de Total de elemento 55

TABLA N° 10: Hitos y entregables del proyecto de tesis 63

TABLA N° 11: Tablero de Riesgos 64

TABLA N° 12: Requerimientos Funcionales 65

TABLA N° 13: Requerimientos No Funcionales 66

TABLA N° 14: Ingresos Big Data por proveedor a nivel mundial 67

TABLA N° 15: Componentes open source del InfoSphere BigInsights 78

TABLA N° 16: HBase vs. HDFS 86

8

TABLA N° 17: HBase vs. RDBMS 87

TABLA N° 18: Componentes de la suite InfoSphere Information server 97










ÍNDICE DE FIGURAS

FIGURA N° 1: Evaluación pregunta 1 16



FIGURA N° 4: Árbol de Problemas 20

FIGURA N° 5: Plataforma de Análisis de Big Data 28

FIGURA N° 6: Volumen de data disponible vs. Volumen de data procesada 31

FIGURA N° 7: Características del Big Data, modelo de las 3V 33

FIGURA N° 8: Estructura de la solución de Análisis de datos No estructurados 36

FIGURA N° 9: Desafíos del Análisis de datos No estructurados 41

FIGURA N° 10: Ciclo de vida del desarrollo de la solución propuesta 58

FIGURA N° 11: vCenter del Cloud Computing 60

FIGURA N° 12: Inversión y facturación de la empresa GMD 61

FIGURA N° 13: Alianzas estratégicas de la empresa GMD 62

FIGURA N° 14: Magic Quadrant for Data Science Platforms 68

FIGURA N° 15: Cotización del licenciamiento de la plataforma IBM Big Data 70

FIGURA N° 16: Carga de trabajo Cloud Computing vs. Big Data 72

FIGURA N° 17: Diseño de la infraestructura Cloud 73

FIGURA N° 18: Diseño de un nodo del cluster Hadoop 74

FIGURA N° 19: Plataforma de Análisis de Big Data - Productos y 5Vs de IBM 75

FIGURA N° 20: Diseño de la arquitectura del servicio InfoSphere BigInsights 79

FIGURA N° 21: InfoSphere BigInsights Web Console 80

FIGURA N° 22: La interfaz de hoja de cálculo BigSheets 82

FIGURA N° 23: Visualización de datos en BigSheets 82

9

FIGURA N° 24: Texto de ejemplo (World Cup 2010) 83

FIGURA N° 25: Resultado de cómo trabaja el análisis de texto 84

FIGURA N° 26: Proceso de ejecución de la herramienta de análisis de texto 85

FIGURA N° 27: Ejemplo del esquema de tabla en la BD NoSQL HBase 87

FIGURA N° 28: Diseño de la arquitectura de la Base datos NoSQL HBase 88

FIGURA N° 29: Diseño de la arquitectura del servicio InfoSphere Streams 90

FIGURA N° 30: Modelo simple de la arquitectura del servicio InfoSphere Streams 91

FIGURA N° 31: Funciones de integración del InfoSphere Information Server 93

FIGURA N° 32: Fases de la integración de Información 95

FIGURA N° 33: Arquitectura del InfoSphere Information Server 97

FIGURA N° 34: Interfaz de usuario del IBM Cognos Business Insight 103

FIGURA N° 35: Página de Inicio: Abrir un Dashboard existente 104

FIGURA N° 36: Abrir un Dashboard existente en el Business Insight 105

FIGURA N° 37: Mover los contenedores de gráficos 105

FIGURA N° 38: Eliminar los contenedores de gráficos 106

FIGURA N° 39: Modificar los tipos de pantalla 106

FIGURA N° 40: Modificar los tipos de pantalla 107

FIGURA N° 41: Interfaz Avanzada de usuario del IBM Cognos Business Insight 108

FIGURA N° 42: Reporte de Gráfico de Barras 110

FIGURA N° 43: Reporte de Gráfico de Radar 110

FIGURA N° 44: Calendario de mapas de calor 111

FIGURA N° 45: Reporte Theme River 111

FIGURA N° 46: Reporte para las redes sociales 112

FIGURA N° 47: Reporte de visualización jerárquica 113

FIGURA N° 48: Mapa de árbol 114

FIGURA N° 49: Arquitectura de la integración de Cognos BI y BigInsights 115

FIGURA N° 50: IBM Cognos Dynamic Query integrado con IBM Cognos BI 116

FIGURA N° 51: Arquitectura de grandes volúmenes de datos Completa 117










10

DEDICATORIA

“Dedico este trabajo a mis padres por todo

el amor que me han dado y porque me

enseñaron a esforzarme al máximo y nunca

rendirme. Todo los soy y todo lo que he

logrado se los debo a ustedes.”

11

AGRADECIMIENTOS

Agradezco a cada uno de los que confiaron

y me apoyaron en la elaboración y

desarrollo de esta investigación, gracias a

todos por ayudarme a superar las

dificultades surgidas a lo largo del camino.

Agradezco también a mis padres por todo

el apoyo y confianza que siempre me han

dado y especialmente a Gabriel Jiménez

por asesorarme y aconsejarme a lo largo

de esta investigación.

12

RESUMEN

Hoy en día, las empresas depositan mucha confianza en la toma de decisiones que

realizan sobre sus negocios, basándose en la información que poseen sobre sus

operaciones internas y lo que ocurre en el mercado. Estas decisiones, que son tomadas

en un contexto de alta y creciente competencia, se toman cada vez más utilizando y

analizando la mayor cantidad de información que la empresa posea, dado que una

decisión errónea o tomada fuera tiempo (Es decir, cuando ya es demasiado tarde) puede

afectar significativamente a una organización.

La toma de decisiones implica incertidumbre y por lo tanto riesgo. Para minimizar

estos riesgos es necesario generar decisiones oportunas en base a un análisis de

información que sea eficiente y lo más cercado al tiempo real. Por tanto, la información en

una empresa debe ser clara, precisa, oportuna, completa, de fácil acceso y sobre todo

necesaria y no superflua.

Para la presente investigación, tomaremos como caso de estudio a la empresa

GMD S.A. (afiliada a Advent International), en base a la cual se elaborará la propuesta de

solución para análisis de datos No estructurados, con la finalidad que los jefes y gerentes

de proyecto puedan generar decisiones oportunas y eficientes mediante el análisis en

tiempo real o casi real de la data correspondiente a los proyectos.

13

ABSTRACT

Nowadays, companies place a lot of confidence in the decision making they make about

their businesses, based on the information they have about their internal operations and

what happens in the market. These decisions, which are taken in a context of high and

growing competition, are increasingly taken using and analyzing the largest amount of

information that the company possesses, given that a wrong decision or taken outside

time (That is, when it is too much late) can significantly affect an organization.

Decision making implies uncertainty and therefore risk. To minimize these risks it is

necessary to generate timely decisions based on an analysis of information that is efficient

and closer to the real time. Therefore, the information in a company must be clear,

precise, timely, complete, easily accessible and above all necessary and not superfluous.

For the present investigation, we will take as a case study the company GMD S.A.

(affiliated with Advent International), based on which the solution proposal for unstructured

data analysis will be elaborated, with the purpose that project managers can generate

timely and efficient decisions through real-time or near-real-time analysis of the

information corresponding to the projects.

14

INTRODUCCIÓN

En la actualidad, debido al gran avance que existe día a día en las tecnologías de

información, las organizaciones han tenido que enfrentarse a nuevos desafíos que les

permitan analizar, descubrir y entender, más allá de lo que sus herramientas tradicionales

reportan, sobre grandes y variados volúmenes de datos que se generan rápidamente;

asimismo, durante los últimos años el gran crecimiento de las aplicaciones disponibles en

internet ha sido parte importante de la generación de decisiones de negocio en las

empresas.

La primera pregunta que debemos hacernos es ¿Qué es el análisis de datos no

estructurados y porqué se ha vuelto tan importante? pues, en términos generales según

IBM, es una tendencia en el avance de la tecnología que ha abierto las puertas hacia un

nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir

enormes cantidades de datos que tomaría demasiado tiempo y sería muy costoso,

cargarlos en una base de datos relacional para su análisis. Por lo tanto, el concepto de

Análisis de datos no estructurados aplica para todos aquellos datos que no puede ser

procesados o analizados utilizando procesos o herramientas tradicionales.

El presente trabajo de tesis tiene como objetivo proponer una solución de Análisis

de datos No estructurados con la finalidad de resolver la problemática sobre la

generación de decisiones oportunas en la implementación de proyectos de TI para la

empresa GMD. Durante el desarrollo de la investigación se expondrá el problema,

alcance, limitaciones, objetivos y metodología para obtener los resultados, conclusiones y

recomendaciones del estudio.

15

IDENTIFICACIÓN DEL PROBLEMA

La información se ha convertido en el activo más valioso con el que cuentan las

empresas en la actualidad y dicha información se incrementa día a día sobre todo para

aquellas empresas que realizan mayor cantidad de transacciones. Sin embargo, el

principal problema a resolver es cómo obtener el máximo provecho de esta información

mediante herramientas que permitan extraer, procesar, analizar y visualizar grandes y

variados volúmenes de datos, con la finalidad de brindar respuestas a las necesidades de

negocio y tomar decisiones de manera oportuna.

Para la presente tesis tomaremos como caso de estudio la empresa GMD S.A

(afiliada a Advent International), la cual se dedica al outsourcing de Procesos de Negocio

y Tecnologías de la Información (TI). El problema se centra en la falta de herramientas

para la extracción, procesamiento, análisis y visualización de grandes volúmenes de

datos no estructurados correspondientes a la fase de Implementación de los proyectos;

causando que dicha información no sea analizada y utilizada de la manera más rápida y

eficiente por los gerentes de proyectos, para generar decisiones oportunas. Es decir: “La

toma de decisiones, no está sustentada en un análisis de información que incluya datos

no estructurados, con la finalidad de minimizar los costos de los proyectos y generar

decisiones oportunas durante la implementación de los proyectos de GMD”. Como

consecuencia de este problema, se crean sobrecostos, pérdida de oportunidades de

negocio e insatisfacción en los clientes.

En el 2016, se realizó una encuesta a 18 jefes de proyecto y 17 gerentes de

proyectos de GMD, para recopilar información sobre los principales problemas en la toma

de decisiones durante la fase de implementación de los proyectos. Los resultados fueron

los siguientes:

Pregunta 1 - ¿Se cuenta con la información para generar decisiones oportunas?

Categoría Frecuencia Porcentaje

No 18 51%

Si 17 49%

Total general 35 100%

TABLA N° 1: Evaluación pregunta 1

FUENTE: Elaboración propia

16

FIGURA N° 1: Evaluación pregunta 2


Como se muestra en la tabla 1 y figura 1, el 51% de los encuestados afirman

contar con la información suficiente para la toma de decisiones; sin embargo, el 49%

considera que no cuentan con la información necesaria para generar decisiones de

manera oportuna.

Pregunta 2 - ¿Se agilizaría la toma de decisiones si contara con información (no

estructurada) como audios, videos, documentos, imágenes, entre otros?

Categoría Frecuencia Porcentaje

No 6 17%

Si 29 83%

Total general 35 100%



17



Como se muestra en la tabla 2 y figura 2, el 83% de los encuestados considera

que generarían decisiones de manera más oportuna si contarán con data no estructurada

como videos, audios, documentos, imágenes, entre otros; mientras que sólo un 17%

considera lo contrario.

Pregunta 3 - ¿Cuáles son los principales problemas en la toma de decisiones en los

proyectos de GMD?

Opciones de la encuesta Frecuencia

En el análisis de datos, no se toma en cuenta la data no estructurada como videos, audios,

imágenes, correos, documentos entre otros. 13

Problemas de acceso hacia la información relevante 19

GMD no cuenta con herramientas para el análisis y procesamiento de grandes volúmenes de

datos. 22

Demoras en el análisis de información 23

La información no se encuentra centralizada 28

Total general 105



18



Como se muestra en la tabla 3 y figura 3, un total de 28 encuestados considera

que la falta de centralización de la información es el principal problema en la toma de

decisiones; en segundo lugar, con 23 votos, se tienen las demoras en el análisis de

información; en tercer lugar, con 22 votos, se tiene la falta de herramientas para el

análisis y procesamiento de grandes volúmenes de datos; en cuarto lugar, con 19 votos,

se tienen los problemas de acceso hacia la información relevante y en quinto lugar, con

13 votos, se tiene que en análisis de datos no se toma en cuenta la data no estructurada.

Por tanto, en el presente proyecto de investigación, se realizará una propuesta

para el análisis de datos no estructurados, con la finalidad que los jefes y gerentes de

proyecto de GMD puedan generar decisiones oportunas y eficientes, mediante el análisis

en tiempo real o casi real de la data correspondiente a los proyectos. Para esto,

tomaremos como objeto de estudio lo siguiente: costos, documentación propia de los

proyectos, quejas de los clientes y documentos de lecciones aprendidas.

19

FORMULACIÓN DEL PROBLEMA

Problema General

¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción,

procesamiento, análisis y visualización de grandes volúmenes de datos no estructurados,

en la generación de decisiones oportunas durante la implementación de los proyectos de

GMD?

Problemas específicos

¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción y

procesamiento de grandes volúmenes de datos no estructurados, en el tiempo de análisis

de información para la generación de decisiones oportunas?

¿Cuál es el impacto que ocasiona la falta de herramientas para el análisis y

visualización de grandes volúmenes de datos no estructurados, en el tiempo de análisis

de información para la generación de decisiones oportunas?

¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción y

procesamiento de grandes volúmenes de datos no estructurados, en tiempo real o casi

real, en la reducción de costos en los proyectos de TI de GMD?

¿Cuál es el impacto que ocasiona la falta de herramientas para el análisis y

visualización de grandes volúmenes de datos no estructurados, en tiempo real o casi real,

en la reducción de costos en los proyectos de TI de GMD?

20

Diagrama del árbol de Problemas

FIGURA N° 4: Árbol de Problemas


Falta de herramientas para la extracción, procesamiento, análisis y visualización de grandes volúmenes de datos no estructurados en la generación de decisiones oportunas

en la implementación de proyectos de GMD

Posible pérdida de clientes

Insatisfacción del cliente

Sobrecostos en los proyectos

Quejas de los clientes

Pérdida de oportunidades de

negocio

Retraso en el análisis de información

El análisis de datos no es en tiempo real

Problemas al acceder a la información

No hay herramientas para el procesamiento y análisis de grandes volúmenes de datos

Causas

Problema Central

Efectos

21

MARCO REFERENCIAL

Antecedentes Internacionales

En la universidad University of Twente (Netherlands), Mike Padberg (2015), realizó

una tesis de maestría sobre Big Data e Inteligencia de Negocios (BI), una

estrategia orientada a datos para organizaciones de comercio electrónico en la

industria hotelera. El objetivo de la tesis fue crear un enfoque práctico para

convertir a una organización en una orientada a los datos, para esto utilizaron las

tecnologías de análisis de grandes volúmenes de datos (no estructurados) y

optimizaron el proceso de Business Intelligence, con la finalidad de obtener mayor

valor de los datos disponibles y utilizarlos para la toma de decisiones. Como

resultado, se indicó que el análisis de datos no estructurados es considerado como

un nuevo tema y área de investigación donde pueden distinguirse dos corrientes: La

primera de personas sin experiencia en informática o ingeniería de software, quienes

argumentan que está relacionado con la inteligencia de negocios y la toma de

decisiones. El segundo grupo con experiencia en informática o ingeniería de

software, quienes argumentan que es un facilitador de inteligencia artificial y

algoritmos más inteligentes. En conclusión, el uso de tecnologías para el análisis de

datos no estructurados y el Business Intelligence, permiten obtener mayor valor de

los datos disponibles y contribuyen en la toma decisiones oportunas para favorecer la

comprensión sobre el comportamiento de los clientes, permitiendo un enorme

aumento en el desempeño. Asimismo, es importante maximizar la visualización de

los datos disponibles mediante un formato o interfaz comprensible y fácil de

entender.

En la universidad Ryerson University (Canadá), Feroz Alam (2015), realizó una

tesis sobre la migración datos entre las bases de datos relacionales y no

relacionales (NoSQL). El objetivo de la tesis fue realizar un estudio comparativo entre

las BD’s relacionales y No relacionales para el procesamiento y análisis de grandes

volúmenes de datos no estructurados para la toma de decisiones de negocio. Como

resultado, Se propuso una metodología para la migración exitosa de datos desde una BD

relacional hacia una BD NoSQL. Asimismo, se validó el procesamiento y análisis de datos

no estructurados para la toma de decisiones. En conclusión, La demanda de bases de

datos NoSQL está aumentando debido a sus características diversificadas que ofrecen

escalabilidad rápida y fácil, gran disponibilidad, arquitectura distribuida, buen desempeño

y rápido análisis de la información para la toma de decisiones de negocio.

22

En la universidad de San Andrés (Argentina), José Manso (2015), realizó un

estudio sobre el análisis de modelos de negocio basados en Big Data para

operadores móviles. El objetivo de la tesis fue analizar los modelos de negocios para

operadores móviles basados en Big Data y generar un marco referencial que integre las

mejores prácticas para maximizar la generación de valor. Como resultado, se elaboró una

propuesta de modelo de negocio basado en Big Data para operadores móviles que

permite ganar rentabilidad a largo plazo frente a los competidores. En conclusión, el

tráfico de datos móviles está creciendo exponencialmente alcanzando volúmenes de

información sin precedentes. Asimismo, los datos que genera una organización pueden

ser tanto estructurados como no estructurados y se pueden obtener de múltiples fuentes

de información tanto internas como externas a la organización, por tanto, es importante

para las empresas explotar y analizar estos datos en tiempo real o casi real para utilizar

el valor de estos activos con el fin de tomar mejores decisiones.

En la universidad de Barcelona (España), Galimany suriol (2014), realizó un

estudio sobre la creación de valor en las empresas a través del Big Data. El objetivo

de la tesis fue determinar, analizar y justificar la aportación del análisis de grandes

volúmenes de datos no estructurados sobre las empresas mediante la creación de valor y

ventajas competitivas. Como resultado, se indicó que el análisis de datos no

estructurados trae importantes ganancias en términos de eficiencia y nuevos productos a

las empresas, asimismo el procesamiento de datos permite obtener información y mejorar

la toma de decisiones. Por lo tanto, esta información junto con la experiencia favorece la

obtención de nuevos conocimientos para mejorar procesos, reducir costos, implementar

nuevos procesos, productos o variables relevantes en la producción. Por otro lado,

también permite tener un conocimiento más profundo de cómo es y cómo se comporta la

empresa internamente; es decir, como es el entorno en el que se mueve y cómo influye

esto en la empresa y en los stakeholders, con la finalidad de entender y analizar cómo se

comportan frente a los productos, cuáles son sus expectativas, cuáles son sus

sugerencias y cómo podemos satisfacerlos. En conclusión, el análisis de grandes

volúmenes de datos no estructurados es una fuente importante de valor para las

empresas, pues, aunque es una nueva tendencia, numerosos casos reales sustentan la

idea de que es un percusor de nuevas innovaciones y por tanto de ventajas competitivas

que no solo transforman las empresas y sus productos, sino que son capaces de crear y

transformar mercados.

23

En la universidad Helsinki Metropolia University of Applied Sciences (Finlandia),

Kevin Blasiak (2014), realizó un estudio sobre Big Data, una revolución en la Gestión,

el papel emergente del Big Data en las empresas. El objetivo de la tesis fue

proporcionar una visión general sobre las capacidades que tiene el análisis de grandes

volúmenes de datos no estructurados y las oportunidades que se derivan de su

aplicación, creando una comprensión sobre su papel en las decisiones de la alta gerencia

y determinando su posición dentro de un modelo de toma de decisiones. Como resultado,

se indicó que el análisis de grandes volúmenes de datos no estructurados es una

tecnología que puede originar la creación de ventajas competitivas fuertes. Asimismo,

permite favorecer el giro de negocio de la empresa mediante estadísticas sencillas y

algoritmos predictivos. En Conclusión, dentro de las organizaciones, el análisis de datos

no estructurados debe justificar su propósito como herramienta de gestión y desafiar la

cultura corporativa para redefinir la toma de decisiones.

En la universidad de Cantabria (España), García López (2013), realizó un estudio

sobre el análisis de las posibilidades de uso de Big Data en las organizaciones. El

objetivo de la tesis fue determinar en qué consiste el término Big Data, a qué hace

referencia y que tipo de tecnología está relacionada, asimismo, indicar como lo utilizan

las grandes empresas para obtener ventajas competitivas frente a sus competidores.

Como resultado, se indicó que la tecnología Big Data (Análisis de datos estructurados y

no estructurados), no solo sirve para obtener grandes cantidades de datos, sino también

para analizarlos y conseguir información y conocimiento, asimismo también permite

conocer las preferencias y demandas de los clientes, las debilidades internas de la

empresa y la tecnología Big Data las debilidades de los competidores, con lo que se

obtiene una gran ventaja competitiva. En conclusión, seguirá evolucionando, por tanto,

las empresas deben aprovechar la gran avalancha de datos que se generan, captando

únicamente aquellos que pueden ser transformados en información y conocimiento.

En la universidad de Amsterdam (Netherlands), Niels Mouthaan (2012), realizó un

estudio con la finalidad de examinar los efectos del análisis de Big Data en la

creación de Valor sobre las organizaciones. El objetivo de la investigación fue definir

el análisis de grandes volúmenes de datos, en términos de creación de valor, basado en

la diversidad de datos que existe en la actualidad. Sobre este punto índico que el 80% de

la data propia de las organizaciones es No estructurada y el análisis de datos tradicional

tiende a analizar sólo la data estructurada (el 20% restante), causando que una fuente de

información potencial y valiosa sea ignorada. Como método de investigación se

24

realizaron dos casos de estudio, el primero sobre los participantes de un show de música

en el cual se analizaron los tweets recolectados del Twitter y el segundo sobre una

página de internet sobre retail en el cual el análisis de grandes volúmenes de datos no

estructurados requería un poder computacional. Como resultado de los casos de estudio,

el análisis de datos no estructurados actuó como medio para la creación de Valor pues

ofrecía ventajas significativas para el cliente. Asimismo, mejoró la eficiencia de las

transacciones que se realizaban entre la página web y sus clientes a través de la mejora

en la actividad de búsqueda. En conclusión, el análisis de datos no estructurados puede

crear valor en dos formas: Mediante la mejora en la eficiencia de las transacciones y

soportando la innovación al crear nuevos o mejores productos y servicios en una

organización.

En la universidad Chalmers University (Suecia), Petter Näsholm (2012), realizó

una tesis de maestría sobre la extracción de Data desde una Base de datos NoSQL

como un paso hacia el análisis visual e interactivo de los datos NoSQL (No

estructurados). El objetivo de la tesis fue resolver el problema de extracción e

importación de datos que existe entre las Bases de datos NoSQL y las aplicaciones

tradicionales, con la finalidad de ser capaz de analizar y visualizar datos y tendencias

para la toma de decisiones de negocio, generando ventajas competitivas. Como

resultado, se aplicó una solución con herramientas para la importación de datos (como

Casandra y Neo4j) en la plataforma de las aplicaciones de negocio, logrando que éstas

pudieran soportar las características de las bases de datos NoSQL. En conclusión, se

logró adaptar una solución que permita la comunicación entre las bases de datos NoSQL

y las aplicaciones de negocio, permitiendo a las organizaciones analizar y visualizar la

data no estructurada para mejorar la toma de decisiones y generar ventajas competitivas.

En el instituto IMT – Institutions Markets Technologies (Italia), Gian Marco De

Francisci Morales (2010), realizó un estudio con la finalidad de proporcionar un marco

coherente para la investigación en el campo de análisis de datos a gran escala sobre

el Cloud Computing. Para alcanzar este objetivo, se centraron en la problemática del

Big Data (“Un increíble "diluvio de datos" está ahogando al mundo.”) y adoptaron los

principios de la investigación de base de datos, pues consideraron que los resultados en

estos campos son relevantes. Asimismo, estudiaron los algoritmos de análisis de datos

más comunes y definieron una carga de trabajo de análisis representativa. Como

resultado, se proporcionó un terreno común en el que los sistemas de base de datos y el

Cloud Computing fueran capaces de comunicarse y prosperar. En conclusión, el análisis

25

de Data es el proceso de inspección de datos con el propósito de extraer información útil

que permita la toma de decisiones y el Cloud Computing es una tecnología alternativa y

emergente para el análisis de datos a gran escala. En Conclusión, existe una gran

necesidad por generar mayor valor en las empresas, mediante el adecuado análisis de la

información, cuyo volumen crece día a día.

Antecedentes Nacionales

En la universidad UPC (Perú), Mérida Fonseca y Ríos Alvarado (2014), realizaron una

investigación sobre una propuesta de plataforma de Big Data orientado al sector

turístico. El objetivo de esta investigación fue aprovechar el análisis de grandes

volúmenes de datos, en los procesos del sector turístico e identificar en tiempo real la

necesidad de los clientes. Para esta investigación se utilizó como metodología un

enfoque cualitativo para la descripción de los procesos. Asimismo, se consideraron, en el

análisis, las plataformas Oracle y Microsoft.

Como resultado, presentaron la propuesta de una plataforma de Big Data que ofrece

procesos para la extracción de data (estructurada y No estructurada), procedimientos

para el procesamiento de datos y procesos para la gestión de información. En

conclusión, los procesos internos del Sector turístico pueden ser aprovechados como

fuentes de información para permitir un análisis más profundo de las características de

los consumidores y clientes potenciales.

26

Estado del Arte

En la actualidad los datos se han vuelto el activo más valioso para las empresas, pues

cada vez más organizaciones se encuentran almacenando, procesando y extrayendo

valor de grandes volúmenes de datos de diferentes tipos y tamaños; es decir, las

empresas están buscando la forma de explotar todo el potencial de los datos para poder

mejorar la toma de decisiones y obtener mayores ventajas competitivas. Al respecto,

Gartner predijo que los datos empresariales crecerían un 800% desde el 2011 hasta el

2015, con 80% de los datos en formato no estructurado (por ejemplo, correos

electrónicos, documentos, vídeos, imágenes y contenido de medios de comunicación

social) y el 20% en formato estructurado (por ejemplo, transacciones de tarjetas de

crédito e información de contacto).

El análisis de datos está evolucionando desde el procesamiento de datos

tradicional; es decir sobre data histórica, hacia el procesamiento de grandes volúmenes

de datos no estructurados en tiempo real. Esto se debe a que el análisis de datos en

tiempo real permite monitorear los datos a medida que se generan y se transmiten a la

organización, algo que no te permite el análisis tradicional. Por otro lado, cada vez son

más los casos de uso empresarial que se basan en un análisis de información avanzado

que permita agilizar y mejorar la toma de decisiones para crear ventajas competitivas.

En el 2012 Intel realizó una encuesta a 200 administradores de TI pertenecientes

a grandes empresas y encontró que, aunque hoy en día la cantidad de datos procesados

tradicionalmente, frente a la cantidad de datos procesados en tiempo real, se divide

uniformemente; la tendencia indica que habrá un aumento en el procesamiento de

grandes volúmenes de datos no estructurados en tiempo real. Por otro lado, la tecnología

para el procesamiento de información en tiempo real o en tiempo casi real, está en

continua evolución.

El análisis en tiempo real favorece el análisis predictivo, pues permite a las

organizaciones adquirir una visión orientada hacia el futuro y ofrecer algunas de las

oportunidades más interesantes para la conducción de valor a partir del análisis de

grandes volúmenes de datos no estructurados. Por otro lado, el análisis de datos en

tiempo real, ofrece la expectativa de un análisis predictivo rápido, preciso y flexible que se

adapte rápidamente a las condiciones cambiantes del negocio, pues cuanto más rápido

se analicen los datos, más oportunos serán los resultados y mayor será su valor

predictivo.

27

El alcance sobre el análisis de Big Data continuará expandiéndose, debido a que

se centra principalmente en los negocios y en las fuentes de datos sociales como el

correo electrónico, videos, tweets, Mensajes de Facebook, opiniones y comportamientos

Web. Por lo tanto, el valor real del Big Data está en el conocimiento que produce cuando

es analizado; es decir, cuando ayuda a descubrir patrones, indicadores para la toma de

decisiones y la habilidad de responder al mundo con mayor inteligencia. Por último, el

análisis de Big Data es un conjunto de tecnologías avanzadas, diseñadas para trabajar

con grandes volúmenes de datos heterogéneos (Estructurados, semiestructurados y No

estructurados).

Existen herramientas que permiten el procesamiento, análisis y visualización de

grandes volúmenes de datos no estructurados en tiempo real. La plataforma de análisis

de Big Data de IBM permitirá a GMD analizar un amplio conjunto de información mixta

(de diferentes tipos y fuentes), analizar flujos de información en movimiento (en tiempo

real) y descubrir y experimentar con nueva información. Asimismo, proporcionará la

capacidad de empezar con una sola funcionalidad y fácilmente añadir otras conforme se

requiera, ya que la pre-integración de sus componentes reduce el tiempo de

implementación y el costo.

La Figura 5 muestra los componentes que conforman la plataforma de análisis de

Big Data de IBM, entre los cuales destacan el Sistema Hadoop, Stream Computing y el

Gestor de análisis y decisiones (Analytic Applications).

28

FIGURA N° 5: Plataforma de Análisis de Big Data

FUENTE: Libro Building Big Data and Analytics Solutions in the Cloud.

En la tabla 4, se muestra la relación entre las capacidades funcionales y los

productos que ofrece IBM como herramientas para el procesamiento de Big Data. Para la

presente investigación utilizaremos el InfoSphere Streams, InfoSphere BigInsight,

InfoSphere Information Server y el Cognos BI como herramientas para la elaboración de

la propuesta de Análisis de grandes volúmenes de Datos No estructurados.

Funcionalidad Descripción de la funcionalidad Producto IBM Componentes de la

plataforma

Ingestión de datos

Optimiza el proceso de carga de

datos en el storage para dar soporte

a las metas analíticas sensibles al

tiempo.

InfoSphere

Streams

Stream Computing

Transformación de

datos

Convierte los valores de los datos

desde el sistema y formato de origen

hacia el sistema y formato de

destino.

InfoSphere

BigInsights

Sistema Hadoop

Análisis Descubre y comunicar patrones

significativos en los datos. Cognos

Gestión de análisis y

decisiones

29

Decisiones

recurribles

Hacer repetible la toma de

decisiones en tiempo real sobre las

políticas organizacionales y reglas

de negocio

Cognos


decisiones

Descubrimiento y

exploración

Descubrir, navegar y visualizar

grandes cantidades de data

estructurada y no estructurada a

través de diferentes sistemas de

empresa y repositorios de datos.

InfoSphere

Information

Server

Interfaz de usuario

(Visualización y

descubrimiento)

Reportes,

informes,

Visualizaciones y

dashboards

Proporcionar informes, análisis y

dashboards para ayudar a mantener

la forma en que las personas

piensan y trabajan.

Cognos


decisiones

Integración de

datos

Integración de diferentes tipos de

datos

InfoSphere

Information

Server

Integración de

información y

gobierno

TABLA N° 4: Capacidades funcionales y productos IBM para Big Data.

FUENTE: Libro Building Big Data and Analytics Solutions in the Cloud.

30

Marco Teórico

Big Data.

Existe mucha confusión sobre la definición de Big Data, al respecto podemos decir

que el término Big Data aplica a toda aquella información que no puede ser

procesada o analizada usando las herramientas o procesos tradicionales

(Zikopoulos, Eaton y Deroos, 2012). En consecuencia, las organizaciones de hoy

deben enfrentarse continuamente a los retos que implica el análisis de Big Data,

pues si bien tienen acceso a un gran volumen de información, no saben cómo

obtener valor de ella. Esto se debe a que la información se presenta en forma

cruda o en formatos semiestructurados o no estructurados; por lo tanto, como

resultado, no saben si vale la pena mantenerla.

La era del Big Data está en plena vigencia, debido a que el mundo está

cambiando; es decir, hoy en día somos capaces de percibir más cosas y en

consecuencia tendemos a tratar de almacenarla. Asimismo, mediante los avances

en comunicaciones, las personas y cosas se están volviendo cada vez más

interconectadas y no sólo por un tiempo sino casi todo el tiempo. Esta

interconectividad es la responsable de las altas tasas de crecimiento de datos.

Finalmente, debido a que los pequeños circuitos integrados son ahora tan baratos,

podemos agregar inteligencia a casi todo.

Características del Big Data.

Según Mitchell, Locke y Wilson (2012), existen 3 características que definen el Big

Data y son llamadas el modelo de las 3V (Volumen, Velocidad y Variedad), juntas

estas características definen lo que es el Big Data, dado que han creado la

necesidad de nuevas y mejores capacidades para aumentar las cosas que

podemos hacer hoy, con la finalidad de proveer un mejor control y habilidad sobre

el conocimiento existente.

Volumen.

Se refiere al hecho de que Big Data implica analizar grandes cantidades de datos

que se generan cada segundo en el mundo digital y que son creados por la

interacción de personas, máquinas, redes, entre otros.

Esto se debe a que almacenamos todo (sin mencionar el análisis de la

data almacenada) como: datos del entorno, datos financieros, datos médicos y la

31

lista sigue creciendo. Por ejemplo: Al hablar a través de un Smartphone se genera

un evento, cuando las puertas de un tren se abren para que los pasajeros aborden

se genera otro evento, cuando hacemos “Check in” para viajar en un avión,

cuando descargamos música en Spotify, cuando cambiamos de canal en la

televisión, etc. Todas estas acciones cotidianas generan nueva información a

cada segundo.

Por lo tanto; las organizaciones se enfrentan día a día a volúmenes

masivos de datos que no saben cómo administrar y en consecuencia terminan

abrumados por toda la nueva información generada. Sin embargo; dentro del

problema existe la oportunidad, pues mediante el uso de la plataforma y las

herramientas correctas se puede obtener un análisis de la información crítica y

útil, permitiendo un mejor entendimiento del negocio, los clientes y el mercado.

Por otro lado, mientras que la cantidad de data disponible para las

empresas va en aumento, el porcentaje de data que puede ser procesada,

comprendida y analizada disminuye, creando de este modo una zona ciega “The

blind zone”. Esta zona ciega es algo desconocido y puede significar un problema o

una oportunidad dependiendo del punto de vista. Finalmente, el tema sobre los

volúmenes de data está evolucionando de “Terabytes” hacia “Petabytes” e

inevitablemente seguirá hacia “Zettabytes” y toda esta información ya no podrá ser

almacenada ni procesada en los sistemas tradicionales pues no cuentan con las

capacidades necesarias (Zikopoulos, Eaton y Deroos, 2012).

FIGURA N° 6: Volumen de data disponible vs. Volumen de data procesada

FUENTE: Libro Understanding Big Data

32

Velocidad.

Se refiere a la velocidad con la cual la data es generada y actualizada. Asimismo,

en el mundo del Big Data la rapidez en el análisis de datos es uno de los factores

claves, debido a que tradicionalmente el análisis se realizaba sobre data histórica.

Big Data ha ampliado este concepto incluyendo el análisis en tiempo real.

En el mundo de los negocios, conseguir una ventaja sobre tus

competidores significa identificar una tendencia, problema u oportunidad en solo

segundos o incluso microsegundos antes que la competencia. Asimismo, más y

más de los datos que se generan hoy en día tienen una vida útil muy corta, por

tanto; las organizaciones deben ser capaces de analizar esta información lo más

cercano al tiempo real si desean poder obtener algún conocimiento de esta data.

Lidiar efectivamente con Big Data requiere de la realización de un análisis

contra el volumen y variedad de data mientras ésta está en movimiento no

después de que está en reposo (Zikopoulos, Eaton y Deroos, 2012).

Variedad.

Se refiere al hecho de que Big Data puede ser generada a través de diferentes

orígenes o fuentes y en varios formatos y estructuras. Con la explosión de

sensores, dispositivos inteligentes, redes sociales, entre otros; la data en las

empresas se ha vuelto más compleja, pues incluye no solo data relacional y

tradicional sino también data semi estructurada y no estructurada proveniente de

páginas web, registros web, búsquedas indexadas, fórums de las redes sociales,

e-mail, documentos, data de sensores de sistemas activos y pasivos, etc.

Asimismo, las empresas luchan por almacenar y realizar el análisis de

datos requerido con la finalidad de ganar entendimiento sobre el contenido de

estos registros, pues gran parte de la información que se genera no puede ser

procesada ni administrada en las bases de datos tradicionales.

Por otro lado, la data estructurada o relacional representa sólo el 20% del

total de data generada y disponible siendo el 80% restante data semi estructurada

o no estructurada. Es en este punto donde las empresas han empezado a

entender el valor y la oportunidad del Big Data y para poder capitalizar esta

33

oportunidad, las empresas deben poder analizar todo tipo de datos, tanto

relacional como no relacional (Zikopoulos, Eaton y Deroos, 2012).

FIGURA N° 7: Características del Big Data, modelo de las 3V

FUENTE: Libro Understanding Big Data.

Valor: La cuarta vital “V” del Big Data.

Aunque el modelo de las 3V es una manera útil de definir el Big Data, según

Mitchell, Locke y Wilson (2012), existe una cuarta “V” que también debe ser

tomada en cuenta: “Valor”. Esto se debe a que para las organizaciones no tendría

sentido implementar Big Data a menos que pudieran obtener mayor valor en sus

negocios. Esto significa que la data no sólo puede ser usada dentro de una misma

organización, sino que el valor puede provenir de venderla o proporcionando

acceso a terceros.

Este deseo de maximizar el valor del Big Data es un imperativo de negocio

clave. Asimismo, existen otras formas en las que Big Data ofrece nuevas maneras

para generar valor. Por ejemplo, mientras que en los sistemas de análisis

tradicionales de negocio se tenía que operar sobre data histórica que podía estar

desfasada por semanas e incluso meses; en una solución de Big Data se puede

analizar información en tiempo real.

34

Esto genera beneficios masivos para las organizaciones pues pueden

responder de manera más rápida a las nuevas tendencias, retos y cambios del

mercado. Por otro lado, las soluciones de Big Data pueden generar valor mediante

el análisis del sentimiento contenido en los datos en lugar de sólo mirar la

información en bruto. Por ejemplo, se puede llegar a entender cómo se sienten los

clientes con respecto a un producto o servicio en particular. Esto es conocido

como “Análisis del sentimiento”.

Big Data les da a las organizaciones la oportunidad de explotar una

combinación de data existente y fuentes de datos disponibles, con la finalidad de

extraer valor adicional mediante la mejora del conocimiento de negocios para la

toma de decisiones y el tratamiento de los datos como activo que puede ser

comercializado y vendido.

Tipos de Datos.

Según Mitchell, Locke y Wilson (2012), existen 3 tipos básicos de datos:

Data estructurada.

Se refiere a los tipos de datos que son usados por los sistemas de base de datos

tradicionales; es decir, donde los registros se distribuyen dentro de campos y filas

bien definidas, lo cual permite buscar, categorizar y ordenar fácilmente de acuerdo

a ciertos criterios. Por ejemplo, cuando ingresamos los datos de algún cliente o

empleado a través de formularios que piden datos como nombre, apellido,

dirección, etc.

Data no estructurada.

La data no estructurada es aquella que no tiene un formato predefinido y por tanto

no puede ser almacenada en una base de datos tradicional. Por ejemplo,

imágenes, videos, audios, textos, etc.

Data semiestructurada.

Es aquella que combina los dos tipos de datos descritos anteriormente. Los datos

semiestructurados no residen en bases de datos relacionales, pero presentan una

organización interna que facilita su tratamiento. Por ejemplo, documentos XML o

datos de ubicación anexados a las actualizaciones de las redes sociales.

35

Tipos de análisis

A continuación de definen los conceptos de análisis de datos y análisis de

información; asimismo, se indica que tipo de análisis es realizado a través de las

herramientas de la plataforma Big Data y qué tipo de análisis es realizado por el

gestor de proyecto para la toma de decisiones.

Análisis de datos.

Según Judd, McClelland y Ryan (2011), el análisis de datos es un proceso que

consiste en inspeccionar, limpiar y transformar datos con el objetivo de obtener

información útil que permita al gestor de proyecto realizar un análisis de dicha

información, a fin de obtener conclusiones que apoyen la toma de decisiones. Es

decir, el análisis de datos puede ser usado en diferentes industrias para permitir

que las compañías y las organizaciones tomen mejores decisiones empresariales.

Asimismo, también puede ser usado en las ciencias para verificar o reprobar

modelos o teorías existentes.

El análisis de datos se usa para describirlo todo. Por ejemplo, los bancos y

las compañías de tarjetas de crédito, analizan los retiros y los patrones de gasto

para prevenir el fraude o robo de identidad. Asimismo, las compañías de comercio

electrónico (Ecommerce) examinan el tráfico en el sitio web o los patrones de

navegación para determinar qué clientes son más o menos propensos a comprar

un cierto producto o servicio, basándose en compras previas o patrones de

visualización. Sin embargo, el análisis de datos moderno usa tableros de

información que se basan en flujos de datos en tiempo real. El llamado análisis en

tiempo real implica análisis e informes dinámicos basados en los datos

introducidos en un sistema un minuto antes del tiempo actual de uso. Para el caso

de la presente tesis, el análisis de datos en tiempo real es ejecutado de forma

automática mediante la herramienta de la plataforma Big Data Infosphere

Streams.

Análisis de información.

Según Izamorar (2018), el análisis de información es el proceso por el cual una

persona (en nuestro caso un gestor de proyecto), realiza el análisis de un conjunto

de datos procesados y organizados en reportes y/o dashboards, con el propósito

de reducir la incertidumbre e incrementar el conocimiento. Asimismo, el análisis de

Información favorece la resolución de problemas puesto que permite una

adecuada toma de decisiones.

http://izamorar.com/definicion-de-conocimiento/

36

Estructura de la solución de Análisis de Datos No estructurados.

Teniendo en cuenta que las empresas no tienen gran conocimiento acerca del

análisis de grandes volúmenes de datos no estructurados, lo primero que se

cuestionan es como puede estar conformada o estructurada la solución.

Al respecto, Mitchell, Locke y Wilson (2012), explican el siguiente diagrama

que muestra cómo puede estar diseñada una solución de análisis de datos no

estructurados, donde los cuadros rojos representan la propia solución. A la

izquierda, se encuentran las diferentes fuentes de datos que pueden alimentar un

sistema, por ejemplo: Datos abiertos (públicos o proporcionados por el gobierno,

datos comerciales), redes sociales (Facebook, Skype, Twitter), datos internos

(transacciones en línea o sistemas de análisis), entre otros.

FIGURA N° 8: Estructura de la solución de Análisis de datos No estructurados

FUENTE: Libro the white book of Big Data

37

La primera función de la solución es la integración de datos, la cual se

realiza conectando el sistema a estas diferentes fuentes de datos (usando

interfaces de aplicación estándar y protocolos).

Estos datos pueden ser transformados (es decir, cambiados a un formato

diferente para un fácil almacenamiento y control) mediante la función

“Transformación de datos” o monitoreados por desencadenadores claves

(triggers) en la función “Procesamiento de eventos complejos”.

Esta función busca cada pieza de data, la compara con un conjunto de

reglas y luego manda una alerta cuando una asociación es encontrada. Algunos

motores de procesamiento de eventos complejos también permiten reglas

basadas en tiempo.

Luego la data puede ser procesada y analizada casi en tiempo real,

mediante la función “Análisis masivo en paralelo” y/o almacenada dentro de la

función “Almacenamiento de datos” para un análisis posterior. Toda la data

almacenada está disponible tanto para el análisis semántico como para el análisis

histórico tradicional. Se debe tener en cuenta que el análisis histórico tradicional

significa que la data no es analizada en tiempo real, más no que las técnicas de

análisis utilizadas estén pasadas de moda.

La búsqueda de datos es también una parte importante dentro de la

solución ya que permite a los usuarios acceder a los datos a través de diferentes

formas. Por ejemplo, a través de páginas como Google, Bing, Baidu, Yahoo, entre

otros; a través de una simple caja de texto se pueden ingresar los criterios de

búsqueda para acceder a datos específicos.

Los datos (ya sean flujos de datos, datos capturados o nueva data

generada durante el análisis) también pueden estar disponibles para las partes

internas o externas que deseen utilizarlo. Esto puede ser en forma libre o

mediante el pago de cuotas dependiendo de quién sea el propietario de los datos.

Los desarrolladores de aplicaciones, socios de negocios u otros sistemas que

consumen esta información, lo hacen a través de una “Interfaz de acceso a datos”,

la cual está representada en el lado derecho del diagrama.

38

Finalmente, una de las funciones clave de la solución es la “Visualización

de datos”, la cual presenta información de negocios en una forma significativa,

relevante y fácil de entender.

Esta presentación puede ser textual (Listas o extractos) o gráfica (que van

desde simples tablas y diagramas hasta animaciones complejas). Asimismo, esta

visualización de datos debería darse en cualquier tipo de dispositivo, desde una

PC hasta un Smartphone.

Esta flexibilidad es especialmente importante debido a la variedad de

usuarios que existen, cuyas necesidades y preferencias varían. Algunos ejemplos

de estos usuarios son: Personal que toma decisiones (administrativos, jefes,

gerentes, etc.), consumidores de data (cualquier entidad recibiendo y usando

datos), científicos de datos (para crear modelos de predicción), entre otros. Éstos

están representados en la parte superior del diagrama.

Cuando considerar una solución de Análisis de Datos No estructurados.

A continuación, se detallarán algunos principios que se deben tener en cuenta

cuando se desea usar una solución de análisis de datos no estructurados:

Principio 1: Estas soluciones son ideales para analizar no sólo data

estructurada sino también data semi o no estructurada proveniente de una

infinidad de fuentes u orígenes.

Principio 2: Estas soluciones son ideales para el análisis iterativo y

exploratorio de datos.

Principio 3: Estas soluciones son ideales cuando toda o casi toda la data

necesita ser analizada versus una muestra de data o cuando una muestra de

datos no es tan efectiva como usar un amplio conjunto de datos desde el cual

realizar el análisis.

39

Asimismo, se debe considerar lo siguiente:

¿Puede este tipo de plataforma complementar el análisis tradicional y

alcanzar una sinergia con las soluciones existentes para conseguir mejores

resultados en los negocios? Típicamente, la data usada en el análisis de

warehouse tiene que estar documentada y ser de confianza antes de que pueda

estar dentro de un esquema estricto de warehouse y si no puede encajar dentro

de un formato tradicional de filas y columnas ni siquiera puede llegar al warehouse

en la mayoría de los casos. En contraste, este tipo de solución no sólo va a

aprovechar los datos en cantidades masivas de volumen, que no son típicamente

adecuados para un ambiente tradicional de warehouse, sino que también va a

renunciar a algunas de las formalidades y severidades de la data. El beneficio

está en que se podrá preservar la fidelidad de los datos y ganar acceso a

montañas de información para la exploración y descubrimiento de conocimiento

en negocios.

Es importante indicar que las bases de datos convencionales son una

importante y relevante parte de toda una solución de análisis. Asimismo, se

vuelven más vitales cuando se usan en conjunto con una plataforma de análisis

de datos no estructurados (Zikopoulos, Eaton y Deroos, 2012).

Beneficios de la solución de Análisis de Datos No estructurados.

Existen diferentes beneficios de la solución, a continuación, se detallarán las más

importantes, según Reda Chouffani (2013):

Mejor administración de los datos: Muchas de las plataformas de

procesamiento de datos permiten actualmente analizar, recolectar y filtrar

diferentes tipos de datos. Asimismo, las herramientas de análisis de datos no

estructurados permiten a los usuarios trabajar con datos sin tener que realizar

demasiados pasos técnicos complicados. Esta capa adicional de abstracción ha

permitido numerosos casos de uso donde los datos, en una amplia variedad de

formatos, han sido extraídos con éxito para fines específicos.

40

Beneficios de Velocidad, capacidad y escalabilidad por usar el

almacenamiento en el Cloud: Las organizaciones que deseen utilizar conjuntos de

datos substancialmente grandes, deberían considerar a los proveedores de

servicios Cloud, pues pueden proveer tanto el almacenamiento como el poder

computacional necesarios para soportar la solución. El almacenamiento en la

nube (Cloud) permite a las organizaciones analizar conjuntos de datos masivos

sin tener que realizar una inversión significativa de capital en Hardware para poder

almacenar la data internamente.

Los usuarios finales pueden visualizar los datos: La solución requiere de

herramientas de visualización de datos que presenten la data en tablas, gráficos y

diapositivas fáciles de leer. Debido a la gran cantidad de datos que son

examinados, estas aplicaciones deben ser capaces de ofrecer motores de

procesamiento que permitan a los usuarios consultar y manipular la información

rápidamente, incluso en tiempo real. Algunos proveedores de herramientas de

visualización son: IBM, Microsoft, Oracle, entre otros.

Las organizaciones pueden encontrar nuevas oportunidades de negocio:

Conforme las herramientas de análisis van madurando, se hace más evidente la

ventaja competitiva que significa ser una empresa basada en datos. Por ejemplo:

Para las elecciones presidenciales de EE.UU en el 2012, los líderes de campaña

en ambos partidos, tanto democráticos como republicanos, vieron una necesidad

crítica por obtener información sobre los votantes y sus intereses o problemas

específicos; ya que al tomar esta información y hacerle frente a sus problemas a

través de un correo personalizado o mediante volantes, significaba la posibilidad

de ganar o influir en una votación. Por lo tanto, la información sobre nuestras

preferencias, gustos y disgustos es crítica para las empresas. Las redes sociales

han identificado oportunidades para generar ganancias en base a la data que

recolectan, vendiendo publicidad basada en los intereses particulares de los

usuarios. Esto permite a las empresas dirigirse a grupos específicos de clientes

que encajan en determinado perfil.

Los métodos y capacidades para el análisis de datos evolucionan: Los

datos ya no son simples números dentro de una base de datos. Los archivos de

texto, audio y video también pueden proveer conocimiento de valor; determinadas

herramientas pueden reconocer patrones específicos basados en un criterio

determinado. Mucho de esto sucede al utilizar herramientas de procesamiento del

41

lenguaje natural, el cual puede resultar vital para minería de textos y análisis de

sentimientos.

Desafíos del Análisis de Datos No Estructurado.

El siguiente gráfico muestra los retos que enfrentan las organizaciones con

"grandes volúmenes de datos no estructurados". Según Shields, A. (2014), la

complejidad en la integración de datos es el mayor desafío.

FIGURA N° 9: Desafíos del Análisis de datos No estructurados

FUENTE: Must-know: An overview of "big data"

35%

29.00%

27%

25%

22%

20%

20%

17%

16%

14%

13%

12%

8%

8%

6%

4%

0% 5% 10% 15% 20% 25% 30% 35% 40%

Integración de datos

Iniciar con el proyecto adecuado

Almacenar grandes volúmenes de datos

Falta de personal con conocimientos en Big Data

Propiedad de los datos y otros asuntos políticos

Falta de patrocinio empresarial

Privacidad y seguridad de datos

Lidear con data en tiempo real

modelo de negocios no convincente

Datos de mala calidad

Inmadurez de fuentes y tipos de datos

Arquitecturas de data Warehouse existentes

Infraestructura inadecuada

Falta de un esquema para Big Data

Altos costos

Otros

Big DataChallenges

42

OBJETIVOS

Objetivo general

Determinar el impacto de implementar una propuesta de análisis de datos no

estructurados, con las herramientas IBM InfoSphere BigInsights, Streams, Information

Server y Cognos BI, para generar decisiones oportunas durante la implementación de los

proyectos de GMD.

Objetivos específicos


estructurados, en la reducción del tiempo de extracción y procesamiento de datos para

favorecer la generación de decisiones oportunas.


estructurados, en la reducción del tiempo de análisis y visualización de datos para

favorecer la generación de decisiones oportunas.


estructurados, en la reducción de costos en los proyectos de TI de GMD, mediante la

reducción en el tiempo de extracción y procesamiento de datos.


estructurados, en la reducción de costos en los proyectos de TI de GMD, mediante el

análisis y visualización de datos en tiempo real o casi real.

43

JUSTIFICACIÓN DE LA INVESTIGACIÓN

Justificación Teórica

Big Data es el gran conjunto de datos estructurados y no estructurados que cada año

aumenta su tamaño y que puede originarse a través de diferentes fuentes como: redes

sociales, consultas en motores de búsqueda, correos, Información propia de las

empresas, entre otros. En la actualidad, las empresas acumulan cada vez más y más de

estos datos; sin embargo, no cuentan con las herramientas, experiencia y conocimientos

necesarios para aprovecharla y generar ganancias.

Lira Segura, J. en el diario Gestión (2014), indicó que las empresas cuentan con

grandes cantidades de datos; sin embargo, no saben qué hacer con ellos; por lo tanto, es

momento de que vean el análisis de datos no estructurados como una fuente de riqueza y

comiencen a obtener ganancias en lugar de verlo como una carga. Por otro lado, de

acuerdo con un estudio de Edgell Knowledge, sólo el 80% de los minoristas ha

escuchado sobre el término “Grandes volúmenes de datos no estructurados” y de ellos,

sólo el 47% entiende cómo aplicarlo a su negocio. Asimismo, según el IDC, el 90% de los

datos a nivel mundial han sido creados tan sólo en los últimos dos años, estimando que

el volumen de registros digitales crezca a 1.2 millones de zetabytes este año y 44 veces

más durante la siguiente década.

Justificación Práctica

GMD es una empresa dedicada a la provisión de soluciones de tecnología de la

información (servicios de outsourcing de TI) a empresas a nivel nacional de diferentes

sectores como comercio, banca y finanzas, gobierno, entre otros. La fase de

implementación de las soluciones de TI es la etapa más corta y critica del proyecto, pues

es la etapa donde se desarrolla el servicio de acuerdo con el alcance ofrecido y vendido

al cliente; por tanto, es indispensable poder contar con una solución de análisis de datos

que permita agilizar la toma de decisiones y reducir los costos de los proyectos. Para

lograr este objetivo, es necesario incluir la mayor cantidad de información disponible,

tanto estructurada (Aprox. 20% de la información total) como no estructurada (Aprox.

80% de la información total), con la finalidad de obtener el máximo provecho posible.

Con respecto al punto anterior, Intel indicó lo siguiente: El análisis de grandes

volúmenes de datos no estructurados, ofrece la promesa de proveer información valiosa

44

que puede crear ventajas competitivas, desatar nuevas innovaciones e impulsar mayores

ingresos. (IT Center, 2014, p.3).

ALCANCE DEL PROYECTO

La siguiente investigación abarcará únicamente la presentación de una propuesta para el

análisis de datos no estructurados, con la finalidad de generar decisiones oportunas en la

fase de implementación de proyectos de TI (Área de Implementación, Innovación y

Gestión de proyectos de la Línea de Negocio ISO), de la empresa GMD. Dicha

generación de decisiones es responsabilidad de los jefes y gerentes de proyectos de TI.

Asimismo, se analizará la situación actual (Antes) mediante una encuesta

realizada por los jefes y gerentes de proyecto, con la finalidad de medir el tiempo en la

recolección, búsqueda, procesamiento y análisis de datos actual. Asimismo, se medirá el

tiempo ideal esperado por los jefes y gerentes para la obtención de resultados en un

análisis de datos.

Por último, para el análisis de la situación posterior (después) se utilizará la

técnica de juicio de expertos, mediante la cual se realizará una encuesta a expertos en la

materia, con la finalidad de sustentar los hallazgos e hipótesis de la presente tesis.

LIMITACIONES DEL PROYECTO

Por temas de costo y tiempo, la presente investigación no abarcará el proceso de

implementación y construcción de la solución, ni los temas relacionados a la

infraestructura de Hardware.

Asimismo, se tendrá como limitante la disponibilidad de tiempo de los jefes y

gerentes de proyectos y expertos en la materia para realizar las encuestas que

sustentarán los hallazgos.

45

HIPOTESIS

Tipo de Hipótesis Hipótesis Hipótesis Nula

Hipótesis General

La propuesta de análisis de datos no

estructurados favorecerá la generación

decisiones oportunas en la fase de

implementación de los proyectos de

GMD, mediante el uso de las

herramientas IBM InfoSphere BigInsights,

Streams, Information server y Cognos BI.


estructurados No favorecerá la

generación decisiones oportunas en la

fase de implementación de los

proyectos de GMD, mediante el uso de

las herramientas IBM InfoSphere

BigInsights, Streams, Information

server y Cognos BI.

Hipótesis Especifica


estructurados favorecerá la reducción del

tiempo de extracción y procesamiento de

información para la generación de

decisiones oportunas.



reducción del tiempo de extracción y

procesamiento de información para la

generación de decisiones oportunas.


estructurados favorecerá la reducción del

tiempo de análisis y visualización de





reducción del tiempo de análisis y

visualización de información para la

generación de decisiones oportunas.


estructurados favorecerá la reducción de

costos en los proyectos de TI de GMD,

mediante la extracción y procesamiento

de información en tiempo real o casi real.



reducción de costos en los proyectos

de TI de GMD, mediante la extracción y

procesamiento de información en

tiempo real o casi real.


estructurados favorecerá la reducción de


mediante el análisis y visualización de

información en tiempo real o casi real.



reducción de costos en los proyectos

de TI de GMD, mediante el análisis y

visualización de información en tiempo

real o casi real.

TABLA N° 5: Hipótesis


46

MATRIZ DE CONSISTENCIA

Tipo Problemas Objetivos Hipótesis Variables Metodología

General

¿Cuál es el impacto que ocasiona la falta

de herramientas para la extracción,

procesamiento, análisis y visualización de

grandes volúmenes de datos no

estructurados, en la generación de

decisiones oportunas durante la

implementación de los proyectos de GMD?

Determinar el impacto de implementar

una propuesta de análisis de datos no

estructurados, con las herramientas

IBM InfoSphere BigInsights, Streams,

Information Server y Cognos BI, para

generar decisiones oportunas durante

la implementación de los proyectos de

GMD.

La propuesta de análisis de datos

no estructurados favorecerá la

generación decisiones oportunas

en la fase de implementación de

los proyectos de GMD, mediante

el uso de las herramientas IBM

InfoSphere BigInsights, Streams,

Information server y Cognos BI.

Variable

Independiente:

Propuesta de análisis

de datos no

estructurados El tipo de investigación

que se adapta al

presente trabajo es

Correlacional, aplicada,

No Experimental y

Transversal. Asimismo,

el método de

investigación será

cuantitativo Específico


de herramientas para la extracción y

procesamiento de grandes volúmenes de

datos no estructurados, en el tiempo de

análisis de información para la generación

de decisiones oportunas?



estructurados, en la reducción del

tiempo de extracción y procesamiento

de datos para favorecer la generación

de decisiones oportunas.



reducción del tiempo de

extracción y procesamiento de



Variable

Dependiente:

Impacto en

Decisiones

Oportunas

Indicadores:

Tiempo en toma de

decisiones.

Tiempo de análisis de

información.

Sobrecostos en los

proyectos.


de herramientas para el análisis y

visualización de grandes volúmenes de

datos no estructurados, en el tiempo de

análisis de información para la generación

de decisiones oportunas?


una propuesta de datos no

estructurados, en la reducción del

tiempo de análisis y visualización de

datos para favorecer la generación de




reducción del tiempo de análisis y

visualización de información para

la generación de decisiones

oportunas.

47

Tipo Problemas Objetivos Hipótesis Variables Metodología

Específico


de herramientas para la extracción y


datos no estructurados, en tiempo real o

casi real, en la reducción de costos en los

proyectos de TI de GMD?



estructurados, en la reducción de


mediante la extracción y procesamiento

de datos en tiempo real o casi real.



reducción de costos en los

proyectos de TI de GMD,

mediante la extracción y

procesamiento de información en


Variable

Dependiente:

Impacto en

Decisiones

Oportunas

Indicadores:

Tiempo en toma de

decisiones.

Tiempo de análisis de

información.

Sobrecostos en los proyectos.

El tipo de investigación

que se adapta al

presente trabajo es

Correlacional, aplicada,

No Experimental y

Transversal. Asimismo,

el método de

investigación será

cuantitativo


de herramientas para el análisis y

visualización de grandes volúmenes de

datos no estructurados, en tiempo real o

casi real, en la reducción de costos en los

proyectos de TI de GMD?



estructurados, en la reducción de


mediante el análisis y visualización de

datos en tiempo real o casi real.



reducción de costos en los

proyectos de TI de GMD,

mediante el análisis y

visualización de información en


TABLA N° 6: Matriz de consistencia

FUENTE: Elaboración propia.

48

MARCO METODOLÓGICO

Metodología y Enfoque

El siguiente trabajo de tesis se realizará utilizando un enfoque cuantitativo, en el cual se

analizará el impacto en tiempos y costos de elaborar una propuesta de análisis de datos

no estructurados para la generación de decisiones oportunas. Asimismo, se realizarán

encuestas a los jefes y gerentes de proyectos de GMD para recolectar información sobre

la situación actual de la empresa con respecto a la toma de decisiones, posteriormente se

realizarán encuestas a expertos en el tema de análisis de datos no estructurados para

medir las variables y sustentar los resultados.

Hernández et al. Explican que “El enfoque cuantitativo Utiliza la recolección de

datos para probar hipótesis con base en la medición numérica y el análisis estadístico,

con el fin establecer pautas de comportamiento y probar teorías” (2014, p.4).

El estudio tendrá un alcance correlacional y se estudiarán las siguientes variables:

como variable independiente, la propuesta de análisis de datos no estructurados y como

variable dependiente la generación de decisiones oportunas.

Hernández et al. Explican que “Este tipo de estudios tiene como finalidad conocer

la relación o grado de asociación que existe entre dos o más conceptos, categorías o

variables en una muestra o contexto en particular. En ocasiones sólo se analiza la

relación entre dos variables, pero con frecuencia se ubican en el estudio vínculos entre

tres, cuatro o más variables. Para evaluar el grado de asociación entre dos o más

variables, en los estudios correlacionales primero se mide cada una de éstas, y después

se cuantifican, analizan y establecen las vinculaciones.” (2014, p.93).

Paradigma

La metodología cuantitativa se basa en el paradigma positivista, pues busca encontrar las

causas y la objetividad mediante encuestas o cuestionarios para la recolección de datos;

por lo tanto, en la presente investigación se producirán datos estadísticos y se seguirá un

proceso deductivo.

49

Método

El método que se aplicará al presente trabajo es No experimental, pues se analizarán las

variables en su contexto natural.

Hernández et al. Explican que “Investigación no experimental Estudios que se

realizan sin la manipulación deliberada de variables y en los que sólo se observan los

fenómenos en su ambiente natural para analizarlos.” (2014, p.152).

VARIABLES

Variable Independiente

La variable independiente es la propuesta de análisis de data no estructurada, porque es

el fenómeno que afectará a otras variables y no depende de otra variable para subsistir.

Variable Dependiente

La variable dependiente es el impacto en la generación de decisiones oportunas, porque

sufrirá los cambios ocasionados por la manipulación de la variable independiente, la

variable dependiente se medirá de acuerdo con los siguientes indicadores:

Variables Indicadores Instrumentos

Variable Independiente:

Propuesta de análisis de datos no

estructurados Tiempo en toma de decisiones

Tiempo de Análisis de información

Sobrecostos en los proyectos

Encuestas / cuestionarios Variable Dependiente:

Generación de Decisiones

Oportunas

TABLA N° 7: Variables e Indicadores


50

POBLACIÓN Y MUESTRA

Población

La población objetivo está conformada por los jefes y gerentes de proyecto de la línea de

negocio ISO (International Standard Organization) de la empresa GMD. La empresa GMD

tiene actualmente 21 jefes de proyecto y 16 Gerentes de proyecto; es decir un total de 37

gestores de proyecto, quienes son responsables de la toma de decisiones.

Muestra

La muestra es censal, por lo tanto, se considerará a toda la población; es decir,

incluiremos en el estudio a todos los sujetos o casos (37 gestores de proyecto).

Hernández et al. Explican que “No siempre se tiene una muestra, pero en la

mayoría de las situaciones sí se realiza una. Sólo cuando queremos efectuar un censo

debemos incluir todos los casos (personas, animales, plantas, objetos) del universo o la

población. Por ejemplo, los estudios motivacionales en empresas suelen abarcar a todos

sus empleados para evitar que los excluidos piensen que su opinión no se toma en

cuenta. Las muestras se utilizan por economía de tiempo y recursos.” (2014, p.172).

UNIDAD DE ANÁLISIS

Para la presente tesis tendremos como unidad de análisis a los jefes y gerentes de

proyectos de la línea de negocio ISO; debido a que, son los responsables de la toma de

decisiones en los proyectos. Actualmente la toma de decisiones, no se encuentra

sustentada en un análisis de información que incluya datos no estructurados, debido a la

falta de herramientas para la extracción, procesamiento, análisis y visualización de éstos;

con la finalidad de minimizar los costos de los proyectos y generar decisiones oportunas.

La investigación se centrará en el proceso de implementación de la empresa

GMD, por ser la fase más crítica, en la cual se desarrolla el servicio de acuerdo con el

alcance ofrecido y vendido al cliente; dentro del marco de gestión de proyectos.

51

INSTRUMENTOS Y TÉCNICAS

Instrumentos

UNIVERSIDAD SAN IGNACIO DE LOYOLA – FACULTAD DE INGENIERÍA

DATOS INFORMATIVOS:

FECHA : ………/…… / 2017

PUESTO DE TRABAJO : Jefe de Proyecto ( ) Gerente de Proyecto ( )

_______________________________________________________________________

INDICACIONES:

Este instrumento me permitirá recoger información sobre la toma de decisiones de GMD,

con la finalidad de medir indicadores como: Tiempo de análisis de información, tiempo de

toma de decisiones y sobrecostos en los proyectos.

I. ¿Qué tan útil considera que es la información utilizada actualmente en la toma de

decisiones? Marcar del 1 al 5, teniendo en cuenta que 5 es Muy Útil y 1 Nada Útil

1 2 3 4 5

II. Considerando la siguiente escala, por favor indicar la frecuencia en la que se

presentan los siguientes eventos en la Toma de Decisiones:

1 NUNCA

2 CASI NUNCA

3 A VECES

4 CASI SIEMPRE

5 SIEMPRE

N° Preguntas del Cuestionario 1 2 3 4 5

Uso de información

01 Documentos sobre lecciones aprendidas.

02 Costos de los proyectos.

03 Quejas de los clientes (Correos, documentos, entre otros).

04 Documentación propia de los proyectos.

05 Audios y videos de comités ejecutivos y operativos.

Problemas Generales

06 Retraso en la toma de decisiones.

07 Sobrecostos en los proyectos.

52


08 Retraso en el análisis de información.

09 El análisis de datos no incluye data no estructurada como videos, audios, imágenes, correos, documentos, entre otros.

Problemas al extraer y procesar datos

10 No se logra obtener las fuentes y tipos de datos necesarios.

11 Retrasos al extraer y procesar los datos.

12 Pérdida o difícil acceso a los datos no estructurados.

13 Falta de una interfaz amigable para la extracción y procesamiento de datos.

14 Falta de herramientas para la extracción y procesamiento de grandes volúmenes de datos.

Problemas al analizar y visualizar datos

15 Análisis de datos manual.

16 Falta de herramientas para el análisis de grandes volúmenes de datos.

17 Falta de una interfaz amigable para el análisis y visualización de datos.

18 El análisis de datos se realiza sobre data histórica.

19 Retrasos en el proceso de análisis de datos.

Efectos Negativos debido a los retrasos en la Toma de Decisiones

20 Insatisfacción en los clientes.

21 Hubo un incremento en los costos.

22 Se redujo la rentabilidad de la inversión.

III. Considerando la siguiente escala, por favor indicar el tiempo real y que considerada

adecuado para las siguientes situaciones:

1 Menos de 20 min

2 Entre 20 a 60 min

3 Más de 1 hora

4 Más de 1 día

5 Semanas o meses

53


Tiempo Real en la Toma de Decisiones

01 Extraer y procesar datos

02 Analizar datos

03 visualizar la información

IV. ¿Cuánto considera que es el sobrecosto en los proyectos, causado por los retrasos en

la toma de decisiones?

( ) A. Entre 0% a 15% adicional al costo del proyecto

( ) B. Entre 15% a 25% adicional al costo del proyecto

( ) C. Entre 25% a 50% adicional al costo del proyecto

( ) D. Entre 50% a 75% adicional al costo del proyecto

( ) E. Entre 75% a 100% adicional al costo del proyecto

V. Considerando la siguiente escala, por favor indicar el grado de importancia de las

siguientes características en una plataforma de análisis de grandes volúmenes de

datos en tiempo real o casi real para la toma de decisiones:

1 Nada Importante

2 Poco Importante

3 Indiferente

4 Importante

5 Muy Importante


Características de una plataforma de análisis de grandes volúmenes de datos

01 Interfaz fácil y amigable.

02 Análisis de datos en tiempo real o casi real.

03 Rápida búsqueda, captura y extracción de datos.

04 Almacenar y sistematizar la data estructura y no estructurada.

05 Rápido procesamiento de grandes y variados volúmenes de datos.

54

Técnicas

Se realiza la validación del instrumento aplicando el Coeficiente alfa de Cronbach. Para

esto se digitó y estructuró los datos obtenidos en la encuesta realizada por los gestores

de proyecto de GMD. Cabe resaltar que el Coeficiente alfa de Cronbach, es un modelo de

consistencia interna, basado en el promedio de las correlaciones entre los ítems.

Alfa de Cronbach Número de elementos

0,840 32

TABLA N° 8: Estadístico Alfa de Cronbach del instrumento


En la tabla N° 8 se observa un Coeficiente alfa de Cronbach de 0,840; por lo tanto,

podemos concluir que el instrumento de evaluación que mide el impacto de la propuesta

de análisis de datos no estructurados en la toma de decisiones oportunas tiene un grado

de fiabilidad alta.

Ítems Correlación total de elementos

corregida

Alfa de Cronbach si el elemento

se ha suprimido

ÍTEM 1 0,377 0,835

ÍTEM 2 0,157 0,844

ÍTEM 3 0,317 0,837

ÍTEM 4 0,404 0,834

ÍTEM 5 0,308 0,838

ÍTEM 6 0,146 0,842

ÍTEM 7 0,455 0,832

ÍTEM 8 0,414 0,833

ÍTEM 9 0,611 0,829

ÍTEM 10 0,459 0,832

ÍTEM 11 0,549 0,831

ÍTEM 12 0,386 0,834

ÍTEM 13 0,483 0,831

ÍTEM 14 0,106 0,842

ÍTEM 15 0,117 0,842

ÍTEM 16 0,488 0,832

ÍTEM 17 0,185 0,840

ÍTEM 18 0,423 0,834

ÍTEM 19 0,142 0,841

ÍTEM 20 0,602 0,829

55

ÍTEM 21 0,520 0,831

ÍTEM 22 0,730 0,825

ÍTEM 23 0,478 0,832

ÍTEM 24 0,260 0,838

ÍTEM 25 0,410 0,834

ÍTEM 26 0,323 0,836

ÍTEM 27 0,718 0,821

ÍTEM 28 0,050 0,842

ÍTEM 29 0,073 0,841

ÍTEM 30 0,069 0,841

ÍTEM 31 0,047 0,842

ÍTEM 32 0,084 0,842

TABLA N° 9: Estadísticas de Total de elemento


En la tabla N° 9 se observa que en la columna “correlación elemento Total

corregida”, todos los valores son superiores a 0; por lo tanto, no es necesario eliminar

algún ítem; a su vez en la columna “Alfa de cronbach si se elimina el elemento”,

observamos que los valores no aumentan significativamente si se eliminara algún ítem.

En conclusión, todos los ítems aportan en la medición del impacto de la propuesta de

análisis de datos no estructurados en la toma de decisiones oportunas.

56

PROCEDIMIENTOS Y MÉTODO DE ANÁLISIS

Procedimiento

En toda investigación cuantitativa se aplica un instrumento para medir las variables

indicadas en la hipótesis. Esta medición es eficaz siempre y cuando el instrumento de

recolección de datos represente las variables que hemos definido, sino no podrá ser

tomada en cuenta. Si bien no existe una medición perfecta que represente con total

fidelidad las variables, es un hecho que debemos acercarnos lo más posible mediante el

instrumento de medición que desarrollemos. Se trata de un concepto básico del enfoque

cuantitativo, pues al medir estandarizamos y cuantificamos los datos (como se cita en

Hernández et al., 2014, p.200).

Para la presente investigación la unidad de análisis serán los jefes y gerentes de

proyecto de GMD, quiénes son responsables de la toma de decisiones. Por lo tanto, se

realizará el levantamiento de información mediante el instrumento validado (encuesta) a

los 37 gestores de proyecto de GMD, con la finalidad de medir el impacto de la propuesta

de análisis de datos no estructurados (Variable independiente) en la toma de decisiones

oportunas (Variable dependiente).

Para la recolección de datos se enviará la encuesta vía correo electrónico para

que pueda ser completada mediante el siguiente link:

https://docs.google.com/forms/d/e/1FAIpQLScXztTD0YVd0FL4JwqrEZq7puvjoHsRt0exhKSufaBdu5Rxbg/

viewform?usp=sf_link

Método de Análisis

Se llevará a cabo un análisis de datos mediante el software estadístico “SPSS versión

22”, con la finalidad de obtener la confiabilidad de los datos recolectados mediante el

instrumento (encuesta).

Con base en los datos que se obtengan y con la finalidad de responder al

problema y objetivos planteados, se presentarán cuadros de frecuencia y porcentajes, así

como gráficos de pie y barras, para el análisis de los datos.

https://docs.google.com/forms/d/e/1FAIpQLScXztTD0YVd0FL4JwqrEZq7puvjoHsRt0exhKSufaBdu5Rxbg/viewform?usp=sf_link

https://docs.google.com/forms/d/e/1FAIpQLScXztTD0YVd0FL4JwqrEZq7puvjoHsRt0exhKSufaBdu5Rxbg/viewform?usp=sf_link

57

PROPUESTA DE ANÁLISIS DE DATOS NO ESTRUCTURADOS

Metodología para el desarrollo de la Tesis

El siguiente gráfico ilustra el ciclo de vida que se adoptará para el desarrollo de la

propuesta de análisis de datos no estructurados para generar decisiones oportunas.

Justificación

Planeamiento

Situación actual de la organización

Capacidades técnicas y de negocio actuales de GMD

Planeamiento del proyecto

1

58

FIGURA N° 10: Ciclo de vida del desarrollo de la solución propuesta

Fuente: Elaboración propia

Diseño

Plataforma de Análisis de grandes volúmenes de datos

Herramientas para el análisis de grandes volúmenes de datos

Propuesta de Análisis de Datos No Estructurados Completa

Análisis del Negocio

Requerimientos del proyecto

Análisis de las Principales plataformas de Big Data

Definición del presupuesto e Inversión

1

59

Situación actual de la organización

GMD actualmente tiene una importante presencia en el mercado nacional y ha

experimentado un gran crecimiento en poco tiempo; sin embargo, esto ha causado un

gran desorden al interior de la empresa, pues se han visto en la necesidad de contratar

nuevo personal para afrontar los nuevos proyectos. Asimismo, se ha generado gran

cantidad de información al realizar las actividades de preventa e implementación para los

nuevos proyectos.

El hecho que GMD haya crecido de manera desordenada, significa que no estaba

preparada para dicho crecimiento. Por lo tanto, la generación de información se ha vuelto

un tema bastante engorroso, pues se cuenta con tanta información, que ya no se sabe

qué hacer con ella. Asimismo, no existe un repositorio oficial dentro de GMD donde

almacenar toda esta información, quedando distribuida en diferentes repositorios

dependiendo del área que la genera. Esto causa que cuando se necesita determinada

información, no se sabe dónde está, no está completa o no se cuenta con los accesos

necesarios. Por lo tanto, se gasta tiempo y esfuerzo en la búsqueda o se realiza un

retrabajo para generarla nuevamente, impidiendo que se explote al máximo o se use de

manera eficiente.

Por otro lado, hay información proveniente de correos, audios, videos, entre otros,

que se pierde o no se almacena ni utiliza de la mejor manera.

Por último, no se han desplegado herramientas para el análisis de datos no

estructurados, lo que significa que la toma de decisiones se realiza sin tomar en cuenta

esta información, lo que causa que no esté debidamente sustentada. Por otro lado, dado

que la información que se utiliza esta dispersa, se producen retrasos al buscar, extraer,

procesar y analizar la información, causando que la generación de decisiones, por parte

de los jefes y gerentes de proyecto de GMD, no sea oportuna.

Capacidades técnicas y de negocio de GMD

Las necesidades de negocio de GMD están orientadas a generar decisiones que sean

oportunas, con la finalidad de reducir tiempo y costos durante la implementación de los

proyectos. En base a esto, se definirán las capacidades técnicas y de Negocio para el

desarrollo de la propuesta de análisis de datos no estructurados para la generación de


60

Capacidades Técnicas.

GMD posee una infraestructura de Cloud Privado que está compuesta de la

siguiente manera:

A nivel físico: Está compuesta básicamente de storage (HP 3-PAR 7400 de

4 nodos), red SAN (Equipos Brocade de 24 puertos), red LAN (Equipos Cisco), y

servidores Blade en Clusters (HP Blade Server C7000).

A nivel lógico: Está compuesta por máquinas virtuales, las cuales son

creadas usando tecnología VMWare.

Asimismo, posee 2 Data centers, uno ubicado en Surquillo (COT1) y otro

ubicado en Cercado de Lima (COT4).

FIGURA N° 11: vCenter del Cloud Computing

FUENTE: Elaborado por GMD

61

Capacidades de Negocio.

En esta sección, detallaremos puntos como la inversión y Alianzas estratégicas

con los que cuenta actualmente GMD.

Inversión.

GMD cuenta con más de 30 años en el mercado de Tecnologías de la información

y con aproximadamente 2,000 colaboradores. En el año 2015, GMD cerró su

facturación anual con un monto de US$ 83 millones de dólares, distribuidos entre

sus principales líneas de negocio (ISO, AO y BPO). Asimismo, ha realizado una

inversión de US$ 40 millones de dólares en nuevas tecnologías y servicios como

el Cloud Computing, Software Factory, la construcción de un nuevo Datacenter,

entre otros.

FIGURA N° 12: Inversión y facturación de la empresa GMD


GMD tiene como meta propuesta para el año 2018, contar con presencia

regional en países como Chile y Colombia. Asimismo, se espera generar un

ingreso de US$ 260 millones de dólares. Por tanto, cuenta con la solvencia

necesaria para invertir en una solución de tecnología como la propuesta en la

presente tesis.

62

Alianzas estratégicas.

GMD tiene actualmente alianzas estratégicas con diferentes proveedores como

IBM (Partner a nivel de Hardware y Software), HP (Partner sólo a nivel de

Hardware), Oracle (Partner sólo a nivel de Software), entre otros, lo cual le

permite tener ventajas competitivas con respecto a sus competidores. Asimismo,

contar con descuentos y soporte para nuevos proyectos e inversiones en

soluciones de tecnología como la propuesta en la presente tesis.

FIGURA N° 13: Alianzas estratégicas de la empresa GMD


63

Planeamiento del proyecto de Tesis

A continuación, se detallan los planes de Gestión de tiempo y gestión de riesgos, con la

finalidad de controlar, de manera satisfactoria, el desarrollo del proyecto.

Plan de Gestión del Tiempo.

A continuación, se detallan las principales actividades del proyecto de tesis, junto

con las fechas y entregables incluidos en la tesis.

Fase Hitos del proyecto de Tesis Fecha Entregables incluidos

Inicial

Identificación del problema 01/01/2017 Planteamiento y Formulación

Definición de alcances y Limitaciones 05/01/2017 Alcances y Limitaciones

Análisis de data no estructurada para

generar decisiones oportunas 01/02/2017 Marco Teórico

Identificación de Objetivos 20/03/2017 Objetivos Generales y Específicos

Metodología

Definición del tipo y diseño de la Tesis 01/04/2017 Tipo y Diseño de la investigación

Definición de variables del proyecto 10/04/2017 Variables e indicadores

Selección de la muestra 15/04/2017 Población y Muestra

Definición de instrumentos y procedimientos

de investigación 20/04/2017

Instrumentos y Procedimientos de

recolección de datos.

Planeamiento del análisis de información

recolectada. 15/05/2017

Procedimientos y métodos de

análisis

Desarrollo

Detalle de la situación actual de GMD 20/05/2017 Situación actual de la empresa

Identificación de las capacidades técnicas y

de negocio de GMD 25/05/2017

Capacidades Técnicas y de

Negocio.

Plan de Gestión de tiempos e identificación

de Riesgos. 31/05/2017 Planeamiento del proyecto

Identificación de requerimientos del proyecto 02/06/2017 Requerimientos

Detalle de la inversión para la solución

propuesta. 10/06/2017 Inversión Propuesta

Herramientas y arquitectura funcional 20/06/2017 Herramientas para el análisis de

grandes volúmenes de datos

Arquitectura de la solución propuesta 31/07/2017 Propuesta de análisis de datos no

estructurados completa

Final

Presentación de resultados 10/08/2017 Resultados

Presentación de conclusiones y

recomendaciones 31/08/2017 Conclusiones y Recomendaciones

TABLA N° 10: Hitos y entregables del proyecto de tesis


64

Plan de Gestión de riesgos.

A continuación, se detallan los riesgos identificados a lo largo de la presente

investigación; así como, las actividades necesarias para la mitigación de riesgos.

N° Riesgo Probabilidad Impacto Estrategia de mitigación

1

Retraso en la elaboración de la

Tesis; debido a restricciones en la

obtención de Información de

GMD.

Bajo Medio

Solicitar autorización por parte del

Gerente de Línea de GMD para

poder acceder a la información de la

empresa.

2

Cambios en el plan de Gestión del

tiempo; debido a que no se

puedan cumplir las fechas

estimadas.

Bajo Medio

Aumentar las horas de trabajo

dedicadas a la Tesis.

Tener fechas con holgura para la

elaboración de cada entregable.

3 Pérdida de información Medio Alto

Generación de respaldos de la

información.

Almacenamiento de la información

en la nube.

4 Retraso en la fecha de entrega de

la tesis (Según planeamiento). Medio Alto

Reajustar la fecha de presentación

de la Tesis.

Tener fechas con holgura para la

elaboración de cada entregable.

5

Retraso en la elaboración de la

Tesis; debido a la falta de

disponibilidad de los jefes y

gerentes de proyecto de GMD.

Medio Alto

Coordinación anticipada con los

jefes y gerentes de proyecto de

GMD.

TABLA N° 11: Tablero de Riesgos


Requerimientos del Proyecto

A continuación, se presentan los cuadros correspondientes a los requerimientos

funcionales y no funcionales para la propuesta de análisis de datos no estructurados.

Estos requerimientos se han identificado tomando en cuenta las necesidades del

negocio, la problemática planteada y los requisitos técnicos.

65

Requerimientos Funcionales.

N° Requerimientos Nivel

Prioridad

Exigible /

Deseable

1

La solución deberá permitir la búsqueda, captura y extracción de información de

fuentes como: documentos de lecciones aprendidas, oportunidades de mejora,

costos, quejas de los clientes y documentación propia de los proyectos.

1 E

2

La solución deberá permitir realizar y visualizar, de manera rápida, fácil y

amigable, el análisis de grandes volúmenes de datos para la generación de

decisiones oportunas por parte de los jefes y gerentes de proyecto.

1 E

3 La solución deberá presentarse en forma de Dashboards y reportes amigables,

que faciliten la generación de toma de decisiones. 1 E

4

Se espera que la solución propuesta permita realizar un análisis sobre los

siguientes puntos:

Identificar los errores más frecuentes en los proyectos.

Definir si un proyecto ha culminado con éxito, en base al análisis de

información realizada.

Validar si se están aplicando las lecciones aprendidas en los proyectos.

Identificar los tipos de quejas de clientes que existen y su frecuencia.

2 D

5 La solución deberá permitir realizar un análisis de grandes volúmenes de datos

en tiempo real o casi real. 1 E

TABLA N° 12: Requerimientos Funcionales


Leyenda:

E = Exigible y D = Deseable

Nivel de Prioridad de mayor a menor:

Alto = 1, Medio = 2 y Bajo = 3

66

Requerimientos No Funcionales.

N° Requerimientos Nivel

Prioridad

Exigible /

Deseable

1 Se deberán identificar las características a nivel de infraestructura que se

requieren para la solución. 1 E

2 Se deberán adquirir las licencias necesarias para el procesamiento y análisis de

grandes volúmenes de datos 1 E

3 Se deberá elegir una plataforma de Big Data a través de un análisis sobre los

principales proveedores. 1 E

4 La plataforma elegida deberá poder ser desplegada sobre la infraestructura

actual de GMD. 2 D

5 La solución deberá tener soporte del proveedor ante incidentes críticos en

modalidad 24 x 7 los 365 días del año. 2 D

6 La solución deberá permitir integrar y centralizar la información 1 E

TABLA N° 13: Requerimientos No Funcionales


Leyenda:

E = Exigible y D = Deseable

Nivel de Prioridad de mayor a menor:

Alto = 1, Medio = 2 y Bajo = 3

67

Análisis de las Principales plataformas de Big Data

Como parte de la presente investigación se realizará un análisis sobre las principales

plataformas Big Data que existen en el mercado, con la finalidad de seleccionar la más

adecuada para GMD. Debido a que GMD no cuenta con experiencia sobre tecnologías

Big Data, lo recomendable es adquirir una plataforma proveniente de un proveedor que

posea un dominio reconocido en el mercado sobre el tema, con la finalidad de obtener un

soporte confiable ante cualquier incidente.

Según Jeff Kelly (2014), el mundo de las empresas proveedoras de Big Data se

divide en dos: Aquellas empresas creadas recientemente y que están trayendo

innovación al creciente mercado de Big Data (sus ingresos dependen 100% de Big Data)

y aquellas empresas proveedoras de base de datos y data Warehouse, ya establecidas,

que se están expandiendo al mundo del Big Data desde una posición bastante fuerte

gracias a su larga experiencia y renombre en el mercado (sus ingresos no dependen

100% de Big Data). A continuación, se muestra la lista de las 10 empresas de Big Data

más importantes:

Proveedor Ingresos Big Data

Total Ingresos

% de Ingresos por Big Data (Hardware)

% de Ingresos por Big Data (Software)

% de Ingresos por Big Data (Servicios)

IBM $1,368 $99,751 31% 27% 42%

HP $869 $114,100 42% 14% 44%

Dell $652 $54,550 85% 0% 15%

SAP $545 $22,900 0% 76% 24%

Teradata $518 $2,665 36% 30% 34%

Oracle $491 $37,552 28% 37% 36%

SAS Institute

$480 $3,020 0% 68% 32%

Palantir $418 $418 0% 50% 50%

Accenture $415 $30,606 0% 0% 100%

PWC $312 $32,580 0% 0% 100%

TABLA N° 14: Ingresos Big Data por proveedor a nivel mundial

FUENTE: Big Data Vendor Revenue and Market Forecast.

68

Adicionalmente, Según Gartner (2017), IBM es uno de los proveedores líderes en

el mercado de Plataformas de Análisis avanzado (Big Data + BI). Esto de acuerdo al

“cuadrante mágico de Gartner sobre plataformas de Data Science”:

FIGURA N° 14: Magic Quadrant for Data Science Platforms

FUENTE: Cuadrante mágico de Gartner

Por lo tanto, Tomando en cuenta las alianzas estratégicas de GMD, el ranking

realizado por Jeff Kelly y el Cuadrante Mágico de Gartner, el proveedor de plataforma Big

Data seleccionado para la presente propuesta de solución es IBM.

Según Zhu, Gupta y Kumar (2014), La plataforma de análisis de Big Data de IBM

proporciona a las organizaciones un conjunto de soluciones, diseñado específicamente

para uso empresarial. Asimismo, proporciona la capacidad de empezar con una sola

funcionalidad y fácilmente añadir otras conforme se requiera, ya que la pre-integración de

sus componentes reduce el tiempo de implementación y el costo.

69

Entre las ventajas de utilizar la plataforma de Análisis de Big Data de IBM se tiene:

Las 5V’s.

Variedad: La plataforma soporta gran variedad de datos y permite a las empresas

gestionar estos datos en su formato original y transformarlos a otros formatos

deseados.

Velocidad: La plataforma puede manejar datos a cualquier velocidad.

Volumen: La plataforma puede manejar grandes volúmenes de datos ya

sea que estén en reposo o en flujo constante (streaming data).

Veracidad: La plataforma incluye varias herramientas para eliminar la

incertidumbre sobre los datos de destino.

Visibilidad: La plataforma permite navegar, buscar y descubrir información

en una amplia gama de fuentes y tipos de datos, tanto dentro como fuera de su

empresa.

Análisis.

La plataforma permite analizar los datos en su formato nativo como texto, binario y

contenido multimedia.

La plataforma puede escalar para analizar todos los datos, no sólo un

subconjunto.

La plataforma permite realizar análisis dinámicos, como ajustes

automáticos y acciones.

Fácil de usar.

La plataforma incluye un conjunto de interfaces de usuario desarrollador (UI),

lenguajes comunes y consola de administración, que permiten una adopción más

rápida y reduce el tiempo de codificación y depuración.

La plataforma también ofrece interfaces de usuario final y capacidades de

visualización, como el análisis basado en web y herramientas para la visualización

de información, a través de interfaces familiares como las hojas de cálculo.

70

Integración.

La plataforma ofrece la posibilidad de integrar una amplia variedad de fuentes de

datos utilizando protocolos estándares, tales como Open Database Connectivity

(ODBC), Java Database Connectivity (JDBC), y Java Message Service (JMS).

Presupuesto e Inversión

Para el diseño de la solución propuesta se han definido las siguientes capacidades, las

cuales pueden ser ajustadas en el proceso. En base a este dimensionamiento tenemos

una inversión de $393,360.52 dólares.

InfoSphere BigInsights: Licenciamiento para 5 nodos virtuales (Procesamiento de

data de hasta 100TB).

InfoSphere Streams: Licenciamiento para que se instale en un ambiente de

producción.

Cognos BI: Licenciamiento para 5 usuarios y 1 administrador.

InfoSphere Information Server: Licenciamiento para 280 PVU.

FIGURA N° 15: Cotización del licenciamiento de la plataforma IBM Big Data

FUENTE: Elaborado por Nexsys (IBM Business Partner)

Dado que GMD tiene como meta propuesta para el año 2018, contar con un

ingreso de US$ 260 millones de dólares, cuenta la solvencia necesaria para invertir en

una solución de tecnología como la propuesta en la presente tesis. Asimismo, el

71

costo/beneficio que se puede obtener de esta solución radica en una toma de decisiones

mucho más rápida (oportuna) que esté basada en un análisis de datos completo y no sólo

en el instinto, permitiendo hacer frente a las necesidades y requerimientos de sus clientes

y ganando oportunidades de negocio e inversión frente a la competencia.

Diseño de la infraestructura

Según Zhu, Gupta y Kumar (2014), el análisis de Big Data requiere gran cantidad de

almacenamiento (a nivel de bloque u objeto), procesamiento (a nivel de recursos) e

intercambio de datos (a nivel de red).

Asimismo, las plataformas tradicionales para el análisis de datos, no pueden escalar

fácilmente a bajo costo para satisfacer las demandas de Big Data. Por otro lado, la

mayoría de los datos no son estructurados y adecuados para las bases de datos

relacionales y almacenes de datos (Data Warehouse) tradicionales.

Debido a lo anterior, la infraestructura del Cloud Computing ha aparecido como

una alternativa perfecta para escalar y dar cabida a grandes volúmenes de datos, ya que

puede dividirlos mediante el uso del particionamiento (almacenar datos en más de una

región o zona disponible). Por otra parte, el Cloud Computing, puede proporcionar

reducción en los costos, mediante el uso de nodos de computación con productos

básicos e infraestructura de red y demandando menos administradores y programadores

(gracias a la estandarización de servicios en la nube y al uso de APIs bien definidas).

Sin embargo, los entornos Cloud Computing están construidos para responder a

cargas de trabajo de propósito general y usar grupos comunes de recursos (Resource

pooling), durante un largo periodo de tiempo, para proporcionar elasticidad a demanda;

mientras que las cargas de trabajo de Big Data utilizan gran cantidad de recursos en un

periodo de tiempo corto.

72

FIGURA N° 16: Carga de trabajo Cloud Computing vs. Big Data

FUENTE: Building Big Data and Analytics Solutions in the Cloud.

Por lo tanto, un ambiente de Cloud Computing para Big Data, requiere extrema

elasticidad para proveer cientos de máquinas virtuales (VMs) en horas o incluso minutos.

Asimismo, se requieren redes dedicadas y aisladas para asegurar que la replicación de

datos entre los nodos no afecte la ingestión de datos entrantes.

Según Zhu, Gupta y Kumar (2014), Para que el Cloud Computing y el Big Data

puedan trabajar juntos se deben asegurar los siguientes puntos a nivel de infraestructura

del Cloud Computing (IaaS):

CPUs para el procesamiento de Big Data.

Para aumentar la capacidad de procesamiento, se puede crear un pool de

recursos con CPUs multicore (Múltiples núcleos), para lograr un mayor

rendimiento (en términos de cálculos por segundo) por cada unidad de energía

eléctrica que se consume en lugar de sus equivalentes de un solo núcleo. Los

CPUs de cuatro y seis núcleos, son la manera más atractiva y rentable de crear

grupos de recursos dedicados para el procesamiento de grandes volúmenes de

datos en el Cloud Computing.

73

FIGURA N° 17: Diseño de la infraestructura Cloud

FUENTE: Elaboración propia en conjunto con GMD

Almacenamiento para el procesamiento de datos.

Actualmente GMD utiliza una red SAN multicliente con almacenamiento HP 3PAR

7400; Sin embargo, según Evans (2013), el sistema Hadoop ha sido diseñado

para usar las capacidades masivas a escala y ejecutar el procesamiento

distribuido con la menor latencia posible, lo cual no encaja bien con las

implementaciones tradicionales de SAN, que tienen un costo mucho mayor por

cada GB que se despliega, en contraste con otras soluciones de almacenamiento

como la conexión local directa (Direct-Attached-Storage).

Por otro lado, no se recomienda el uso del canal de fibra en los

despliegues de HDFS, debido al gran costo de implementación en términos de

adaptadores de bus (HBA) y puertos SAN. Adicionalmente, HDFS está diseñado

para atender flujos de datos, que se generan como consecuencia de las

transacciones Hadoop que escriben datos a través del clúster y luego realizan

gran cantidad de lecturas. Esto funciona bien con unidades SATA conectadas

74

directamente, pero no tan bien con entornos de almacenamiento compartidos,

donde se utiliza el mismo disco físico subyacente para apoyar el cluster Hadoop.

Por lo tanto, para la presente tesis, se utilizará el tipo de storage DAS

(Direct-Attached-Storage), en lugar de la SAN multicliente de GMD, con unidades

SATA directamente conectadas al servidor, manteniendo de esta forma, el costo

global del sistema lo más bajo posible.

FIGURA N° 18: Diseño de un nodo del cluster Hadoop


Plataforma de Análisis de grandes volúmenes de datos

La plataforma de Big Data permitirá a GMD analizar un amplio conjunto de información

mixta (de diferentes tipos y fuentes), analizar flujos de información en movimiento,

analizar grandes volúmenes de datos y descubrir y experimentar con nueva información.

Como se muestra en la figura 19, se ha mapeado cada componente de la

plataforma de análisis de Big Data con las 5Vs y los productos que ofrece IBM para cubrir

dicho servicio.

DAS con SATA

CPU multicore

75

FIGURA N° 19: Plataforma de Análisis de Big Data - Productos y 5Vs de IBM

FUENTE: Building Big Data and Analytics Solutions in the Cloud.

Sistema Hadoop.

Proporciona una manera rentable de almacenar y procesar grandes volúmenes de

datos estructurados y no estructurados en un solo lugar para realizar un análisis

profundo. Hadoop cuenta con 2 componentes principales: HDFS y MapReduce. El

sistema Hadoop, permite almacenar cualquier tipo de dato como fotos, imágenes,

videos, audios, documentos, textos, entre otros, sin que tengamos que

preocuparnos por el modelo o esquema de datos. Asimismo, existen bases de

datos basadas en Hadoop que permiten almacenar información en diferentes

modelos de datos como: relacional, Key-value y columnar. Por último, si bien la

redundancia de datos es uno de los componentes principales en un cluster

Hadoop, es su modelo de programación quien espera y resuelve las fallas

mediante la ejecución de porciones del programa en varios de los servidores del

cluster y gracias a esta redundancia, es posible distribuir la data y el programa a

través de los componentes del cluster, brindando tolerancia a fallas.

Stream computing.

Está diseñado para analizar los datos en movimiento al tiempo que proporciona

una escalabilidad masiva y procesamiento de múltiples flujos de entrada

76

concurrentes. La plataforma IBM Streams puede procesar y analizar una amplia

variedad de data estructurada y no estructurada; asimismo, contenidos de video y

audio.

Integración de información y Gobierno.

Proporciona la capacidad de integrar cualquier tipo de dato. También proporciona

gobernabilidad y confianza sobre grandes volúmenes de datos, mediante el uso

de capacidades como: seguridad de datos sensibles, seguimiento al linaje de

datos, gestión del ciclo de vida para controlar el crecimiento de Big Data y

maestría de datos para establecer una única fuente de verdad.

Aceleradores.

La plataforma Big Data de IBM proporciona una serie de aceleradores, como los

aceleradores Analíticos (para manejar los datos de texto, la minería de datos y los

datos acústicos).

Interfaces de usuario.

Están diseñados para tres clases de usuarios (usuarios de negocios,

desarrolladores y administradores), con diferentes tipos de herramientas para

cada clase.

Usuarios de negocio: Pueden analizar una amplia variedad de datos

utilizando una interfaz basada en navegador y una interfaz al estilo de una hoja de

cálculo para explorar y visualizar datos.

Usuarios desarrolladores: Tienen acceso a diferentes APIs y entornos de

desarrollo útiles, como Eclipse.

Usuarios administrativos: Tienen acceso a las consolas para ayudar con el

monitoreo y la gestión de los sistemas y componentes de la plataforma de análisis

de Big Data de IBM.

Gestión de análisis y decisiones.

Están diseñadas para el desarrollo de aplicaciones de análisis y la integración con

una amplia variedad de aplicaciones de terceros para BI (Business Intelligence),

análisis predictivo, análisis de contenido, entre otros.

77

Herramientas para el análisis de grandes volúmenes de datos

A continuación, se detallan las herramientas que usaremos para el desarrollo de la

propuesta de análisis de grandes volúmenes de datos no estructurados.

InfoSphere BigInsights.

Según Zikopoulos, Deroos y Parasuraman (2013), BigInsights está basado en

Apache Hadoop y cuenta con proyectos de código abierto como componente

principal.

Este servicio proveerá valor a GMD, a nivel de negocios, debido a que:

Los volúmenes de datos no pueden ser administrados de manera rentable

utilizando la tecnología existente (El sistema actual de GMD “Take It”, no es

amigable y no permite realizar un análisis eficiente de la información).

Analizar grandes volúmenes de datos puede traer mejores resultados.

Permitirá minar conocimientos de tipos de datos no estructurados (como videos,

audios y documentos sobre los proyectos, costos, tickets, entre otros).

Permitirá explorar datos para comprender su valor potencial para los

negocios.

Permitirá definir si un proyecto ha culminado con éxito (sin sobrecostos),

en base al análisis de información realizada.

Permitirá validar si se están aplicando las lecciones aprendidas en los

proyectos.

78

Asimismo, provee las siguientes ventajas:

Es escalable, pues se pueden agregar nuevos nodos al cluster sobre la

marcha.

Es asequible, pues permite computación masiva en paralelo sobre los

servidores del cluster.

Es flexible, pues no requiere de un esquema y modelo de datos

determinado y puede almacenar y procesar cualquier tipo de dato.

Es tolerante a fallas.

Aunque desplegar un cluster Hadoop sobre servidores físicos provee mejor

performance que sobre servidores virtuales, la ventaja de usar el Cloud

Computing es que se pueden adicionar recursos de manera dinámica al cluster;

es decir, no hay necesidad de gastar tiempo limando detalles para obtener una

arquitectura perfecta, pues se pueden realizar los ajustes que sean necesarios en

tiempo real.

Arquitectura del Servicio InfoSphere BigInsights.

Componentes Descripción

Hadoop Está compuesto por HDFS y MapReduce

Avro Sirve para la socialización de Datos

Chukwa Supervisión de grandes sistemas en Cluster.

Flume Recopilación y agregación de datos

HBase Base de datos de tipo Column-Family. Lectura y escritura de base de datos en tiempo real.

HCatalog Gestión a nivel de tabla y storage

Hive Proporciona consultas ad-hoc-SQL para resumen y consulta de datos.

Lucene Realiza búsquedas en los textos

Oozie Orquesta los flujos de trabajo

Pig Lenguaje de programación Hadoop de alto nivel que proporciona un lenguaje de consultas.

Sqoop Realiza la transferencia de datos entre las bases de datos y Hadoop

ZooKeeper Proporciona servicios de coordinación para aplicaciones distribuidas

TABLA N° 15: Componentes open source del InfoSphere BigInsights

FUENTE: Harness the power of Big Data.

79

FIGURA N° 20: Diseño de la arquitectura del servicio InfoSphere BigInsights

FUENTE: IBM Big Data Platform. IBM Corporation.

Interfaz Web Console.

Esta consola es el punto focal de todo el clúster, pues todas las actividades de

administración, implementación y ejecución de aplicaciones se realizan ahí.

Las actividades que se pueden realizar en la consola dependen del nivel de

acceso que se tenga. Por ejemplo: Con la cuenta administrador, se pueden ver los

dashboards administrativos del Cluster (estado de la aplicación y del Cluster); sin

embargo, con una cuenta de usuario, sólo se pueden ver los dashboards de los

archivos de navegación, ejecutar aplicaciones y realizar trabajo de análisis.

80

FIGURA N° 21: InfoSphere BigInsights Web Console

FUENTE: Harness the power of Big Data

Herramientas de Desarrollo (Eclipse Plug-in).

Conjunto de herramientas de programación Eclipse para el desarrollo de

aplicaciones que trabajan con grandes volúmenes de datos. Este paquete de

herramientas se puede descargar desde la consola Web. Asimismo, permite a los

desarrolladores conectarse a la consola Web para probar y desplegar fácilmente

sus aplicaciones y para trabajar directamente con el clúster. Esta herramienta se

puede usar para desarrollar extractores de texto, Consultas para Big Data (usando

SQL, HiveQL y expresiones HBase) y aplicaciones para Big Data (usando Pig y

MapReduce).

BigSheet.

Aunque el sistema Hadoop hace posible el análisis de grandes volúmenes de

datos, se necesita de un programador con una buena comprensión del paradigma

MapReduce para explorar los datos, algo que la empresa GMD no posee y que

claramente puede representar una barrera. Para resolver este problema,

81

BigInsights ofrece una herramienta de visualización basada en navegador llamado

BigSheets.

Esta herramienta permite a los usuarios de la línea de negocio, aprovechar

el poder de Hadoop utilizando una interfaz de hoja de cálculo familiar. BigSheets

no requiere de programación (ya que genera código Hadoop de manera

automática) o administración especial; basta con saber utilizar una hoja de cálculo

para poder realizar el análisis de grandes volúmenes de datos, en cualquier

estructura.

Para realizar el análisis de Big Data con BigSheet, se requieren de 3 pasos:

Recopilar data: Puedes recolectar datos desde múltiples fuentes, mediante

aplicaciones que se implementan en BigInsights para rastrear la web, archivos

locales o archivos en la red. También te permite importar data de forma

personalizada.

Extraer y analizar data: Puedes manipular los datos recolectados, mediante

el uso de las herramientas de tipo hoja de cálculo que están disponibles en

BigSheets.

Explorar y visualizar data: Después de ejecutar el análisis de datos en las

hojas de cálculo, se pueden aplicar visualizaciones para ayudar a dar sentido a los

datos.

82

FIGURA N° 22: La interfaz de hoja de cálculo BigSheets


FIGURA N° 23: Visualización de datos en BigSheets


83

Herramientas de análisis de Texto.

Uno de los principales retos que tiene GMD es el análisis de datos que no están

estructurados como los correos electrónicos, documentos de proyectos, mensajes,

archivos de registros, entre otros. Por tanto, al depender cada vez más de

información que se presenta en diferentes formas de texto, es fundamental tener

un marco de trabajo que no sólo ayude a dar sentido a lo que está escrito, sino

que también ayude a hacerlo de manera rentable y rápida.

El mayor desafío consiste en analizar el texto, encontrar los elementos que

están siendo buscados, comprender su significado, y extraerlos de forma

estructurada para que pueda ser usado por otras aplicaciones. Para esto IBM

provee un juego de herramientas para análisis de texto con aceleradores, un

ambiente de desarrollo integrado (IDE) y un lenguaje de consultas (AQL) flexibles

para manejar la complejidad.

A continuación, se muestra un ejemplo de este proceso, en el cual una

aplicación de análisis de texto lee un párrafo y deriva la data estructurada basada

en diversas reglas. Estas reglas se definen en los extractores, que pueden,

identificar el nombre de una entidad dentro de un campo de texto. Ejemplo:

FIGURA N° 24: Texto de ejemplo (World Cup 2010)

FUENTE: IBM Big Data Platform.

84

El producto de estos extractores es un conjunto de texto seleccionado, tal

como se muestra en el ejemplo (texto marcado en color azul, verde y rojo). A partir

de esto, se derivan los siguientes datos estructurados:

FIGURA N° 25: Resultado de cómo trabaja el análisis de texto

FUENTE: IBM Big Data Platform

El desafío consiste en asegurar la exactitud de los resultados. Esta

exactitud se obtiene a través de dos componentes: precisión (porcentaje de

elementos en el conjunto de resultados que han sido identificados correctamente)

y recall (porcentaje de resultados relevantes recuperados del texto). Para

asegurar esta exactitud en los resultados, la solución se basa en muchas reglas

específicas, las cuales pueden ser agregadas a un extractor a través del AQL.

Una vez que el AQL ha sido compilado y optimizado, el resultado es un archivo

gráfico de operador de análisis (AOG), el cual es distribuido por cada mapeador

que se ejecuta en el clúster BigInsights. La complejidad de este proceso es

transparente para el usuario final (es decir, el usuario indica qué extraer y la

aplicación se encarga de cómo extraerlo).

85

FIGURA N° 26: Proceso de ejecución de la herramienta de análisis de texto


Base de datos NoSql HBase.

Es una base de datos distribuida orientada a columnas, que se construye sobre el

sistema de archivos Hadoop. Asimismo, es una parte del ecosistema Hadoop que

proporciona de manera aleatoria acceso de lectura / escritura de datos, en tiempo

real, sobre el sistema de archivos Hadoop.

Características de HBase:

Es horizontalmente escalable

Tiene soporte automático ante fallas

Provee lecturas y escrituras consistentes

Provee replicación de datos a través de los nodos del cluster

Se integra con Hadoop, tanto en el origen como en el destino.

Provee una API de Java amigable para clientes.

Esta base de datos brindará los siguientes beneficios a GMD:

Permitirá crear una base de datos NoSQL sobre la infraestructura Cloud de

GMD, con la finalidad de almacenar la información no estructura de los proyectos

(Documentos de lecciones aprendidas, oportunidades de mejora, correos de

quejas de los clientes, información diversa de los proyectos [documentos, audios,

videos, etc.], entre otros).

86

Proporciona tolerancia a fallos al almacenar grandes cantidades de datos

dispersos.

Permite escribir aplicaciones pesadas.

Proporciona un rápido acceso aleatorio a los datos disponibles.

Proporciona acceso aleatorio de lectura / escritura, en tiempo real sobre

grandes volúmenes de datos.

Alberga tablas muy grandes sobre los nodos del cluster Hadoop de

hardware básico.

Las Bases de datos orientadas a columnas (Column-Family) están

diseñadas para trabajar con tablas muy grandes.

Es conveniente para el procesamiento analítico.

Cuadro comparativo HBase vs. HDFS.

HDFS HBase

Es un sistema de archivos distribuido

adecuado para almacenar archivos de gran

tamaño.

Es una base de datos construida en la cima del HDFS.

No admite búsquedas rápidas de registros

individuales.

Ofrece búsquedas rápidas sobre tablas grandes.

Proporciona alta latencia en el

procesamiento por lotes; No posee ningún

concepto de procesamiento por lotes.

Proporciona baja latencia de acceso a las filas individuales

de miles de millones de registros (acceso aleatorio).

Sólo proporciona acceso secuencial de los

datos.

HBase utiliza internamente tablas hash y proporciona

acceso aleatorio; asimismo, almacena los datos en

archivos HDFS indexados para búsquedas más rápidas.

TABLA N° 16: HBase vs. HDFS

FUENTE: Apache HBase Hadoop Database

87

Mecanismo de almacenamiento en HBase.

HBase es una base de datos orientada a columnas, donde las tablas están

ordenadas por fila. El esquema de tablas sólo define las familias de columnas, las

cuales son los pares de Clave-valor (Key-value). Una tabla puede tener múltiples

familias de columnas y cada familia de columnas puede tener múltiples columnas.

Los valores de las columnas subsiguientes se almacenan de forma contigua en el

disco. Cada valor de celda en la tabla tiene una marca de tiempo. En conclusión:

Las tablas son conjuntos de filas.

Las filas son colecciones de familias de columnas.

Las familias de columnas son colecciones de columnas.

Las columnas son colecciones de pares de Clave-valor.

FIGURA N° 27: Ejemplo del esquema de tabla en la BD NoSQL HBase


Cuadro comparativo HBase vs. RDBMS.

HBase RDBMS

Carece de un esquema y no tiene el concepto de esquema de

columnas fijas. Sólo define familias de las columnas.

Se rige por su esquema, el cual

describe toda la estructura de tablas.

Está construido para grandes tablas. HBase es horizontalmente

escalable.

Está construido para pequeñas tablas y

es difícil escalar.

No hay transacciones Es transaccional

Los datos no están normalizados Cuenta con datos normalizados

Es beneficioso para datos semi-estructurados y estructurados. Es bueno para datos estructurados

TABLA N° 17: HBase vs. RDBMS


88

Arquitectura de HBase.

En HBase, las tablas se dividen en regiones y son servidos por regiones de

servidores. Las regiones se dividen verticalmente por las familias de columnas en

"Stores" (Término usado para las regiones, para explicar la estructura de

almacenamiento). Los stores son almacenados como archivos en el HDFS.

FIGURA N° 28: Diseño de la arquitectura de la Base datos NoSQL HBase


InfoSphere Streams.

Dado que los jefes y gerentes de proyecto de GMD, ya no pueden esperar días,

semanas o meses para identificar nuevas oportunidades de negocio, conocer la

salud de la empresa e identificar quejas, molestias o preocupaciones de los

clientes, con respecto a los productos y servicios que ofrecen; IBM ha

desarrollado la tecnología InfoSphere Streams, la cual ofrece la posibilidad de

obtener valor de los datos al instante (en tiempo real), mediante el análisis de

datos en movimiento (data-in-motion).

Según Zikopoulos, Deroos y Parasuraman (2013), su diseño le permite

aprovechar las técnicas de procesamiento masivo en paralelo (MPP), con la

finalidad de analizar los datos mientras son transmitidos; por tanto, GMD podrá

entender lo que está sucediendo en tiempo real, lo cual les permitirá a los jefes y

89

gerentes de proyecto, tomar las medidas correctivas y preventivas que sean

necesarias, generar decisiones oportunas y mejorar los resultados.

InfoSphere Streams, es una potente plataforma de software para análisis

computacional, que continuamente analiza y transforma los datos en memoria,

antes de que sean almacenados en disco.

En lugar de reunir grandes cantidades de datos, manipularlos y

almacenarlos en disco para posteriormente analizarlos, InfoSphere Streams,

permite aplicar la analítica directamente en los datos en movimiento. Al analizar

los datos en movimiento, se obtienen los resultados más rápidos posibles, un gran

ahorro a nivel de hardware y el más alto rendimiento.

InfoSphere Streams proveerá valor a GMD, a nivel de negocios, debido a que:

Permitirá identificar y analizar en tiempo real, los errores que se comentan

en los proyectos, evitando sobrecostos.

Permitirá identificar y analizar en tiempo real, las quejas, preocupaciones o

molestias de los clientes.

Permitirá correlacionar y combinar eventos que están estrechamente

relacionados en el tiempo.

Permitirá Conocer los cambios en el mercado y en las preferencias de los

clientes antes que la competencia.

Asimismo, es mucho más escalable y dinámico, con la finalidad de permitir

análisis más complejos y soportar una velocidad de flujo de datos mucho mayor

que otros sistemas. Muchos sistemas CEP (Complex event processing) o

sistemas de procesamiento de stream, incluyendo nuevos proyectos de código

abierto como Storm, anuncian unos cientos de miles de eventos por segundo

dentro de un Cluster; mientras que la tecnología Streams de IBM, ha demostrado

poder manejar unos pocos millones de eventos por segundo en un solo servidor.

90

FIGURA N° 29: Diseño de la arquitectura del servicio InfoSphere Streams

FUENTE: IBM Big Data Platform

Como se muestra en la figura 29, la data fluye continuamente a través de

una secuencia de operadores, en un modelo de tuberías (gráfico de nodos

conectados directamente por enlaces). Cada nodo en el grafico es un operador o

adaptador que procesa la data de un flujo. Los operadores de filtro se encargan de

descartar la data que no es útil o relevante, los operadores de modificación se

encargan de transformar la data en flujos de datos derivados, los operadores de

fusión se encargan de combinar diferentes tipos de datos, los operadores de

clasificación se encargan de enviar diferentes tipos de datos a diferentes

operadores que se encuentran más adelante en la tubería y otros operadores

pueden incluso enviar señales a las primeras etapas de análisis para cambiar el

comportamiento (control de calidad). Cuando los operadores son demasiado

lentos para mantenerse al día, un flujo de datos puede ser dividido y enviado a

instancias paralelas de aquellos operadores. Asimismo, estos operadores pueden

ser agregados, actualizados o eliminados de manera dinámica sin necesidad de

detener el análisis.

Los operadores pueden tener cero o más entradas y cero o más salidas,

las salidas de un operador se conectan con las entradas de otro operador. Los

enlaces (flechas) que unen a los nodos, representan el flujo de datos en

91

movimiento entre los operadores. Cada salida de un operador, define un nuevo

flujo de datos y otros operadores pueden conectarse a dicho flujo, los operadores

que se encuentran al inicio de la tubería pueden incluso conectarse a un flujo

producido por operadores que se encuentran al final de la tubería, lo que permite

control de flujos para cambiar el cálculo de los operadores iniciales con nuevos

conocimientos que no habían sido descubiertos.

En la figura 30 se muestra un modelo simple de flujo que lee data desde un

archivo, lo envía a un operador conocido como functor (función encargada de

transformar los datos de entrada), alimenta con esa data al operador split y luego,

dependiendo de su contenido, alimentará a un file sink o a una base de datos.

FIGURA N° 30: Modelo simple de la arquitectura del servicio InfoSphere Streams


Los elementos de datos dentro de un flujo son conocidos como tuplas, las

cuales representan paquetes de datos, formados por un conjunto de atributos para

un determinado objeto. Cada elemento en la tupla contiene el valor para ese

atributo y puede ser de tipo numérico, fecha, cadena o binario.

Los operadores más simples trabajan en una tupla a la vez. Estos

operadores pueden filtrar una tupla en base a las características de sus atributos,

extraer información adicional y transformarla antes de enviar los datos a un flujo

de salida.

Para correlacionar datos a través de diferentes flujos y ordenar tuplas, se

utilizan ventanas de datos (Windows of data), que son secuencias finitas de tuplas

similares a las vistas de las bases de datos relacionales. Estas ventanas son

92

actualizadas continuamente conforme nuevos datos llegan, mediante la

eliminación de las tuplas más antiguas y añadiendo las nuevas tuplas.

InfoSphere Streams también tiene el concepto de operadores compuestos,

los cuales consisten en un subgráfico de flujos reutilizable y configurable.

Asimismo, todas las aplicaciones contienen al menos un compuesto (compuesto

principal de la aplicación), pero pueden incluir más de uno (los compuestos

también pueden ser anidados). Un compuesto define cero o más flujos de entrada

y cero o más flujos de salida.

InfoSphere Information Server.

Según IBM (2015), Proporciona una plataforma para la integración de datos,

donde los componentes de la suite ofrecen resultados empresariales rápidos, a la

vez que mantienen la integridad y calidad de los datos en todo el ámbito de la

información.

InfoSphere Information Server proveerá valor a GMD, ya que le permitirá a

la empresa y a sus colaboradores, comprender el significado, la estructura y el

contenido de la información procedente de una amplia gama de orígenes.

Asimismo, permitirá acceder y utilizar la información de nuevas formas, para

impulsar la innovación, incrementar la eficacia operativa y disminuir el riesgo. Por

último, esta tecnología permitirá integrar los siguientes orígenes de información en

GMD: Documentos de lecciones aprendidas, documentos de oportunidades de

mejora, información y datos sobre costos, correos de quejas de los clientes,

información diversa de los proyectos, entre otros.

En la figura 31, se muestran las funciones claves del InfoSphere

Information Server que permitirán implementar una estrategia completa de

integración de datos. El núcleo de estas funciones es un repositorio común de

metadatos que almacenan los metadatos importados, las configuraciones, los

informes y los resultados de proyecto para todos los componentes de InfoSphere

Information Server. Cuando se comparten datos en el repositorio de metadatos,

otros usuarios de la organización pueden interactuar con los activos importados y

utilizarlos en otros componentes de InfoSphere Information Server.

93

FIGURA N° 31: Funciones de integración del InfoSphere Information Server

FUENTE: InfoSphere Information Server 11.5.0.

Comprender y colaborar (Information Governance).

Esta función permite mejorar la visibilidad y el control de los datos, permitiendo

vistas completas y autorizadas de la información con pruebas de calidad. Estas

vistas pueden estar disponibles y reutilizarse como servicios compartidos,

mientras que las reglas inherentes de las mismas se mantengan de forma

centralizada.

Limpiar y supervisar (Data Quality).

Esta función Estandariza, limpia y valida la información en el procesamiento por

lotes y en tiempo real. Asimismo, Carga información limpia en vistas analíticas

para supervisar y mantener la calidad de los datos. Estas vistas pueden ser

reutilizadas por toda la empresa para establecer métricas de calidad de datos que

estén alineadas con objetivos empresariales, permitiendo a la organización

descubrir y solucionar problemas de calidad de datos.

94

Por otro lado, permite enlazar registros relacionados a través de los

sistemas para garantizar la coherencia y la calidad de la información; consolida

datos dispares en un único registro fiable para garantizar que los mejores datos

sobrevivan en varios orígenes y carga este registro maestro en almacenes de

datos operativos, bases de datos o aplicaciones de datos maestros para crear una

fuente de información fiable.

Transformar y ofrecer (Data Integration).

Esta función permite Diseñar y desarrollar un proyecto de integración de datos

para mejorar la visibilidad y reducir el riesgo; descubrir relaciones entre sistemas y

definir reglas de migración que integren metadatos de activos a través de varios

orígenes y destinos. Comprender las relaciones e integrar los datos reduce los

costos operativos y estimula la calidad de los datos.

Por otro lado, permite recopilar, transformar y distribuir grandes volúmenes

de datos. Asimismo, utilizar las funciones de transformación incorporadas que

reducen el tiempo de desarrollo, mejoran la escalabilidad y proporcionan un

diseño flexible. Esto permitirá Ofrecer datos en tiempo real a las aplicaciones

empresariales, a través de entrega de datos masivos (ETL), entrega de datos

virtuales (federados) o entrega de datos incrementales (Change data capture).

Fases de la integración de información.

InfoSphere Information Server se centra en varias fases que forman parte de un

proyecto de integración de datos eficaz. La figura 32, muestra como los

componentes de la suite trabajan en conjunto para crear una solución de

integración de datos unificada. Un producto base de metadatos común permite

que distintos tipos de usuarios creen y gestionen metadatos utilizando

herramientas que están optimizadas para sus roles.

95

FIGURA N° 32: Fases de la integración de Información


Los analistas de datos, utilizan el InfoSphere Discovery para automatizar la

identificación y definición de relaciones de datos, alimentando con dicha

información al InfoSphere Information Analyzer y al InfoSphere FastTrack.

Los especialistas en calidad de datos, utilizan el InfoSphere Information

Analyzer para diseñar, desarrollar y gestionar reglas de calidad de datos. A

medida que los datos de la empresa evolucionan, estas reglas se pueden

modificar en tiempo real para que dicha información fiable se ingrese

al InfoSphere Information Governance Catalog, InfoSphere FastTrack, InfoSphere

DataStage, InfoSphere QualityStage y a otros componentes del InfoSphere

Information Server.

Los analistas de datos, utilizan el InfoSphere FastTrack para crear

especificaciones que conviertan los requisitos de la empresa en aplicaciones.

Los especialistas en integración de datos, utilizan estas especificaciones para

generar trabajos que se conviertan en el punto de partida de una transformación

compleja de datos. Mediante el uso del InfoSphere DataStage y QualityStage

Designer, los especialistas en integración de datos, desarrollan trabajos que

extraen, transforman y comprueban la calidad de los datos. Los arquitectos de

SOA, utilizan el InfoSphere Information Services Director para desplegar tareas de

integración a partir de los componentes de la suite.

96

InfoSphere Information Governance Catalog, proporciona informes de

flujos de datos y análisis de impacto completos de los activos de datos de la

organización. Los analistas empresariales, los analistas de datos y los

especialistas en integración de datos y otros usuarios interactúan con este

componente para explorar y gestionar los activos que InfoSphere Information

Server produce y utiliza. InfoSphere Information Governance Catalog, permite a

los usuarios comprender y gestionar el flujo de datos de la empresa, así como

descubrir y analizar las relaciones entre activos de información en el repositorio de

metadatos.

Componentes de la suite del InfoSphere Information Server.

La suite de InfoSphere Information Server, consta de varios componentes (tal

como se muestra en la tabla 16), que proporcionan distintas funciones para la

integración de datos. Juntos, estos componentes forman los bloques de

construcción necesarios para ofrecer información fiable en toda la empresa,

independientemente de la complejidad del entorno.

Componentes Descripción

InfoSphere DataStage Es una herramienta de integración de datos que permite a los usuarios mover y transformar

datos entre los sistemas de destino operacionales, transaccionales, y analíticos.

InfoSphere

QualityStage

Proporciona capacidades para crear y mantener una visión precisa de las entidades de datos

como: clientes, ubicaciones, vendedores y productos a lo largo de la empresa.

InfoSphere Data Click

Es una herramienta basada en web, utilizada para cargar datos entre las fuentes de datos

internas (on-premises) y externas (off-premises), incluyendo bases de datos y plataformas de

almacenamiento en el Cloud como Amazon S3.

InfoSphere FastTrack

Proporciona capacidades para automatizar el flujo de trabajo de la integración de datos. Los

usuarios pueden automatizar y monitorear múltiples tareas de integración de datos,

reduciendo el tiempo entre el desarrollo de los requerimientos de negocio y la implementación

de la solución.

InfoSphere Information

Analyzer

Proporciona capacidades para perfilar y analizar datos, con la finalidad de ofrecer información

fiable a la organización.


Governance Catalog

Es una herramienta basada en web que permite a los usuarios manejar un vocabulario

empresarial. Asimismo, proporciona información sobre el flujo de datos de los activos que son

utilizados por los componentes de IBM InfoSphere Information Server.


Governance Dashboard

Mide la efectividad del control de información, mediante la consulta y visualización de los

metadatos técnicos, operativos y de negocios.


Services Director

Proporciona un entorno integrado que permite a los usuarios desplegar rápidamente la lógica

de InfoSphere Information Server como servicios.

97

InfoSphere Data

Architect Permite diseñar y comprender los activos de los datos y sus relaciones.

InfoSphere Discovery Proporciona técnicas de exploración y análisis de datos para descubrir automáticamente las

relaciones y correlaciones entre los datos estructurados de la empresa.

TABLA N° 18: Componentes de la suite InfoSphere Information server


Arquitectura del InfoSphere Information Server.

InfoSphere Information server proporciona una arquitectura unificada que funciona

con todos los tipos de integración de datos. Los servicios comunes, los procesos

paralelos unificados y los metadatos unificados son la base de la arquitectura.

La arquitectura está orientada a los servicios, permitiendo conectar los

módulos individuales de los productos de la suite. Asimismo, utiliza recursos de

hardware de forma eficiente, reduciendo los esfuerzos de desarrollo y

administración necesarios para desplegar una solución de integración.

FIGURA N° 33: Arquitectura del InfoSphere Information Server


98

Motor de procesos paralelos unificados.

La mayor parte del trabajo que realiza InfoSphere Information Server ocurre en el

motor de procesamiento en paralelo. El motor gestiona necesidades de procesos

de datos que pueden ser muy variadas, como el análisis de bases de datos de

gran tamaño para IBM InfoSphere Information Analyzer, la limpieza de datos

para IBM InfoSphere QualityStage y transformaciones complejas para IBM

InfoSphere DataStage. Este motor de procesamiento en paralelo, está diseñado

para ofrecer las siguientes ventajas:

Paralelismo e interconexión de datos, para completar volúmenes

crecientes de trabajo, en lapsos de tiempo cada vez menores.

Escalabilidad gracias a la adición de hardware, sin realizar cambios en el

diseño de integración de datos.

Procesos optimizados de bases de datos, archivos y colas para gestionar

archivos de gran tamaño o para gestionar un elevado número de archivos

pequeños.

Conectividad común

InfoSphere Information Server se conecta a fuentes de informaciones,

estructuradas, no estructuradas, en el sistema principal o en las aplicaciones. La

conectividad controlada por metadatos se comparte entre los componentes de la

suite y los objetos de conexión pueden volver a utilizarse en las distintas

funciones.

Los conectores proporcionan importación de metadatos en el diseño,

examen y muestreo de datos. Asimismo, acceso dinámico a metadatos en la

ejecución, manejo de errores, y acceso a datos en la ejecución de alta

funcionalidad y alto rendimiento. Las interfaces integradas para las aplicaciones

empaquetadas, denominadas paquetes, proporcionan adaptadores para SAP,

Siebel, Oracle y otros, lo que permite la integración con aplicaciones

empresariales y con sistemas de análisis y generación de informes.

99

Metadatos unificados.

InfoSphere Information Server está creado sobre una infraestructura de metadatos

unificados que permite el uso compartido de dominios empresariales y dominios

técnicos. Esta infraestructura reduce el tiempo de desarrollo y proporciona un

registro permanente que puede mejorar la confianza en la información. Todas las

funciones de InfoSphere Information Server comparten el mismo modelo, lo que

facilita la colaboración de distintos roles y funciones.

Un repositorio de metadatos común proporciona almacenamiento

permanente para todos los componentes de la suite. Asimismo, todos los

productos dependen del repositorio para navegar por los metadatos, consultarlos

y actualizarlos. El repositorio contiene dos tipos de metadatos:

Dinámico: Los metadatos dinámicos incluyen información de diseño.

Operativos: Los metadatos operativos incluyen datos para la supervisión del

rendimiento, auditoría, registro y datos de muestro, para la creación de perfiles de

datos.

Dado que el repositorio se comparte entre todos los componentes de la

suite, la información de creación de perfiles, creada por InfoSphere Information

Analyzer, está disponible de forma instantánea para los usuarios de InfoSphere

DataStage e InfoSphere QualityStage.

El repositorio es una aplicación J2EE que utiliza una base de datos

relacional estándar como IBM DB2, Oracle o SQL Server para la persistencia

(DB2 se proporciona con InfoSphere Information Server). Estas bases de datos

permiten la realización de copias de seguridad, administración, escalabilidad,

acceso paralelo, transacciones y acceso simultáneo.

Servicios comunes.

InfoSphere Information Server está creado sobre la base de un conjunto de

servicios compartidos que centralizan las tareas principales de la plataforma.

Estas tareas incluyen la seguridad, la administración de usuarios, el registro

cronológico y la generación de informes. Los servicios compartidos permiten

gestionar y controlar estas tareas desde un único lugar, independientemente del

componente de la suite que se utilice.

100

Los servicios comunes también incluyen servicios de metadatos, que

proporcionan acceso estándar orientado a servicios y análisis de metadatos en

toda la plataforma. Además, la capa de servicios comunes gestiona la forma de

desplegar los servicios desde cualquiera de las funciones del producto, lo que

permite publicar reglas de limpieza, transformación o consultas como servicios

compartidos dentro de SOA, utilizando un mecanismo sencillo y coherente.

Los productos de InfoSphere Information Server pueden acceder a tres

categorías generales de servicios:

Diseño: Los servicios de diseño ayudan a crear servicios específicos para

cada función, que también pueden compartirse. Por ejemplo, InfoSphere

Information Analyzer llama a un servicio de analizador común que se creó para el

análisis de datos empresariales, pero que puede integrarse con otras partes

de InfoSphere Information Server porque ofrece características SOA comunes.

Ejecución: Incluyen registros cronológicos de planificación, supervisión,

generación de informes y seguridad e infraestructura web.

Metadatos: Permiten compartir metadatos entre distintas herramientas, de

modo que, los cambios realizados en un componente de InfoSphere Information

Server, se reflejan de forma instantánea en todos los componentes de la suite.

Asimismo, los servicios de metadatos se integran con el repositorio de metadatos,

permitiendo intercambiar metadatos con herramientas externas.

Interfaz de usuario unificada.

InfoSphere Information Server se presenta como una interfaz gráfica común, con

herramientas para un marco de trabajo. Las interfaces compartidas, como la

Consola web de IBM InfoSphere Information Server, ofrecen una interfaz común

con controles visuales y una experiencia de usuario similar en los distintos

productos. Las funciones comunes, como examinar catálogos, importar

metadatos, realizar consultas y examinar datos, ofrecen servicios comunes de

manera uniforme. InfoSphere Information Server proporciona interfaces de cliente

de gran calidad, para realizar un trabajo de desarrollo minucioso; mientras que las

interfaces de clientes ligeras, se ejecutan en navegadores web para llevar a cabo

la administración.

101

IBM Cognos.

Según Browne et al. (2010), IBM Cognos Business Intelligence (BI), es un

componente de IBM Cognos Enterprise que ayuda a tomar decisiones de

negocios de manera inteligentes y con mayor rapidez. Asimismo, proporciona

reportes, análisis, dashboards y scorecards que pueden ser utilizados a través de

los navegadores de Internet y dispositivos móviles o enviados a un buzón de

correo electrónico. Estas herramientas ayudan a comprender el rendimiento

empresarial, explorar libremente la información, analizar datos clave y colaborar

rápidamente para alinear las decisiones con los principales interesados (jefes y

gerentes de proyectos). Por otro lado según Zikopoulos, Deroos y Parasuraman

(2013), IBM Cognos BI, ha sido extendido para ser usado con grandes volúmenes

de datos a través de la integración con la plataforma Big Data. Asimismo, está

integrado y certificado con InfoSphere BigInsights e InfoSphere Streams.

IBM Cognos Real time monitoring (Cognos RTM), es otro componente de

IBM Cognos Enterprise que proporciona visualización y análisis, en tiempo real,

sobre la analítica de streaming (flujos de datos) obtenida desde InfoSphere

Streams.

IBM Cognos BI ayudará a GMD en lo siguiente:

Visualizar, de manera rápida, fácil y amigable, el análisis de grandes

volúmenes de datos para la generación de decisiones oportunas por parte de los

jefes y gerentes de proyecto.

Analizar Dashboards y reportes que faciliten la generación de toma de


Analizar y personalizar información de gran volumen, combinación y

complejidad.

Tomar decisiones de manera segura (El análisis predictivo proporciona una

visión hacia el futuro para la visibilidad del negocio).

Explorar todo tipo de información, desde todos los ángulos, para evaluar la

situación actual del negocio.

102

Transformar el negocio, de una operación reactiva a una organización

proactiva.

Acceder a la información y tomar acción en cualquier lugar, aprovechando

los dispositivos móviles y el análisis en tiempo real.

IBM Cognos Business Insight, es una interfaz basada en web que permite

crear, editar o abrir dashboards sofisticados e interactivos para conocer y facilitar

la toma de decisiones. Los dashboards, son la manera más popular de presentar

información en base a las necesidades de negocio de los usuarios, asimismo, se

pueden crear diferentes tipos de reportes (gráficas, listas y tablas) para ser

usados dentro de los dashboards.

A continuación se indican algunas de las características de los dashboards:

Vista rápida de los resultados de negocio: Representación visual de la

información más importante sobre el rendimiento del negocio. La información se

consolida y se organiza de tal manera que hace fácil su control y seguimiento.

Interactividad y personalización: Es intuitivo e interactivo para que los

usuarios de negocio puedan personalizar el contenido y adaptarlo a sus

necesidades.

Proactividad y colaboración: Los usuarios de negocio, pueden tomar

acción directamente desde el panel de control, utilizando la colaboración y la

integración del flujo de trabajo para la tomar decisiones.

Ensamblaje de información desde diferentes fuentes: Combinan datos

desde diferentes fuentes para dar a los usuarios una visión completa sobre el

desempeño del negocio.

103

La interfaz de usuario del IBM Cognos Business Insight tiene los siguientes

componentes:

Una página de introducción que se muestra al iniciar el IBM Cognos Business

Insight.

Una barra de aplicaciones.

Un área de diseño para Dashboards.

Un panel de contenido que incluye las pestañas de contenido y herramientas

Widgets y filtros.

FIGURA N° 34: Interfaz de usuario del IBM Cognos Business Insight

FUENTE: IBM Cognos Business Intelligence V10.1 Handbook.

Personalizar el contenido de un Dashboard.

Cognos Insight utiliza un motor de análisis en memoria que proporciona la

velocidad y la flexibilidad para ver los datos de una manera que tenga el mayor

sentido para la organización.

104

Cuando se inicia el IBM Cognos Business Insight, se puede seleccionar

entre abrir un Dashboard existente o crear uno nuevo. Los usuarios de negocio

pueden crear reportes y dashboards, que incluyan toda la información necesaria

para que puedan trabajar. Es decir, pueden personalizar los dashboards según

sea conveniente con la finalidad de responder y adaptarse a sus necesidades

específicas. Estas necesidades pueden incluir la reorganización del diseño,

cambios en los gráficos, el reordenamiento fácil de los datos para ver cómo se

clasifican los valores de mayor a menor y la búsqueda de un reporte adicional que

puede ser agregado al espacio de trabajo.

En tan sólo 60 segundos, se puede ir desde datos en bruto hasta el

análisis y publicación de un dashboard. Esto significa que la empresa GMD, podrá

detectar rápidamente los cambios en el mercado, cifras de ventas y cambios en

los proyectos en tiempo real; lo que le permitirá responder de inmediato a las

nuevas oportunidades o amenazas.

Pasos para personalizar el contenido de un Dashboard.

Primero: Abrir la conexión del IBM Cognos, usando la siguiente URL:

http://machinename/ibmcognos

Segundo: En el panel de acciones, seleccionar la opción crear Dashboard

para abrir la página de inicio del IBM Cognos Business Insight. En esta página, se

puede personalizar un Dashboard en base a un Dashboard existente.

FIGURA N° 35: Página de Inicio: Abrir un Dashboard existente


http://machinename/ibmcognos

105

Tercero: Seleccionamos la opción abrir y el Dashboard se abrirá como se

muestra a continuación:

FIGURA N° 36: Abrir un Dashboard existente en el Business Insight

FUENTE: IBM Cognos Business Intelligence V10.1 Handbook

Cuarto: Al analizar de cerca los datos de un reporte, se puede reorganizar

el diseño de un Dashboard. Se puede cambiar la ubicación de los gráficos

ubicados dentro de los contendores en el interior del Dashboard.

FIGURA N° 37: Mover los contenedores de gráficos


106

Quinto: Se debe tener en cuenta que puede haber reportes que muestren

la misma información y ocupen espacio en el Dashboard. En estos casos es

recomendable eliminar los reportes redundantes. Para esto seleccionar la opción

Eliminar Dashboard y luego confirmar la eliminación.

FIGURA N° 38: Eliminar los contenedores de gráficos


Sexto: Cambiar el diseño de los gráficos según convenga y de modo que

sea más fácil comparar los datos.

FIGURA N° 39: Modificar los tipos de pantalla


107

Séptimo: Finalmente el Dashboard luce como se muestra en la Figura 40

FIGURA N° 40: Modificar los tipos de pantalla


Agregar contenido No-BI a un Dashboard.

Además de contenido de IBM Cognos BI, se puede agregar contenido no-BI a un

dashboard, tales como imágenes, texto, páginas web o feeds RSS. En el

escenario de negocios de GMD, se requiere incluir reportes, documentos y

noticias de diferentes fuentes.

Inteligencia de negocios colaborativa.

La colaboración juega un papel importante en la toma de decisiones y en la

resolución de problemas de negocios. Aunque la creación de reportes y

Dashboards y el análisis de datos, son tareas que normalmente se realizan de

manera individual por cada usuario, cuando se trata de tomar decisiones de

negocio en base a esa información, se suelen crear Reportes y Dashboards para

un grupo de usuarios que se encargarán de realizar el análisis de datos en

conjunto.

108

Este componente, permite Informar, comprometer y alinear a todos en la

organización, con respecto a la toma de decisiones basada en la información de

colaboración.

Interface avanzada de IBM Cognos Business Insight.

Es una herramienta basada en web utilizada por usuarios de negocio y analistas

avanzados para crear y analizar reportes. Esta herramienta también permite que

los usuarios tomen ventaja de las características de exploración y análisis

interactivos mientras construyen reportes. Las características de interacción y

análisis, les permiten ensamblar y personalizar las vistas, para seguir una línea de

pensamiento y generar perspectivas únicas de manera fácil. Asimismo, su interfaz

es intuitiva y amigable con la finalidad de minimizar la inversión en capacitación.

FIGURA N° 41: Interfaz Avanzada de usuario del IBM Cognos Business Insight


109

Visualización Variada y rica.

Según Ziff Davis B2B (2014), actualmente las medianas y grandes organizaciones

están luchando con grandes volúmenes de datos (Big Data) que se generan día a

día, ocasionando que los medios tradicionales de análisis y reportes, no sean

suficientes para derivar conocimientos predictivos reales y útiles de los datos.

A pesar de que se cuenta con prácticas bien definidas, software y

hardware para la recolección y almacenamiento de datos que van desde el

procesamiento de transacciones de alta velocidad, hasta el almacenamiento de

datos no estructurados en Hadoop, muchas organizaciones aún confían en los

enfoques tradicionales para la presentación de reportes. En consecuencia, filtrar

ideas útiles a partir de una amplia variedad de datos es cada vez más difícil, sobre

todo cuando los usuarios de todos los niveles de una organización exigen soporte

para la toma de decisiones, capacidad de predicción, acceso a los datos en

tiempo real e información específica.

En este punto la visualización, rica y variada, se convierte en la mejor

solución, pues permite una progresión natural para el análisis de negocios,

ofreciendo gráficos atractivos, interactivos y altamente descriptivos que se

adaptan bien a una variedad de tipos de datos. La visualización complementa las

prácticas estándares y típicas de los reportes escritos, tabulares y gráficos, lo que

simplifica muchos aspectos de la presentación de los datos y la entrega del

conocimiento de negocio a los usuarios. La ventaja más importante de la

visualización, es que permite realizar un análisis exploratorio lo suficientemente

potente para que los científicos de datos lo usen y lo suficientemente accesible

para que los usuarios finales puedan realizar su trabajo.

Para entender mejor la visualización y las formas en que puede agregar

valor a las organizaciones, es útil ver ejemplos de herramientas modernas

generadas con diferentes tipos de datos. Si bien algunas de las visualizaciones

que se muestran a continuación son gráficos y tablas bastante típicos, otros

gráficos tienen enfoques completamente diferentes para la presentación de los

datos:

El gráfico de barras apiladas muestra una medida única para múltiples

categorías a través del tiempo.

110

FIGURA N° 42: Reporte de Gráfico de Barras

FUENTE: How IBM Business Analytics Lets Users See Big Data

El gráfico de radar muestra los ciclos semanales de datos que están

dispuestos en forma circular para ilustrar mejor las fluctuaciones relativas de los

puntos de datos con el tiempo.

FIGURA N° 43: Reporte de Gráfico de Radar


111

En la figura 44, se aprecia un ejemplo del calendar heat map (Mapas de

calor), que muestra dos años de cambios (en porcentaje) en los pedidos de los

clientes web por año (fila), mes (columna), día de la semana (fila sub), semana

(columna sub) y día. Los Mapas de calor pueden sustituir los gráficos de líneas,

pues ofrecen una representación más intuitiva y compacta de los datos en capas.

FIGURA N° 44: Calendario de mapas de calor


El reporte Theme River (Río de temas), es útil para visualizar los datos no

estructurados y basados en texto. En el ejemplo de la figura 45, se muestran las

frases más populares relacionadas a los videojuegos sobre una línea de tiempo.

FIGURA N° 45: Reporte Theme River


112

La visualización de redes sociales muestra patrones de confianza del

cliente, personas influyentes claves y su alcance. Al igual que el reporte Theme

River, este tipo de gráfico sería imposible de generar con herramientas

tradicionales, como las hojas de cálculo e incluso muchas aplicaciones analíticas.

FIGURA N° 46: Reporte para las redes sociales


113

Una visualización jerarquía representa la magnitud relativa de puntos de

datos, así como subconjuntos de datos, utilizando burbujas de diversos tamaños y

colores. En el ejemplo de la figura 47, la visualización muestra el número de

respuestas de una campaña a nivel regional, estatal y municipal. Se debe tener en

cuenta que una sola escala se aplica a través de todas las burbujas,

reemplazando los gráficos circulares anidados o secuenciales con un solo gráfico.

FIGURA N° 47: Reporte de visualización jerárquica


Los mapas de árboles muestran datos como rectángulos anidados, el

tamaño de cada rectángulo representa su importancia jerárquica en un conjunto

de datos. La figura 48, muestra la vista de un mapa de árbol de una red social a

partir de un servicio de streaming media.

114

FIGURA N° 48: Mapa de árbol


Hay muchos tipos de visualizaciones que mejoran o reemplazan los

gráficos típicos, como los diagramas de acordes (utilizados para mostrar las

relaciones entre las entidades) o el mapa del árbol, los cuales representan nuevas

formas de ver los datos. Independientemente del tipo de visualización que se

utilice, los diferenciadores claves, entre la visualización y las técnicas estándares

de reportes, son la interactividad y la intuición. La visualización apela a nuestra

comprensión inherente de las relaciones espaciales e ilustraciones gráficas,

mientras nos permite profundizar en los datos para explorar más a fondo y

examinar áreas de interés.

115

Integración del Cognos BI con el InfoSphere BigInsights.

Según Tavoularis (2013), IBM Cognos Business Intelligence, a través de su

interoperabilidad con IBM InfoSphere BigInsights, ahora tiene fácil acceso a los

datos de origen no estructurados, proporcionando a los analistas de negocio la

exposición a las conclusiones clave que se encuentran en grandes volúmenes de

texto.

Hive es un sistema de data Warehouse que se encuentra en la cima de

Hadoop y ofrece herramientas de extracción, transformación y carga (ETL) que

pueden añadir estructura para igualar las fuentes de datos basadas en texto y

permitir el análisis de grandes volúmenes de datos almacenados en el sistema de

archivos distribuido Hadoop (HDFS).

Cognos Business Intelligence genera HiveQL para consultar el sistema de

archivos BigInsights. Como se muestra en la Figura 66, el servidor Cognos BI se

conecta al BigInsights a través del controlador BigInsights Hive JDBC. Los

metadatos del Catálogo Hive pueden ser importados dentro del Cognos

Framework Manager, permitiendo que el modelador de inteligencia de negocios

publique paquetes de contenido BigInsights al servidor de Cognos BI. Estos

paquetes se pueden utilizar para crear reportes, dashboards y espacios de

trabajo, a la vez que aprovechan las capacidades del BigInsights MapReduce.

FIGURA N° 49: Arquitectura de la integración de Cognos BI y BigInsights

FUENTE: Cognos Business Intelligence 10.2 reporting on InfoSphere BigInsights

116

Análisis de Big Data con IBM Cognos Dynamic Query.

Según IBM Corporation. (2013), El servidor de Cognos BI interpreta las

especificaciones que se requieren para los reportes y las traduce en consultas de

recuperación de datos que se adaptan a las fuentes más populares como

RDBMS, OLAP, CRM y ERP. El Término consulta dinámica se refiere a la

planificación y ejecución de consultas utilizando el motor de consulta extensible,

basado en Java, en la plataforma Cognos.

El corazón de la plataforma Cognos es su arquitectura orientada a

servicios (SOA), la cual está construida sobre un conjunto de servicios peer-to-

peer interoperables y extensibles a través de interfaces y protocolos estándar.

Esta característica permite que las organizaciones puedan realizar el análisis de

Big Data a través de la Web, dispositivos móviles, o vía e-mail.

Dado que el éxito del negocio depende de su capacidad para analizar la

información de forma rápida, para encontrar las respuestas correctas y

presentarlas de manera oportuna, IBM Cognos Business Intelligence proporciona

un modo mejorado de ejecutar consultas, basado en Java. Estas consultas

dinámicas conservan los conjuntos de resultados y metadatos capturados en la

memoria caché, de Manera que se puedan reutilizar para minimizar los tiempos de

espera de futuras consultas.

FIGURA N° 50: IBM Cognos Dynamic Query integrado con IBM Cognos BI

FUENTE: Big Data Analytics with IBM Cognos BI Dynamic Query.

117

Propuesta de Análisis de Datos No Estructurados Completa

FIGURA N° 51: Arquitectura de grandes volúmenes de datos Completa

FUENTE: Elaboración Propia

118

RESULTADOS

Se presentan los resultados de la encuesta sobre el impacto de la propuesta de análisis

de datos no estructurados en la generación de decisiones oportunas en la

implementación de proyectos de GMD.

1. ¿Qué tan útil considera que es la información utilizada actualmente en la toma de

decisiones?

Opciones Frecuencia Porcentaje Porcentaje acumulado

1 6 16% 16%

2 13 35% 51%

3 11 30% 81%

4 6 16% 97%

5 1 3% 100%

Total 37 100% 100%





Análisis e interpretación:

Como se muestra en la tabla 19 y figura 52, el 81% de los encuestados afirman que la

información disponible actualmente para la toma de decisiones es poco o nada útil;

mientras que el 19% afirma que la información disponible es útil o muy útil.

119

8%

0%

5% 5%

41%

32%

14%

16%

22%

32%

19%

32%

46%

22%

16%

38%

35%

24%

27%

11%

3%

19%

8%

24%

0%0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Documentos sobre leccionesaprendidas

Costos de los proyectos. Quejas de los clientes (Correos,documentos, entre otros).

Documentación propia de losproyectos.

Audios y videos de comitésejecutivos y operativos.

Nunca Casi Nunca A Veces Casi Siempre Siempre

2. Frecuencia en el uso de la información






Como se muestra en la tabla 20 y figura 53, la documentación de los proyectos y costos

tienen el mayor porcentaje de uso: mientras que los audios y videos de los comités y las

lecciones aprendidas, casi nunca o nunca son usados durante la toma de decisiones.

Opciones

A Veces Casi Nunca Casi Siempre Nunca Siempre

Recuento % del N de fila





Documentos sobre

lecciones aprendidas 7 18.9% 12 32.4% 14 37.8% 3 8.1% 1 2.7%

Costos de los proyectos 12 32.4% 5 13.5% 13 35.1% 0 0.0% 7 18.9%

Quejas de los clientes 17 45.9% 6 16.2% 9 24.3% 2 5.4% 3 8.1%

Documentación propia de

los proyectos. 8 21.6% 8 21.6% 10 27.0% 2 5.4% 9 24.3%

Audios y videos de

comités ejecutivos y

operativos.

6 16.2% 12 32.4% 4 10.8% 15 40.5% 0 0.0%

120

3. Frecuencia de los siguientes problemas generales

Opciones

A Veces Casi Nunca Casi Siempre Nunca Siempre



Recuento

% del N de fila


Recuento

% del N de fila

Retraso en la toma de

decisiones. 13 35.1% 4 10.8% 15 40.5% 0 0.0% 5 13.5%

Sobrecostos en los

proyectos. 14 37.8% 2 5.4% 12 32.4% 0 0.0% 9 24.3%

Retraso en el análisis

de información. 15 40.5% 1 2.7% 16 43.2% 0 0.0% 5 13.5%

El análisis de datos no

incluye data no

estructurada

7 18.9% 7 18.9% 14 37.8% 2 5.4% 7 18.9%






Como se muestra en la tabla 21 y figura 54, los principales problemas están relacionados

a los sobrecostos en los proyectos, a la falta de un análisis de datos que incluya data no

estructurada como audios, videos, entre otros y a retrasos en el análisis de información,

causando retrasos en la toma de decisiones.

121

4. Frecuencia de los siguientes problemas al extraer y procesar datos

Opciones

A Veces Casi Nunca Casi Siempre Siempre





No se logra obtener las fuentes y tipos de

datos necesarios. 12 32.4% 3 8.1% 18 48.6% 4 10.8%

Retrasos al extraer y procesar los datos. 14 37.8% 3 8.1% 15 40.5% 5 13.5%

Pérdida o difícil acceso a los datos no

estructurados. 11 29.7% 2 5.4% 15 40.5% 9 24.3%

Falta de una interfaz amigable para la

extracción y procesamiento de datos. 6 16.2% 1 2.7% 16 43.2% 14 37.8%

Falta de herramientas para la extracción y


datos.

9 24.3% 2 5.4% 12 32.4% 14 37.8%







a la falta de herramientas para la extracción y procesamiento de grandes volúmenes de

datos; así como a la falta de una interfaz amigable, causando retrasos en el proceso.

122

5. Frecuencia de los siguientes problemas al analizar y visualizar datos

Opciones






Análisis de datos manual. 6 16.2% 1 2.7% 18 48.6% 12 32.4%

Falta de herramientas para el análisis de

grandes volúmenes de datos. 7 18.9% 0 0.0% 15 40.5% 15 40.5%

Falta de una interfaz amigable para el análisis

y visualización de datos. 3 8.1% 0 0.0% 20 54.1% 14 37.8%

El análisis de datos se realiza sobre data

histórica. 5 13.5% 1 2.7% 19 51.4% 12 32.4%

Retrasos en el proceso de análisis de datos. 13 35.1% 0 0.0% 14 37.8% 10 27.0%







a la falta de herramientas para el análisis de grandes volúmenes de datos; así como a la

falta de una interfaz amigable para el análisis y visualización de datos, por otro lado,

actualmente el análisis de datos se realiza de forma manual y sobre data histórica,

causando retrasos en el proceso.

123

6. Frecuencia de los Efectos Negativos debido a los retrasos en la Toma de Decisiones

Opciones






Insatisfacción en

los clientes. 15 40.5% 1 2.7% 15 40.5% 6 16.2%

Hubo un

incremento en

los costos.

9 24.3% 6 16.2% 15 40.5% 7 18.9%

Se redujo la

rentabilidad de

la inversión.

8 21.6% 7 18.9% 19 51.4% 3 8.1%






Como se muestra en la tabla 24 y figura 57, los principales efectos negativos

relacionados a los retrasos en la toma de decisiones son el incremento en los costos y la

insatisfacción en los clientes, causando pérdidas monetarias a la empresa.

0% 0% 0%3%

16% 19%

41%

24% 22%

41% 41%

51%

16% 19%

8%

0%

10%

20%

30%

40%

50%

60%

Insatisfacción en los clientes. Hubo un incremento en loscostos.

Se redujo la rentabilidad de lainversión.

Nunca Casi Nunca A Veces Casi Siempre Siempre

124

7. Tiempo Real en la Toma de Decisiones

Opciones Entre 20 a 60 min Más de 1 día Más de 1 hora

Menos de 20 min

Semanas o meses

Recuento % Recuento % Recuento % Recuento % Recuento %

Extraer y

procesar

datos

1 2.7% 17 45.9% 5 13.5% 1 2.7% 13 35.1%

Analizar

datos 0 0.0% 12 32.4% 12 32.4% 0 0.0% 13 35.1%

Visualizar la

información 4 10.8% 18 48.6% 11 29.7% 0 0.0% 4 10.8%






Como se muestra en la tabla 25 y figura 58, el 46% de los encuestados indica que la

extracción y procesamiento de datos toma más de un día; mientras que el 35% indica que

el proceso toma semanas o meses. El 35% de los encuestados indica que el proceso de

análisis de datos toma semanas o meses; mientras que el 32% indica que el proceso

toma más de un día. El 49% de los encuestados indica que el proceso de visualizar la

información toma más de un día; mientras que el 30% indica que el proceso toma más de

1 hora.

125

35%

33%

24%

8% Entre 0% a 15% adicional al costo del proyecto

Entre 15% a 25% adicional al costo del proyecto



8. ¿Cuánto considera que es el sobrecosto en los proyectos, causado por los retrasos en


Opciones Frecuencia Porcentaje Porcentaje acumulado

Entre 0% a 15% adicional al costo del proyecto 13 35% 35%



Entre 50% a 75% adicional al costo del proyecto 3 8.% 100%

Total 37 100% 100%






Como se muestra en la tabla 26 y figura 59, el 35% de los encuestados indica que el

sobrecosto en los proyectos, producto de los retrasos en la toma de decisiones, está

entre el cero y 15% adicional al costo del proyecto; mientras que el 33% indica que el

sobrecosto está entre el 15% y 25% adicional al costo del proyecto. Asimismo, el 24%

indica que el sobrecosto está entre el 25% y 50% y por último, el 8% indica que el

sobrecosto está entre el 50% y 75% adicional al costo del proyecto.

126

9. Indicar el grado de importancia de las siguientes características

Opciones

Importante Indiferente Muy Importante Poco Importante





Interfaz fácil y amigable. 19 51.4% 3 8.1% 14 37.8% 1 2.7%

Análisis de datos en tiempo real o casi

real. 11 29.7% 1 2.7% 25 67.6% 0 0.0%

Rápida búsqueda, captura y extracción de

datos. 15 40.5% 0 0.0% 22 59.5% 0 0.0%

Almacenar y sistematizar la data

estructura y no estructurada. 15 40.5% 2 5.4% 20 54.1% 0 0.0%

Rápido procesamiento de grandes y

variados volúmenes de datos. 10 27.0% 1 2.7% 26 70.3% 0 0.0%






Como se muestra en la tabla 27 y figura 60, más del 70% de los gestores de proyecto

consideran como importante o muy importante las siguientes características con las que

debe contar la plataforma de análisis de grandes volúmenes de datos en tiempo real para

la toma de decisiones: rápido procesamiento de grandes y variados volúmenes de datos

y el análisis en tiempo o casi real.

127

DISCUSIÓN

En la presente tesis se desarrolló la arquitectura de la propuesta de análisis de datos no

estructurados para la generación de decisiones oportunas dentro de la empresa GMD

S.A. El propósito de la investigación es generar decisiones que sean oportunas y que

estén basadas en un análisis significativo que abarque no sólo parte de la información

almacenada en las bases de datos relaciones sino también data no estructurada que se

genera en el día a día como parte de la gestión e implementación de los proyectos.

Se realizó una encuesta a 21 jefes y 16 gerentes de proyecto de GMD para

conocer a detalle la problemática planteada y el impacto de la propuesta de análisis de

datos no estructurada en la generación de decisiones oportunas. Con base en esto se

definieron los objetivos, la hipótesis y las variables e indicadores para la medición.

De acuerdo con los resultados encontrados en esta investigación se puede decir

que actualmente los jefes y gerentes de proyecto no cuentan con la información

necesaria para generar decisiones oportunas, pues no toman en cuenta la información de

tipo no estructurada como audios, videos, documentos, imágenes, entre otros,

correspondiente a los proyectos. Asimismo, la información, sea estructurada o no

estructurada, se encuentra dispersa en diferentes repositorios y no existe ningún

mecanismo que ayude a integrar dichas fuentes de información; Por otro lado, GMD

actualmente no cuenta con herramientas o tecnologías que realicen y faciliten el análisis

y procesamiento de grandes volúmenes de datos, causando demoras y retrasos durante

el proceso de extracción, procesamiento, análisis y visualización de la información,

provocando retrasos en la toma de decisiones. Esto a su vez se traduce en sobrecostos

en los proyectos e insatisfacción en los clientes.

Otro punto importante que se pudo identificar en los resultados es la necesidad

que tienen actualmente los gestores de proyectos de minimizar los tiempos de extracción,

procesamiento, análisis y visualización de información, dado que actualmente estos

procesos, en su mayoría, llegan a tardar días, semanas o incluso meses en finalizar. Esto

se debe a que dichos procesos se ejecutan de manera manual y sobre data histórica.

En la encuesta también se pudo identificar que uno de los principales problemas

que tiene GMD, es la interfaz poco amigable y difícil que utilizan actualmente para la

búsqueda, extracción, análisis y visualización de la información, asimismo, indicaron que

la información es poco útil, pues no se toma en cuenta la data no estructurada.

128

Para resolver los problemas descritos y minimizar el tiempo durante la toma de

decisiones, la presente tesis propone como solución, utilizar las siguientes herramientas

de la plataforma Big Data de IBM: El InfoSphere Information Server y el Cognos BI que

permiten la integración de diferentes fuentes de datos y una interfaz intuitiva con

diferentes reportes y dashboards que facilitan la búsqueda, extracción y presentación de

la información; mientras que las herramientas InfoSphere BigInsights e InfoSphere

Streams, brindan la solución a los problemas de análisis y procesamientos de grandes y

variados volúmenes de datos, ya sea que éstos estén almacenados o en movimiento

(Análisis en tiempo real). Todo esto sobre una infraestructura Cloud que permite la

disponibilidad, fácil acceso y flexibilidad de los diferentes recursos a demanda. Asimismo,

un rápido crecimiento y escalabilidad, con la finalidad de realizar ajustes en el diseño

sobre la marcha (es decir, sin necesidad de recurrir a ventanas de tiempo o

indisponibilidad de servicios).

Por último, los resultados del presente estudio concuerdan con los resultados de

las investigaciones descritas en la sección de antecedentes, pues éstas tenían como

finalidad presentar propuestas de plataformas de Big Data para ofrecer procesos de

extracción de datos (estructurados y No estructurados), procedimientos para el

procesamiento de datos y herramientas para el análisis y visualización de información.

Asimismo, recomendaban aprovechar la mezcla de Big Data y Cloud Computing para

crear valor y alcanzar objetivos orientados a sus casos de estudio en sectores como el

turístico y retail.

129

CONCLUSIONES

Al finalizar el desarrollo de la presente investigación, se lograron alcanzar los objetivos

definidos y se confirman las hipótesis planteadas mediante los resultados obtenidos.

Primera: Se desarrolló una propuesta de arquitectura de análisis de datos no

estructurados con las herramientas de la plataforma de Big Data de IBM, las cuales

impactan positivamente en la generación de decisiones oportunas al reducir los tiempos

de extracción, procesamiento, análisis y visualización de datos. Asimismo, impactan

positivamente en la reducción de costos al brindar un análisis de datos en tiempo real.

De acuerdo con los resultados obtenidos, más del 50% de los gestores de

proyectos indican que actualmente los procesos de extracción, procesamiento, análisis y

visualización de datos toman aproximadamente 1 día, llegando incluso a tardar semanas

o meses dependiendo de la complejidad y/o volumen de los datos. Por lo tanto, la

propuesta de análisis de datos no estructurados, mediante las herramientas de la

plataforma Big Data de IBM, permitirán automatizar estos procesos causando una

reducción en los tiempos de respuesta a sólo segundos o minutos. En Conclusión, se

acepta la hipótesis general donde se determina que la propuesta de análisis de datos no

estructurados favorecerá la generación decisiones oportunas en la fase de

implementación de los proyectos de GMD, mediante el uso de las herramientas IBM

InfoSphere BigInsights, Streams, Information server y Cognos BI.

Segunda: De acuerdo con los resultados obtenidos, el 81% de los gestores de

proyectos consideran que la información actual y disponible es poco o nada útil; por lo

tanto, la propuesta de análisis de datos no estructurados, mediante el uso de la

herramienta InfoSphere Information Server, permitirá la integración y centralización de

diferentes fuentes y tipos de datos, tales como audios y videos de los comités ejecutivos,

documentación propia de los proyectos, correos, entre otros. Asimismo, la reducción en el

tiempo de extracción de los datos, logrando un mejor uso, facilitando el acceso y

obteniendo mayor utilidad de los grandes volúmenes de datos estructurados y no

estructurados que se generan día a día en la empresa GMD, sin importar donde estén

ubicados.

Por último, la reducción en el tiempo de procesamiento de los datos se logró

mediante el uso de la herramienta InfoSphere BigInsights, la cual permite el

procesamiento y almacenamiento de grandes y variados volúmenes de datos. En

130

conclusión, se acepta la hipótesis específica 1 donde se determina que existe un impacto

positivo en la reducción del tiempo de extracción y procesamiento de datos, favoreciendo

la generación de decisiones oportunas.

Tercera: De acuerdo con los resultados obtenidos, más del 50% de los gestores

de proyectos consideran que los principales problemas en los procesos de análisis y

visualización de datos están relacionados con la falta de herramientas e interfaz

amigable; asimismo, el análisis de datos se realiza de forma manual y sobre data

histórica, causando retrasos en estos procesos. Por lo tanto, la propuesta de análisis de

datos no estructurados, mediante el uso de la herramienta InfoSphere Streams, permitirá

la reducción en el tiempo de análisis de datos, al realizar el análisis en tiempo real o casi

real de datos como: la detección de errores en los proyectos, identificación de quejas y/o

preferencias de los clientes, correlación de eventos, entre otros.

Asimismo, la reducción en el tiempo de visualización de información se logró

mediante el uso de la herramienta Cognos BI, la cual permite la búsqueda, captura y

presentación de la información de forma fácil y rápida a través de una interfaz amigable.

Cabe resaltar que la empresa GMD carecía de este tipo de análisis e interfaz causando

demoras en la recopilación y análisis de la información. En conclusión, se acepta la

hipótesis específica 2 donde se determina que el desarrollo de la propuesta de análisis de

datos no estructurados impacta positivamente en la reducción del tiempo de análisis y

visualización de información, favoreciendo la generación de decisiones oportunas.

Cuarta: De acuerdo con los resultados obtenidos, el 65% de los gestores de

proyectos consideran que los retrasos en la toma de decisiones causan sobrecostos

desde 15% a 75% adicional al costo del proyecto. Por lo tanto, la propuesta de análisis de

datos no estructurados permitirá reducir el tiempo de extracción y procesamiento de

diferentes tipos, fuentes y tamaños de datos relaciones y no relacionales, sustentando la

toma de decisiones en un análisis de información más completo y confiable, causando

una reducción en los costos de los proyectos, al reducir los sobrecostos por retrabajos y

malas decisiones. En conclusión, se acepta la hipótesis específica 3 donde se determina

que el desarrollo de la propuesta de análisis de datos no estructurados impacta

positivamente en la reducción de costos en los proyectos de TI de GMD, mediante la

reducción en el tiempo de extracción y procesamiento de información.

131

Quinta: De acuerdo con los resultados obtenidos, más del 50% de los gestores de

proyectos consideran que los principales efectos negativos relacionados a los retrasos en

la toma de decisiones son el incremento en los costos y la insatisfacción en los clientes,

causando pérdidas monetarias a la empresa. Por lo tanto, la solución permitirá reducir el

tiempo en el análisis y visualización de la información, logrando también una reducción en

el tiempo de la toma decisiones, y por lo tanto una reducción en los sobrecostos de los

proyectos por decisiones tardías. En conclusión, se acepta la hipótesis específica 4

donde se determina que el desarrollo de la propuesta de análisis de datos no

estructurados impacta positivamente en la reducción de costos en los proyectos de TI de

GMD, mediante el análisis y visualización de información en tiempo real o casi real.

RECOMENDACIONES

Dentro de un proyecto tan ambicioso como lo fue éste, siempre se desea que exista una

mejora continua del mismo; por lo tanto, se recomienda realizar futuras investigaciones

que se centren en el proceso de implementación y desarrollo de la propuesta de análisis

de datos no estructurados para la generación de decisiones oportunas, corroborando los

resultados obtenidos en la presente tesis. Para esto es recomendable realizar la

adquisición de las herramientas de la plataforma Big Data de IBM.

Se recomienda realizar los ajustes a nivel de infraestructura sobre el cloud de

GMD, de acuerdo a lo indicado en la presente investigación, con la finalidad de

implementar la solución propuesta.

Se recomienda aplicar la solución planteada en otros sectores como el financiero,

salud, criminalística, entre otros, con la finalidad de usar la propuesta para resolver

también otros tipos de problemáticas que sean característicos de cada sector.

132

REFERENCIAS

Alam, F. (2017). Data Migration: Relational Rdbms To Non-Relational Nosql (Tesis de maestría).

Blasiak, K. (2014). Big Data; A Management Revolution: The emerging role of big data in

businesses.

Browne et al. (2010). IBM Cognos Business Intelligence V10.1. International Business Machines

Corporation. Handbook.

http://www.redbooks.ibm.com/redbooks/pdfs/sg247912.pdf

Chouffani, R. (2013). 5 Reasons to Move to Big Data. CIO.

http://www.cio.com/article/2385690/big-data/5-reasons-to-move-to-big-data--and-1-reason-

why-it-won-t-be-easy-.html

Evans C. (2013). Big data storage: Hadoop storage basics.

http://www.computerweekly.com/feature/Big-data-storage-Hadoop-storage-basics

Gartner (2017). Magic Quadrant for Data Science Platforms

https://www.gartner.com/doc/reprints?id=1-3TKD8OH&ct=170215&st=sb

Galimany Suriol, A. (2014). La creación de valor en las empresas a través del Big Data.

Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P. (2014). Metodología de la

investigación. Sexta Edición. Editorial Mc Graw Hill. México.

IBM Corporation. (2013). Big Data Analytics with IBM Cognos BI Dynamic Query. http://www.redbooks.ibm.com/technotes/tips1057.pdf

IBM Corporation (2015). InfoSphere Information Server 11.5.0. IBM Knowledge Center.

Intel IT Center. (2014). Big Data in the Cloud: Converging Technologies. Intel Solution Brief, 3-11. Izamorar. (2018). ¿Cuál es la diferencia entre dato e información? Recuperado de

https://izamorar.com/cual-es-la-diferencia-entre-dato-e-informacion/ Judd, C. M., McClelland, G. H., & Ryan, C. S. (2011). Data analysis: A model comparison

approach. Routledge.

Kelly, J. (2014). Big Data Vendor Revenue and Market Forecast 2013-2017. Wikibon. Big Data Vendor Revenue And Market Forecast 2012-2017.

Lira Segura, J.(2014). Big Data: La nueva moneda en el mundo de los negocios. Diario Gestión. Recuperado de la Web del Diario Gestión. http://gestion.pe/tecnologia/big-data-nueva-moneda-mundo-negocios-2110577

López García, D. (2013). Análisis de las posiblidades de uso de Big Data en las organizaciones (Master's thesis).

Manso, F. (2017). Análisis de modelos de negocios basados en big data para operaciones móviles.

Mérida, C. M. & Ríos, R. P. (2014). Propuesta de la plataforma de Big Data orientado al sector turístico. Recuperada de Repositorio académico UPC de http://repositorioacademico.upc.edu.pe/upc/handle/10757/346172

http://www.redbooks.ibm.com/redbooks/pdfs/sg247912.pdf

http://www.cio.com/article/2385690/big-data/5-reasons-to-move-to-big-data--and-1-reason-why-it-won-t-be-easy-.html

http://www.cio.com/article/2385690/big-data/5-reasons-to-move-to-big-data--and-1-reason-why-it-won-t-be-easy-.html

http://www.computerweekly.com/feature/Big-data-storage-Hadoop-storage-basics

https://www.gartner.com/doc/reprints?id=1-3TKD8OH&ct=170215&st=sb

http://www.redbooks.ibm.com/technotes/tips1057.pdf

http://gestion.pe/tecnologia/big-data-nueva-moneda-mundo-negocios-2110577

http://repositorioacademico.upc.edu.pe/upc/handle/10757/346172

133

Mitchell, I., Locke, M. & Wilson, M. (2012). The white book of Big Data. United Kingdom: Fujitsu Services Ltd.

Morales, G. D. F. (2010). Cloud computing for large scale data analysis. Technical report, IMT Institute for Advanced Studies.

Mouthaan, N. (2012). Effects of Big Data Analytics on Organizations’ value creation (Tesis de

maestría). Recuperada de Digital Academic Repository de http://dare.uva.nl/cgi/arno/show.cgi?fid=452536

Näsholm, P. (2012). Extracting Data from NoSQL Databases-A Step towards Interactive Visual Analysis of NoSQL Data (Tesis de maestría).

Padberg, M. D. (2017). Big Data and Business Intelligence: a data-driven strategy for e-commerce organizations in the hotel industry (Master's thesis, University of Twente).

Shields, A. (2014). Must-know: An overview of "big data". Market Realist. http://marketrealist.com/2014/07/overview-big-data/

Tavoularis J. (Enero de 2013). Cognos Business Intelligence 10.2 reporting on InfoSphere BigInsights.

Tutorials Point (2014). Apache HBase Hadoop Database. Tutorials Points Ltd. http://www.tutorialspoint.com/hbase/hbase_tutorial.pdf

Winer M. (2012). IBM Big Data Platform. IBM Corporation.

Ziff Davis B2B (2014). Visualization is Worth a Thousand Tables: How IBM Business Analytics Lets

Users See Big Data. http://public.dhe.ibm.com/common/ssi/ecm/yt/en/ytl03299usen/YTL03299USEN.PDF

Zikopoulos, Deroos y Parasuraman (2013). Harness the power of Big Data. United States of

America: The McGraw-Hill Companies.

Zhu, W., Gupta, M. & Kumar, V. (2014). Building Big Data and Analytics Solutions in the Cloud. IBM Corp.

http://dare.uva.nl/cgi/arno/show.cgi?fid=452536

http://marketrealist.com/2014/07/overview-big-data/

http://www.tutorialspoint.com/hbase/hbase_tutorial.pdf

http://public.dhe.ibm.com/common/ssi/ecm/yt/en/ytl03299usen/YTL03299USEN.PDF

134

ANEXOS

Anexo 1: Formato de Encuesta

UNIVERSIDAD SAN IGNACIO DE LOYOLA – FACULTAD DE INGENIERÍA

DATOS INFORMATIVOS:

FECHA : ………/…… / 2017

PUESTO DE TRABAJO : Jefe de Proyecto ( ) Gerente de Proyecto ( )

_______________________________________________________________________

INDICACIONES:

Este instrumento me permitirá recoger información sobre la toma de decisiones de GMD,

con la finalidad de medir indicadores como: Tiempo de análisis de información, tiempo de

toma de decisiones y sobrecostos en los proyectos.

VI. ¿Qué tan útil considera que es la información utilizada actualmente en la toma de

decisiones? Marcar del 1 al 5, teniendo en cuenta que 5 es Muy Útil y 1 Nada Útil

1 2 3 4 5

VII. Considerando la siguiente escala, por favor indicar la frecuencia en la que se

presentan los siguientes eventos en la Toma de Decisiones:

1 NUNCA

2 CASI NUNCA

3 A VECES

4 CASI SIEMPRE

5 SIEMPRE


Uso de información

01 Documentos sobre lecciones aprendidas.

02 Costos de los proyectos.

03 Quejas de los clientes (Correos, documentos, entre otros).

04 Documentación propia de los proyectos.

05 Audios y videos de comités ejecutivos y operativos.

135


Problemas Generales

06 Retraso en la toma de decisiones.

07 Sobrecostos en los proyectos.

08 Retraso en el análisis de información.

09 El análisis de datos no incluye data no estructurada como videos, audios, imágenes, correos, documentos, entre otros.

Problemas al extraer y procesar datos

10 No se logra obtener las fuentes y tipos de datos necesarios.

11 Retrasos al extraer y procesar los datos.

12 Pérdida o difícil acceso a los datos no estructurados.

13 Falta de una interfaz amigable para la extracción y procesamiento de datos.

14 Falta de herramientas para la extracción y procesamiento de grandes volúmenes de datos.

Problemas al analizar y visualizar datos

15 Análisis de datos manual.

16 Falta de herramientas para el análisis de grandes volúmenes de datos.

17 Falta de una interfaz amigable para el análisis y visualización de datos.

18 El análisis de datos se realiza sobre data histórica.

19 Retrasos en el proceso de análisis de datos.

Efectos Negativos debido a los retrasos en la Toma de Decisiones

20 Insatisfacción en los clientes.

21 Hubo un incremento en los costos.

22 Se redujo la rentabilidad de la inversión.

VIII. Considerando la siguiente escala, por favor indicar el tiempo real y que

considerada adecuado para las siguientes situaciones:

1 Menos de 20 min

2 Entre 20 a 60 min

3 Más de 1 hora

4 Más de 1 día

5 Semanas o meses

136


Tiempo Real en la Toma de Decisiones

01 Extraer y procesar datos

02 Analizar datos

03 visualizar la información

IX. ¿Cuánto considera que es el sobrecosto en los proyectos, causado por los retrasos en


( ) A. Entre 0% a 15% adicional al costo del proyecto

( ) B. Entre 15% a 25% adicional al costo del proyecto

( ) C. Entre 25% a 50% adicional al costo del proyecto

( ) D. Entre 50% a 75% adicional al costo del proyecto

( ) E. Entre 75% a 100% adicional al costo del proyecto

X. Considerando la siguiente escala, por favor indicar el grado de importancia de las

siguientes características en una plataforma de análisis de grandes volúmenes de

datos en tiempo real o casi real para la toma de decisiones:

1 Nada Importante

2 Poco Importante

3 Indiferente

4 Importante

5 Muy Importante


Características de una plataforma de análisis de grandes volúmenes de datos

01 Interfaz fácil y amigable.

02 Análisis de datos en tiempo real o casi real.

03 Rápida búsqueda, captura y extracción de datos.

04 Almacenar y sistematizar la data estructura y no estructurada.

05 Rápido procesamiento de grandes y variados volúmenes de datos.

137

Anexo 2: Respuestas de la encuesta

GESTORES PREGUNTAS

N° 1 N° 2 – a N° 2 - b N° 2 - c N° 2 – d N° 2 – e N° 3 – a N° 3 - b N° 3 - c N° 3 - d N° 3 - e

1 1 Casi Nunca Casi Siempre Casi Nunca Casi Siempre Casi Nunca Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre

2 3 A Veces Casi Siempre A Veces Casi Siempre Nunca A Veces A Veces A Veces Casi Siempre Casi Nunca

3 2 Casi Siempre Siempre Siempre A Veces A Veces A Veces A Veces A Veces Casi Nunca Casi Siempre

4 2 Nunca Casi Nunca Casi Siempre Siempre Nunca Casi Nunca A Veces A Veces Siempre Casi Siempre

5 4 Casi Nunca Siempre Casi Siempre Siempre Nunca Casi Nunca Casi Siempre A Veces A Veces A Veces

6 2 Casi Siempre Siempre A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre Siempre Casi Siempre

7 2 Casi Siempre Siempre Casi Siempre Casi Siempre Casi Nunca Siempre Siempre Siempre Siempre A Veces

8 3 A Veces Casi Siempre Casi Siempre Siempre Casi Nunca A Veces Casi Nunca Casi Siempre Casi Nunca A Veces

9 4 Casi Siempre Casi Siempre Casi Siempre Siempre Casi Nunca A Veces A Veces A Veces Casi Nunca A Veces

10 2 A Veces Casi Siempre Siempre Siempre Casi Siempre Casi Siempre A Veces A Veces A Veces A Veces

11 2 Nunca Siempre Nunca Nunca Nunca Siempre Siempre Siempre Nunca A Veces

12 2 Casi Nunca Casi Siempre A Veces A Veces Nunca A Veces Casi Siempre A Veces Nunca Casi Nunca

13 3 Nunca Casi Siempre Casi Nunca Casi Siempre Casi Nunca A Veces A Veces A Veces Casi Siempre A Veces

14 3 Casi Siempre A Veces A Veces Siempre A Veces Casi Nunca Casi Nunca Casi Nunca Casi Nunca Casi Nunca

15 2 Siempre Siempre A Veces Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre

16 4 A Veces Casi Siempre A Veces Casi Siempre Nunca Casi Siempre Siempre A Veces Siempre Casi Siempre

17 3 Casi Nunca Casi Siempre A Veces Siempre Nunca A Veces Casi Siempre Casi Siempre Casi Nunca Casi Siempre

18 5 Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Nunca Casi Siempre Siempre Casi Siempre Casi Siempre A Veces

19 1 A Veces Casi Siempre Casi Siempre Casi Siempre A Veces A Veces A Veces A Veces A Veces A Veces

20 2 Casi Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre Casi Siempre A Veces A Veces

21 4 A Veces A Veces A Veces Casi Siempre Casi Nunca A Veces A Veces A Veces A Veces Casi Siempre

22 2 A Veces Casi Nunca Casi Nunca A Veces Nunca Casi Nunca A Veces Casi Siempre Siempre Casi Siempre

23 4 Casi Nunca A Veces A Veces A Veces Nunca A Veces Casi Siempre Casi Siempre Siempre Casi Siempre

24 2 Casi Siempre A Veces Casi Siempre Casi Nunca Casi Nunca Casi Siempre A Veces A Veces A Veces Casi Siempre

138

GESTORES PREGUNTAS

N° 1 N° 2 – a N° 2 - b N° 2 - c N° 2 – d N° 2 – e N° 3 – a N° 3 - b N° 3 - c N° 3 - d N° 3 - e

25 3 Casi Siempre Casi Nunca Casi Nunca Nunca Nunca Casi Siempre Casi Siempre A Veces A Veces Casi Siempre

26 3 Casi Nunca A Veces Nunca Casi Nunca Casi Nunca Siempre Casi Siempre Casi Siempre Casi Siempre Siempre

27 1 Casi Siempre Casi Nunca Casi Siempre Casi Nunca Casi Nunca A Veces Casi Siempre Casi Siempre Casi Siempre A Veces

28 4 Casi Nunca A Veces A Veces A Veces Nunca Casi Siempre A Veces A Veces Casi Nunca A Veces

29 1 Casi Siempre A Veces A Veces Casi Siempre A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre

30 3 Casi Nunca Casi Siempre A Veces A Veces Casi Nunca A Veces Casi Siempre Casi Siempre Casi Siempre Casi Siempre

31 1 Casi Nunca A Veces Casi Nunca Casi Nunca Nunca Casi Siempre A Veces Casi Siempre Casi Siempre Siempre

32 3 Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre

33 3 Casi Nunca A Veces A Veces Casi Nunca Casi Nunca Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre

34 3 Casi Siempre Casi Nunca A Veces Casi Nunca Nunca Casi Siempre A Veces A Veces Casi Nunca Casi Siempre

35 1 Casi Nunca A Veces A Veces A Veces A Veces Siempre Siempre Siempre Siempre Siempre

36 2 Casi Nunca A Veces A Veces Casi Nunca Nunca Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre

37 2 Casi Siempre A Veces Casi Nunca Casi Nunca Nunca Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre

GESTORES PREGUNTAS

N° 4 - a N° 4 – b N° 4 - c N° 4 – d N° 5 - a N° 5 - b N° 5 – c N° 5 - d N° 5 - e N° 6 - a N° 6 - b N° 6 - c

1 Siempre Casi Siempre Siempre Siempre Siempre Siempre Siempre Casi Siempre Siempre Casi Siempre Siempre Casi Siempre

2 Casi Nunca Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre A Veces Casi Nunca

3 Casi Siempre Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre Siempre A Veces Casi Siempre A Veces

4 Casi Siempre Casi Siempre Siempre Siempre Siempre Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Casi Siempre

5 Casi Siempre Casi Nunca Casi Siempre Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre A Veces A Veces A Veces

6 A Veces A Veces Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Siempre A Veces Casi Siempre A Veces Casi Siempre

7 Siempre Siempre Siempre Siempre Siempre Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Casi Siempre

8 Siempre Siempre Casi Siempre Siempre Casi Siempre Siempre Siempre Casi Siempre Casi Siempre A Veces Siempre Casi Siempre

9 A Veces A Veces Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces A Veces A Veces A Veces

139

GESTORES PREGUNTAS


10 Casi Siempre A Veces Casi Siempre Siempre Casi Siempre Siempre Siempre Siempre Casi Siempre A Veces A Veces A Veces

11 A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Siempre Casi Siempre Casi Siempre

12 A Veces Casi Siempre Siempre Siempre A Veces A Veces Casi Siempre Casi Siempre A Veces A Veces Casi Siempre Casi Siempre

13 Casi Nunca A Veces Siempre Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Siempre Siempre

14 Casi Nunca Casi Nunca Casi Siempre Casi Siempre Casi Nunca Casi Siempre Casi Siempre Siempre Casi Siempre A Veces A Veces A Veces

15 Casi Siempre Siempre A Veces A Veces Siempre Siempre Siempre Siempre Siempre Siempre Siempre A Veces

16 A Veces A Veces Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre

17 A Veces Casi Siempre Siempre Siempre Casi Siempre Siempre Siempre Casi Siempre A Veces Casi Siempre Casi Siempre A Veces

18 Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre Casi Siempre Siempre Siempre Siempre

19 A Veces A Veces A Veces A Veces A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre

20 A Veces A Veces A Veces A Veces Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre

21 A Veces Casi Siempre Casi Siempre A Veces Casi Siempre A Veces A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre

22 Casi Siempre Siempre A Veces Casi Siempre Casi Siempre A Veces Casi Siempre A Veces A Veces A Veces Casi Siempre Casi Siempre

23 A Veces Casi Siempre Casi Nunca Casi Nunca A Veces Casi Siempre Casi Siempre Casi Siempre Siempre A Veces Casi Siempre Casi Nunca

24 Casi Siempre A Veces Casi Siempre Siempre Casi Siempre A Veces Casi Siempre Siempre Casi Siempre A Veces Casi Nunca Casi Nunca

25 Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Siempre Siempre Casi Siempre A Veces A Veces Casi Nunca Casi Siempre

26 Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre A Veces Casi Siempre

27 A Veces Casi Siempre Siempre A Veces Casi Siempre Casi Siempre Siempre Siempre A Veces Casi Siempre Siempre Casi Siempre

28 A Veces Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre Casi Siempre Siempre

29 Casi Siempre A Veces Casi Siempre Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Casi Nunca Casi Nunca

30 Casi Siempre Casi Siempre Siempre A Veces Casi Siempre Casi Siempre Siempre Siempre A Veces A Veces Casi Nunca Casi Nunca

31 A Veces Siempre Siempre Siempre Siempre Casi Siempre Siempre Siempre Siempre A Veces Casi Siempre Casi Siempre

32 Siempre Siempre Casi Siempre A Veces Siempre Siempre Siempre Casi Siempre Siempre Casi Siempre Casi Nunca Casi Nunca

33 A Veces Casi Siempre Casi Siempre Casi Siempre A Veces Siempre Casi Siempre Casi Siempre A Veces A Veces Casi Nunca Casi Nunca

34 Casi Siempre A Veces A Veces Casi Nunca A Veces A Veces Casi Siempre Casi Siempre Casi Siempre A Veces A Veces Casi Siempre

35 Casi Siempre Siempre Siempre Siempre Siempre Casi Siempre Siempre Siempre Siempre Siempre Siempre Casi Siempre

140

GESTORES PREGUNTAS


36 Siempre Casi Siempre Casi Siempre Casi Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre

37 Casi Siempre Siempre Siempre A Veces A Veces Casi Siempre A Veces Casi Nunca A Veces Casi Nunca A Veces A Veces

PREGUNTAS

GESTORES N° 7 - a N° 7 – b N° 7 - c N° 8 N° 9 - a N° 9 – b N° 9 - c N° 9 - d N° 9 - e

1 Más de 1 día Más de 1 día Más de 1 hora

Entre 25% a 50% adicional al costo del proyecto Muy Importante Muy Importante Muy Importante Muy Importante Muy Importante

2 Más de 1 hora Más de 1 hora Más de 1 hora

Entre 0% a 15% adicional al costo del proyecto Muy Importante Importante Importante Importante Muy Importante

3 Más de 1 día Más de 1 día Más de 1 día

Entre 0% a 15% adicional al costo del proyecto Muy Importante Importante Importante Muy Importante Importante

4 Más de 1 día Más de 1 hora Más de 1 hora


5 Más de 1 día Más de 1 hora Entre 20 a 60 min

Entre 0% a 15% adicional al costo del proyecto Importante Muy Importante Importante Importante Indiferente

6 Más de 1 día Más de 1 hora Entre 20 a 60 min

Entre 25% a 50% adicional al costo del proyecto Importante Muy Importante Muy Importante Muy Importante Muy Importante


Entre 25% a 50% adicional al costo del proyecto Importante Muy Importante Muy Importante Importante Importante

8 Semanas o meses Semanas o meses Semanas o meses

Entre 50% a 75% adicional al costo del proyecto Importante Importante Importante Importante Importante

9 Entre 20 a 60 min Más de 1 hora Entre 20 a 60 min

Entre 0% a 15% adicional al costo del proyecto Importante Muy Importante Importante Importante Importante

10 Más de 1 día Más de 1 hora Más de 1 hora Entre 15% a 25% adicional al costo del Importante Muy Importante Muy Importante Importante Muy Importante

141

PREGUNTAS


proyecto

11 Más de 1 hora Más de 1 hora Entre 20 a 60 min

Entre 50% a 75% adicional al costo del proyecto Poco Importante Importante Muy Importante Muy Importante Importante


Entre 0% a 15% adicional al costo del proyecto Importante Importante Importante Muy Importante Importante


Entre 15% a 25% adicional al costo del proyecto Muy Importante Importante Importante Muy Importante Muy Importante



15 Semanas o meses Más de 1 día Más de 1 día

Entre 25% a 50% adicional al costo del proyecto Importante Indiferente Importante Muy Importante Muy Importante

16 Menos de 20 min Más de 1 hora Más de 1 hora

Entre 25% a 50% adicional al costo del proyecto Muy Importante Importante Importante Muy Importante Muy Importante


Entre 15% a 25% adicional al costo del proyecto Importante Muy Importante Muy Importante Indiferente Importante

18 Más de 1 día Semanas o meses Más de 1 día

Entre 50% a 75% adicional al costo del proyecto Muy Importante Muy Importante Importante Importante Muy Importante

19 Más de 1 hora Más de 1 día Más de 1 día





Entre 0% a 15% adicional al costo del proyecto Importante Muy Importante Importante Importante Muy Importante


Entre 15% a 25% adicional al costo del proyecto Importante Muy Importante Importante Importante Muy Importante

142

PREGUNTAS


23 Más de 1 día Semanas o meses Semanas o meses


24 Semanas o meses Semanas o meses Más de 1 día

Entre 0% a 15% adicional al costo del proyecto Muy Importante Muy Importante Muy Importante Indiferente Importante


Entre 25% a 50% adicional al costo del proyecto Muy Importante Muy Importante Muy Importante Importante Importante

26 Más de 1 día Más de 1 día Más de 1 hora

Entre 0% a 15% adicional al costo del proyecto Importante Muy Importante Muy Importante Importante Muy Importante


Entre 25% a 50% adicional al costo del proyecto Muy Importante Muy Importante Muy Importante Importante Muy Importante


Entre 15% a 25% adicional al costo del proyecto Importante Importante Muy Importante Muy Importante Muy Importante


Entre 15% a 25% adicional al costo del proyecto Importante Muy Importante Importante Muy Importante Muy Importante

30 Semanas o meses Semanas o meses Semanas o meses

Entre 0% a 15% adicional al costo del proyecto Importante Importante Importante Muy Importante Muy Importante

31 Semanas o meses Más de 1 día Más de 1 hora

Entre 15% a 25% adicional al costo del proyecto Importante Importante Muy Importante Muy Importante Muy Importante


Entre 15% a 25% adicional al costo del proyecto Indiferente Muy Importante Muy Importante Importante Muy Importante






Entre 25% a 50% adicional al costo del Indiferente Importante Importante Importante Importante

143

PREGUNTAS


proyecto

36 Más de 1 día Semanas o meses Semanas o meses



Entre 15% a 25% adicional al costo del proyecto Indiferente Muy Importante Muy Importante Importante Muy Importante

144

Anexo 3: Validación de encuesta por Juicio de Expertos

146

Anexo 4: Presupuesto

147

Anexo 5: Cronograma

N° Actividad Año 2017

Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre

1 Planificación de la investigación

2 Aprobación del plan de tesis

3 Planteamiento del problema

4 Revisión de la literatura y revisión del marco teórico

5 Visualización del alcance del estudio

6 Desarrollo del tema de Tesis

7 Elaboración de hipótesis y definición de variables e indicadores

8 Desarrollo del diseño de investigación

9 Definición y selección de la muestra

10 Recolección de los datos

11 Análisis de los datos

12 Elaboración de reporte de resultados

13 Presentación y revisión del informe de Tesis

14 Aprobación del informe de Tesis

15 Sustentación de tesis

148

Anexo 6: Aprobación del Gerente Línea de GMD

149

Anexo 7: Uso de productos IBM Big Data sobre el Cloud de GMD

informe de tesisrepositorio.usil.edu.pe/bitstream/usil/3607/3/2017... · 2019. 8. 14. · de...

Documents