apuntes de minería de datos - bdigital.unal.edu.co · 62 ilustración 22: proyección de los datos...

20
61 Ilustración 20: Gráfico de sedimentación sobre los autovalores calculados con PCA Ilustración 21: Diagrama de dispersión sobre la proyección de los datos sobre los 10 primeros componentes 0 10 20 30 40 50 60 0 2 4 6 8 10 12 Gráfico de sedimentación Número de componente Autovalor Diagrama de dispersión sobre componentes principales -4 -2 0 2 cp10 -4 -2 0 2 4 cp9 -2 0 2 cp8 -2 0 2 4 6 cp7 -2 0 2 4 cp6 -6 -4 -2 0 2 cp5 -8 -6 -4 -2 0 2 cp4 0 2 4 6 8 cp3 4 6 8 10 12 cp2 15 20 25 -4 -2 0 2 cp1 cp10 -4 -2 0 2 4 cp9 -2 0 2 cp8 -2 0 2 4 6 cp7 -2 0 2 4 cp6 -6 -4 -2 0 2 cp5 -8 -6 -4 -2 0 2 cp4 0 2 4 6 8 cp3 4 6 8 10 12 cp2 15 20 25 cp1 1 2 3 4

Upload: duongliem

Post on 02-Nov-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

61

Ilustración 20: Gráfico de sedimentación sobre los autovalores calculados con PCA

Ilustración 21: Diagrama de dispersión sobre la proyección de los datos sobre los 10 primeros

componentes

0 10 20 30 40 50 600

2

4

6

8

10

12Gráfico de sedimentación

Número de componente

Auto

valo

r

Diagrama de dispersión sobre componentes principales

-4-2 0 2

cp10

-4-2 024

cp9

-2 0 2

cp8

-2 0 24 6

cp7

-2 0 24

cp6

-6-4-202

cp5

-8-6-4-202

cp4

02468

cp3

4681012

cp2

152025-4-202

cp1

cp10

-4-2024

cp9

-202

cp8

-20246

cp7

-2024

cp6

-6-4-202

cp5

-8-6-4-202

cp4

02468

cp3

468

1012

cp2

152025

cp1

1

2

3

4

Page 2: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

62

Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes

6.1.4.5 Experimento5

En esta prueba, se analizan individualmente los datos de cada uno de los sectores: servicios,

insumos, alimentos y bebidas y productos para consumo, tomando el valor de las 15

características calculadas con los valores originales, asignados por los investigadores del

PROCREA.

Para cada sector se extrajeron las componentes principales, proyectando los datos en la dos

primeras (Ilustración 23). Dicha proyección que explica entre el 50 y 55% de la varianza

(Tabla 15), no se observan conglomerados naturales.

En general, la varianza acumulada por cada componente, es similar para los distintos

sectores (Tabla 15).

La primera componente que se ha asociado a la magnitud o tamaño, en este caso, del

ambiente creativo, se puede observar que varía para cada sector (Tabla 16). Sí conserva el

orden de preponderancia establecido por los investigadores del PROCREA que

empíricamente asignaron los valores de 26,67%, 20% y 53,33% respectivamente para las

dimensiones didácticas, física y psico-social.

10 12 14 16 18 20 22 24 26 282

4

6

8

10

12

14

Primera Componente

Segunda C

om

ponente

Proyección de los datos (52 características) en las dos primeras componentes principales

Page 3: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

63

Dimensión Característica Comp de caracter. Aporte a total Acum de Dim Aporte a Dimen Acum/Caract Vectorpropio 1

Didáctica Formación dDIDform_01 0,16673

dDIDform_02 0,15501

dDIDform_03 0,15835

dDIDform_04 0,06855

dDIDform_05 28,50% 0,74 0,19220

Aprendizaje dDIDapren_01 0,12848

dDIDapren_02 0,19541

dDIDapren_03 20,25% 0,53 0,20252

Comunicación dDIDcomuni_01 0,18925

dDIDcomuni_02 0,18921

dDIDcomuni_03 0,14889

dDIDcomuni_04 0,13581

dDIDcomuni_05 31,34% 0,81 0,15148

Lúdica dDIDludi_01 0,19872

dDIDludi_02 0,14939

dDIDludi_03 38,10% 2,60 19,90% 0,52 0,16927

Física Simb-Estético dFISsimbEstet_01 0,10583

dFISsimbEstet_02

22,29% 0,25 0,14834

Técnico dFIStecn_01

0,16045

dFIStecn_02

0,13756

dFIStecn_03

34,85% 0,40 0,09940

Funcional dFISfunc_01

0,16866

dFISfunc_02

0,12309

dFISfunc_03

0,11757

dFISfunc_04 16,71% 1,14 42,86% 0,49 0,07933

Psicosocial Motiv-Satisfacc dPSImotiSati_01 0,08942

dPSImotiSati_02 0,15324

dPSImotiSati_03 0,12935

dPSImotiSati_04 0,21379

dPSImotiSati_05 21,88% 0,67 0,08890

Reconocimiento dPSIreco_01 0,19285

dPSIreco_02 0,13560

dPSIreco_03 0,16978

dPSIreco_04 22,43% 0,69 0,19316

Apertura dPSIaper_01 0,14792

dPSIaper_02 0,17845

dPSIaper_03 0,05169

dPSIaper_04 15,99% 0,49 0,11495

Afiliación dPSIafiln_01 0,06901

dPSIafiln_02 4,91% 0,15 0,08229

Logro dPSIlogro_01 0,10358

dPSIlogro_02 0,07221

dPSIlogro_03 7,91% 0,24 0,06808

Poder dPSIpoder_01 0,14354

dPSIpoder_02 0,09750

dPSIpoder_03 10,79% 0,33 0,09153

Flexibilidad dPSIflexi_01 0,06060

dPSIflexi_02 0,05716

dPSIflexi_03 6,90% 0,21 0,09499

Identidad dPSIiden_01 0,11332

dPSIiden_02 0,11377

dPSIiden_03 45,19% 3,08 9,19% 0,28 0,05631

Total 6,82245

Tabla 14: Aporte individual de cada respuesta a la medición del ambiente creativo

Page 4: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

64

Ilustración 23: Proyección de lo datos sobre dos componentes por sectores

Servicios Insumos

Alimentos y

bebidas

Productos para

consumo

Comp Var % acum Var % acum Var % acum Var % acum

1 44,92 44,92 46,73 46,73 40,73 40,73 45,12 45,12

2 9,53 54,45 9,61 56,33 9,99 50,72 10,55 55,67

3 7,69 62,15 6,02 62,36 8,45 59,17 6,44 62,11

4 5,50 67,65 5,01 67,37 5,99 65,15 5,70 67,81

5 4,77 72,42 4,65 72,02 4,62 69,78 4,71 72,53

6 4,24 76,66 3,93 75,95 4,43 74,20 4,55 77,07

7 3,75 80,41 3,79 79,73 4,26 78,46 4,29 81,37

8 3,35 83,76 3,71 83,45 3,89 82,34 3,53 84,90

9 3,15 86,91 3,21 86,66 3,82 86,16 3,28 88,18

10 2,67 89,58 2,88 89,54 2,98 89,15 3,14 91,31

11 2,43 92,02 2,63 92,17 2,79 91,93 2,26 93,57

12 2,30 94,31 2,26 94,43 2,56 94,49 1,96 95,53

13 2,06 96,37 2,01 96,44 2,16 96,65 1,67 97,20

14 2,04 98,41 1,96 98,39 1,77 98,42 1,50 98,69

15 1,59 100,00 1,61 100,00 1,58 100,00 1,31 100,00

Tabla 15: Varianza explicada por cada componente por sector

Page 5: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

65

Servicios Insumos Alimentos y

bebidas

Productos para

consumo

Característica Tot Dim Tot Dim Tot Dim Tot Dim

D Formación 31,53% 22,57% 34,95% 22,68% 35,24% 20,60% 31,49% 21,78%

D Aprendizaje 27,13% 23,85% 28,04% 25,61%

D Comunicación 24,00% 26,99% 25,14% 25,87%

D Lúdica 26,30% 26,48% 26,21% 26,74%

F Simbólico- Estético 20,06% 31,95% 18,10% 38,75% 25,08% 37,90% 22,57% 35,86%

F Técnica 34,74% 27,55% 30,23% 38,60%

F Funcional 33,31% 33,70% 31,87% 25,54%

P Motivación-Satisfacc. 48,41% 14,84% 46,95% 14,60% 39,68% 18,19% 45,94% 14,96%

P Reconocimiento 18,81% 20,24% 21,82% 17,70%

P Apertura 14,24% 14,27% 13,28% 12,90%

P Afiliación 11,33% 7,14% 7,87% 10,08%

P Logro 7,74% 11,26% 9,29% 12,53%

P Poder 13,48% 12,65% 11,99% 11,16%

P Flexibilidad 8,83% 7,62% 6,76% 9,01%

P Identidad 10,73% 12,21% 10,81% 11,66%

Tabla 16: Peso de la primera componente sobre las dimensiones ambientales y total por sector

6.1.4.6 Experimento 6

En este experimento se tomaron los datos de las veintitrés empresas. Igual que en el

experimento anterior, se trabaja sobre los valores de las 15 características con los valores

inicialmente asignados.

Se procedió a reducir su dimensión mediante PCA y se graficaron las proyecciones de las

dos primeras componente (Ilustración 24, Ilustración 25, Ilustración 26 y Ilustración 27).

De nuevo, se nota la dispersión de los datos y la ausencia de grupos naturales de datos. Este

resultado explica de alguna manera, la dispersión que se muestra en todos los datos en

general y por sectores en especial.

Es de anotar, que no se incluyeron los datos atípicos hallados en el experimento 2. Sin

embargo, se pueden observar en algunas empresas que datos mirados sólo en ella, se

apartan un poco de la mayoría.

Page 6: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

66

Ilustración 24: Proyección de datos sobre las dos primeras componentes por empresas del sector Servicios

Ilustración 25: Proyección de datos sobre las dos primeras componentes por empresas del sector Insumos

Page 7: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

67

Ilustración 26: Proyección de datos sobre las dos primeras componentes por empresas del sector Alimentos

y Bebidas

Ilustración 27: Proyección de datos sobre las dos primeras componentes por empresas del sector Productos

de consumo

6.1.4.7 Experimento 7

Para este último experimento, se analizaron los datos teniendo en cuenta los

correspondientes a cada nivel jerárquico (estratégico, táctico y operativo), también teniendo

en cuenta las 15 características con sus valores originales.

Igual que en los dos experimentos anteriores, se extrajeron los componentes principales, se

proyectaron los datos sobre las dos primeras componentes y se graficaron (Ilustración 28).

Como era de esperarse, teniendo en cuenta los resultados de los dos experimentos

anteriores, no se observan conglomerados naturales en los datos.

Los valores de los vectores propios de las componentes, varían levemente para cada nivel

jerárquico (Tabla 17).

Page 8: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

68

Con respecto a la componente de tamaño (la primera), se presentan variaciones en el peso

de cada característica por nivel jerárquico. Por ende, también se da en la dimensión creativa

a la que aporta cada característica (Tabla 18).

Ilustración 28: Proyección de los datos sobre las dos primeras componentes por nivel jerárquico

Estratégico Táctico Operativo

Comp Var % acum Var % acum Var % acum

1 46,16 46,16 45,00 45,00 45,63 45,63

2 10,98 57,14 8,72 53,73 9,46 55,09

3 9,24 66,38 8,63 62,35 6,44 61,53

4 6,04 72,43 5,81 68,16 4,84 66,37

5 5,45 77,87 4,56 72,71 4,60 70,97

6 4,00 81,87 4,42 77,14 4,16 75,12

7 3,80 85,68 3,88 81,02 3,78 78,91

8 3,08 88,75 3,64 84,66 3,61 82,52

9 2,48 91,23 3,20 87,86 3,38 85,89

10 2,20 93,43 2,74 90,61 3,13 89,02

11 1,99 95,42 2,40 93,00 2,75 91,77

12 1,58 97,00 2,21 95,21 2,31 94,08

13 1,30 98,30 1,83 97,05 2,10 96,18

14 1,02 99,32 1,56 98,61 2,01 98,19

15 0,68 100,00 1,39 100,00 1,81 100,00

Tabla 17: Varianza explicada por cada componente por nivel jerárquico

Page 9: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

69

Estratégico Táctico Operativo

Característica Tot Dim Tot Dim Tot Dim

D Formación 31,17% 22,49% 34,82% 21,43% 32,59% 22,10%

D Aprendizaje 28,67% 28,45% 26,02%

D Comunicación 21,96% 22,86% 25,88%

D Lúdica 26,88% 27,25% 26,00%

F Simb. Estético 18,70% 33,25% 22,02% 34,42% 20,15% 34,34%

F Técnica 39,35% 34,02% 34,49%

F Funcional 27,40% 31,57% 31,18%

P Motiv. Satisf. 50,13% 15,85% 43,16% 17,67% 47,26% 14,25%

P Reconocimiento 18,40% 20,92% 18,51%

P Apertura 13,74% 14,49% 13,64%

P Afiliación 14,56% 11,14% 8,67%

P Logro 6,60% 6,91% 10,70%

P Poder 14,49% 13,76% 12,31%

P Flexibilidad 7,16% 6,18% 9,60%

P Identidad 9,20% 8,94% 12,31%

Tabla 18: Peso de la primera componente en las dimensiones ambientales y el total por nivel jerárquico

Page 10: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

70

Parte IV: Discusión y Conclusiones

Page 11: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

71

7. Discusión

A continuación se analizan los resultados de cada experimento y el uso de las técnicas.

7.1 Discusión sobre los resultados del experimento 1

En este experimento se consideraron las 15 características calculadas originalmente por los

investigadores del PROCREA y se incluyeron todos los datos.

Para el problema de encontrar conglomerados en datos, el uso de métodos jerárquicos

ayuda a dar luces de cómo se encuentran agrupados los datos. Esta una buena herramienta

para empezar con esta labor, que acompañado del dendograma (Ilustración 13) favorece esta

tarea.

Lo anterior no es suficiente, y se requiere el uso de métodos no supervisados de partición

de datos como el de K-medias, en el cual, hay que señalar el número de grupos a buscar.

Ya con este método, la pregunta es cuál es el número de grupos a encontrar. No existe un

método universal para ello. La combinación de métodos jerárquicos y el criterio de

Hartigan (Tabla 4), ayuda a responderlo, pero no de manera absoluta. En este experimento,

el uso combinado llevó a buscar 6 grupos.

Usando el algoritmo de K-medias con inicialización aleatoria de los centros de los grupos y

usado múltiples veces sólo mostró un conglomerado consistente (Tabla 5), lo que se pudo

apreciar con la ayuda de los gráficos de la proyección de los datos en las dos primeras

componentes de las distintas ejecuciones (Ilustración 14).

Esto último es importante, ya que tomando una inicialización fija con los puntos más

alejados, se genera siempre los mismos grupos y no se puede observar a ciencia cierta si

son grupos naturales en los datos o son grupos generados por esa inicialización dada.

7.2 Discusión sobre los resultados del experimento 2

Para este experimento se tomaron básicamente los mismos datos del experimento anterior,

excluyendo los datos atípicos y realizando las mismas pruebas.

Para detectar las observaciones atípicas multivariadas, se utilizó el algoritmo de la función

findoutd de Matlab, con el cual se hallaron 29 de 1438 observaciones, que corresponden al

2% del total de los datos.

Page 12: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

72

Con el fin de visualizar estos datos atípicos, se procedió a usar PCA y graficar la

proyección de los dos primeros componentes (Ilustración 16), donde se pudo observar

claramente. No obstante, también se pudieron observar la presencia de unos pocos datos

etiquetados como normales muy cerca o mezclados con los atípicos. La razón es que sólo se

graficó la proyección de las dos primeras componentes que sólo explican el 57,91% de la

varianza y que la nube de puntos es una proyección. Por lo tanto, no se debe considerar

como una falla del algoritmo de detección.

Después de detectadas las observaciones atípicas, fueron retiradas del conjunto de datos.

Al repetir los métodos usados en el experimento anterior, sin considerar los atípicos se

apreciaron cambios significativos, a pesar que éstos sólo eran el 2% de los datos:

Los dendogramas variaron más usando el método de enlace promedio que el método

de Ward (Ilustración 13 y Ilustración 17). Al hacer los cortes sobre los dendogramas, los

posibles números de grupos también variaron.

Los valores del estadístico F, usados con el criterio de Hartigan para hallar el

número de grupos varió también (Tabla 4 y Tabla 6). En el último caso, sin atípicos,

los saltos en el valor de F entre número de grupos no fueron tan grandes como en el

experimento 1, ni tampoco se acercaron a 10, como lo señala dicho criterio.

El grupo consistente hallado en el experimento 1, ya no apareció en el experimento

2. De ahí, se concluye que era generado por los atípicos.

La graficación de las múltiples pruebas sobre el número de grupos dados, ayuda a

determinar de manera categórica la existencia o no de ellos.

7.3 Discusión sobre los resultados del experimento 3

En esta prueba, se tomaron los 52 valores correspondientes cada una a las respuestas de los

distintos ítems de la encuesta con la ponderación asignada inicialmente por los

investigadores del PROCREA. Se excluyen las observaciones atípicas halladas en el

experimento anterior.

Al tomar todas las variables, no hubo mejora en el proceso de determinación de posibles

grupos. El cálculo de F para la determinación del número de grupos tuvo variaciones

bruscas, llegando incluso a tomar valores negativos al pasar de 4 a 5 grupos, y de 6 a 7

grupos (Tabla 10). Por ello, se requirió apoyarse en el agrupamiento jerárquico al momento

de determinar el número de grupos y realizar múltiples pruebas para cada posible cantidad

de agrupaciones.

Después de realizados los tres primeros experimentos, se llega a la conclusión de la

inexistencia de grupos naturales en los datos.

Page 13: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

73

7.4 Discusión sobre los resultados del experimento 4

En el experimento anterior se pudo observar que el trabajar directamente con todas las 52

variables, se dificulta el proceso y no aporta información nueva sobre la existencia de

grupos naturales en los datos. Por ello, para este experimento se utiliza PCA para reducir el

número de características a analizar. Esta vez se toman los valores categóricos ordinales

originales (4: casi siempre, 3: con frecuencia, 2: pocas veces, 1: casi nunca), sin tener en

cuenta las ponderaciones dadas por los investigadores del PROCREA. Es decir, todas las

variables tienen el mismo rango de valores posible.

También en esta prueba, se eliminaron lo datos atípicos.

Partiendo de los autovalores generados a partir de la extracción de los componentes

principales, se graficó el diagrama de segmentación que muestra el codo en donde estos

valores empiezan a variar poco (Ilustración 20), el cual, es utilizado como uno de los criterios

para determinar cuántos componentes se utilizan para el análisis. En este caso, el codo se da

en el autovalor 10.

A continuación, se hace la proyección de los datos sobre las 10 primeras componentes, que

recogen el 53% de la varianza y se grafica el diagrama de dispersión, buscando que éste

muestre, con la nueva configuración de los datos, la posible existencia de agrupaciones

naturales, lo cual no se observa (Ilustración 21).

Graficando la proyección de la primera y segunda componente (Ilustración 22), nuevamente

se observa que la primera es determinante de la magnitud de ambiente creativo, lo que es

consistente con la teoría. Teniendo en cuenta esto y considerando que todas las variables

tienen el mismo rango de valores, el vector propio de la primera componente muestra la

ponderación de cada respuesta de la encuesta y su aporte a la característica (de las 15

planteadas) y a la dimensión (lúdica, física y psicosocial) en particular y al ambiente

creativo en general.

Los investigadores del PROCREA le dieron empíricamente el mismo peso a cada

característica. Con base en lo calculado (Tabla 14), se observa que unas tienen mayor

influencia que otras. A continuación se muestra estas ponderaciones.

En la Dimensión Didáctica las características de comunicación y formación con el casi 60%

influyen más que las características de aprendizaje y lúdica.

En la Dimensión Física, la característica que mide el aspecto funcional con la característica

técnica aportan casi el 78% a ésta. Tiene menor peso la característica simbólico-estética.

En la Dimensión Psico-social tienen mayor peso en su orden, las características de

reconocimiento, motivación-datisfacción y apertura que aportan en casi el 60% a esta

dimensión. Las otras 5 características aportan el resto.

Page 14: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

74

También cambia el peso de cada dimensión a la determinación del ambiente creativo. Los

investigadores del PROCREA determinaron empíricamente las ponderaciones siguientes: la

dimensión psicosocial el 53,33%, la dimensión didáctica el 26,67% y por la dimensión

física con el 20%. Lo calculado con base el autovalor de la primera componente fue:

45,61%, 38,10% y 16,71% respectivamente.

Asimismo, aunque los investigadores del PROCREA le dieron igual peso de cada respuesta

de la encuesta a la respectiva característica, lo calculado muestra que unas respuestas a

preguntas influyen más que las otras.

7.5 Discusión sobre los resultados del experimento 5

En este experimento se analizaron separadamente los datos correspondientes a cada sector

(servicios, insumos, alimentos y bebidas y productos de consumo), trabajando con los

valores originales de las 15 características, dados por los investigadores del PROCREA.

Se procedió a extraer las componentes principales, se proyectaron los datos sobre las dos

primeras y se graficaron, diferenciando en el gráfico de cada sector los datos de los niveles

estratégico, táctico y operativo.

Analizados de esta manera, tampoco se observan agrupaciones de datos naturales (Ilustración

23). Esto es consistente con los experimentos previos en el sentido que sería poco probable

que en el total de los datos no se hallen conglomerados naturales y sí en los sectores.

Con respecto a los niveles jerárquicos, se observa que todos ellos se encuentran repartidos

en todas las áreas del gráfico.

La varianza explicada por cada componente para cada sector varían inicialmente y ya para

la componente 7, se han casi igualado hasta el 80% (Tabla 15). Se concluye que el

instrumento es consistente y válido para todos los sectores.

Acerca de la primera componente, que es la de tamaño, se observa que el orden

determinado empíricamente por los investigadores del PROCREA se conserva. Lo que sí se

da por cada sector, es el cambio de la magnitud del peso de cada característica y de cada

dimensión en el total (Tabla 16). Esto permite determinar la influencia de cada dimensión

creativa: así por ejemplo, en el sector servicios comparativamente tiene mayor peso la

dimensión psicosocial que en las otras; en el sector de alimentos y bebidas crece la

influencia de la dimensión física y baja un poco la dimensión psicosocial, con respecto a las

otras.

Page 15: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

75

7.6 Discusión sobre los resultados del experimento 6

Para este experimento se tomaron los datos de cada empresa, trabajando con las 15

características.

Igualmente se redujo la dimensión vía PCA, se proyectaron los datos sobre las dos primeras

componentes y graficaron, diferenciando también el nivel jerárquico.

Para estas empresas dadas, no se encontraron agrupaciones naturales (Ilustración 24,

Ilustración 25, Ilustración 26 y Ilustración 27). Los datos correspondientes a los distintos niveles

jerárquicos se mezclan.

En los niveles estratégico y táctico, en los que se esperaría mayor afinidad entre ellos por el

mismo rol que desempeñan en la empresa, no se da.

Otro aspecto interesante, es que a pesar que a la totalidad de los datos se extrajeron los

valores atípicos, en las gráficas se observan valores que comparados con los mismos de la

empresa, son atípicos. Esto conduciría a que si se desea una mayor precisión en el análisis,

se deben analizar para cada empresa, sus propios atípicos y extraerlos del conjunto total de

datos.

7.7 Discusión sobre los resultados del experimento 7

Los datos aquí se analizaron por nivel jerárquico, analizados separadamente, con las 15

características.

Para cada conjunto de datos de nivel jerárquico (estratégico, táctico y operativo), se usó

PCA, se proyectaron sus datos sobre las dos primeras componentes y se graficaron,

diferenciado para cada nivel, los sectores (Ilustración 28).

Nuevamente no se presentaron agrupaciones naturales y los sectores entre los niveles

jerárquicos se mezclaron indistintamente.

La varianza explicada por cada componente (Tabla 17), fue más consistente en la primera

(en la de tamaño) y variaron más en las siguientes (las de forma), contrario a cuando fueron

analizadas por sectores.

Analizando el peso de la primera componente sobre las características y las dimensiones

creativas, se observa que para los niveles estratégico y operativo, ejerce comparativamente

más influencia la dimensión psicosocial y menos la dimensión física (Tabla 18). En el nivel

táctico pesan comparativamente más dimensiones física y didáctica.

Page 16: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

76

8. Conclusiones

Después de aplicar una de las metodologías de descubrimiento de conocimiento en bases de

datos sobre la información recopilada en 23 empresas de Manizales y con las técnicas

utilizadas, se pudo constatar que no se detectaron patrones estructurales que pudieran

inferirse basados en estos datos.

Lo anterior lleva a concluir que en las empresas encuestadas, no se aplican políticas

explícitamente orientadas a favorecer la creatividad e innovación en sus empleados, lo que

se refleja en la alta dispersión de los datos en cada organización en todos los niveles

jerárquicos y se encuentran mezclados indistintamente. En caso que así fuera y partiendo de

la base que estas características son las que determinan el ambiente, habría más

uniformidad en los resultados.

Otro aspecto que se pudo determinar fue que las dimensiones que determinan el ambiente

creativo de las empresas, influyen distinto en cada uno de los sectores. Comparativamente

en el sector servicios la dimensión psicosocial es más determinante; en cambio, en el sector

de alimentos y bebidas, influyen comparativamente más la dimensión didáctica y física y

menos la psicosocial.

En lo que tiene que ver con los niveles jerárquicos, se observa que para el nivel estratégico

tiene mucho peso la dimensión psicosocial y menos la física; en el nivel táctico, se observa

comparativamente más influenciado por la dimensión didáctica; y en el nivel operativo

toma valores promedios entre los anteriores.

Por otro lado, se pudo encontrar elementos para reafirmar la suposición inicial que se tenía,

referente a que se puede obtener nuevo conocimiento descubierto con estas técnicas, en

datos de investigaciones anteriores que no hicieron uso de ellas.

Igualmente, se muestra las grandes posibilidades que presenta el uso de técnicas y métodos

de ingeniería como apoyo en el quehacer de las ciencias sociales y del comportamiento.

Debido al no descubrimiento de patrones estructurales en estos datos, no se pudo generar

modelos descriptivos y por ende, el último objetivo de esta tesis de validar modelos

obtenidos, no se pudo cumplir.

Con respecto a las técnicas usadas se pudo observar que:

Hasta la fecha no existe un método universal para determinar el número de grupos

en un conjunto de datos. El criterio de Hartigan, de mucha aceptación en la

literatura, no se puede aplicar plenamente cuando el número de datos es alto. Para

este problema específico, los resultados con gran número de variables fueron menos

claros.

Page 17: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

77

El dendograma asociado a las técnicas de agrupamiento jerárquico, ayuda a conocer

la estructura u organización de los datos. Sería importante determinar criterios

objetivos de corte en el gráfico, más allá que la simple observación.

El Análisis de Componentes Principales permitió determinar la coherencia de la

encuesta en lo referente a las características asociadas a cada dimensión. También,

permitió determinar el peso de cada característica dentro de la dimensión y de ésta,

en la magnitud del ambiente total.

A la hora de buscar grupos en datos, es necesario combinar las técnicas de partición

y jerárquicas. Para datos de más de tres dimensiones, favorece mucho el uso de

técnicas de reducción de dimensión que favorecen la visualización de los datos en

dos o tres dimensiones.

Las técnicas usadas en el proceso de descubrimiento de conocimiento en bases de

datos pueden, a posteriori, contribuir a optimizar de mejor manera, instrumentos de

evaluación y medición y ponderar sus resultados más adecuadamente.

Page 18: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

78

Bibliografía

1. Alfaro Malatesta, Sergio Arturo. Analisis del proceso de autoconstrucción de la

vivienda en Chile. Bases para la ayuda informática para los procesos comunicativos de

soporte . Cataluña : Universidad Politécnica de Cataluña, 2007.

2. Tatarkiewicz, Wladyslaw. Historia de seis ideas Arte, belleza, forma, creatividad,

mimesis, experiencia estética. Madrid : Editorial Tecnos (Grupo Anaya S. A.), 2002.

3. García López, Marcial. El concepto de creatividad. Evolución histórica. III Simposio de

profesores universitarios de creatividad publicitaria . [En línea] 24 de Marzo de 2006.

[Citado el: 27 de Abril de 2009.]

http://congressos.blanquerna.url.edu/spucp/Pdfs/Garc%EDa_MaqCong05.pdf.

4. Gracián, Baltasar. El criticón. Madrid : Cátedra, 1993.

5. De La Torre, Saturnino y Violant, Verónica. Comprender y evaluar la creatividad Vol

1. Málaga : Ediciones Aljibe, 2006.

6. Huidobro Salas, Teresa. Una definición de la creatividad a través del estudio de 24

autores seleccionados. Madrid : Universidad Complutense de Madrid, 2002. ISBN: 84-

669-2375-6.

7. Hernández Orallo, José, Ramírez Quintana, María José y Ramírez Ferri, César.

Introducción a la Minería de Datos. Madrid : Pearson, Prentice Hall, 2004. ISBN: 84-205-

4091-9.

8. Bramer, Max. Principles of Data Mining. London : Springer, 2007. ISBN-13: 978-1-

84628-765-7.

9. Shmueli, Galit, Ratilal Patel, Nitin y Bruce, Peter C. Data mining for business

intelligence. s.l. : Wiley, 2006.

10. Maimon, Oded Z. y Rokach, Lior. The Data Mining and Knowledge Discovery

Handbook. s.l. : Springer, 2005. ISBN 0-387-24435-2.

11. Sumathi, S. y Sivanandam, N. Introduction to Data Mining and its Applications.

Warsaw : Springer, 2006. ISBN 3-540-34350-4.

12. Análisis de consistencia interna mediante Alfa de Cronbach: un programa basado en

gráficos dinámicos. Ledesma, Rubén, Molina Ibañez, Gabriel y Valero Mora, Pedro. 2,

2002, Psico-USF, Vol. 7, págs. 143-152.

13. Díaz Monroy, Luis Guillermo. Estadística multivariada: inferencia y métodos.

Bogotá : Universidad Nacional de Colombia, 2007. ISBN 978-958-701-195-1.

Page 19: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

79

14. Peña, Daniel. Análisis de datos multivariantes. Madrid : McGraw Hill, 2002. ISBN:84-

481-3610-1.

15. Duin, R.P.W., y otros. PRTools4.1, A Matlab Toolbox for Pattern Recognition. [ed.]

Delft University of Technology. 2007.

16. Selección de características orientada a sistemas de reconocimiento de granos

maduros de café. Daza, Genaro y Sánchez Giraldo, Luis Gonzalo. 35, Pereira : s.n.,

Agosto de 2007, Scientia et Technica, Vol. 13, págs. 139-144. ISSN (Versión impresa):

0122-1701.

17. Van Der Heijden, F., y otros. Classification, Parameter Estimation and State

Estimation. Chichester : John Wiley & Sons, Ltd, 2004. ISBN 0-470-09013-8.

18. Ming-Tso Chiang, Mark y Mirkin, Boris. Experiments for the Number of Clusters in

K-Means. [ed.] Springer Berlin / Heidelberg. Progress in Artificial Intelligence. 2007, págs.

395-405.

19. Temporal Lobe Epilepsy and Creativity: A Model of Association. Cartwright, Martin,

y otros. [ed.] Inc. Lawrence Erlbaum Associates. 1, 2004, Creativity Research Journal, Vol.

16, págs. 27-34.

20. Measuring Cognitive and Dispositional Characteristics of Creativity in Elementary

Students. Proctor, Romina M. J. y Burnett, Paul C. [ed.] Inc Lawrence Erlbaum

Associates. 4, 2004, Creativity Research Journal, Vol. 16, págs. 421-429.

21. Age Differences in Creativity: Task Structure and Knowledge Base. Wu, Chi Hang, y

otros. [ed.] Inc. Lawrence Erlbaum Associates. 4, 2005, Creativity Research Journal, Vol.

17, págs. 321-326.

22. Personality, Creativity and Latent Inhibition. Burch, Giles St J., Hemsley, David R.,

Pavelis, Christos y Corr, Philip J. 20, March de 2006, European Journal of Personality,

págs. 107–122.

23. Product creativity: conceptual model, measurement and characteristics. Horn, D. y

Salvendy, G. [ed.] Taylor & Francis Group. 4, July-August de 2006, Theoretical Issues in

Ergonomics Science, Vol. 7, págs. 395-412.

24. The Curvilinear Relation Between Experienced Creative Time Pressure and Creativity:

Moderating Effects of Openness to Experience and Support for Creativity. Baer, Markus y

Oldham, Greg R. [ed.] American Psychological Association. 4, 2006, Journal of Applied

Psychology, Vol. 91, págs. 963–970.

25. Is Creativity Unidimensional or Multidimensional? Analyses of the Torrance Tests of

Creative Thinking. Kim, Kyung Hee. [ed.] Inc. Lawrence Erlbaum Associates. 3, 2006,

Creativity Research Journal, Vol. 18, págs. 251-259.

Page 20: Apuntes de Minería de Datos - bdigital.unal.edu.co · 62 Ilustración 22: Proyección de los datos (todas las variables) sobre los dos primeros componentes 6.1.4.5 Experimento5 En

80

26. Developmental Variation in Children’s Creative Mathematical Thinking as a Function

of Schooling, Age, and Knowledge. Sak, Ugur y Maker, C. June. [ed.] Inc. Lawrence

Eribaum Associates. 3, 2006, Creativity Research Journal, Vol. 18, págs. 279-291.

27. Engineers’ and Musicians’ Choices of Self-Descriptive Adjectives as Potential

Indicators of Creativity by Gender and Domain. Charyton, Christine y Snelbecker,

Glenn E. [ed.] American Psychological Association. 2, 2007, Psychology of Aesthetics,

Creativity, and the Arts, Vol. 1, págs. 91-99.

28. Emotional Intelligence and Emotional Creativity. Ivcevic, Zorana, Brackett, Marc A.

y Mayer, John D. 75, s.l. : Blackwell Publishing, Inc, April de 2007, Journal of

Personality.

29. Creativity and Intelligence Revisited: A Latent Variable Analysis of Wallach and Kogan

(1965). Silvia, Paul J. 1, Greensboro : s.n., 2008, Creativity Research Journal, Vol. 20,

págs. 34-39. ISSN: 1040-0419 print=1532-6934 online.

30. Postformal thinking and creativity among late adolescents: a post-piagetian approach.

Wu, Pai-Lu y Chiou, Wen-Bin. 170, San Diego : s.n., Summer de 2008, Adolescence,

Vol. 43.

31. Creativity in the Classroom: A Multilevel Analysis Investigating the Impact of

Creativity and Reasoning Ability on GPA. Freund, Philipp Alexander y Holling, Heinz.

Münster : s.n., 2008, Creativity Research Journal. ISSN: 1040-0419 print=1532-6934

online.

32. Assessing General Creativity and Creative Engineering Design in First Year

Engineering Students. Charyton, Christine y Merrill, John A. 98, Washington D. C. :

s.n., April de 2009, Journal of Engineering Education.

33. Nores Gondar, Emilio, José. Artículos estadísticos. Análisis de conglomerados. [En

línea] 23 de Julio de 2001. [Citado el: 22 de Octubre de 2009.]

http://estadistico.com/arts.html?20010723.

34. Galindo Lucas, Alfonso. El tamaño empresarial como factor de diversidad.

[www.eumed.net/libros/2005/agl3/] 2005.