modelo predictivo para la identificaciÓn de patrones...

12
MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES DE LA DESERCIÓN ESTUDIANTIL EN LA UNIVERSIDAD NACIONAL TECNOLÓGICA DE LIMA SUR (UNTELS) PREDICTIVE MODEL FOR IDENTIFICATION OF PATTERNS OF THE STUDENT DESERTION AT NATIONAL TECHNOLOGY UNIVERSITY OF LIMA SOUTH (UNTELS) Myrna Manco Caycho 1 Resumen Con el objetivo de determinar los patrones del entorno que impactan en la deserción de los estudiantes de la Universidad Nacional Tecnológica de Lima Sur (Untels), se elabora una base de datos socioeconómica y académica de los estudiantes de la cohorte 2007-I a 2011-I, que incluye los casos de deserción como variable dependiente. Se elaboran seis modelos utilizando el operador Decision Tree de RapidMiner, con y sin validación cruzada, y con parámetros modificados y la im- plementación de la herramienta Weka, W-J48. Los modelos desarrollados se comparan por su preci- sión y por la medida F-score. La implementación W-J48 con parámetros modificados y análisis de sensibilidad mediante proporción de ganancia de información y sistema de validación cruzada de 10 particiones, ofreció la precisión más alta, así como un árbol simple de uso y de interpretación. El modelo final detectó las siguientes características o patrones del entorno que impactan en la deserción de los estudiantes de la Untels: Número de matrículas en los cuatro semestres conse- cutivos a su ingreso, Promedio en su segunda matrícula, Edad de ingreso, Promedio en su cuarta matrícula, Año de ingreso, Número de personas dependientes, Semestre de ingreso y Número de cursos aprobados en su primera matrícula. Se logró un 90.10% de clasificación correcta, con una desviación estándar de 2.08%. El principal patrón detectado para los desertores, es que el número de matrículas en los cuatro semestres consecutivos a su ingreso sea menor o igual que 3, con una precisión de 88%. Palabras claves: Deserción universitaria. Integración académica. Integración social. Minería de datos. Modelo predictivo. Árboles de decisión. Abstract In order to determine the environment that impact the students desertion at Untels, a socio-eco- nomic and academic database is elaborated students in the cohort 2007-I to 2011-I, which the includes cases of desertion as dependent variable. Six models are developed using the Decision Tree of RapidMiner operator, with and without cross-validation, and modified parameters and im- plementation of Weka, W-J48 tool. The developed models are compared through their accuracy and F-score measure. The W-J48 implementation with modified parameters and sensitivity analysis using information of gain ratio and cross-validation of 10 partitions, offered the highest accuracy as well a simple tree use and interpretation. Presentado: 19/10/2015 Aceptado: 22/12/2015 1 Universidad Nacional Tecnológica de Lima Sur (Untels) Untelsciencia-Perú,1(1),2016, Lima ISSN 2414-2751 Depósito legal 0000-0000 © Universidad Nacional Tecnológica de Lima Sur (Untels)

Upload: others

Post on 03-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES DE LA DESERCIÓN ESTUDIANTIL EN LA UNIVERSIDAD NACIONAL TECNOLÓGICA DE

LIMA SUR (UNTELS)

PREDICTIVE MODEL FOR IDENTIFICATION OF PATTERNS OF THE STUDENT DESERTION AT NATIONAL TECHNOLOGY UNIVERSITY OF LIMA SOUTH

(UNTELS)

Myrna Manco Caycho1

ResumenCon el objetivo de determinar los patrones del entorno que impactan en la deserción de los

estudiantes de la Universidad Nacional Tecnológica de Lima Sur (Untels), se elabora una base de datos socioeconómica y académica de los estudiantes de la cohorte 2007-I a 2011-I, que incluye los casos de deserción como variable dependiente. Se elaboran seis modelos utilizando el operador Decision Tree de RapidMiner, con y sin validación cruzada, y con parámetros modificados y la im-plementación de la herramienta Weka, W-J48. Los modelos desarrollados se comparan por su preci-sión y por la medida F-score. La implementación W-J48 con parámetros modificados y análisis de sensibilidad mediante proporción de ganancia de información y sistema de validación cruzada de 10 particiones, ofreció la precisión más alta, así como un árbol simple de uso y de interpretación.

El modelo final detectó las siguientes características o patrones del entorno que impactan en la deserción de los estudiantes de la Untels: Número de matrículas en los cuatro semestres conse-cutivos a su ingreso, Promedio en su segunda matrícula, Edad de ingreso, Promedio en su cuarta matrícula, Año de ingreso, Número de personas dependientes, Semestre de ingreso y Número de cursos aprobados en su primera matrícula. Se logró un 90.10% de clasificación correcta, con una desviación estándar de 2.08%. El principal patrón detectado para los desertores, es que el número de matrículas en los cuatro semestres consecutivos a su ingreso sea menor o igual que 3, con una precisión de 88%. Palabras claves: Deserción universitaria. Integración académica. Integración social. Minería de datos. Modelo predictivo. Árboles de decisión.

AbstractIn order to determine the environment that impact the students desertion at Untels, a socio-eco-

nomic and academic database is elaborated students in the cohort 2007-I to 2011-I, which the includes cases of desertion as dependent variable. Six models are developed using the Decision Tree of RapidMiner operator, with and without cross-validation, and modified parameters and im-plementation of Weka, W-J48 tool. The developed models are compared through their accuracy and F-score measure. The W-J48 implementation with modified parameters and sensitivity analysis using information of gain ratio and cross-validation of 10 partitions, offered the highest accuracy as well a simple tree use and interpretation.

Presentado: 19/10/2015Aceptado: 22/12/2015

1 Universidad Nacional Tecnológica de Lima Sur (Untels)

Untelsciencia-Perú,1(1),2016, LimaISSN 2414-2751Depósito legal 0000-0000© Universidad Nacional Tecnológica de Lima Sur (Untels)

Page 2: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

80

Modelo predictivo para la identificación de patrones de la deserción estudiantil en la Untels

The final model detected the following characteristics or environment patterns that impact the students desertion at Untels: Number of enrolled students in the four consecutive semesters since their income, average enrollment in its second, Age of entry, in its fourth Average tuition Year of income, number of dependents, income and Semester Number of approved courses in their first enrollment. So 90.10% correct classification was achieved, with a standard deviation of 2.08%. The main pattern detected for deserters, is that the number of enrollments in the four consecutive semesters of your income is less than or equal to 3, with an accuracy of 88%.Key words: University desertion. Academic integration. Social integration. Data mining. Predicti-ve model. Decision trees.

IntroducciónLa deserción estudiantil universitaria es

un problema que se manifiesta a nivel nacional como internacional tanto en instituciones pri-vadas como nacionales, su estudio es enfocado con diversos indicadores (Tasas de abandono, Tasa de término, Tasa anual de deserción, de-serción por cohorte de ingreso, etc) con por-centajes muy oscilantes que van desde 7% hasta 50% como lo revela [1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15]. En Perú, en promedio el 43.7% de estudiantes que ingresan a las universidades concluyen con sus estudios [16]. No se dispone de datos de la Tasa de deserción de estudiantes a nivel de Institu-ciones de Educación Superior Universitaria [17] y tampoco contamos con mecanismos oficiales que permitan hacer seguimientos continuos de las características del Sistema de Educación Superior Universitario, por tanto no se cuenta con indicadores oficiales que nos alerten de esta problemática y que más adelante podría agra-varse de no tomar las medidas oportunas. Ante esta realidad, abordamos la problemática de la deserción estudiantil desde un ámbito social y académico a fin de que contribuya en la calidad de educación y se fomente una cultura de apro-vechamiento de datos para la toma preventiva de decisiones.

Al semestre 2011-II, la Untels acumuló un total de 428 estudiantes no matriculados lo que representa un 16.7% del total de ingresantes

hasta esa fecha; al semestre 2011-II, la cohorte que ingresó en el semestre 2007-I, registró un porcentaje de no matrícula del 34.5%, seguida por la cohorte del semestre 2008-I con un por-centaje respectivo de 27.0%. La primera pro-moción de egresados contó con 19 estudiantes de 235 que ingresaron en el semestre 2007-I, lo que significa que sólo un 8% de estudiantes logró terminar en el tiempo previsto (Oficina de Informática y Estadística-Untels).

Sobre las causas de la deserción estudian-til se han hecho muchas investigaciones obte-niendo conclusiones bastante diferenciadas se-gún países, carreras, género, periodo en el que se produce, rendimiento académico, vocación, puntaje obtenido en el examen de selección, entre otras como se aprecia en [2], [5], [8], [13], [14], [22], [23], [25], [26], [27], [28], [30], [31], [35].

Díaz [27] propone un modelo conceptual que explica la deserción/permanencia como resultado de la motivación (positiva o negati-va), a su vez ésta es afectada por la integración académica y social. Dicho modelo, resultado de un análisis cualitativo, permite ilustrar cómo el estudiante debe adaptarse a los cambios en las tensiones que se producen entre los distintos factores académicos, sociales, individuales e institucionales que lo afectan; éste será el punto de partida para nuestro modelo.

Dada esta literatura, se desprende que se han utilizando diferentes métodos para abordar

Untelsciencia-Perú. Enero 2016

Page 3: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

81

M. MANCO CAYCHO

el estudio de esta problemática, sin embargo en los últimos años se viene utilizando la minería de datos orientada a la educación superior [3], [24], [29], [32]. La minería de datos tiene mu-chas ventajas frente a los demás métodos cuan-do se trata de trabajar con volúmenes de datos, por lo que decidimos abordar el tema de la de-serción estudiantil mediante estas técnicas.

HipótesisEl modelo predictivo, que utiliza técnicas

de minería de datos, determina las característi-cas o patrones del entorno que impactan en la deserción de los estudiantes de la Untels.

MetodologíaConsiderando las limitaciones propias del

proceso de descubrimiento de conocimiento en bases de datos se consiguió una vista minable de 1213 registros. Se utilizó fuentes de infor-mación secundarias provenientes de la Oficina de Bienestar Universitario y Registros Acadé-micos de la Untels.Desertor

Es aquél estudiante que habiendo realizado una primera matrícula en la Untels, no registra matrícula durante dos o más semestres conse-cutivos.Integración con el entorno

Describe como el estudiante se adapta (in-tegra) al entorno universitario, el sentido de pertenencia a la institución y en consecuencia, de alcanzar y concretar las metas académicas. Comprende el nivel de integración académica y social que alcance en la institución. a) Integración académica: La integración aca-

démica se mide por el grado de congruencia entre el desarrollo intelectual del individuo y el clima intelectual de la institución. Está conformada por las características preu-niversitarias (antecedentes personales, in-tenciones, expectativas, una formación aca-démica previa sobre la cual no es posible incidir directamente, un bagaje cultural y ac-titudinal) y características institucionales.

b) Integración social: La integración social se manifiesta como la compatibilidad y buen entendimiento con la comunidad universi-taria y en su entorno familiar. Se incluyen las características familiares (una dimen-sión efectiva, material, de disponibilidad de recursos que la familia brinda al estudiante y una dimensión afectiva de soporte emo-cional) y características individuales (ex-periencias del estudiante fuera de la institu-ción educativa). El presente estudio utiliza el método induc-

tivo, mediante el proceso de descubrimiento de conocimiento en bases de datos (KDD Knowle-dge Discovery in Databases), el cual consta de 5 fases (Hernández Orallo [47]): (1) Integración y recopilación de datos, (2) Selección, limpieza y transformación, (3) Minería de datos, (4) Eva-luación e interpretación y (5) Difusión y uso. Como método para la construcción del modelo se usó el árbol de decisión.

Se elaboró una base de datos socioeconó-micos y académicos de los estudiantes de la Un-tels, en una hoja de cálculo de Microsoft Office EXCEL 2007, para el procesamiento de datos se usó el minero RapidMiner (ver 5.3), en el cual se instaló el complemento Weka, que tam-bién es un software libre.

La hipótesis se evaluó con la precisión de la clasificación, tal como lo señalan Krzsytof [46], Bing Liu [49] y Witten [39]. Adicional-mente Witten [39] y Bing Liu [50] proponen al F-score como una medida de uso frecuente para comparar diferentes modelos.

ResultadosFase 1 y 2: Integración y recopilación de datos, Selección, limpieza y transformación

Entre los resultados descriptivos tenemos que la edad de los estudiantes oscila de 15 a 48 años con una edad promedio de 19,46 años, el tiempo medio de preparación para ingresar a la universidad es de 12,65 meses, la composi-ción familiar de los estudiantes varía de 1 a 11 miembros, con un tamaño promedio de aproxi-

Untels.cie.-Per. Vol. 1 Nº 1, pp. 79-90

Page 4: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

82

Modelo predictivo para la identificación de patrones de la deserción estudiantil en la Untels

madamente 5 miembros, el ingreso de los estu-diantes va desde 0 (no trabaja) hasta S/. 4500.00 La mayoría de los estudiantes (71%) pertenecen al sexo masculino, el 97% de los estudiantes es soltero, el 53% de los estudiantes vive en el dis-trito de Villa El Salvador, el 79% de los estu-diantes proviene de un colegio nacional, el 64% de los estudiantes ingresó por la modalidad de Examen Ordinario, el 56% de los estudiantes se preparó en el Centro Preuniversitario de la Untels, el 35% de los estudiantes proviene de una familia nuclear, el 89% de los estudiantes proviene de una familia funcional, el 30% de los papás de los estudiantes son trabajadores no calificados de los servicios, peones, vende-dores ambulantes y otros afines (chofer, taxista, zapatero, seguridad, entre otros), el 47% de las madres de los estudiantes se dedican a las labo-res de ama de casa, no exceptuándose que mu-chas de ellas realizan alguna actividad en dicho ambiente como bodega, venta de productos de belleza, entre otros. En caso de enfermedad, el 50% de los estudiantes se atiende en un área de salud/posta médica, el 72% de los estudiantes no cuenta con seguro de salud, el 81% de los estudiantes se alimenta principalmente en su hogar. Respecto a las variables de salud, todas ellas tienen como moda el «No presenta dicha enfermedad», tanto para el estudiante como para el familiar siendo el porcentaje más bajo 81% y llegando en varios casos al 100%. El 98% de los estudiantes no ha realizado traslado interno.

Realizando un análisis exploratorio se en-contró que en la segunda matrícula un 6% ya no se matriculó, el porcentaje es de 9% en la tercera matrícula y de 12% en la cuarta matrí-cula. En general, podemos decir que desde los primeros ciclos se va percibiendo el fenómeno de la deserción estudiantil con una posible ten-dencia creciente.

Se encontró deserción en todos los estudian-tes que en los cuatro semestres consecutivos a su ingreso registraron solamente una matrícula; la mayoría de aquellos que en el mismo periodo

registraron dos matrículas, también desertaron, para aquellos que registraron sus cuatro ma-trículas consecutivas no observamos informa-ción relevante, por lo que sospechamos que el número de matrículas en los cuatro semestres consecutivos a su ingreso si es determinante. Si comparamos el comportamiento según carrera profesional, no se observan diferencias impor-tantes.

Aquellos alumnos que hasta su cuarta ma-trícula aprobaron aproximadamente más de 30 créditos, no desertaron. Se observan similares comportamientos en las cuatro carreras. El atri-buto Número de créditos aprobados hasta su cuarta matrícula podría ser un atributo impor-tante sobre la deserción. Cabe explicar que los jóvenes que pertenecen a la carrera de Ingenie-ría Ambiental son aquellos que han hecho tras-lado interno.

La mayoría de desertores son aquellos que ingresaron en el año 2007 y 2008, cabe preci-sar que la mayoría de estudiantes de las últimas promociones (2009, 2010, 2011) todavía no han concluido su periodo de estudios. Se sospecha que el atributo año de ingreso podría ser una variable importante sobre la deserción.

Muchos de los estudiantes que ingresaron a temprana edad no han desertado. La Edad de ingreso podría ser un atributo a tener en cuenta. El grupo de jóvenes que ingresaron en el año 2008 y pertenecen a la carrera profesional de Ingeniería Ambiental, han hecho cambio de ca-rrera. Esta cambio podría ser el factor que hizo que no deserten, sin embargo los casos registra-dos a la fecha son pocos por lo que se sugiere hacer el seguimiento.

El tipo de colegio no parece ser un factor relevante para la deserción puesto que se obser-van comportamientos similares según tipo de colegio de procedencia. Al parecer los estudian-tes que ingresaron por la modalidad de Centro Preuniversitario presentan menos deserción que aquellos que ingresaron por otras modalidades, asimismo, aquellos jóvenes que no saben cuál es el grado de instrucción de sus papás tienden a

Untelsciencia-Perú. Enero 2016

Page 5: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

83

M. MANCO CAYCHO

no desertar. Se observa que los estudiantes que tienen menos de siete cursos aprobados hasta su cuarta matrícula, son candidatos a desertar. No se observan diferencias según semestre de ingreso.

No se puede decir que algún género en par-ticular tenga mayor predisposición a desertar que otro, ni que algún Tipo de familia en par-ticular genere mayor predisposición a desertar que otro. No se observan diferencias según si-tuación laboral del estudiante. Fase 3: Fase de minería de datos

En esta fase se generaron los modelos. La clasificación se realizó mediante un árbol de decisión con el ope-rador Decision Tree y la implementación W-J48. Se crearon va-rios árboles de prueba, presentando un resu-men de seis de ellos en la Tabla 1.

El modelo Nº 5 se construyó con los pa-rámetros por defecto, entre los cuales el um-bral de confianza para

Tabla 1. Resumen de seis modelos trabajados

Modelo

Descripción Operador Parámetros

Cadena de operadores

lineales

Validación cruzada nominal

Decision Tree W-J48 Por

defecto Modificados

Modelo 1 X X X

Modelo 2 X X X

Modelo 3 X X X

Modelo 4 X X X

Modelo 5 X X X

Modelo 6 X X X

Figura 1. Vista gráfica del Modelo Nº 6.

la poda (C) fue de 0.25 y el mínimo número de instancias permitido en cada hoja (M) fue de 2, como resultado se obtuvo un árbol muy grande; con la finalidad de reducirlo se construyó el mo-delo Nº 6 con C=0.20 y M=12. Otros paráme-tros de configuración fueron: U: Use un árbol sin podar: Falso, R: Utilice error de poda redu-cido: Falso, N: Número de particiones: 10, B: Cortes para las ramas binarios: Falso y Q: Se-milla para tomar los datos al azar: 1. Una vista rápida (gráfica) del modelo Nº 6 se muestra en la Figura 1 y en la Figura 2 se muestra la vista del árbol en forma de texto, de donde con mu-

Untels.cie.-Per. Vol. 1 Nº 1, pp. 79-90

Page 6: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

84

Modelo predictivo para la identificación de patrones de la deserción estudiantil en la Untels

cha facilidad se pueden extraer las reglas que formarán los patrones buscados. En la Tabla 2 se presenta un resumen de las 9 hojas que abar-

Figura 2. Texto del árbol W-J48-Modelo Nº 6.

Donde:N: Suma de casos que llegan hasta la hoja.E: Número de casos mal clasificados.

Hoja ClaseDeserción N E N-E

(Correctos) E/N (N-E)/N

1 SÍ 148 18 130 12% 88%2 NO 17.05 6.05 11 35% 65%3 SÍ 31.14 8.05 23.09 26% 74%4 NO 21.75 2.75 19 13% 87%5 SÍ 35.31 10 25.31 28% 72%6 NO 21.61 4.45 17.16 21% 79%7 SÍ 12.31 5 7.31 41% 59%8 NO 65.02 0 65.02 0% 100%9 NO 860.83 36.04 824.79 4% 96%

Total 1213.02 90.34 1122.68

ca el árbol de decisiones. En este sexto modelo, el algoritmo sólo ha seleccionado a ocho atribu-tos independientes.Fase 4: Evaluación e interpretación a) Usando la precisión: La precisión para los

modelos Nº 1, 2, 3, 4, 5 y 6 fue de 91.01%, 90.60%, 89.45%+1.52%, 89.20% + 1.60%, 89.53%+2.26%, 90.10%+2.08% respecti-vamente. El algoritmo Decision Tree, sin validación cruzada, nos da un valor de la precisión anormalmente alto porque pre-senta sobreajuste, por eso lo descartamos. El modelo con mayor precisión y por ende el que tiene la menor tasa de error (9.9%) es el modelo Nº 6, por lo que viene a constituir la hipótesis más consistente.

b) Usando la medida F_Score: Las tasas F-sco-re correspondientes al Modelo Nº 1, 2, 3, 4, 5 y 6 son 0.7029972, 0.6902173, 0.6613756, 0.6597402, 0.7196468 y 0.7333333 respec-tivamente. Encontramos que el modelo Nº 6 es el que tiene el mayor valor para F-sco-re, por lo que según este criterio es el mejor modelo.

Según los dos criterios anteriores, encontramos que de entre los seis modelos propues-tos, el que tiene mejor rendimiento es el modelo Nº 6, éste es el modelo predictivo, que uti-lizando técnicas de minería de datos determina las ca-racterísticas o pa-trones del entorno que impactan en la deserción de los es-

Tabla 2. Resumen de instancias que cubre cada hoja del Modelo Nº 6

Untelsciencia-Perú. Enero 2016

Page 7: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

85

M. MANCO CAYCHO

tudiantes de la Untels. En orden de importan-cia se encontraron ocho atributos asociados a la deserción estudiantil en la Untels: Número de matrículas en los cuatro semestres consecutivos a su ingreso, Promedio en su segunda matrí-cula, Edad de ingreso, Promedio en su cuarta matrícula, Año de ingreso, Número de personas dependientes, Semestre de ingreso y Número de cursos aprobados en su primera matrícula. El modelo conceptual obtenido a partir del modelo Nº 6, se muestra en la Figura 3.

Figura 3. Modelo Conceptual Final

DiscusiónMargarita Latiesa de la Universidad de Gra-

nada-España [22] incide en que la diferencia de deserción existente entre carreras es enorme, sobre todo es en el primer año donde se da la mayor tasa de abandono, éste segundo resultado se observa también en nuestro estudio, Sanabria (Perú) [23] concluye que el factor vocacional, económico y académico son los factores de mayor peso sobre la deserción, respecto a ello coincidimos con el factor académico, mas no con el económico, en Colombia, Castaño [25]

encontró que los cuatro factores (socioeconómi-cos, institucionales, individuales, académicos) en conjunto inciden sobre la deserción; coinci-dimos en la importancia de la integración aca-démica, con respecto al estudio de la ANUIES (México) se comparte el hecho de la deserción en los primeros años [2], uno de los elemen-tos explicativos de la deserción enunciada por Romo y Fresán [2] es «la falta de personalidad y madurez intelectual del estudiante» que de al-guna manera equivale a la edad del ingresante,

por lo que coinci-dimos en ese as-pecto, los resulta-dos de Lopera [28] (Colombia) mues-tran que los estu-diantes de sexo masculino, la vin-culación de los es-tudiantes al merca-do laboral, la edad y los estudiantes provenientes de otras regiones, tie-nen mayor riesgo de deserción. Sólo coincidimos con la edad.

Con respecto a la investigación titulada «Aplicación de téc-nicas de minería de datos para predecir deser-ción» [3], encontró que los alumnos desertan por tres casusas principales: la edad, los ingre-sos familiares para aquellos cuya edad sea me-nor o igual a 18 años y el nivel de inglés, para aquellos alumnos cuya edad sea mayor de 18 años. Coincidimos con el factor edad.

Uno de los resultados más relevantes del estudio de López, Gonzáles y otros (Repúbli-ca Dominicana) es que existen diferencias en la deserción según sexo y carreras. Ninguno de los resultados es similar al nuestro [14].

En Colombia [30] la deserción se da so-bre todo en el primer semestre, teniendo como

Untels.cie.-Per. Vol. 1 Nº 1, pp. 79-90

Page 8: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

86

Modelo predictivo para la identificación de patrones de la deserción estudiantil en la Untels

principales causas, según SPADIES, la caren-cia de recursos económicos, el nivel académico de los padres, los aspectos relacionados con el sostenimiento durante los estudios y el sexo, desertando más los hombres que las mujeres, nuestros resultados no coinciden con ninguno de estos aspectos, coincidimos con las estadís-ticas chilenas [8] en que al término del primer año de estudios, un alto porcentaje de estudian-tes deserta y el bajo rendimiento académico son causas importantes de la deserción, sin embar-go a diferencia de estos resultados no observa-mos prevalencia en los estudiantes de género masculino ni problemas económicos, nuestros resultados coinciden con Pinzón [31] en que la ciudad de residencia, el estado civil no son mo-tivos relevantes en la decisión de desertar, pero sí es sensible al bajo nivel académico.Fase 5: Difusión y uso

Una vez obtenido el modelo predictivo mediante los árboles de decisión, es posible in-teractuar con el modelo construido, se requeri-rá un archivo en MS EXCEL conteniendo los datos de los estudiantes correspondientes a las ocho variables seleccionadas. Éste archivo será el repositorio que se carga en el RapidMiner. Se tendrán las predicciones luego de ejecutar el modelo.

Conclusiones 1. El algoritmo de árboles de decisión (W-J48)

permitió encontrar un modelo que detecta las características o patrones del entorno que impactan en la deserción de los estu-diantes de la Untels. Los patrones contienen los siguientes atributos: • Académicos: Edad de ingreso (CARAC-

TERÍSTICA PREUNIVERSITARIA) y el Número de matrículas en los cuatro semestres consecutivos a su ingreso, Pro-medio en su segunda matrícula, promedio en su cuarta matrícula, año de ingreso, semestre de ingreso, cursos aprobados en su primera matrícula (CARACTERÍSTI-CAS INSTITUCIONALES).

• Social: Número de personas dependien-tes (CARACTERÍSTICA FAMILIAR).

2. El modelo predictivo que utiliza el algorit-mo de árboles de decisión (W-J48) discri-mina con gran precisión si el estudiante es vulnerable a desertar. Se obtuvo un 70,21% de clasificación correcta para los desertores y un 94.892% de clasificación correcta para los no desertores. En general se logró un 90.10% de clasificación correcta, con una desviación estándar de 2.08%. El modelo consta de nueve nodos terminales (hojas) y su tamaño es de diecisiete.

3. El modelo predictivo que utiliza el algorit-mo de árboles de decisión (W-J48) permitió detectar patrones diferentes para los deser-tores y los no desertores. Para los desertores el principal patrón detectado es que el nú-mero de matrículas en los cuatro semestres consecutivos a su ingreso sea menor o igual que 3. Este patrón representa una precisión de 88% en la predicción de que un estudian-te deserte. Para los no desertores el modelo detectó dos patrones principales, el primero es que el número de matrículas en los cua-tro semestres consecutivos a su ingreso sea mayor que 3 y el promedio en su segunda matrícula sea mayor que 7.94 y el prome-dio en su cuarta matrícula sea menor o igual que 7.96 y el año de ingreso sea posterior a 2009. Este patrón representa una precisión de 100% en la predicción de que un estu-diante no deserte. El segundo patrón es que si el número de matrículas en los cuatro se-mestres consecutivos a su ingreso es mayor que 3 y el promedio en su segunda matrícu-la es mayor que 7.94 y el promedio en su cuarta matrícula es mayor que 7.96. Este pa-trón representa una precisión de 96% en la predicción de que un estudiante no deserte.

Referencias bibliográficas [1] Brunner JJ, Ferrada Hurtado R, editores.

Educación superior en Iberoamérica-in-forme 2011. Chile:RIL; 2011. Patrocinado

Untelsciencia-Perú. Enero 2016

Page 9: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

87

M. MANCO CAYCHO

por el Centro Interuniversitario de Desarro-llo (CINDA). Disponible en: http://www.cinda.cl/download/Brunner2011-Educa-cionSuperior.pdf [consulta: 7 Jul 2012]

[2] Huesca Ramírez MGE, Ramírez G, Castaño Corvo MB. Causas de deser-ción de alumnos de primeros semestres de una universidad privada. Rev Mex Orient Educ [en línea] 2007 Jul-Oct [ac-cesado 6 Jul 2012]; V(12):[7 p.] Dispo-nible en: http://164.73.2.147/alfaguia/files/1319582164causas%20de%20deser-cion%20en%20una%20universidad%20privada.pdf

[3] Valero Orea S, Salvador Vargas A, García Alonso M. Minería de datos: predicción de la deserción escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k vecinos más cercanos. Recursos digitales para la Educación y la Cultura [en línea] 2010 [accesado 10 Jul 2012]; KAAMBAL [7 p.] Disponible en: http://ccita2011.its-motul.edu.mx/documentos/Recursos_digi-tales.pdf

[4] Observatorio Universitario de las Innova-ciones [en línea]. México: Universidad de Colima; Nov 2006 [accesado 6 Jul 2012]. La deserción en la educación superior. Dis-ponible en: http://www.ucol.mx/observato-rio/comunicados/Comunicado7.pdf

[5] Espí Lacomba N, Cruz González E, Mar-tín Sabina E, Iñigo Bajos E, Tristá Pérez B, López Rodríguez A, et al, editores. Educa-ción superior en Cuba 2005-2009. Informe nacional. [en línea] Chile: Centro Interuni-versitario de Desarrollo; 2011 [accesado 7 Jul 2012]. Disponible en: http://www.cin-da.cl/htm/es.htm

[6] Pereira E, editor. Educación Superior en Portugal 2005-2009. Informe Nacional. [en línea] Chile: Centro Interuniversitario de Desarrollo; 2011 [accesado 7 Jul 2012]. Disponible en: http://www.cinda.cl/htm/es.htm

[7] Leal R, editor. Educación Superior en Bra-

sil 2005-2009 Informe Nacional. [en línea] Chile: Centro Interuniversitario de Desa-rrollo; 2011 [accesado 7 Jul 2012]. Dispo-nible en: http://www.cinda.cl/htm/es.htm

[8] Zapata G, Tejeda I, Rojas A, editores. Edu-cación Superior en Chile 2005-2009. In-forme nacional. [en línea] Chile: Centro Interuniversitario de Desarrollo; 2011 [ac-cesado 7 Jul 2012]. Disponible en: http://www.cinda.cl/htm/es.htm

[9] Macaya Trejos G, Román Forastelli M, edi-tores. Educación superior en Costa Rica 2005-2009. Informe nacional. [en línea] Chile: Centro Interuniversitario de Desa-rrollo; 2011 [accesado 7 Jul 2012]. Dispo-nible en: http://www.cinda.cl/htm/es.htm

[10] Duriez Gonzáles M, Coca Palacios L, edi-tores. Educación superior en El Salvador 2005-2009. Informe nacional. [en línea] Chile: Centro Interuniversitario de Desa-rrollo; 2011 [accesado 7 Jul 2012]. Dispo-nible en: http://www.cinda.cl/htm/es.htm

[11] Duriez González M, Sándigo Martínez C, Coca Palacios L, editores. Educación supe-rior en Guatemala 2005-2009. Informe na-cional. [en línea] Chile: Centro Interuniver-sitario de Desarrollo; 2011. [accesado 7 Jul 2012]. Disponible en: http://www.cinda.cl/htm/es.htm

[12] Duriez González M, Sándigo Martínez C, editoras. Educación Superior en Honduras 2005-2009. Informe nacional. [en línea] Chile: Centro Interuniversitario de Desa-rrollo; 2011. [accesado 7 Jul 2012]. Dispo-nible en: http://www.cinda.cl/htm/es.htm

[13] De Escobar V, editora. Educación Superior en Panamá 2005-2009. Informe nacional. [en línea] Chile: Centro Interuniversitario de Desarrollo; 2011. [accesado 7 Jul 2012]. Disponible en: http://www.cinda.cl/htm/es.htm

[14] López A, Mejía R, editores. Educación Superior en República Dominicana 2005-2009. Informe nacional. [en línea] Chile: Centro Interuniversitario de Desarrollo;

Untels.cie.-Per. Vol. 1 Nº 1, pp. 79-90

Page 10: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

88

Modelo predictivo para la identificación de patrones de la deserción estudiantil en la Untels

2011. [accesado 7 Jul 2012]. Disponible en: http://www.cinda.cl/htm/es.htm

[15] García de Fanelli A, editora. Educación Superior en Argentina 2005-2009. Informe nacional. [en línea] Chile: Centro Interuni-versitario de Desarrollo; 2011. [accesado 7 Jul 2012]. Disponible en: http://www.cin-da.cl/htm/es.htm

[16] Rodríguez Castro M, Zegarra Pellanne J, Díaz Garay B, Motta Ferreccio A, Cua-dros Blas J, editores. Informe sobre el Sis-tema de Educación Superior Universitaria del Perú. Lima: Centro Interuniversitario de Desarrollo; 2009. Proyecto ALFA N° DCI-ALA-2008-42: Aseguramiento de la Calidad: Políticas Públicas y Gestión Uni-versitaria. [accesado 6 Jul 2012]. Disponi-ble en: http://www.cinda.cl/proyecto_alfa/download/informe_peru.pdf

[17] Del Mastro Vecchione C, editora. Educa-ción Superior en Perú 2005-2009. Informe nacional. [en línea] Chile: Centro Interuni-versitario de Desarrollo; 2011. [accesado 7 Jul 2012]. Disponible en: http://www.cin-da.cl/htm/es.htm

[18] Barrientos Z, Umaña R. Deserción estu-diantil en posgrados semipresenciales de la Universidad Estatal a Distancia (UNED), Costa Rica: ¿Deserción o retraso? [en lí-nea] Costa Rica: Cuadernos de Investiga-ción UNED 1(2); Dic 2009 [accesado 7 Jul 2012] Disponible en: http://estatico.uned.ac.cr/investigacion/publicaciones/cuader-no1/documents/Barrientos_Desercion.pdf

[19] Sánchez Carlessi H, Reyes Meza C. Meto-dología y diseños en la investigación cien-tífica: aplicados a la psicología, educación y ciencias sociales. 1ª reimpresión corr. Lima: [s.n.]; 1985.

[20] Supo Condori J.A. Curso de Estadística Minería de Datos para la Investigación Científica; 2° grupo. Perú; marzo 2013.

[21] Murthy S. Automatic construction of de-cision trees from data: a multidisciplinary survey. Data Mining and Knowledge Dis-

covery. 1998; 2(4): 345–89.[22] Tipología y causas de la deserción univer-

sitaria y el retraso en los estudios. DIA-LOGO Iberoamericano. Núm. 5 Sep-Oct 1996 [en línea]. Disponible en: http://dia-logo.ugr.es/anteriores/dial05/11-5.htm/

[23] Sanabria H. Deserción en estudiantes de enfermería en cuatro universidades del Perú. Anales de la Facultad de Medicina – Universidad Nacional Mayor de San Mar-cos [en línea] 2002 [accesado 10 jul 2012] 63(4). Disponible en: http://sisbib.unmsm.edu.pe/bvrevistas/anales/v63_n4/pdf/de-sercion_estudiantes.pdf

[24] Jiménez Galindo A, Álvarez García H. Mi-nería de datos en la educación. Inteligencia en Redes de Comunicación. 2010.

[25] Castaño E, Gallón S, Gómez K, Vásquez J. Deserción estudiantil universitaria: una aplicación de modelos de duración. [en línea]. Medellín: Lecturas de Econo-mía, Nº 60; Ene – Jun 2004. [accesado 6 Jul 2012] Disponible en: http://redalyc.uaemex.mx/src/inicio/ArtPdfRed.jsp?iC-ve=155217798002

[26] Rodríguez Lagunas J, Hernández Vázquez JM. La deserción escolar universitaria en México. La experiencia de la Universidad Autónoma Metropolitana Campus Iztapa-lapa. [en línea] 30 de abril 2008 [accesado 21 Jul 2012]; 8(1): [30 p.] Disponible en: http://revista.inie.ucr.ac.cr/uploads/tx_ma-gazine/deserc.pdf

[27] Díaz Peralta C. Modelo Conceptual para la deserción estudiantil universitaria chile-na. [en línea]. Chile: Estudios Pedagógicos XXXIV Nº 2: 65-86; 2008 [accesado 6 Jul 2012].

[28] Lopera Oquendo C. Determinantes de la deserción universitaria en la Facultad de Economía Universidad del Rosario. [en lí-nea]. Colombia: Serie Documentos–Borra-dores de Investigación Nº 95 Universidad del Rosario; 2008 [accesado 6 Jul 2012].

[29] Spositto OM, Etcheverry ME, Ryckeboer

Untelsciencia-Perú. Enero 2016

Page 11: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

89

M. MANCO CAYCHO

HL, Bossero J. Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción es-tudiantil. [en línea] Buenos Aires: Univer-sidad Nacional de La Matanza; 2009 , [ac-cesado 6 Jul 2012]. Disponible en: http://www.iiis.org/CDs2010/CD2010CSC/CIS-CI_2010/PapersPdf/CA156FK.pdf

[30] Orozco Silva LE, Castillo Gómez LC, Roa Varelo A, editores. Educación Superior en Colombia 2005-2009 Informe Nacional. [en línea] Chile: Centro Interuniversitario de Desarrollo; 2011. [accesado 7 Jul 2012]. Disponible en: http://www.cinda.cl/htm/es.htm

[31] Pinzón Cadena LL. Aplicando minería de datos al marketing educativo Notas De Marketing [en línea] 2011 Ene-Jun [acce-sado 7 Jul 2012]; 1(1):45-61 Disponible en: http://www.usergioarboleda.edu.co/inves-tigacion-marketing/marketing/articulo5Mi-neriaDatos.pdf

[32] Luan J. Aplicaciones de minería de datos en la educación superior. USA: IBM Cor-poration; 2010 May. Disponible en: ftp://ftp.software.ibm.com/common/ssi/ecm/es/imw14303eses/IMW14303ESES.PDF [ac-cesado 4 Set 2013]

[33] Instituto Nacional de Estadística e Infor-mática. II Censo Nacional Universitario 2010: principales resultados. Lima, 2011. Disponible en: http://www.inei.gob.pe/ [accesado 6 Jul 2012]

[34] Castro Kikuchi L. Diccionario de ciencias de la educación. Lima. Editorial CEGURO, 2005.

[35] Rizzuto F. La deserción en la educación superior, motivos y medidas preventivas. [Tesis de Licenciatura en Organización y Gestión Educativa]. Argentina: Universi-dad Austral, Escuela de Educación; 2009. Disponible en: http://web.austral.edu.ar/descargas/escuela-educacion/tesis-Fla-via-Rizzuto.pdf

[36] Mira Mira J. Inteligencia artificial: méto-

dos, técnicas y aplicaciones. España: Mc-Graw-Hill; 2008.

[37] Jiménez Moscovitz L. Un modelo concep-tual para el desarrollo de árboles de deci-sión con programación genética. [Trabajo para optar el título de Especialista en In-formática y Ciencias de la Computación]. Bogotá: Fundación Universitaria Konrad Lorenz, 2007. Disponible en: http://www.konradlorenz.edu.co/images/stories/articu-los/Leonardo_Jimenez_Moscovitz_Espe-cializacion.pdf

[38] Williams G. Data mining with Rattle and R: the art of excavating data for knowledge discovery. New York: Springer; 2011.

[39] Witten IH, Frank E. Data mining: practi-cal machine learning tools and techniques. 2ª ed. USA: The Morgan Kaufmann Publi-shers; 2005.

[40] Silberschatz A, Korth HF, Sudarshan S. Fundamentos de bases de datos. 4ª ed. Ma-drid: McGraw-Hill; 2002.

[41] Mitchel T. Machine learning. New York: McGraw-Hill; 1997.

[42] Gil Albarrán G. Data mining: minería de datos y SQL. Lima: Megabyte; 2009.

[43] Vieira Braga LP, Ortiz Valencia LI, Ramírez Carbajal SS. Introducción a la minería de datos. Río de Janeiro: E-papers; 2009.

[44] Schumaker RP, Solieman OK., Chen H. Sports data mining. USA: Springer; 2010; p. 89-92 (Integrated Series in Information Systems; 26).

[45] Rapid-i.com, RapidMiner [en línea]. Ale-mania: Rapid-i.com, 2004?; [accesado 31 Ene 2013]. Disponible en: http://rapid-i.com

[46] Krzysztof C, Witold P, Roman S, Lukasz K. Data mining: a knowledge discovery approach. New York: Springer; 2007.

[47] Hernández Orallo J, Ramírez Quintana MJ, Ferri Ramírez C. Introducción a la minería de datos. España: Pearson; 2008.

[48] Díaz Martínez Z. Predicción de crisis em-presariales en seguros no vida, median-

Untels.cie.-Per. Vol. 1 Nº 1, pp. 79-90

Page 12: MODELO PREDICTIVO PARA LA IDENTIFICACIÓN DE PATRONES …repositorio.untels.edu.pe/...Manco_Articulo_2016.pdf · Myrna Manco Caycho1 Resumen Con el objetivo de determinar los patrones

90

Modelo predictivo para la identificación de patrones de la deserción estudiantil en la Untels

te árboles de decisión y reglas de clasifi-cación. Madrid: Editorial Complutense; 2007.

[49] Russell S, Norvig P. Inteligencia artificial. México: Prentice-Hall; 1996.

[50] Liu B. Web data mining: exploring hyper-links, contents, and usage data. USA: Springer; 2007; p. 55 – 116 (Data-Centric Systems and Applications)

Untelsciencia-Perú. Enero 2016