estadistica avanzada

62
UNIVERSIDAD RAFAEL URDANETA FACULTAD DE INGENIERÍA ESCUELA DE INDUSTRIAL CÁTEDRA: LABORATORIO DE ESTADÍSTICA AVANZADA PROF. JUAN DIEGO HERNÁNDEZ LALINDE PROYECTO DE CÁTEDRA Realizado por: Gómez Rivas, Claudio Sergio C.I.:20.370.165 Estudio Estadístico sobre el voltaje medido de la zona norte y la zona sur en Maracaibo

Upload: dodger04

Post on 20-Jun-2015

969 views

Category:

Documents


2 download

DESCRIPTION

Estudio estadistico del voltaje de la ZN y ZS de la ciudad de Maracaibo

TRANSCRIPT

Page 1: Estadistica Avanzada

UNIVERSIDAD RAFAEL URDANETAFACULTAD DE INGENIERÍAESCUELA DE INDUSTRIAL

CÁTEDRA: LABORATORIO DE ESTADÍSTICA AVANZADAPROF. JUAN DIEGO HERNÁNDEZ LALINDE

PROYECTO DE CÁTEDRA

Realizado por:

Gómez Rivas, Claudio Sergio

C.I.:20.370.165

Más y Rubí Márquez, Alberto

C.I.: 21.162.889

Maracaibo, abril de 2.010

Estudio Estadístico sobre el voltaje medido de la zona norte y la zona sur

en Maracaibo

Page 2: Estadistica Avanzada

ESTUDIO ESTADÍSTICO SOBRE EL VOLTAJE

MEDIDO DE LA ZONA NORTE Y LA ZONA

SUR EN MARACAIBO

Gómez Claudio Más y Rubí Alberto

C.I.: 20370165 C.I.: 21162889

Av. 3G con calle 62 Calle 19 con Av. 115

Residencias Santa Marta Urbanización el Pinar

Apto 3 - 4 Apto 3-F

Tlf: 04146896013 Tlf: 04264672080

[email protected] [email protected]

Tutor académico

2

Page 3: Estadistica Avanzada

ÍNDICE

RESUMEN

ABSTRACT

INTRODUCCIÓN

CAPÍTULO I: EL PROBLEMA

1. Planteamiento del problema

2. Objetivos de la investigación

2.1 General

2.2 Específicos

3. Justificación de la investigación

4. Delimitación de la investigación

CAPÍTULO II: MARCO TEÓRICO

1. Muestra piloto

2. Distribución normal

3. Statgraphics

4. SPSS

5. Excel

6. Inferencia estadística

CAPÍTULO III: MARCO METODOLÓGICO

1. Tabla de fundamentos metodológicos de la investigación realizada

2. Población

3. Muestra

CAPÍTULO IV: ANÁLISIS DE LOS RESULTADOS

4.1.Análisis de la distribución que siguen los datos

4.2. Tamaño adecuado de la muestra

4.3. Inferencia sobre el voltaje

CONCLUSIONES

ANEXOS

3

Page 4: Estadistica Avanzada

Gómez, Claudio – Más y Rubí, Alberto. (2010) Estudio estadístico sobre el voltaje medido de la zona norte y la zona sur en Maracaibo Trabajo de investigación de la cátedra laboratorio de estadística avanzada

RESUMEN

El problema planteado en esta investigación es la disminución de la calidad del

servicio eléctrico causado por fluctuaciones en el voltaje, que podría ocasionar

daños en dispositivos electrodomésticos, entre otros. El objetivo principal de este

trabajo es analizar el voltaje de la zona norte (ZN) y zona sur (ZS) en Maracaibo

para determinar la existencia de posibles fluctuaciones y su rango de valores.

Esta investigación es de tipo exploratoria porque el tema de investigación es

poco estudiado y sirve para establecer prioridades para investigaciones

posteriores. El diseño es no experimental porque no hubo manipulación de la

variable; y, documental, debido a que el proceso está basado en el análisis y la

interpretación de datos obtenidos por otros investigadores en fuentes

documentales. Para realizar este análisis, primero se debe realizar un estudio de

normalidad, para determinar si los datos siguen esta distribución. Luego se

determina el número de muestra adecuado con el uso del paquete estadístico

Statgraphics, para finalmente realizar una inferencia sobre los voltajes de la ZN y

de la ZS.

Palabras claves: Estadística, Distribución normal, Inferencia estadística,

Statgraphics, SPSS, Excel

4

Page 5: Estadistica Avanzada

ABSTRACT

The problem presented in this investigation is the decrease of the quality of the

electric service caused by voltage fluctuations that may derive in damage to

electro domestic devices and others. The main objective of this investigation is to

analyze the voltage in the south zone (SZ) and in the north zone (NZ) in

Maracaibo in order to determine the existence of possible fluctuations and its

range of values. The type of this research is exploratory because the subject of

investigation isn’t much studied and it serves to establish priorities for future

investigations. The design is “not experimental” because there wasn’t any

manipulation of the variable, and “documentary” because the process is based in

the analysis and interpretation of data obtained by other investigators in

documentary sources. To conduct this analysis, a normality study must be

conducted first to determine if the data follow this distribution. Then the sample is

calculated with the statistic package “Statgraphics” to finally execute an inference

about the voltages of the SZ and the NZ.

5

Page 6: Estadistica Avanzada

INTRODUCCIÓN

La presente investigación tiene como objetivo principal determinar si existe

fluctuación del voltaje entre la zona norte (ZN) y la zona sur (ZS), así como si

este suministro está ubicado fuera del intervalo de 100V a 120V.

En el capítulo 1 se plantean los problemas que se pueden generar producto de

un voltaje suministrado mayor a 120V o menor a 100V en alguna de las zonas.

En el capítulo 2 se definirán conceptos básicos para el claro entendimiento de la

investigación realizada.

En el capítulo 3 se especifica el tipo de investigación, el diseño de la

investigación y las fases de la metodología, para posteriormente analizar las

fases establecidas en el capítulo 4.

6

Page 7: Estadistica Avanzada

CAPÍTULO I

EL PROBLEMA

1. PLANTEAMIENTO DEL PROBLEMA

Los sistemas eléctricos están sujetos a una amplia variedad de problemas

de calidad de energía que pueden interrumpir el servicio de fluido eléctrico en la

comunidad y afectar equipos sensibles ocasionando paralizaciones, mal

funcionamiento y pérdidas. Las fluctuaciones momentáneas de voltaje pueden

impactar desastrosamente en la población originando todos los problemas

mencionados en el diagrama que se muestra en la figura 1.

DISMINUCIÓN DELA CALIDAD DEL

SERVICIO DE FLUIDOELÉCTRICO DE LA

ZONA NORTE Y SURDE LA CIUDAD

DE MCBO

Fluctuación de voltaje

(Generalmente por se da por pérdidas de capacidad)

Daños a equipos

Ausencia de un programa de Mantenimiento preventivo

Estallamiento de bombillos

Menor o mayorpotencia

Mal funcionamiento de los equipos

Funcionamiento ineficiente de generadores

Paradas no programadas

Costos excesivos

Menor o mayor intensidad

Fig. 1. Diagrama causa – efecto del problema “Disminución de la calidad del Servicio de fluido eléctrico en la zona Norte y Sur de la ciudad de Maracaibo

7

Page 8: Estadistica Avanzada

En este proyecto de investigación se pretende estudiar:

Si realmente “FLUCTUACIONES DEL VOLTAJE” se presenta en las

zonas investigadas de Maracaibo:

- Baja para la zona norte (ZN)

- Alta para la zona sur (ZS))

Si el voltaje suministrado esta fuera del intervalo 100 V – 120 V

2. OBJETIVOS DE LA INVESTIGACIÓN

2.1. GENERAL

Analizar la tensión eléctrica de la ZN y ZS determinando la existencia de

fluctuaciones de voltaje y su rango de valores.

2.2. ESPECÍFICOS

- Comprobar mediante una muestra piloto que el comportamiento de los

datos siguen una distribución normal.

- Establecer el tamaño adecuado de la muestra con el uso del paquete

estadístico Statgraphics.

- Inferir si el voltaje de la ZS y ZN están dentro del intervalo preestablecido

utilizando el paquete estadístico Statgraphics y paquete estadístico SPSS

(statistics Packaged for social science).

3. JUSTIFICACIÓN DE LA INVESTIGACIÓN

Con la realización de este proyecto se tendrá certeza en relación a la

existencia o no de fluctuaciones voltaje en la ZS y ZN, entonces será posible

tomar las medidas necesarias que permitan solventar los problemas de

ingeniería, diseño, mantenimiento o cualquier otro, que puedan estar originando

dicha falla.

Así mismo, el desarrollo de la investigación permitió adquirir destrezas y

habilidades en relación al manejo de dos paquetes importantes en la estadística,

8

Page 9: Estadistica Avanzada

como son el Statgraphics y el SPSS (aumentando el nivel de conocimientos

referidos al tratamiento estadístico de datos).

4. DELIMITACIÓN DE LA INVESTIGACIÓN

4.1. DELIMITACIÓN ESPACIAL

Los datos usados para realizar este estudio exploratorio fueron

recolectados en las zonas norte y sur de la ciudad de Maracaibo, estado Zulia.

4.2. DELIMITACIÓN TEMPORAL

El periodo de desarrollo del proyecto es de 2 semanas, comprendido en el

semestre 2010-A.

4.3. DELIMITACIÓN CIENTÍFICA

En el trabajo se comprueba mediante una muestra piloto que el

comportamiento de los datos sigue una distribución normal, para luego

establecer el tamaño adecuado de la muestra, finalizando con la inferencia de si

el voltaje de la ZS y ZN están dentro del intervalo preestablecido. Para el

desarrollo de los puntos fueron utilizados los paquetes estadísticos Statgraphics

y SPSS.

9

Page 10: Estadistica Avanzada

CAPÍTULO II

MARCO TEÓRICO

1. MUESTRA PILOTO

Cuando no es conveniente considerar todos los elementos de la

población, lo que se hace es estudiar una parte de esa población. Una parte de

la población se llama muestra.

La muestra siempre debe tener las mismas características del universo,

ya que es representativa de este.

Según:

“Se llama muestra a una parte de la población a estudiar que sirve para

presentarla”. Murria R. Spiegel(1991)

“Una muestra debe ser definida en base de la población determinada, y

las conclusiones que se obtengan de dicha muestra solo podrán referirse a la

población en referencia”. Cadenas (1974)

“Una muestra es la colección de algunos elementos de la población, pero

no de todos”. Levin & Rubin (1996)

2. DISTRIBUCIÓN NORMAL

“Sin lugar a dudas, la distribución mas utilizada para modelar

experimentos aleatorios es la distribución normal. Esta distribución puede

obtenerse al considerar el modelo básico de una variable aleatoria binomial

cuando el número de ensayos se vuelve cada vez más grande. Este fue el

enfoque original seguido por De Moivre en 1773. Desafortunadamente, su

trabajo se perdió por un tiempo, y Karl Gauss desarrollo, de manera

independiente, la distribución normal casi cien años después. Aunque más tarde

se dio crédito a De Moivre, la distribución normal también se conoce como

distribución Gaussiana”. Douglas C. Montgomery y George C. Runger. (1996)

10

Page 11: Estadistica Avanzada

3. STATGRAPHICS

“Statgraphics es un programa para gestionar y analizar valores

estadísticos.

Statgraphics tiene cuatro módulos principales: un editor estadístico

(StatReport) que prepara informes con datos variables; un asistente estadístico

(StatWizard) que sugiere los métodos más adecuados para recopilar y analizar

datos; y un enlace estadístico (StatLink) que enlaza el libro de análisis (Statfolio)

con la fuente de datos.

Statgraphics destaca especialmente por sus capacidades para la

representación gráfica de todo tipo de estadísticas y el desarrollo de

experimentos, previsiones y simulaciones en función del comportamiento de los

valores.

En definitiva, Statgraphics es una completa herramienta para el estudio, análisis

y aprendizaje de cualquier rama de la Estadística.”

Referencia proveniente de su página principal.

4. SPSS

“Es un programa estadístico informático muy usado en las ciencias

sociales y las empresas de investigación de mercado. En la actualidad, la sigla

se usa tanto para designar el programa estadístico como la empresa que lo

produce. Originalmente SPSS fue creado como el acrónimo de Statistical

Package for the Social Sciences ya que se está popularizando la idea de traducir

el acrónimo como "Statistical Product and Service Solutions". Sin embargo,

aunque realizando búsquedas por internet estas pueden llevar a la página web

de la empresa, dentro de la página misma de la empresa no se encuentra dicha

denominación. Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y

Dale H. Bent. Entre 1969 y 1975 la Universidad de Chicago por medio de

11

Page 12: Estadistica Avanzada

suNational Opinión Research Center estuvo a cargo del desarrollo, distribución y

venta del programa. A partir de 1975 corresponde a SPSS Inc.”

Información referencial de su página principal

5. MICROSOFT EXCEL

Microsoft Excel es un programa de hoja o planilla de cálculo. Al igual que

Microsoft Word, posee actualmente un mercado dominante. Fue originalmente el

más fuerte competidor del entonces popular Lotus 1-2-3, y en tercera posición

estuvo Quattro Pro; pero eventualmente Excel se vendió más, se popularizó y se

convirtió en el estándar de facto. Está disponible para plataformas Windows y

Mac.

Extensiones comunes: .xls (Excel 97-2003), .xlsx (Excel 2007-2010)

Información referida por parte de la página del proveedor

6. INFERENCIA ESTADÍSTICA

Consiste en tomar una muestra de alguna población que posea la mayor

cantidad de características de la misma, es decir, que sea representativa. Ya

que, si es representativa, se puede inferir correctamente sobre la población que

se va a estudiar.

Uno de los métodos utilizados para la inferencia estadística es la prueba

de hipótesis, que consiste en realizar una afirmación acerca de uno de los

parámetros desconocidos de la población que se va a estudiar.

12

Page 13: Estadistica Avanzada

CAPÍTULO III

MARCO METODOLÓGICO

1. TABLA DE FUNDAMENTOS METODOLÓGICOS DE LA INVESTIGACIÓN

REALIZADA

TIPO DE INVESTIGACIÓN

(ARIAS, 2006)

DISEÑO DE LA INVESTIGACIÓN

(HERNANDEZ SAMPIERI,

2006)

OBJETIVOS FASES DE LA METODOLOGÍA

TÉCNICAS DE RECOLECCIÓN

DE DATOS

EXPLORATORIAUtilizada cuando se desea conocer

un tema o problema de investigación

poco estudiado o que no ha sido abordado antes

NO EXPERIMENTAL

No fue manipulada la

variable

DOCUMENTALProceso basado en la búsqueda, recuperación,

análisis, crítica e interpretación de

datos secundarios, es

decir, los obtenidos y

registrados por otros

investigadores en fuentes

documentales; impresas,

audiovisuales o electrónicas.

Como en toda investigación el

propósito de este diseño es el

aporte de nuevos conocimientos

Comprobar mediante una muestra piloto que el comportamiento de los datos siguen una distribución normal

1.- Introducción de la muestra piloto aleatoria en el paquete estadístico SPSS2.- Se analizaron los resultados arrojados determinándose si se sigue una distribución normal

- Observación documental

- Observación indirecta

- Lectura evaluativa

Establecer el tamaño adecuado de la muestra con el uso del paquete estadístico Statgraphics

1.- Introducción de la muestra piloto aleatoria en el paquete estadístico Statgraphics2.- Se estableció el tamaño de la muestra, tomando en cuenta una potencia de 80%.

- Observación documental

- Observación indirecta

- Lectura evaluativa

Inferir si el voltaje de la ZS y ZN están dentro del intervalo preestablecido utilizando el paquete estadístico Statgraphics y paquete estadístico SPSS.

1.- Introducción de la muestra obtenida en el paquete estadístico Statgraphics.2.- Uso del Statgraphics para el método de prueba de hipótesis.

- Observación documental

- Observación indirecta

- Lectura evaluativa

13

Page 14: Estadistica Avanzada

2. POBLACIÓN

Mediciones de los voltajes en la ZN y ZS

3. MUESTRA

Para el estudio de normalidad, la muestra fue aleatoria, cuyo tamaño fue

establecido por el profesor Hernández, siendo éste de 30 tensiones.

Para la aplicación del método de la prueba hipótesis, se estableció un

tamaño de muestra que satisfaga los requerimientos del estudio (potencia), con

el uso del paquete estadístico Statgraphics.

14

Page 15: Estadistica Avanzada

CAPÍTULO IV

ANÁLISIS DE LOS RESULTADOS

1. ANÁLISIS DE LA DISTRIBUCIÓN QUE SIGUEN LOS DATOS

La muestra aleatoria seleccionada de 30 datos se aprecia en la tabla 1 (obtenida

con Excel):

Dato ZN ZS

1 111,23 101,6

2 120,68 114,45

3 92,83 97,34

4 146,06 121,24

5 123,59 134,1

6 100,29 129,71

7 135,64 134,26

8 103,4 106,47

9 99,97 129,01

10 125,58 102,84

11 127,1 104,99

12 71,82 125,01

13 71,82 94,55

14 79,03 145,33

15 70,49 115,32

16 102,56 112,06

17 92,08 149,98

18 121,79 114,45

19 59,48 77,99

20 97,51 108,87

21 108,91 123,64

22 125,58 72,61

23 118,38 125,59

24 129,35 145,29

25 98,04 132,76

26 100,83 118,39

27 98,04 99,49

28 79,03 163,12

29 118,69 126,35

30 106,34 107,75

TABLA 1

15

Page 16: Estadistica Avanzada

Esta muestra aleatoria se obtuvo con el uso del programa Excell. Con estos

datos y con la información proporcionada en la tabla 2, en los histogramas 1, 2,

3 y 4; y, en los diagramas 1 y 2, se comenzó el estudio de normalidad:

ESTADÍSTICOS

ZonaN ZonaS

Puntua(Zo

naN)

Puntua(Zo

naS)

N Válidos 30 30 30 30

Perdidos 0 0 0 0

Media 104,5380 117,8187 ,0000000 ,0000000

Error típ. de la media 3,89482 3,68368 ,18257419 ,18257419

Mediana 102,9800 116,8550 -,0730331 -,0477623

Moda71,82(a) 114,45

-

1,53370(a)-,16696

Desv. típ.21,33279 20,17632

1,0000000

0

1,0000000

0

Asimetría -,265 -,052 -,265 -,052

Error típ. de asimetría ,427 ,427 ,427 ,427

Curtosis -,478 ,278 -,478 ,278

Error típ. de curtosis ,833 ,833 ,833 ,833

Mínimo 59,48 72,61 -2,11215 -2,24068

Máximo 146,06 163,12 1,94639 2,24527

Percentiles 2,559,4800 72,6100

-

2,1121475

-

2,2406790

1678,7416 99,4040

-

1,2092370-,9126869

84 125,6408 134,7012 ,9892189 ,8367497

97,5 146,0600 163,1200 1,9463933 2,2452718

a Existen varias modas. Se mostrará el menor de los valores.

TABLA 2

16

Page 17: Estadistica Avanzada

ZonaN150,00125,00100,0075,0050,00

Fre

cuen

cia

6

4

2

0

11

7

3

66

5

1

ZonaN

Media =104,54Desviación típica =21,

333N =30

HISTOGRAMA 1

Puntua(ZonaN)2,000001,000000,00000-1,00000-2,00000-3,00000

Fre

cuen

cia

8

6

4

2

0

1

3

7

3

8

22

3

1

Puntua(ZonaN)

Media =2,36E-16Desviación típica =1,

00000N =30

HISTOGRAMA 2

17

Page 18: Estadistica Avanzada

ZonaS175,00150,00125,00100,0075,00

Fre

cu

en

cia

6

4

2

0

1

33

7

5

6

3

2

ZonaS

Media =117,82Desviación típica =20,

176N =30

HISTOGRAMA 3

Puntua(ZonaS)3,000002,000001,000000,00000-1,00000-2,00000-3,00000

Fre

cu

en

cia

6

5

4

3

2

1

0

11

2

5

66

5

2

11

Puntua(ZonaS)

Media =-3,33E-16Desviación típica =1,

00000N =30

HISTOGRAMA 4

18

Page 19: Estadistica Avanzada

Puntua(ZonaN)

2

1

0

-1

-2

-3

DIAGRAMA 1

Puntua(ZonaS)

3

2

1

0

-1

-2

-3

DIAGRAMA 2

Analizando primero los resultados de la ZN en la tabla 2, observamos que

en los valores tipificados, el promedio de los voltajes es igual a “0”, así como su

19

Page 20: Estadistica Avanzada

desviación estándar es “1”, arrojando indicios de que los datos siguen el

comportamiento de una distribución normal. El coeficiente de asimetría resulta

igual a -0,265; y la curtosis es -0,478; estos dos valores expresan que los datos

están sesgados hacia la izquierda (sesgo negativo) y con la curtosis, se aprecia

que la distribución es platicúrtica.

En el histograma 2 y en el diagrama 1, se aprecia que la mayoría de los

datos (95%) estan comprendidos entre los percentiles 2,5 y 97,5; esto se valida

ya que, tipificados, el percentil 2,5 es igual a –2,1121475 y el percentil 97,5 es

1,9463933; resultando prácticamente iguales al valor que deben tener esos

percentiles en una distribución normal, que son -2 y 2. Con respecto a los

percentiles 16 y 84, ambos resultan (tipificados) -1,2092370 y 0,9892189

respectivamente, valores que se aproximan al -1 y 1 que acumulan el 68% de

los datos (característica de una distribución normal).

Examinando los resultados de la ZS en la tabla 2, encontramos que el

promedio es igual a “0” y la desviación estándar es “1” (ambos valores

tipificados). En otro orden de ideas, el coeficiente de asimetría resulta -0,052 y la

curtosis es 0,278; por lo tanto, existe un sesgo negativo o hacia la izquierda

(pequeño), y la distribución presenta un comportamiento leptocúrtico.

Por otra parte, en el histograma 4 y en el diagrama 2 se observa que los

percentiles 2,5 y 97,5 (tipificados) resultan – 2,2406790 y 2,2452718

respectivamente, valores muy cercanos a – 2 y 2; y los percentiles 16 y 84

resultan – 0,9126869 y 0,8367497 respectivamente, valores que están muy

cerca de – 1 y 1.

Pruebas de normalidad

Kolmogorov-Smirnov(a) Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.Puntua(ZonaN) ,108 30 ,200(*) ,972 30 ,585Puntua(ZonaS) ,074 30 ,200(*) ,989 30 ,982ZonaN ,108 30 ,200(*) ,972 30 ,585ZonaS ,074 30 ,200(*) ,989 30 ,982

* Este es un límite inferior de la significación verdadera.a Corrección de la significación de Lilliefors

TABLA 3

20

Page 21: Estadistica Avanzada

En la tabla 3, observamos que el nivel de significancia de la prueba

arrojado con la prueba de Kolmogorov – Smirnov (con la corrección de la

significación de Lilliefors) es 0,200 y 0,200 en la ZN y la ZS respectivamente;

valores que superan el alfa establecido por el programa SPSS (0,05), entonces,

se acepta la hipótesis nula de que la distribución de los datos sigue una

distribución normal.

Además, con el nivel de significancia de Shapiro-Wilk (prueba que tiene

más robustez que las demás), se obtienen 0,585 y 0,982 para la ZN y la ZS

respectivamente. Ambos valores superan el alfa de 0,05; por tanto, no se

rechaza la hipótesis nula (que es la misma hipótesis que en la prueba

Kolmogorov- Smirnov)

Con todo lo expuesto anteriormente, se puede afirmar con veracidad que

los datos proporcionados siguen el comportamiento de una distribución normal.

2. TAMAÑO ADECUADO DE LA MUESTRA

Para el cálculo de la muestra adecuada tanto de la ZN como de la ZS, se

utilizó el paquete estadístico Statgraphics, colocándose lo siguiente:

Parámetro a estimar: media normal

Potencia deseada: 80%.

Media hipotética: 110

Alfa: 0,05

Varianzas poblaciones conocidas

Insertando esto en el Statgraphics, obtenemos un tamaño de muestra

para ZN igual a 36, y de la ZS igual a 32. Resultados que se verifican al observar

la curva 1 (ZN) y la curva 2 (ZS) de potencia.

Con esta muestra calculada, se asegura que al tomar un valor aleatorio

del espacio muestral, éste va a estar contenido entre 100,0001V y 119,9999V.

De la misma forma se obtiene la muestra significativa si se desea inferir

sobre los voltajes de la ZN y la ZS, que resulta 58. Este valor se comprobó con

21

Page 22: Estadistica Avanzada

el uso de las curvas OC y con el uso de la fórmula para “n” de la hipótesis

alternativa unilateral.

Curva de Potencia

alfa = 0,05, sigma = 21,3328, n=36

95 100 105 110 115 120 125

Media Verdadera

0

0,2

0,4

0,6

0,8

1

Po

ten

cia

(1

- b

eta

)

Curva de Potencia

alfa = 0,05, sigma = 20,1763, n=32

95 100 105 110 115 120 125

Media Verdadera

0

0,2

0,4

0,6

0,8

1

Po

ten

cia

(1

- b

eta

)

22

CURVA 1 (ZN)

CURVA 2 (ZS)

Page 23: Estadistica Avanzada

Para saber si el voltaje de la ZS es mayor que el de la ZN, se realiza el

método de prueba de hipótesis en el Statgraphics, donde se planteará:

El resumen estadístico es el siguiente:

Norte SurRecuento 58 58Promedio 109,349 120,218Desviación Estándar 22,1534 21,4741

Coeficiente de Variación 20,2594% 17,8625%

Mínimo 61,93 70,62Máximo 157,72 163,12Rango 95,79 92,5Sesgo Estandarizado -0,126744 -0,0170384

Curtosis Estandarizada -0,948562 -0,676767

El cual, al aplicársele la prueba de hipótesis arroja un valor P de

0,00419025; rechazando así la hipótesis nula, de manera que se afirma que el

voltaje de la zona sur es mayor que el de la zona norte.

Se debe aclarar que se asumieron varianzas iguales, debido a que al

realizar la prueba-F para comparar desviaciones estándar, se obtuvo lo

siguiente:

Norte SurDesviación Estándar 22,1534 21,4741

Varianza 490,775 461,136

Gl 57 57

Hipótesis Nula: sigma1 = sigma2Hipótesis Alt.: sigma1 <> sigma2F = 1,06427 valor-P = 0,814908No se rechaza la hipótesis nula para alfa = 0,05.

Por lo tanto, es razonable asumir varianzas iguales.

23

Page 24: Estadistica Avanzada

En el siguiente histograma de frecuencia (histograma 5), diagrama de caja y

bigote (3) y gráfico cuantil-cuantil, se aprecian la distribución de los datos de la

ZN y de la ZS (obtenido con el Statgraphics), donde se puede visualizar que una

cantidad importante de los datos de voltaje de la ZS supera a los de la ZN:

Norte

50 70 90 110 130 150 170

Sur

21

11

1

9

19

29

frec

uenc

ia

Gráfico Caja y Bigotes

60 80 100 120 140 160 180

Norte

Sur

24

DIAGRAMA 3

HISTOGRAMA 5

Page 25: Estadistica Avanzada

Gráfico Cuantil-Cuantil

60 80 100 120 140 160 180

Norte

60

80

100

120

140

160

180

Sur

25

Page 26: Estadistica Avanzada

CONCLUSIONES

En un análisis estadístico, resulta de una gran ayuda que los datos provengan

de una distribución normal, porque permite una facilidad al momento de

encontrar parámetros especificados, así como para observar los histogramas,

diagrama de caja y bigote, entre otras herramientas gráficas. En la investigación

realizada, se realizó un estudio de normalidad tomando en como base los

valores tipificados de la media, desviación estándar, los percentiles 2,5; 16; 84 y

97,5; Prueba de Kolmogorov-Smirnov (con la corrección de Lilliefors) y la de

Shapiro Wilk.

El conjunto de datos estudiado pasó todas las pruebas y por lo tanto se

concluyó con suficiente evidencia que seguía una distribución normal, lo que

permitió el avance del estudio, llegando al cálculo de una muestra que tuviera un

nivel de tolerancia de 80% y cuyos valores estuvieran comprendidos entre

100,0001V y 199,9999V.

El cálculo se hizo con el Statgraphics, arrojando una muestra de 36 y 32

para la ZN y la ZS respectivamente; pero, como se deseaba realizar una prueba

de hipótesis entre ambas muestras, se tuvo que realizar un nuevo cálculo de

muestra adecuado (de nuevo con el Statgraphics), donde se obtuvo un valor de

58 datos.

Finalmente, se realizó la inferencia estadística para determinar qué voltaje

resultaba mayor. El resultado fue que el voltaje de la ZS es mayor que el de la

ZN, para obtener esto se utilizó de nuevo el paquete estadístico Statgraphics y el

método de prueba de hipótesis, donde la nula expresaba que la diferencia de

medias es igual a cero y la alternativa que era menor que cero, de manera que

al rechazarse la hipótesis nula (que ocurrió porque el valor P resultó menor que

el alfa de 0,05), se concluye que el voltaje en la ZS es mayor que el de la ZN.

26

Page 27: Estadistica Avanzada

ANEXOS

Anexado ejercicio exigido por el profesor Juan Hernández de Regresión

Lineal Múltiple de primer y segundo orden.

27

Page 28: Estadistica Avanzada

INTRODUCCIÓN

Las pruebas de aptitud para el trabajo se han usado como criterio de

admisión para determinar la factibilidad de una contratación en el ámbito laboral.

Con este propósito se ha definido una seria de pruebas capacitadas para

determinar que tan eficiente llegaría ser un personal cuando es contratado por

una empresa, en tal caso, podría hablarse de la aptitud como la capacidad de

una persona de adecuarse a una tarea, esto engloba tanto capacidades

cognoscitivas y procesos, como características emocionales y de personalidad.

Para ello, deben conocerse bien las características del trabajo a desempeñar, y

las de las personas que ha de realizarlo.

Por lo tanto, El presente trabajo tiene como apreciación dar a conocer con

certeza que prueba repercute mas sobre el individuo por medio de un método

estadístico conocido como lo es la Regresión Lineal múltiple de Primer y

Segundo Orden; esta nos conducirá a conocer cuan significativa es para el

individuo.

Además llevaremos a experimentación las pruebas estadísticas ya

mencionadas permitiéndonos así extender el propósito de esta investigación; En

otro orden de ideas, no solo conoceremos que pruebas son necesarias para

medir la calidad en base a la aptitud del personal sino que también darle el uso

adecuado al tema estadístico como herramientas eficaz para el desarrollo

personal.

28

Page 29: Estadistica Avanzada

Ejercicio

En muchas agencias gubernamentales y compañías privadas el problema

de identificar aquellos factores que son importantes para predecir la aptitud para

el trabajo de los aspirantes a obtener un empleo constituyen un proceso

continuo. El procedimiento usual es el de aplicar al solicitante un conjunto de

pruebas apropiadas y tomar la decisión de contratarlo o no con base en los

resultados de estas. El asunto clave es conocer a priori qué pruebas pueden

predecir la aptitud para el trabajo de una persona. Supóngase que el personal de

una compañía muy grande ha desarrollado cuatro pruebas para una

determinada clasificación con respecto al trabajo. Estas pruebas se aplicaron a

20 individuos que fueron contratados por la compañía. Después de un periodo

de dos años, cada uno de estos empleados se clasifica de acuerdo con su

aptitud para el trabajo. La puntuación para la aptitud hacia el trabajo Y y la

correspondiente a cada una de las cuatro pruebas X1, X2, X3, X4 se dan en la

tabla:

Y X1 X2 X3 X494 122 121 96 8971 108 115 98 7882 120 115 95 9076 118 117 93 95

111 113 102 109 10964 112 96 90 88

109 109 129 102 108104 112 119 106 10580 115 101 95 8873 111 95 95 84

127 119 118 107 11088 112 110 100 8799 120 89 105 9780 117 108 99 10099 109 125 108 95

116 116 122 116 102100 104 83 100 10296 110 101 103 103

126 117 120 113 10858 120 77 80 74

29

Page 30: Estadistica Avanzada

a) Ajuste un modelo de regresión lineal múltiple de primer orden

Para realizar el ajuste de un modelo de regresión lineal múltiple de primer orden, primero debemos definir ciertos aspectos:

El modelo de regresión lineal múltiple con “k” regresores está definido como:

Donde los parámetros se conocen como coeficientes de regresión.

Por lo tanto, el modelo de regresión lineal múltiple del ejercicio es:

Para la obtención de los betas, utilizamos el siguiente sistema de ecuaciones:

30

Page 31: Estadistica Avanzada

Hallando todos los coeficientes de beta:

31

Page 32: Estadistica Avanzada

Sustituyendo en el sistema de ecuaciones anterior, tenemos lo siguiente:

Resolviendo este sistema de ecuaciones se obtiene:

Con los coeficientes de regresión, obtenemos finalmente el modelo de

regresión lineal múltiple, que es:

Estos resultados también se justifican con el análisis de regresión en el

SPSS, donde se obtienen unos valores de beta prácticamente iguales a los que

se obtuvieron resolviendo las matrices; estos valores de beta son:

Coeficientes(a)

Modelo Coeficientes no estandarizados

BError típ.

1 (Constante)

-175.884

48.610

X1 .491 .359 X2 .020 .140 X3 1.302 .350 X4 .831 .253

b) Realice un análisis completo de residuales. Emita conclusiones:

Utilizaremos varios aspectos:

32

Page 33: Estadistica Avanzada

El coeficiente de Durbin-Watson es 1.744, lo cual indica que no existe

correlación entre los residuos, ya que su valor es aproximadamente 2

(ver anexo 1).

En el siguiente histograma, observamos como el residuo tipificado

sigue una distribución normal, esto se demuestra porque su media es

(aproximadamente 0), y su desviación estándar es

0.889 (aproximadamente 1), los datos poseen una sola moda, su

curva presenta una forma leptocúrtica, además, el 68% de los datos

están contenidos entre -1 y 1, así como el 95% se encuentran entre -2

y 2.

En el siguiente grafico de dispersión se observa un solo valor atípico

(encerrado en un cuadrado azul), mientras que la mayoría de los datos

33

Page 34: Estadistica Avanzada

se encuentran dentro de -2 y 2, siendo estos los percentiles 2,5% y

97,5%.

c) Interprete las estimaciones de y

Los valores de los coeficientes de regresión son 1,302 y 0,02

respectivamente.

El valor de representa el coeficiente mayor, esto quiere decir que su

impacto en la variable dependiente Y (o variable aleatoria) es el más grande

entre todas las demás variables independientes, ya que, por ejemplo, al

introducir los siguientes valores:

34

Page 35: Estadistica Avanzada

Al multiplicar cada uno de estos valores por sus respectivos betas,

obtenemos el siguiente impacto sobre la variable dependiente Y:

Por lo tanto se puede observar claramente que el coeficiente de regresión

es el que afecta mas el valor que se obtenga de la variable Y. Por otra parte,

se puede visualizar que el valor de es el que tiene menos impacto en la

aptitud hacia el trabajo.

d) ¿Qué proporción de la variación observada en la aptitud se puede

explicar con la relación del modelo?

El valor de R2 o coeficiente de determinación es igual a “0.854”

representando un 85.4%, es decir que el 85.4% de los datos son tomados en

cuenta por la recta o explicado de otra forma, el modelo de regresión es

adecuado, porque el valor de R2 se encuentra por encima del 75%.

e) ¿El modelo elegido especifica una relación lineal útil entre la aptitud

y al menos uno de las cuatro pruebas?

A través de la siguiente tabla, se explicara la relación que existe o no entre la

aptitud y alguna de las cuatro pruebas.

Correlaciones

Y X1 X2 X3 X4

35

Page 36: Estadistica Avanzada

Y Correlación de

Pearson1 -.004 .479(*) .886(**) .865(**)

Sig. (bilateral) .986 .033 .000 .000

N 20 20 20 20 20

X1 Correlación de

Pearson-.004 1 .057 -.153 -.096

Sig. (bilateral) .986 .812 .519 .688

N 20 20 20 20 20

X2 Correlación de

Pearson.479(*) .057 1 .517(*) .380

Sig. (bilateral) .033 .812 .020 .098

N 20 20 20 20 20

X3 Correlación de

Pearson.886(**) -.153 .517(*) 1 .764(**)

Sig. (bilateral) .000 .519 .020 .000

N 20 20 20 20 20

X4 Correlación de

Pearson.865(**) -.096 .380 .764(**) 1

Sig. (bilateral) .000 .688 .098 .000

N 20 20 20 20 20

* La correlación es significante al nivel 0,05 (bilateral).

** La correlación es significativa al nivel 0,01 (bilateral).

En negrita se observan los datos necesarios para establecer la existencia de una

correlación entre las variables (aptitud con las pruebas), estas correlaciones son:

Y con x1: Entre estas dos variables no hay correlación lineal, esto se

demuestra porque su coeficiente de correlación de Pearson es “-

36

Page 37: Estadistica Avanzada

0.004”, que es aproximadamente “0”, además, el valor “P”

(significancia estadística) es 0.986, superando al alfa utilizado (0.05),

aceptando así la hipótesis nula de que el valor de R (coeficiente de

correlación muestral o de Pearson) es igual a “0”, por lo tanto, se

apoya lo anteriormente dicho. En el grafico de dispersión se observara

claramente en el recuadro azul como no hay una correlación lineal

entre las variables “Y” y “x1”.

Y con x2: Entre estas dos variables sucede una pequeña confusión ya

que el coeficiente de correlación de Pearson es “0.479” valor que se

encuentra exactamente en la mitad ( entre el intervalo de 0 a 1 , donde

0 significa que no hay correlación, mientras que 1 expresa que están

perfectamente correlacionados) , por otra parte, el valor P estimado es

igual a “0.033”, siendo este valor menor que el alfa utilizado para la

prueba, rechazándose así la hipótesis nula la cual plantea que no hay

correlación entre dichas variables. En conclusión y tomando en cuenta

el grafico de dispersión no se puede afirmar totalmente que existe una

correlación pero se puede observar que los datos expresan una

relación medianamente lineal.

Y con x3: Entre estas dos variables existe una completa correlación

lineal. Esto se puede demostrar ya que el coeficiente de correlación de

Persson es igual a “0.886”, el cual es un valor muy cercano a “1”. A su

vez, el valor de significancia estadística (P) es igual a 0, donde

claramente se observa que es menor al alfa utilizado. Finalmente en el

grafico de dispersión se apoya estas suposiciones.

Y con x4: Entre estas dos variables existe una completa correlación

lineal entre las dos variables. Esto se puede demostrar ya que el

coeficiente de correlación de Pearson es igual a “0.865”, el cual es un

valor muy cercano a “1”. A su vez, el valor de significancia estadística

37

Page 38: Estadistica Avanzada

(P) es igual a 0, donde claramente se observa que es menor al alfa

utilizado. Finalmente en el grafico de dispersión se apoya estas

suposiciones.

f) ¿Si la puntuación de la prueba 3 permanece en el modelo se justifica

la eliminación de la puntuación de la prueba 1 como predictor?

Justifique su respuesta

Si, porque la correlación entre la prueba 1 (x1) y la aptitud para el trabajo

(variable dependiente Y) es nula; esto se demuestra porque su coeficiente de

Pearson resulta igual a -0.004, valor muy cercano a “0”; y su valor de

significancia es 0.986, siendo este superior al alfa de 0.05, reflejándose así una

aceptación de la hipótesis nula, donde se plantea que no existe correlación entre

las variables.

En cambio, la prueba 3 (x3) es la que mayor impacto tiene sobre la aptitud

para el trabajo, todo esto se explica con mayor extensión en el punto anterior.

g) Ajuste un modelo de regresión lineal múltiple de segundo orden.

Dedúzcase la mejor ecuación de predicción y empléese para estimar

la aptitud para el trabajo de un individuo que tiene las siguientes

puntuaciones, en las pruebas: x1=105, x2=110, x3=99 y x4=107.

Un modelo de regresión lineal múltiple de segundo orden debe contener

todas las posibles combinaciones entre las variables independientes

(combinaciones expresadas como multiplicaciones).

Entonces, el modelo de segundo orden para este ejercicio debe ser:

38

Page 39: Estadistica Avanzada

En el programa SPSS observamos como se eliminan o excluyen un gran

numero de variables; esto se debe a que su nivel de significancia supera al

alfa establecido por el programa (0.05), además cabe destacar que la adición

de una variable sin importancia puede aumentar el error cuadrático medio, lo

que constituye un indicador de que tal variable disminuye la calidad con la

que el modelo ajusta los datos (ver el siguiente cuadro).

Variables excluidas (b)

Modelo

Beta

dentro t Sig.

Estadístico

s de

colinealidad

Toleranci Toleran Toleran

Tolerancia

39

Page 40: Estadistica Avanzada

a cia cia

1 X1 .101(a) 1.227 .237 .988

X2 .069(a) .735 .473 .795

X3 .172(a) .814 .427 .158

X4 -.332(a) -1.192 .250 .087

X1

X1.105(a) 1.272 .221 .987

X2

X2.081(a) .868 .398 .799

X3

X3.189(a) .914 .373 .163

X4

X4-.259(a) -.925 .368 .089

X1

X2.099(a) 1.094 .289 .838

X1

X3.224(a) 1.600 .128 .325

X1

X4.040(a) .216 .831 .216

X2

X3.115(a) .972 .345 .494

X2

X4.078(a) .542 .595 .347

a Variables predictoras en el modelo: (Constante), X3X4

b Variable dependiente: Y

También podemos visualizar en la siguiente tabla, que la única variable

que forma parte de este nuevo modelo de regresión lineal múltiple de segundo

orden es X3X4, porque su nivel de significancia (p) resulto igual a “0”,

rechazando así la hipótesis nula de que no existe correlación entre ella y la

variable dependiente:

40

Page 41: Estadistica Avanzada

Coeficientes(a)

Model

o

Coeficientes no

estandarizados

Coeficient

es

estandariz

ados

t Sig.B

Error

típ. Beta

1 (Constant

e)-10.736 9.334 -1.150 .265

X3X4 .011 .001 .936 11.242 .000

a Variable dependiente: Y

El modelo de regresión lineal de segundo orden seria entonces:

Como x1 y x2 no aparecen en el modelo, se utilizan únicamente los valores

de, x3=99 y x4=107, y, sustituyendo resulta:

h) Emita conclusiones para ambos modelos. ¿Cuál seleccionaría y por

que?

Para escoger el modelo mas adecuado debemos comparar diferentes

aspectos:

Modelo de primer orden Modelo de segundo orden

41

Page 42: Estadistica Avanzada

R2 0.854 0.868

Coeficiente

de Durbin

Watson

1.744 1.62

Gráficos de

dispersión

Y X1 X2 X3 X4

Y X3X4

Correlacion

es entre la

variable

dependiente

y las demás

variables

Valor del

estadístico

de prueba F

(en

ANOVA)

F = 28.768 F = 126.375

Región

critica

F > 3.06 F > 4.41

Con respecto al valor del coeficiente de determinación (R2), se observa

claramente que aunque la diferencia entre ambos es pequeña, el coeficiente en

el modelo de segundo orden es mayor, explicándose así un 1.4% mas la

42

Y

X3X4

Page 43: Estadistica Avanzada

varianza por la recta de regresión. El coeficiente de Durbin-Watson es mas

cercano a 2 en el modelo de primer orden, por lo tanto, en el primer modelo, se

infiere que hay menos correlación entre los residuales.

En los gráficos de dispersión se observa como en el modelo de segundo

orden existe una clara relación lineal y directa con respecto a la aptitud para el

trabajo y la variable x3x4, en cambio, en el modelo de primer orden solo se

observa correlación entre la variable dependiente “Y” y las variables

independientes x2, x3 y x4, mientras que la variable x1 no tiene correlación con la

dependiente; esto afecta la exactitud que se espera obtener del modelo, ya que

se esta empleando una prueba que no tiene relación directa con la aptitud para

el trabajo. Esta afirmación se soporta al observar las tablas que poseen el

coeficiente de correlación de Pearson y la significancia estadística, donde se

evidencia que la variable x1 no tiene relación con “Y”, y que la correlación de

Pearson de valor mayor se encuentra en la variable independiente perteneciente

al modelo de segundo orden.

Finalmente, al realizar la prueba de análisis de varianzas, obteniendo el

valor del estadístico “F” y generando la región critica, observamos que, a pesar

de que ambos modelos se encuentran dentro de esta zona (rechazando así la

hipótesis nula de que no hay correlación), el modelo de segundo orden se

encuentra mucho más alejado del punto crítico.

Al momento de tomar la decisión de elegir uno de los modelos, la

evidencia indica que el segundo modelo expresa no solamente una mejor

adecuación, si no que se observa una correlación mayor entre la variable

independiente y la variable dependiente, siendo la correlación uno de los puntos

mas importantes al momento de generar un modelo de regresión.

43

Page 44: Estadistica Avanzada

CONCLUSIONES

Un modelo de regresión lineal sea simple o múltiple permite establecer

una relación lineal entre dos variables (en caso de ser regresión lineal simple) ó

3 ó mas variables (en caso de ser regresión lineal múltiple), donde en el modelo

existe un variable dependiente y el resto deben ser variable independientes.

En el ejercicio planteado se observa cómo la correlación entre variables

depende del coeficiente de correlación de Pearson (R), y del valor de

significancia (P), donde el valor R vale 1 si las variables están perfectamente

44

Page 45: Estadistica Avanzada

correlacionadas y 0 si no hay correlación entre ellas; y P plantea la hipótesis

nula de que R es igual a “0”, por lo tanto al ser menor al alfa de 0,05; se

rechazará está hipótesis, estableciendo correlación entre las variables.

En el modelo de regresión lineal múltiple de segundo orden ocurre

generalmente la eliminación o exclusión de variables independientes por no

tener correlación con la variable dependiente o por aumentar la suma de

cuadrados de los errores.

Se debe recordar que R2 (coeficiente de determinación) no mide cuan

apropiado resulta ser el modelo, si no que establece que porcentaje de la

varianza es explicado por la recta de regresión.

45