mini moscu ad corr

9
Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R. Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 30 REGRESIÓN LINEAL: la recta de mínimos cuadrados SOBRE LA INFORMACIÓN MÁS PRECISA QUE SE PUEDE OBTENER DE LOS DATOS O PORQUÉ NUNCA SE DEBE DESPRECIAR LA DISPERSIÓN Una inteligencia con atención dispersa va con un desprecio por la dispersión. Dos estudiantes de la maestría en estadística, aficionados a la cacería, fueron a cazar venados. Al avistar uno, rápidamente apuntaron sus rifles y abrieron fuego. Uno de los estudiantes disparó ½ metro hacia la derecha y el otro ½ a la izquierda. Se miraron uno al otro y, con gran euforia, se felicitaron mutuamente. Está demás saber que, no obstante su cálculo del promedio, no cazaron al venado, quien se quedó mirándolos sorprendido y riéndose de los tiradores se internó en el bosque, mientras estos celebraban su imaginaria hazaña. La moraleja de esta artificiosa anécdota nos dice que a veces, la dispersión es más importante que el promedio. ¿QUÉ ES LA DISPERSIÓN? Entenderemos por dispersión, la cantidad de datos desperdigados, esto es, el grado en que difieren entre sí unos números de otros. Por ejemplo, el conjunto de números 7,7,7,7,7,7,7,7,7,7 no tiene dispersión. El conjunto 1, 2, 3, 5, 7, 9, 11 tiene dispersión, pero no tanta como el conjunto, 100, 150, 300, 400, 497. Para representar la dispersión como una medida, se han ideado muchas formas de calcularla. Varias medidas formales reconocidas en matemáticas son: la varianza, el rango, la desviación típica, la desviación estándar, el recorrido intercuartílico, el coeficiente de variación, etc.

Upload: cristhia-alberto-montiel-amaya

Post on 12-Dec-2015

257 views

Category:

Documents


1 download

DESCRIPTION

unam

TRANSCRIPT

Page 1: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 30

REGRESIÓN LINEAL: la recta de mínimos cuadrados SOBRE LA INFORMACIÓN MÁS PRECISA QUE SE PUEDE OBTENER DE LOS DATOS O PORQUÉ NUNCA SE DEBE DESPRECIAR LA DISPERSIÓN

Una inteligencia con atención dispersa va con un desprecio por la dispersión.

Dos estudiantes de la maestría en estadística, aficionados a la cacería, fueron a cazar

venados. Al avistar uno, rápidamente apuntaron sus rifles y abrieron fuego. Uno de los

estudiantes disparó ½ metro hacia la derecha y el otro ½ a la izquierda. Se miraron uno al

otro y, con gran euforia, se felicitaron mutuamente.

Está demás saber que, no obstante su cálculo del promedio, no cazaron al venado, quien se

quedó mirándolos sorprendido y riéndose de los tiradores se internó en el bosque, mientras

estos celebraban su imaginaria hazaña.

La moraleja de esta artificiosa anécdota nos dice que a veces, la dispersión es más

importante que el promedio.

¿QUÉ ES LA DISPERSIÓN? Entenderemos por dispersión, la cantidad de datos desperdigados, esto es, el grado en que

difieren entre sí unos números de otros. Por ejemplo, el conjunto de números

7,7,7,7,7,7,7,7,7,7 no tiene dispersión. El conjunto 1, 2, 3, 5, 7, 9, 11 tiene dispersión, pero

no tanta como el conjunto, 100, 150, 300, 400, 497.

Para representar la dispersión como una medida, se han ideado muchas formas de

calcularla. Varias medidas formales reconocidas en matemáticas son: la varianza, el rango,

la desviación típica, la desviación estándar, el recorrido intercuartílico, el coeficiente de

variación, etc.

Page 2: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 31

¿ES IMPORTANTE LA DISPERSIÓN? No hay que omitir la dispersión, porque las observaciones pueden diferir notablemente

entre sí y esas diferencias pueden hacer la diferencia entre lo que uno decide y la suerte que

correrá.

Existen muchos ejemplos de conclusiones fallidas por no considerar la dispersión. Para

muestra basta un botón.

Una historia muy contada, ocurrida durante la segunda guerra civil entre mandarines

chinos, en los años 20´s del siglo pasado, relata que: al llegar a la orilla de un río, uno de

los mandarines se dio cuenta de que carecían de barcas para cruzarlo. El mandarín recordó

entonces, haber leído en un libro de geografía, que la profundidad promedio del agua en esa

época del año, era a lo más de ½ metro, y dio la orden de cruzarlo a pie. Una vez cruzado el

río, se percató, para su asombro, que se habían ahogado varios centenares de sus soldados.

Aunque el río en promedio tenía menos de ½ metro, en ciertos lugares era mucho más

hondo, de manera que al parecer, los soldados de menor estatura, ni la cabeza pudieron

sacar.

La gráfica que el mandarín recordaba de su libro de geografía y que lo llevó a su fallida

conclusión era como esta:

Profundidad promedio en m

Ancho del río

Ribera de inicio

Ribera final

Parte media

½

Page 3: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 32

Para evitar semejante error, al mandarín chino le habría sido útil tener una representación

de los datos reales, además de la estimación promedio, ya que las dispersiones le habrían

servido para tomar una decisión con mayor cuidado. El libro debió haber presentado la

información en una gráfica como la siguiente:

La situación mostrada en la primera gráfica representa una relación perfecta, cuando en

realidad la cosa estaba como en la segunda gráfica. Es importante resaltar que cualquier

línea que pretenda describir una relación estadística, sin que aparezca dispersión en torno a

ella —es decir, cuando no aparecen puntos—, debe despertar suspicacias. La falta de

puntos (datos), fuera de la recta, implica relación perfecta, situación que no existe, salvo en

los libros de texto de matemáticas.

Profundidad promedio en m

Ancho del río

Ribera de inicio

Ribera final

Parte media

2

1

1/2

Page 4: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 33

EL PRINCIPIO DE MÍNIMOS CUADRADOS

Tener más métodos matemáticos que puedan ayudarnos a encontrar la “mejor recta de

ajuste” nos proporcionará mayor confianza en lo que hacemos y con ello evitaremos los

juicios personales que nos llevan a no estar plenamente seguros de nuestros resultados.

Para hallar “la mejor recta de ajuste” hay que conocer métodos matemáticos, el contexto de

nuestro problema y la distribución de los datos. Uno de los procedimientos matemáticos

para ajustar rectas, se basa en el principio estadístico de los mínimos cuadrados, que

consiste en minimizar las dispersiones entre los datos reales y los estimados por el modelo,

—existen otros que en este apartado, por el momento, no estudiaremos. Para ilustrar lo que

aquí te decimos, veamos la siguiente situación.

¿CUÁL ES LA MEJOR LÍNEA DE AJUSTE?

Se tomó una muestra de las estaturas en cm y la talla del zapato de 10 estudiantes

universitarias escogidas al azar, obteniendo los siguientes resultados:

Para decir qué recta se ajusta mejor a los datos, utilizamos el método de mínimos

cuadrados. Tal vez, de las dos rectas que están dibujadas, ninguna sea la óptima, entonces

es aquí donde aplicaremos el método de mínimos cuadrados, el cual consiste en buscar una

ecuación de la forma y = mx + b. Este método lo iremos desglosando paralelamente a su

aplicación con los datos del problema y su análisis.

Para tener la recta que queremos, necesitamos determinar los valores de m (pendiente) y b

(ordenada al origen). Con el modelo algebraico y = mx + b tendremos una estimación de

Estudiante Estatura x

Talla del zapato

y 1 152.4 23.5 2 162.5 25.0 3 160.0 25.5 4 172.7 27.0 5 165.1 25.0 6 162.6 26.0 7 170.2 26.5 8 167.6 26.0 9 147.3 22.5

10 155.0 24.0

Page 5: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 34

los datos reales y queremos que esta recta sea la que menos se aleja, en promedio, de tales

datos, esto es, en símbolos: que y – y, sea una diferencia mínima.

Para hallar un modelo lineal que se ajuste a los datos anteriores, necesitamos involucrarlos

a todos ellos en el cálculo de la pendiente y la ordenada al origen. Para lograr esto,

requerimos usar varios promedios como: la media de las estaturas ; la media de la talla

de zapatos ; la media aritmética del cuadrado de x, el promedio del producto de la

y – y y es el dato

estimado con la recta de

ajuste y es el dato

real

Esta es la dispersión que deseamos hacer

mínima

Las dispersiones del dato real al dato estimado por la recta de regresión que están por encima de la línea, son positivas y las que las están por debajo son negativas, entonces, la suma de las dispersiones positivas y negativas debe ser cero si la recta debe pasar justo por enmedio de los datos. Como la suma de las dispersiones se anula usamos entonces los cuadrados de tales diferencias (y – y)2, por eso el método de regresión lineal se le conoce también como método de MÍNIMOS CUADRADOS.

y

y y - y y - y

+ -

+

-

Page 6: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 35

estatura por la talla de zapato . Agreguemos columnas a la tabla de datos anteriores y

calculemos estos promedios como sigue:

Ahora pasamos al recuadro siguiente que nos proporciona la relación que estas cantidades

guardan para obtener el valor de los parámetros de la recta de ajuste.

Para nuestro caso, calculamos los parámetros a y b para encontrar la ecuación de regresión

lineal que mejor modela la relación de la estatura con la talla de calzado, que se expresa

como: y = ax + b

Estudiante Estatura x

Talla del zapato

y xy x2

1 152.4 23.5 3581.4 23225.76 2 162.5 25.0 4062.5 26406.25 3 160.0 25.5 4080.0 25600.00 4 172.7 27.0 4657.5 29825.29 5 165.1 25.0 4127.5 27258.01 6 162.6 26.0 4227.6 26438.76 7 170.2 26.5 4510.3 28968.04 8 167.6 26.0 4357.6 28089.76 9 147.3 22.5 3314.25 21697.29

10 155.0 24.0 3720.0 24025.00 Totales 1615.4 251 40638.65 261534.16

Promedios = 161.54 = 25.1 = 4063.86 = 26153.416

Línea de regresión lineal. Fórmula de regresión: La fórmula de la ecuación de la regresión lineal de cualquier conjunto de datos involucra varios promedios. Sean las medias o promedios de los valores de x y y respectivamente. Sean iguales a los promedios de los cuadrados de los valores de x y de y. Sean el promedio del producto de los

valores de x por y. Entonces usa la fórmula y = ax + b, dónde

a =xy − (x)(y)x 2 − (x)2

b =y(x 2) − x(xy)x 2 − (x)2

Page 7: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 36

De nuestros datos obtuvimos:

Sustituimos valores en

a =n • xy − (x)(y)n • x 2 − (x)2

b =y(x 2) − x(xy)n • x 2 − (x)2

a =10 × 4063.86 − (161.54)(25.1)10 × 26153.416 − 26095.17

b =25.1(26153.416) −161.54(4063.86)

10 × 26153.416 − 26095.17

a = 0.155409 b = -0.000481

y = ax + b

Por lo tanto**:

y = 0.1554x − 0.000481

** La suma de las dispersiones es cero, por ello se elevan al cuadrado y se calcula su promedio. La justificación matemática de que este promedio es mínimo se ve en cursos posteriores de Estadística.

= 161.54 = 25.1 = 4063.86 = 26153.416

Estudiante Estatura x

Talla del zapato

y xy x2

Valores estimados

con el modelo

y

Dispersiones y - y

Cuadrado de las

dispersiones (y – y)2

1 152.4 23.5 3581.4 23225.76 23.6 -0.1 0.01 2 162.5 25.0 4062.5 26406.25 25.2 -0.2 0.04 3 160.0 25.5 4080.0 25600.00 24.8 0.7 0.49 4 172.7 27.0 4657.5 29825.29 26.9 0.1 0.01 5 165.1 25.0 4127.5 27258.01 25.7 -0.7 0.49 6 162.6 26.0 4227.6 26438.76 25.3 0.7 0.49 7 170.2 26.5 4510.3 28968.04 26.5 0 0 8 167.6 26.0 4357.6 28089.76 26.0 0 0 9 147.3 22.5 3314.25 21697.29 22.8 -0.3 0.09 10 155.0 24.0 3720.0 24025.00 24.1 -0.1 0.01

Totales 1615.4 251 40638.65 261534.16 250.9 0** 1.63 Promedios = 161.54 = 25.1 = 4063.86 = 26153.416 25.09 0 0.363

Este es el promedio de los cuadrados de las dispersiones que con este método es una cantidad mínima.**

Page 8: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 37

Nombre:_____________________________________fecha de entrega 15/marzo/2012 Ficha. RENTAR O NO RENTAR El público que asiste a una feria de artesanías y la renta por un espacio para exhibir la

mercancía, afectan las ganancias de los artesanos. A continuación, disponemos de los datos

sobre la asistencia del público y las rentas en ocho ferias de artesanías en la República

Mexicana.

Feria Asistencia Renta $

1. Tonalá 1200 1200

2. Las Flores 1500 2000

3. Oaxaca 4000 3000

4. San Marcos 6200 3400

5. Puebla 2900 2500

6. Zapopan 800 1000

7. Chiapas 3500 3000

8. CNA D.F. 5500 3700

Sumas

Medias

1. Haz la gráfica de puntos para representar los datos en excel o en papel milimétrico y

pégala en el recuadro que sigue.

Indias con telares de cintura. Tejedoras de Carranza, Chiapas, México

Page 9: Mini Moscu Ad Corr

Material elaborado por las Profesoras Bertha Medina y Dulce Ma. Peralta G.R.

Profa. Dulce Ma. Cisneros Peralta SEM 2012-2 38

2. Completa la tabla con los datos que faltan para que puedas hallar los parámetros a y

b de la ecuación de regresión que modele dichos datos.

3. Escribe la ecuación de la línea de regresión.

4. ¿Cuál de las ferias mostradas es más cara que el promedio? __________________

5. Estima la renta en una feria dónde se espera que asistan 3000 personas al día.

6. Describe otros factores que te harían decidir, como artista, ocupar un espacio en una

feria donde la renta sea más alta que el promedio.

a = b = Modelo y =

Respuesta.