indice_gini_byrong

Cálculo del índice de Gini en estudios de pobreza

Ing. Byron Humberto González Ramírez Profesor de Estadística Aplicada

Facultad de Ciencias Económicas y Empresariales Universidad Rafael Landívar, Guatemala, Centro América

http://[email protected]

Tel/fax +502 24262626 ext. 2830 Publicación: marzo 2006

1 Presentación Como Giles D. (2002) menciona el índice de Gini ha sido y es probablemente la medida más usada para medir la desigualdad en los ingresos. Desde su aparecimiento en 1912 este índice ha sido ampliamente estudiado y modificado por diferentes autores. La ecuación más popular actualmente es la propuesta por Brown (1994) y citada por la mayoría de instituciones dedicadas a estudios económicos y demográficos en América Latina. Enseguida se describe el cálculo manual del índice de Gini y se presenta la manera de calcularlo usando tres alternativas de software. Así mismo se describe la construcción de la curva de Lorenz, un gráfico desarrollado en 1905 por Max Lorenz para representar la distribución del ingreso. Ha sido nuestra intención desarrollar cada uno de los apartados de este documento con la mayor descripción posible para ayudar en la comprensión y cálculo de este índice. Interpretaciones particulares luego de obtenido el índice de Gini y la Curva de Lorenz serán necesarios para cada uno de los escenarios sobre los cuáles se hayan calculado.

2 Definición Para una población determinada este índice puede oscilar entre cero (0) y uno (1). Tomaría un valor de cero cuando todos los integrantes de la población reciben el mismo ingreso. Por el contrario, el uno significa que un miembro o unos pocos perciben todo el ingreso y los restantes nada.

http://www.byrong.tk/

mailto:[email protected]

Para calcular el índice de Gini se usa frecuentemente la ecuación 1, en la que se necesita acumular los valores de ingresos y población estudiados.

donde, X= proporción acumulada de la población

Y= proporción acumulada del ingreso

Ecuación 1: Relación entre los ingresos (X) y población (Y) para el cálculo del índice de Gini. Ecuación propuesta por Brown (1994) y citada en ayudas del software Epidat (2006)

Para facilitar los cálculos puede usarse en forma equivalente la ecuación 2 presentada por Vargas S. En esta ecuación k está referida al número de clases formadas.

∑

∑

∑

∑−

=

−

=−= 1k

1ii

1k

1ii

i

1-k

1=i

ii

1-k

1=i`G

P

Q1

P

)Q-(P = I

Ecuación 2: Cálculo del índice de Gini usando distribuciones de frecuencias, citada por Vargas S.

3 Ejemplo de cálculo

3.1 Descripción de los datos En la tabla 1 se presentan los ingresos mensuales de jefes de hogares correspondientes a la región nororiental del país (datos ficticios). Vamos a realizar los cálculos necesarios para el índice de Gini y medir la desigualdad de los ingresos. Debemos aclarar que el índice puede ser calculado usando el listado completo de datos o bien conformando grupos. En este caso hemos elegido agrupar los datos. Al respecto Medina F. (2001) menciona que este procedimiento “necesariamente conduce a pérdida de información” debido a que los valores individuales de cada observación son sustituidos por las marcas de cada una de las clases formadas por los ingresos de las personas. Consideramos que en efecto existe una pérdida de información, que se compensa con la facilidad con que finalmente se realizan los cálculos.

Tabla 1: Ingresos en quetzales de 43 personas residentes en la región nororiental de Guatemala

persona ingreso Persona ingreso persona ingreso

1 3200 16 600 31 600 2 1800 17 2500 32 300 3 1200 18 1500 33 480 4 600 19 360 34 480 5 5000 20 1200 35 480 6 3000 21 1680 36 600 7 2700 22 2300 37 720 8 1360 23 1094 38 400 9 750 24 1045 39 715 10 600 25 2625 40 960 11 150 26 4070 41 900 12 600 27 3565 42 400 13 700 28 2855 43 600 14 100 29 600 15 600 30 600

En la tabla 2 se presentan los valores considerados para construir la tabla de frecuencias. Estos valores fueron obtenidos empleando Excel (ver el apartado 3.3). También aparece el cálculo del número de clases usando la ecuación de Sturges1. Se aproximó a 7 clases para facilitar los cálculos. Algunos aspectos sobre este tema se mencionan en Levin R. et al (2004).

Tabla 2: Valores empleados para construir la tabla de frecuencias

número de casos (n) 43 Máximo 5000 Mínimo 100 Rango 4900 número de clases 6.44 intervalo de clase 700

Se empleó Excel para construir el histograma y definir las frecuencias de cada clase (Ver apartado 3.2). Las frecuencias calculadas para cada una de las clases definidas se muestran en la tabla 3,

1 Ecuación de Sturges: 1+ 3.33 x Log (n)

Tabla 3: Tabla de frecuencias para los ingresos en quetzales de 43 personas residentes en la región nororiental de Guatemala

limite inferior limite superior marca de clase Frecuencia

100 800 450 23 800 1500 1150 8 1500 2200 1850 2 2200 2900 2550 5 2900 3600 3250 3 3600 4300 3950 1 4300 5000 4650 1

3.2 Cálculo del índice de Gini Considerando la ecuación 1 es necesario calcular la proporción acumulada de población e ingresos. De la Tabla 3 hemos elegido las marcas de clase de los ingresos y la cantidad de población correspondiente a cada clase. En la tabla 4 se presentan los cálculos necesarios para obtener los valores de p y q. El procedimiento general para calcular el índice de Gini es el siguiente:

1. Calcular el acumulado de población, que se ha indicado en la columna (3). Por ejemplo para calcular el acumulado para la clase 2 es necesario sumar 23+8=31. Para la clase 3 sumar 31+2=33.

2. Calcular el producto entre el ingreso y población para cada una de las clases, que se ha ubicado en la columna (4). Por ejemplo para la clase 4 es necesario multiplicar 2550 x 5 = 12750.

3. Calcular el acumulado del producto entre ingreso y población, que se ha anotado en la columna (5). Por ejemplo para calcular el acumulado de la clase 2 es necesario sumar 10350+9200=19550. Para la clase 3 sumar 19550+3700=23250.

4. Calcular el valor de p. Esto se consigue dividiendo cada uno de los valores de la columna (3) entre el valor de la última clase de esa misma columna. Este último valor corresponde al total acumulado de población. Por ejemplo, para la clase 3, p= 33/43 = 0.77.

También es necesario realizar la sumatoria de la columna (6). En este caso el valor corresponde a 4.84. Debe aclararse que no se incluye en la sumatoria el valor de la última clase.

5. Calcular el valor de q. Se consigue dividiendo cada uno de los valores de la columna (5) entre el valor de la última clase de esa misma columna. Este último valor corresponde al total acumulado. Por ejemplo, para la clase 4, q=36,000/54350=0.66.

6. Calcular la diferencia p-q. Bastará con restar en cada clase el valor correspondiente a p y q. Luego de contar con todos los valores calculados para esta columna, es necesario sumarlos. Para este caso la suma de la columna (8) es de 1.44.

7. Calcular el índice de Gini. El índice se obtiene al calcular el cociente entre la suma de p-q y la suma de p. En nuestro caso IG=1.44/4.84 = 0.30. Podemos considerar que el total de ingresos no está concentrado en solo una parte de la población. El nivel de concentración es relativamente bajo.

Tabla 4: Cálculos de los valores de p y q para obtener el índice de Gini

(0) Clase

(1) ingresos

(2) población

(3) acumulado

de población

(4) producto

entre ingresos y población (4)=(1)x(2)

(5) acumulado

del producto

entre ingresos y población

(6) p

(6)=(3)/43

(7) q

(7)=(5)/54350

(8) p-q

(8)=(6)-(7)

1 450 23 23 10350 10350 0.53 0.19 0.34 2 1150 8 31 9200 19550 0.72 0.36 0.36 3 1850 2 33 3700 23250 0.77 0.43 0.34 4 2550 5 38 12750 36000 0.88 0.66 0.22 5 3250 3 41 9750 45750 0.95 0.84 0.11 6 3950 1 42 3950 49700 0.98 0.91 0.06 7 4650 1 43 4650 54350 1.00 1.00 Suma 4.84 1.44

3.3 Cálculos usando Excel Hemos indicado que el índice de Gini se ha obtenido agrupando los datos de ingresos y luego haciendo los cálculos de la frecuencia de población correspondiente a cada uno de los grupos o clases formadas. El procedimiento general para calcular el índice de Gini usando Excel es el siguiente:

1. Para construir la tabla de frecuencias necesitamos calcular el máximo, mínimo, y el rango como se muestra en la figura 1:

Figura 1: Cálculo de los valores máximo, mínimo y rango de los ingresos

2. Es necesario calcular el número de clases a formar y el intervalo que tendrá cada clase. Hemos usado la ecuación de Sturges, como se muestra en la figura 2. El intervalo de clase se obtiene dividiendo el rango entre el número de clases calculado. Se definieron siete clases.

Figura 2: Cálculo del número de clases usando la ecuación de Sturges

3. El intervalo de clase será de 700 (4900/9=700). Considerando que el valor

mínimo es de 100 se inició el primer intervalo de clase usando esta cantidad. Las clases formadas pueden verse en la figura 3. Note que los límites de cada clase se localizan en celdas distintas.

Figura 3: Definición de límites de clase

4. Ahora que disponemos de los límites de clase necesitamos determinar la cantidad

de personas que se ubican en cada una de ellas. Es decir necesitamos construir una tabla de frecuencias. Iremos al menú Herramientas, elegiremos Análisis de datos y enseguida histograma. Esto se muestra en la figura 4.

Figura 4: Calcular tabla de frecuencias usando la función histograma

5. En la ventana siguiente se solicita ingresar el Rango de entrada. Esto corresponde a todos los datos de ingresos. Luego solicita el Rango de clases. Aquí indicaremos el rango donde se localizan los límites superiores de clase. Esto se muestra en la figura 5. Note que al final de esta ventana se ha marcado la opción Crear grá ico. También se ha solicitado crear el histograma y la tabla de frecuencias en una hoja nueva. .

f

Figura 5: Definición de datos de entrada y salida para crear la tabla de frecuencias e histograma

6. Como resultado tendremos las frecuencias de cada una de las clases. Ver figura 6(a). Enseguida haremos un reordenamiento de la tabla de frecuencias para trabajar con las marcas de clase y las frecuencias. Ver figura 6(b). De este punto en adelante definiremos a las marcas de clase como ingresos y a la frecuencia como población.

(a) (b)

Figura 6: Tabla de frecuencias calculada

7. Las columnas que se necesitan para calcular el índice de Gini se muestran en la figura 7.

Figura 7: Columnas necesarias para calcular el índice de Gini

8. Es necesario calcular el acumulado de población. Observe la función usada en la

figura 8 para obtener los valores acumulados. Para obtener el resto de valores acumulados copie la función al resto de celdas.

Figura 8: Función usada para calcular el acumulado de población

9. Para obtener el producto de ingresos y población bastará con multiplicar los valores de las celdas correspondientes. Vea la figura 9.

Figura 9: Producto entre ingresos y población

10. Necesitamos calcular el acumulado del producto ingresos*población. Esto se ilustra en la figura 10.

Figura 10: Acumulado del producto entre ingresos y población

11. El valor de p se obtiene de dividir cada uno de los valores acumulados de población entre el gran total de población, como se ilustra en la figura 11.

Figura 11: Cálculo de los valores de p

12. El valor de q se obtiene de dividir cada uno de los valores acumulados de ingresos*población entre el gran total de la columna de ingresos*población. Esto se ilustra en la figura 12.

Figura 12: Cálculo de los valores de q

13. Enseguida se calculan las diferencias de p-q para cada una de las clases. Ver la figura 13.

Figura 13: Cálculo de los valores de p-q

14. Sumar los valores para la columna de p. Ver figura 14(a). También sumar los valores de p-q. Ver figura 14 (b). En ambos casos note que se evitan sumar los valores de la unidad.

Figura 14: sumatoria de los valores de p y los valores de p-q

15. Finalmente operamos el cociente entre la sumatoria de p-q y la sumatoria de los valores de p. El resultado corresponde el Indice de Gini. El valor en este caso es igual a 0.30.

Figura 15: Cálculo del índice de Gini

3.3.1 Curva de Lorenz La curva de Lorenz la obtenemos graficando los valores de p y q. Sin embargo, para que el gráfico tenga el aspecto deseado es necesario seguir algunos pasos. Procedimiento para obtener la curva de Lorenz usando Excel:

1. A la serie de datos de p y q anteponer valores de cero como se ilustra en la figura 16.

Figura 16: Agregar valores de cero a la serie de datos de p y q

2. Marcar la serie de datos y hacer clic sobre el botón que identifica el asistente de gráficos. Elegir un gráfico tipo xy . El subtipo debe ser dispersión con puntos de datos conectados por líneas suavizadas.

Figura 17: Elegir el tipo de gráfico para la curva de Lorenz

3. Continuar con el asistente de gráficos hasta el paso 3. Escribir el título para los ejes X e Y como se indica.

Figura 18: Definir el título de los ejes del gráfico

4. Ubicar el gráfico como objeto en la hoja en uso. Su aspecto no es semejante a la curva de Lorenz. Necesitamos ajustar los valores de la escala en los ambos ejes.

Figura 19: Aspecto inicial del gráfico sin ajustes

5. Ubicar el puntero sobre el eje X y presionar el botón derecho. Escoger Formato de ejes. Cambiar el valor de máximo a 1 y el valor de unidad mayor a 0.1. Repetir este procedimiento para el eje Y. Ver la figura 20.

Figura 20: Cambiar los valores para los ejes X e Y

6. Modificar el color del área de trazado y eliminar las líneas horizontales. El gráfico está casi listo y debe parecerse al mostrado en la figura 21.

Figura 21: Gráfico ajustado en ejes y color del área de trazado

7. Se necesita agregar una serie de datos para conseguir que el gráfico quede terminado. Se hace clic derecho sobre el gráfico y se elige la opción Datos deorigen como se ilustra en la figura 22.

Figura 22: Menú para agregar otra serie de datos

8. En la ventana resultante elegir la pestaña Serie y hacer clic sobre el botón Agregar . Ahora podrán verse dos series de datos y en la parte derecha es posible definir los rangos de celdas para la nueva serie de datos.

Figura 23: Agregar una segunda serie de datos

9. Es necesario que cercanamente al rango de datos originales se agreguen dos parejas de ceros y unos para poder adicionar la nueva serie de datos. En la figura 24 puede verse la relación entre los valores de X e Y y los valores de 0 y 1.

Figura 24: Relación entre valores de X e Y y rango de celdas agregado

10. Luego de modificar el color de la línea resultante nuestra Curva de Lorenz lucirá de la siguiente forma.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Porcentaje de población

Porc

enta

je d

e in

gres

os

Figura 25: Curva de Lorenz para los ingresos de 43 personas residentes en la región nororiental de Guatemala

3.4 Cálculos usando StatsDirect StatsDirect es un programa producido por Stats Direct Ltd. del Reino Unido. El software puede ser descargado desde el sitio http://www.statsdirect.com e incluye un amplio repertorio de metodologías estadísticas. Podemos mencionar entre ellas: distribuciones de probabilidad, análisis de varianza, métodos no paramétricos, regresión y correlación, análisis de sobrevivencia, entre otros. En nuestro caso aprovechamos la disponibilidad del cálculo del índice de Gini que StatsDirect incluye en su apartado de pruebas no paramétricas. Debemos aclarar que el archivo de instalación que se descarga nos permite usar una versión de prueba durante 10 días. Este tiempo es relativamente corto, por lo que si la intención es usarlo para los cálculos del proyecto de investigación sobre pobreza en el curso de Estadística I, se recomienda a los profesores indicar esta condición. StatsDirect se integra completamente a Excel. Es posible por lo tanto acceder a StatsDirect desde Excel presionando un enlace que se agrega durante la instalación. En nuestro caso aprovecharemos que los cálculos iniciales del número de clases y frecuencia de población para los ingresos se han elaborado en Excel.

http://www.statsdirect.com/

Procedimiento:

1. Desde el entorno de Excel, y aprovechando la tabla de frecuencias de ingresos y población accederemos a StatsDirect. Esto se muestra en la figura 26.

Figura 26: Ingreso al entorno de StatsDirect

2. Una vez abierto StatsDirect veremos que el entorno de trabajo es muy similar a Excel. Seleccionaremos el rango de celdas que corresponde a los ingresos y a la población (que en este caso se ha identificado como numerop). Ver la figura 27.

Figura 27: Entorno de StatsDirect y definición del rango de valores a usar

3. Es necesario ir al menú de pruebas no paramétricas para solicitar el cálculo del índice de Gini (Ver figura 28). Recuerde que para realizar el procedimiento satisfactoriamente deberá haber marcado previamente el rango de celdas adecuado.

Figura 28: Ingresar al menú de cálculo del índice de Gini

4. El siguiente cuadro de diálogo nos pregunta cuántos iteraciones deseamos que el programa realice en el remuestreo2 (bootstrap). Usaremos el valor de 2000 ofrecido por omisión por el software.

Figura 29: Número iteraciones de bootstrap

5. Enseguida StatsDirect calcula el valor del índice de Gini. En este caso el valor calculado es de 0.313 (ver figura 30). También indica la estimación por intervalo, el error estándar y la estimación del error sistemático (bias).

2 El bootstrap es una técnica estadística que permite a partir de los datos observados generar nuevas muestras simuladas de igual tamaño que la muestra original con el propósito de estudiar sus resultados y propiedades. Una explicación amplia sobre este tema puede verse en http://www.sld.cu/galerias/pdf/sitios/revsalud/tesis_de_resampling.pdf

http://www.sld.cu/galerias/pdf/sitios/revsalud/tesis_de_resampling.pdf

Figura 30: Indice de Gini calculado por StatsDirect

3.5 Cálculos usando CaEst CaEst es una calculadora estadística que incluye en su apartado de procedimientos descriptivos el cálculo del índice de Gini y la construcción de la curva de Lorenz. Los profesores Martínez de Lejarza, I., Martínez de Lejarza, J. son los autores de la calculadora, misma que puede ser descargada desde http://www.uv.es/~lejarza/caes/index.htm. Para obtener el índice de Gini con CaEst es necesario contar con la distribución de frecuencias de ingresos y población. Usaremos en nuestro caso los datos de la tabla 3. Se ingresan a la calculadora las marcas de clase de los ingresos y las frecuencias de población. Procedimiento:

1. Descargar la calculadora desde la ubicación indicada anteriormente. Verificar la carpeta en la que se ha guardado el archivo CaEst.exe. Una vez localizado el archivo hacer doble clic sobre él. Cuando Windows pregunte sobre la seguridad de abrir el archivo presionar “ejecutar” como se muestra en la figura 31.

http://www.uv.es/~lejarza/caes/index.htm

Figura 31: Advertencia de seguridad al abrir el archivo CaEst

2. Una vez dentro de la calculadora elegir el cálculo de índice de Gini como se muestra en la figura 32.

Figura 32: Menú para calcular el índice de Gini

En el siguiente cuadro de diálogo presionar “Aceptar”, como se indica en la figura 33.

Figura 33: Cuadro de diálogo para acceder al cálculo de índe de Gini

Enseguida se pregunta por el “número de valores distintos” a ingresar. Esto corresponde al número de clases definidas. En nuestro caso este valor es siete.

Figura 34: Definir la cantidad de clases a usar en el cálculo del índice de Gini

3. La pantalla siguiente nos permite introducir los valores de ingresos y población.

Figura 35: Ingresos de valores de ingresos y población en CaEst

4. Una vez ingresados los valores es necesario hacer clic en el botón Calcular una primera vez. Notará que desaparecen los datos de la primera fila (Esta es una condición particular de la calculadora, pero los datos se operan satisfactoriamente al final). También notará que en la parte superior izquierda se han agregado los valores de ingresos y población, pero sin los datos de la primera clase. Figura 36 (a). Agregue usted nuevamente estos datos para tener las clases completas. Figura 36 (b), y presione finalmente Calcular para obtener el índice Gini. Ver figura 37.

(a) (b)

Figura 36: Definición de los valores a usar en el cálculo del índice de Gini

Figura 37: Paso final para obtener el índice de Gini

5. El índice de Gini calculado para este caso por CaEst es de 0.298. Es posible obtener la curva de Lorenz al presionar el botón dibujar lorenz. Ver figura 38.

Figura 38: Resultado final del cálculo de índice de Gini

4 Referencias Epidat (2003). Software para análisis epidemiológico de datos tabulados. Dirección General de Salud Pública. Junta de Galicia, España. Organización Panamericana de la Salud. –OPS- Extraído el 03 de febrero 2006 desde http://www.paho.org/spanish/sha/epidat.htm. Giles D. (2002) Calculating a estándar error for the Gini Coefficient: Some further results. Universidad de Victoria. Departamento de Economía. Extraído el 17 de febrero 2006 desde http://web.uvic.ca/econ/ewp0202.pdf Martínez de Lejarza, I., Martínez de Lejarza, J. (s.f.) Calculadora estadística: CaEst. Facultad de Economía, Universidad de Valencia. Extraído el 03 de febrero 2006 desde http://www.uv.es/~lejarza/estadistic.htm Levin R., et al (2004) Estadística para administración y economía. Séptima edición. Prentice Hall. 826 p. ISBN 970-26-0497-4. Medina F. (2001) Consideraciones sobre el índice de Gini para medir la concentración del ingreso. Serie estudios estadísticos y prospectivos. Comisión Económica para América Latina –CEPAL- Extraído el 03 de febrero 2006 desde http://www.eclac.cl/publicaciones/ ISBN 92-1-321793-5. StatsDirect (2006) Software de análisis estadístico. Stats Direct Ltd. United Kingdom. Extraído el 03 de febrero de 2006 desde http://www.statsdirect.com/ Vargas S (s.f.) Expresión del índice de Gini para frecuencias no unitarias. IES “Alfonso X El Sabio”, Toledo. España. Extraído el 17 de febrero de 2006 desde http://www.uclm.es/profesorado/ricardo/Docencia_e_Investigacion/2/AntonioVargas.doc

http://www.paho.org/spanish/sha/epidat.htm

http://web.uvic.ca/econ/ewp0202.pdf

http://www.uv.es/~lejarza/estadistic.htm

http://www.eclac.cl/publicaciones/

http://www.statsdirect.com/

http://www.uclm.es/profesorado/ricardo/Docencia_e_Investigacion/2/AntonioVargas.doc

http://www.uclm.es/profesorado/ricardo/Docencia_e_Investigacion/2/AntonioVargas.doc

indice_gini_byrong

Documents