exploitation des donnees denquete boureima doko sali kouete

37
Mémoire d'Exploitation de Données d’Enquêtes RÉPUBLIQUE DE LA COTE D’IVOIRE Union Discipline Travail ***************************** Ministère de l’Enseignement Supérieur *************************** Mesure de l’impact de la crise ivoirienne du 19 septembre 2002 sur l’activité des entreprises de la ville de Bassam Réalisé par : CHASSEM Nacisse DOKO Firmin KOUETE Vincent KAMDEM Raoul OUEDRAOGO Boureima SANOU Sali Encadreur : FOHOPA KUE Rémon Sous la direction de CHITOU Bassirou, PHD, Enseignant à l'ENSEA d' Abidjan Mai 2004 École Nationale Supérieure de Statistique et d’Économie Appliquée d’Abidjan (E.N.S.E.A) **********************

Upload: martin-olinga

Post on 14-Dec-2015

15 views

Category:

Documents


0 download

DESCRIPTION

économétrie des données d'enquête

TRANSCRIPT

de la cr sur l’activ

RÉPUBLIQUE DE LA COTE D’IVOIRE Union Discipline Travail

*****************************

moire d'Exploitation de Données d’Enquêtes

Ministère de l’Enseignement Supérieur

***************************

Mesure de l’impact ise ivoirienne du 19 septembre 2002 ité des entreprises de la ville de Bassam

Ens

Réalisé par : CHASSEM Nacisse

DOKO Firmin

KOUETE Vincent

KAMDEM Raoul

OUEDRAOGO Boureima

SANOU Sali

Encadreur : FOHOPA KUE Rémon

École Nationale Supérieure de Statistique et d’Économie Appliquée d’Abidjan (E.N.S.E.A) **********************

Sous la direction de CHITOU Bassirou, PHD, eignant à l'ENSEA d' Abidjan

Mai 2004

Table des matières I. Introduction ........................................................................................................................... 2

II. Présentation de la base des données.................................................................................... 3

III. Traitement de la base.......................................................................................................... 4 III.1. Correction des incohérences de la base ................................................................................. 4

a) Identification des observations .................................................................................................................. 4 b) Vérification des modalités des variables qualitatives................................................................................ 4

III.2. Traitement des non réponses : ............................................................................................... 4 a) Les non-réponses brutes ............................................................................................................................ 4 b) Traitement des « Sans objet ».................................................................................................................... 5 c) Imputation ................................................................................................................................................. 6

IV. Calcul des estimateurs......................................................................................................... 9 IV.1 Repondération des entreprises enquêtées............................................................................... 9

a) But ............................................................................................................................................................. 9 b) Formule ..................................................................................................................................................... 9

IV.2. Estimateurs de Horwitz and Thomson .................................................................................. 9 a) Intérêt de la moyenne de Horwitz-Thomson ............................................................................................. 9 b) Formules.................................................................................................................................................... 9 c) Tableau des résultats d’estimation........................................................................................................... 10

IV.3 Box-plots des variables d’intérêt ........................................................................................... 10 IV.4. Stems and leaves des variables d’intérêt ............................................................................ 10

a) Formule ................................................................................................................................................... 11 b) Tableau des résultats ............................................................................................................................... 12

IV.6. Calcul des α % trimmed mean ........................................................................................... 12 a) Formule ................................................................................................................................................... 12 b) Résultats .................................................................................................................................................. 12

IV.7. Estimation par bootstrap des variances des estimateurs des Winzorised means et des α % trimmed means ...................................................................................................................... 12

Conclusion ............................................................................................................................... 14

Bibliographie ........................................................................................................................... 15

Annexes.................................................................................................................................... 16 Annexe 1 : Dictionnaire des variables ........................................................................................... 16 Annexe 2 : Box-plots des variables d’intérêt ................................................................................ 18 Annexe 3 : Stems and leaves........................................................................................................... 20 Annexe 4: Estimations de winzorised et alpha trimmed means.................................................. 21 Annexe 5 : Bootstrap sur les winzorised means ........................................................................... 22 Annexe 6: Etude des variables d’intérêt par secteurd’activté .................................................... 26 Annexe 7: Syntaxes SPSS pour l’apurement de la base .............................................................. 34

1

I. Introduction Les données issues des enquêtes comportent généralement de nombreuses incohérences

et défauts dus à la mauvaise compréhension du questionnaire par les enquêteurs ou par les enquêtés, à la mauvaise fois des répondants, à des erreurs de saisie, à des réponses aberrantes, etc. Par ailleurs les non réponses, très fréquentes dans les bases de données, rendent caducs les pondérations calculées selon le plan de sondage ex-ante. Il est alors indispensable de se doter de techniques afin de redresser les données après enquête afin de se donner les meilleures chances d’approcher les vraies valeurs des caractéristiques qu’on cherche à mesurer sur la population.

Les méthodes de traitement et d’exploitation des données d’enquête sont des techniques de correction et d’estimation qui visent ce double objectif de production de données fiables et d’estimateurs de qualité. Elles consistent en l’apurement, au redressement des non réponses et au calcul d’estimateurs fiables et robustes par des techniques qui prennent en compte les insuffisances plus haut constatées dans les données (reéchantillonnage, post stratification, méthodes du bootsrap, de Jackknife, …).

Ces techniques d’apurement et de calculs d’estimateurs sont mises en œuvre dans cet article afin d’appréhender l’impact de la crise ivoirienne du 19 septembre 2002 sur l’activité économique des entreprises de la ville de Bassam et plus précisément sur les éléments de leur compte d’exploitation. Ce travail souligne également, au vu de la description de la base initiale, la difficulté d’obtention des données et la rigueur qui doit être adoptée dans la collecte de ces données.

Après la présentation dans la section II de la base de données sur laquelle porte notre travail, il est question dans la section III du rétablissement de la cohérence dans l’identification des entreprises, dans les modalités des réponses, du recodage des « Sans objet » et de l’imputation des non réponses. La section IV est consacrée au calcul d’estimateurs sur quelques variables d’intérêt et la section V conclura ce travail.

Tous nos remerciements vont à l'endroit de notre enseignant M. CHITOU.

2

II. Présentation de la base des données La base sur laquelle porte notre travail est la base des données sur les entreprises issue

de l’enquête sur l’impact de la crise Ivoirienne du 19 septembre 2002 sur la ville de BASSAM. Nous travaillons plus précisément sur des variables concernant le cycle d’activité, le niveau de production, les ressources non financières des entreprises et sur leurs charges non financières. 126 variables sont concernées et sont codées de Q11 à Q1174ap.

- Cycle d’activité Les variables de détermination des cycles d’activité des entreprises, codées de Q11 à

Q14, cherchent à déterminer les jours, semaines, mois durant lesquels les activités d’une entreprise sont de forte, moyenne ou faible intensité. Par exemple, au niveau de la variable Q11, la question posée est : « En général les périodes ou votre activité marche très bien, marche moyennement ou ne marche pas du tout sont-elles déterminées selon le jour, la semaine ou le mois ? ».

- Niveau de production La détermination du niveau de production selon les cycles d’activité avant et après le 19

septembre 2002, ne concerne que les activités hôtelières et de transport. Ces questions sont codées de Q151av à Q174ap. Elles cherchent à déterminer les taux de remplissage, le nombre de départs (transport) pendant les périodes de forte, moyenne et basse intensité. Par exemple : Q152av « Si hôtel : quel était le taux de remplissage moyen de votre réceptif avant le 19 septembre en période de forte intensité ? »

- Estimation des ressources non financières Ces questions concernent les montants des chiffres d’affaire pour les activités

principales, les activités secondaires et les activités à l’extérieur de la Côte d’Ivoire, avant et après le 19 septembre. Elles sont codées de Q181 à q1144ap. Par exemple : Q193ap « Combien les activités secondaires de l’entreprise rapportent-elles après le 19 septembre en période de moyenne intensité ? »

- Estimation des charges non financières Ces questions vont de Q1111 à Q1174ap et concernent la détermination du montant des

dépenses en achats de marchandises et matières premières, en achats des fournitures, en consommation d’énergie, en transport, en traitement du personnel, en charges locatives et en charges de sous traitance, liés aux activités de l’entreprise, avant et après le 19 Septembre. Exemple : Q1143 av « Quel était le montant des dépenses des transport, liées aux activité de l’entreprise avant le 19 Septembre 2002 ? ».

3

III. Traitement de la base La base des données de l’enquête telle que saisie initialement contient de nombreuses

incohérences dues à des causes diverses :

- réponses incohérentes des enquêtés ; - erreurs de saisie ;

D’autre part, il est important de déterminer parmi les non réponses celles qui sont des « Sans objet » c’est à dire les non réponses (ou réponses) des personnes qui en principe ne devraient pas répondre aux questions considérées. Cela permet de déterminer les non réponses effectives afin de faire les imputations.

III.1. Correction des incohérences de la base Il s’agit d’abord d’identifier de façon unique tous les individus de la base : les individus

de la base doivent avoir les mêmes identifiants que ceux de la base de dénombrement mais des erreurs de saisie introduisent souvent des incohérences entre ces deux variables. Il s’agit également de contrôler la cohérence des modalités des variables discrètes avec celles proposées par le questionnaire.

a) Identification des observations

Afin d’identifier de façon unique chaque observation il est créé une variable « Identif2 » qui prend la valeur suivante : 11 9 6 32 10 10 * 01 10 * 02 10 * 03 04Identif Q Q Q Q= + + + + . Les variables Q01, Q02, Q03, Q04 désignent respectivement le quartier, l’îlot, la concession et le numéro de l’entreprise.

Cette formule est conforme à l’identification des entreprises dans le fichier dénombrement ». Après avoir confronté les nouveaux identifiants à ceux de la base de dénombrement, les entreprises n’ayant pas de correspondants dans le fichier «dénombrement ont été supprimées de la base. Il a été par suite procédé à la recherche et suppression des doublons, après avoir vérifié que les doublons portaient exactement les mêmes observations.

Au terme de cette première correction la base comporte 1470 observations au lieu de 1478 initialement.

b) Vérification des modalités des variables qualitatives

Cette vérification consiste à assurer la cohérence entre les modalités des réponses avec celles prévues par le questionnaire. Pour cela nous réalisons un tri à-plat sur les variables qualitatives. Cela a permis de s’assurer qu’il n’existe aucune réponse aberrante au niveau des variables qualitatives.

III.2. Traitement des non réponses :

a) Les non-réponses brutes

L’un des premiers constats que l’on peut faire au vu de la base des données brutes est le nombre impressionnant de valeurs manquantes.

4

Tableau1 : Taux de valeurs manquantes pour quelques variables Question Valide Manquante taux de manquantes Détermination périodes d'activité 1459 11 0,75 Périodicité activité principale 1424 46 3,13 Périodicité montant marchandises 1266 204 13,88 Montant fournitures moyen après 588 882 60,00 Montant transport fort avant 582 888 60,41 Charges locatives fort après 570 900 61,22 Montant fournitures fort après 565 905 61,56 Montant énergie moyen avant 557 913 62,11 Montant transport bas avant 552 918 62,45 Montant énergie fort après 550 920 62,59 Charges locatives moyen avant 547 923 62,79 Montant fournitures moyen avant 530 940 63,95 Taux hôtels bas après 2 1468 99,86 Nombre départ fort avant 2 1468 99,86 Nombre départ moyen avant 2 1468 99,86 Nombre départ bas après 1 1469 99,93 Nombre départ bas avant 0 1470 100,00

Le taux de non réponse brut va de 0,75% pour la variable Q11 à 100% pour la variable Q164av. Mais ces taux de non réponses incluent les non-réponses de type « Sans objet » et ne nous permettent pas de déterminer les taux de non réponses effectives. Il a donc été procédé à la Recherche et codification des réponses de type « Sans objet ».

b) Traitement des « Sans objet »

Les « Sans objet » ont lieu lorsque la réponse à une question exclue celle d’une autre question. Par exemple, pour une entreprise créée après le 19 septembre, toutes les réponses ou les non réponses aux questions concernant ses activités avant le 19 septembre sont des « Sans objet ». Lorsqu’une entreprise déclare avoir un cycle d’activité journalier, il n’est plus pertinent de lui demander comment marchent ses activités dans la première semaine du mois. De plus certaines questions sont réservées spécifiquement à certaines catégories d’activités. Par exemple, le taux de remplissage moyen ne concerne que les hôtels, le nombre moyen de départs et le taux moyen de remplissage par départ ne concernent que les transports.

La syntaxe pour la recodification des sans objet est présenté en annexe. Les « Sans objet » ayant été repérés, sont par la suite recodés comme suit. Pour les variables à une position (i.e. les modalités sont représentées par des nombres à un seul chiffre), ils prennent la valeur 9 ; 99 pour les variables à deux positions ; et 9999,99 pour les variables continues. Ces valeurs sont déclarées comme données manquantes et ne doivent pas être prises en compte dans les calculs des estimateurs. Cela permet de réduire le taux de non réponse puisque les non réponses restantes concernent uniquement les individus qui n’ont pas répondu à des questions auxquelles elles sont censées répondre. Le tableau ci-dessous donne, les taux de non-réponses effectifs pour quelques variables.

5

Tableau2 : Taux de non réponses effectives pour quelques variables

Variable Réponses Sans objet non réponse

Taux de non réponse (%)

périodicité hôtel 4 1466 0 0,00 taux hôtel fort avant 3 1466 1 25,00 taux hôtel fort après 3 1466 1 25,00 nombre départ moyen après 2 1466 2 50,00 nombre départ bas après 0 1466 4 100,00 périodicité activité principale 1424 0 46 3,13 apport principal moyen avant 819 296 355 30,24 apport principal moyen après 1047 4 419 28,58 périodicité montant marchandises 1266 0 204 13,88 montant marchandises fort avant 767 296 407 34,67 montant marchandises fort après 955 2 513 34,95 montant marchandises moyen avant 766 294 410 34,86 montant marchandises moyen après 962 1 507 34,51

Malgré la codification des « Sans objet », on remarque qu’il subsiste encore un nombre important de non réponses. Certaines variables présentent même plus de 50% de non réponses effectives. La section suivante va consister à l’imputation d’un certain nombre de variables d’intérêt

c) Imputation

Etant donné le taux de non réponses très important pour certaines variables, il est impossible d’imputer des valeurs aux non réponses de toutes les variables. Aussi, avons-nous choisi de faire l’imputation sur quelques variables d’intérêt et sur les variables qui présentent de très faibles taux de non réponse. C’est le cas des variables sur la détermination du cycle d’activité qui ont entièrement été imputées. Les variables d’intérêt sur lesquelles vont porter le calcul d’estimateurs ont également été imputées. Il s’agit de l’apport principal moyen avant (q183av) et après (q183ap) et de montant marchandises moyen avant (q1113av) et après (q1113av).

- Recherche des mécanismes de non réponse Afin de déterminer la meilleure méthode d’imputation d’une variable, il est nécessaire

de connaître son mécanisme de non réponse. Il s’agit de caractériser si possible, par une ou plusieurs autres variables, les individus qui n'ont pas répondu à la question. Il existe trois mécanismes possibles de non réponse :

- Le Missing Completly at Random (MCR), la probabilité de non réponse pour la variable d’intérêt est la même pour toutes les unités de la population et ne dépend ni des variables auxiliaires, ni de la variable d’intérêt elle-même.

- Le Missing at Random (MAR), la probabilité de non réponse pour la variable d’intérêt dépend d’une ou de plusieurs variables auxiliaires

- Le Non Missing at Random (NMR), la probabilité de non réponse de la variable d’intérêt dépend de la variable d’intérêt ou d’une autre variable non présente dans le questionnaire ou non étudié.

Nous avons donc essayé de déterminer les mécanismes de non réponse pour les variables concernant les ressources et les charges non financières. Les variables auxiliaires qui

6

nous ont paru pertinentes pour expliquer les non réponses à ces variables d’intérêt sont : L’activité principal (Q013), la périodicité de l’activité principale (Q181). L’inconvénient majeur de la variable "activité principale" comme variable auxiliaire est qu’elle comporte plusieurs modalités (97 modalités au total dans la base). Ce qui entraîne de faibles nombres d'entreprises par activité et des taux de non réponses atteignant souvent 100% à l'intérieur de ces activités. Nous ne l'avons donc pas utilisée comme variable auxiliaire. Par contre, la variable périodicité de l'activité principale n'a que trois modalités. Tableau3 : Répartition des non réponses à la question q183av en fonction de la périodicité de l’activité principal

Périodicité de l'activité principale

Nombre d'entreprises Pourcentage

Jour 194 54.6 Hebdo 24 6.8 Mois 110 31.0 Total 328 92.3 Manquantes 27 7.6 Total 355 100 Tableau4 : Répartition des non réponses à la question q1112av en fonction de la périodicité de l’activité principal

Périodicité de l'activité principale

Nombre d'entreprises Pourcentage

Jour 224 55,0 Hebdo 31 7,6 Mois 134 32,9 Total 389 95,6 Manquantes 18 4,4 Total 407 100,0

Les tableaux ci-dessus montrent comment les non réponses aux questions "apport de l'activité principale" et "montant marchandises" sont réparties en fonction de la périodicité de l'activité principale. Nous remarquons une répartition semblable pour les deux variables, ceci est également le cas pour la plupart de nos variables d'intérêt. Ces tableaux indiquent que plus de la moitié des non réponses proviennent des entreprises dont le cycle d'activité principale est journalier. Cependant ces tableaux ne nous permettent pas de conclure quant à la relation entre la périodicité de l'activité principale et les non-réponses à nos variables d'intérêt puisque la répartition des entreprises selon la périodicité de l'activité principale est identique dans la sous population des non répondants que dans la population totale.

7

Tableau5 : Répartition des entreprises en fonction de la périodicité de l'activité principale à l'intérieur de la population totale

effectif pourcentage Jour 906 61,6 Hebdo 118 8,0 Mois 400 27,2 Total 1424 96,9 Système manquant 46 3,1

Total 1470 100,0

On ne peut donc pas affirmer que les non répondants sont les entreprises ayant une activité principale journalière. Cependant, étant donné la similitude de la répartition des entreprises dans les sous populations des non répondants et dans la population totale en fonction de la périodicité de l'activité principale, cette dernière peut être retenue pour déterminer les proches voisins des non répondants. Cela a l'avantage de ne pas modifier la structure de la population.

- Imputation Etant donnée que la méthode d’imputation retenue est celle du plus proche voisin

associée à la moyenne, il nous faut caractériser les plus proches voisins.

Nous définissons les plus proches voisins d’une entreprise comme l’ensemble des entreprises ayant la même périodicité d’activité principale et la même périodicité pour le montant déclaré. Par exemple l’entreprise dont l’identifiant est identif2 = 113411001001 a une activité principale journalière (Q181=1). Le montant de ces dépenses en matières premières déclaré est un montant mensuel (Q1111=3). Les plus proches voisins de cette entreprise lorsqu’on veut imputer ses montants en dépenses de marchandises, sont les entreprises qui prennent les valeurs Q181=1 et Q1111=3.

Comme nous le disions ci-dessus, la plupart des variables présentes dans la base de données avaient un nombre élevé de valeurs manquantes. Pour l’imputation, nous avons choisi les variables qui avaient moins de 40% de non réponses. Les autres variables c’est-à-dire celles ayant plus de 40% de non réponses ont été simplement laissées comme telles. Parmi les variables que nous avons imputées, certaines sont qualitatives et d’autres quantitatives. Pour les variables quantitatives, l’imputation est faite en fonction des variables périodicité de l’activité principale (Q181) et périodicité montant marchandise (Q1111). On calcule la moyenne de la variable à imputer suivant les modalités des ces deux variables et on l’affecte à tous les individus qui ont les mêmes modalités pour les variables Q181 et Q1111.

8

IV. Calcul des estimateurs IV.1 Repondération des entreprises enquêtées

a) But

Le problème de la repondération survient du fait que les entreprises prévues dans le plan de sondage n’ont pas été toutes enquêtées. En effet, le plan de sondage prévoyait 1745 entreprises parmi lesquelles 480 entreprises du secteur informel de production, 730 entreprises du secteur informel de commerce et 535 entreprises du secteur informel de service. Ont été effectivement enquêtées 1470 entreprises dont 428 entreprises du secteur informel de production, 597 entreprises du secteur informel de commerce et 438 entreprises du secteur informel de service. Le but de la repondération est d’extrapoler les résultats obtenus sur les 1470 entreprises aux 1745 entreprises initiales.

b) Formule

Pour une entreprise du secteur k, la formule de repondération est : ki

k

Npn

= avec le

nombre d’entreprises du secteur k prévues par le plan de sondage et le nombre d’entreprises du secteur k effectivement enquêtées.

kN

kn

Tableau 6 : Récapitulation des poids des entreprises

Secteur kN kn ip Production 480 428 1,121 Commerce 730 597 1,223 Service 535 438 1,221

IV.2. Estimateurs de Horwitz and Thomson

a) Intérêt de la moyenne de Horwitz-Thomson

Dans le cas d’un sondage stratifié comme c’est le cas ici, la moyenne simple est biaisée. On utilise donc l’estimateur de Horwitz-Thomson pour la moyenne qui est un estimateur sans biais de la moyenne vraie.

b) Formules

La formule de la moyenne de Horwitz and Thomson est 3

1

ˆ hh

h

nY yn=

=∑ où :

hn est l’effectif des entreprises du secteur h dans l’échantillon ; n est la taille totale de l’échantillon, n=1470; et

hy est la moyenne de Y des entreprises du secteur h dans l‘échantillon Les estimateurs des écarts types de ces estimateurs sont donnés par les formules

( )2 23

1

ˆˆ( ) 1h hh

h h

N sV Y fN n=

⎛ ⎞= −⎜ ⎟⎝ ⎠

∑ où

hN est l’éffectif du secteur h dans la population (N1=480 ; N2=730. N3=535)

3

1h

hN N

=

=∑

9

hh

h

nfN

=

2hs la variance empirique de Y dans la classe h

c) Tableau des résultats d’estimation Tableau 7 : Estimateurs Horwitz-thompson des variables d'intérêt

Statistiques descriptives

Effectif N Min Max Somme MoyenneEcartType de la moy Ecarttype

Skewness Kurtosis

Apport principal moyen avant 1 388,66 0,02 7872 175 933,47 126,69 10,82 403,21 11,45 176,17Apport principal moyen après 1 739,11 0,02 7000 130 840,23 75,23 8,03 334,83 14,29 243,67Montant marchandises moyen avant 1 393,22 0,03 6500 122 223,76 87,73 7,47 278,84 13,76 266,98Montant marchandises moyen après 1 743,78 0,03 9000 96 556,38 55,37 6,44 268,77 26,76 859,06

L’estimation de la moyenne montre une forte baisse des apports de l’activité principale et des montants de dépenses en achats de marchandises et matières premières.

IV.3 Box-plots des variables d’intérêt L’analyse des box-lots des variables Q183av, 183ap, Q1113av, Q1113ap donne des

résultats identiques et présente des outliers à ‘extrémité droite de chaque distribution. Cela est bien visible sur le graphique du Box-plot de la variable Q183av. les Box-plots des autres variables sont représentées en annexe. Figure 1 : Box plot de la variable q183av (Apport principal moyen avant)

.02

7872 apport principal moyen avant

10

IV.4. Stems and leaves des variables d’intérêt Figure 2 : Stem and Leaf de la variable Q183av

Les stems and leaves des variables permettent de compter les outliers. Pour la variables

Q183av par exemple (figure2) les valeurs supérieures à 1050 sont considérées comme des outliers. Cela permet d’identifier 20 outliers. Tableau 8 : Nombre d’outliers par variable

Variable Nombre d’outliers

Valeurs supérieures à

Poids des Outliers ( ) outP

Taux d’outliers

Apport principal moyen avant 20 1050 23.63 1,70 Apport principal moyen après 12 1000 13.91 0,80 Montant marchandise moyen avant 14 800 16.65 1,19

Montant marchandise moyen après 11 600 13.21 0,95

Le poids d’outliers désigne la somme des poids individuels des outliers. Ces poids vont servir pour le calcul de la moyenne de Windzor. La colonne « valeurs supérieures à » désigne les montants au delà desquels les valeurs sont considérées comme outliers. Notons cette valeur pour une variable donnée.

maxV

IV.5. Calcul de la moyenne de Windzor Cette moyenne présente l’avantage d’éliminer les effets des valeurs aberrantes qui

peuvent introduire un biais dans le calcul des estimateurs.

a) Formule

On suppose que les valeurs de la variable sont ordonnées de façon croissante et que les outliers sont les valeurs strictement supérieures à . La formule de Windzor est : maxV

max

max1

1 Vn

i i outi

W p y P Vn =

⎡ ⎤= +⎢ ⎥

⎢ ⎥⎣ ⎦∑ maxvn où désigne l’ordre de et est le poids des outliers. maxV outP

11

b) Tableau des résultats Tableau 9 : tableau des winzorized means

Variable Moyenne de Windzor Apport principal moyen avant 102.68 Apport principal moyen après 58.44 Montant marchandise moyen avant 73.03 Montant marchandise moyen après 42.95

L’estimation de la moyenne par la formule de Windzor donne pour l’ensemble des quatres variables des valeurs plus petites que celles fournies par la formule de Horwitz et Thomson. Cette différence s’explique par le fait que tous les outliers sont situés dans a partie supérieure de la distribution et ceux pour l’ensemble des variables d’intérêt.

Les syntaxes de calcul des moyennes de Wndzor pour nos variables d’intérêt sont présentés en annexe.

IV.6. Calcul des α % trimmed means

Le α % trimmed mean est également un estimateur de la moyenne en cas de présence d’outliers. A la différence du windzorised mean les outliers sont purement et simplement laissés de côté dans le calcul de la moyenne.

a) Formule

En supposant l’échantillon ordonné dans l’ordre croissant de la variable Y, leα %

trimmed mean de Y s’écrit : max

max 1

1 vn

i itrimiv

y pn =

= ∑ y .

b) Résultats Tableau 10 : Estimation par α % trimmed mean

Variable α % trimmed mean Apport principal moyen avant 86.28 Apport principal moyen après 50.85 Montant marchandise moyen avant

97.51

Montant marchandise moyen après

40.74

L' estimation des moyennes des variables d’intérêt par la méthode du α % trimmed mean donne des valeurs encore plus faibles que le windzorised mean.

IV.7. Estimation par bootstrap des variances des estimateurs des Winzorised means et des α % trimmed means

Les variances du des Winzorised means et des α % trimmed means ne peuvent être calculées par des formules analytiques. On utilise donc la méthode du Bootstrap afin de les estimer.

12

Les tableaux ci-dessous donnent les résultats du bootstrap respectivement pour la moyenne de Windzor et pour le α % trimmed mean. Tableau 11 : Résultats du bootstrap pour la moyenne de windzor

Intervalle de confiance à

95% Variable Valeur estimée Biais Ecart

type Min Max

Apport principal moyen avant 102.68 0.35 5.30 93.37 114.13 Apport principal moyen après 58.44 0.08 3.45 51.84 65.58 Montant marchandise moyen avant 73.03 0.05 3.76 66.57 81.58 Montant marchandise moyen après 44.98 0.20 2.19 41.05 49.74

Tableau 12 : Résultats du bootstrap pour le α % trimmed mean

Intervalle de confiance à 95% Variable Valeur

estimée Biais Ecart type Min Max

Apport principal moyen avant 86.28 0.33 3.77 79.52 93.93 Apport principal moyen après 50.85 0.06 2.46 46.59 56.92 Montant marchandise moyen avant 64.23 0.07 2.88 58.97 70.01 Montant marchandise moyen après 40.74 0.04 1.69 38.04 44.77

Le biais mesure l’écart entre la moyenne bootstrapée et la moyenne de windzor ou le α % trimmed mean. On remarque que les écart-types estimés sont plus élevés pour les moyennes de windzor que pour les α % trimmed means. Ce qui signifie que le α % trimmed mean est plus précis dans ce cas et donc meilleur que la moyenne de Windzor. De ce fait nous cnsidérerons comme estimation des valeurs des variables d’intérêt les estimations par les α % trimmed means.

Ainsi, on peut dire que les montants des apports des activés principales des entreprises de Bassam ont connu une baisse après la crise du 19 septembre 2002. Cette baisse est de 41,1% pour les apports des activités principales et de 58,2% pour les dépenses en marchandises et matières premières.

13

Conclusion Dans ce travail, nous avions à traiter et à exploiter un ensemble de 126 variables

concernant : le cycle d’activité, le niveau de production, les ressources non financières des entreprises et leurs charges non financières. Le traitement consistait en l’apurement et au redressement des non réponses ou imputation. Au niveau de l’exploitation, il s’agissait de calculer des estimateurs fiables et robustes à l’aide des méthodes vues au cours (bootstrap, Jacknife, ect.).

Au niveau de l’apurement, nous avons remarqué quelques incohérences au niveau de la date de création des entreprises. Le problème crucial concernait les entreprises qui avaient déclaré être créées après le 19 septembre 2002 et avaient répondu à plusieurs questions qui concernaient l’activité économique avant le 19 septembre; Nous avons traité ces entreprises, dans la suite, comme des entreprises créées avant le 19 septembre.

Pour le redressement des non réponses, nous avons constaté après apurement et traitement des sans objets que les variables présentaient toujours un taux de non réponses brutes très élevé. Le taux de non réponses de certaines variables avoisinait 90%. Nous avons décidé d’imputer seulement les variables ayant un taux de non réponses brutes de mois de 40%. Pour presque la totalité des variables concernées par l’imputation, le mécanisme de non réponse identifié pourrait être le « Not missing at random » c’est-à-dire, la probabilité de non réponse pour la variable d’intérêt dépend d’elle-même ou d’autres variables non étudiées. Dans la majorité des cas, la méthode d’imputation était la méthode du plus proche voisin couplée de la méthode de la moyenne.

Une fois les données redressées, les variables d’intérêt que nous avons choisies sont les « apport principal moyen avant et après le 19 septembre 2002 » et «montant marchandise moyen avant et après le 19 septembre 2002 ». Il s’agissait pour terminer, de donner les estimateurs fiables et robustes pour ces variables. Les résultats montrent que ce sont les estimateurs α % trimmed means qui donnent des estimations précis et robustes.

Comme on peut ce rendre compte, que ce soit l’apport principal moyen ou le montant marchandise moyen, on se rend compte par le baisse des estimations de ces variables au lendemain de la crise du 19 septembre 2002 que la crise à eu coût considérable sur le fonctionnement de l’activité économique.

14

Bibliographie ENSEA (2003), Manuel de codification : Enquête « Impact socio économique de la crise sur la ville de BASSAM : aspect économique de la crise », Abidjan, ENSEA. CHITOU B. (2003), Support du cours sur l’exploitation des données d’enquêtes, Abidjan, ENSEA.

DUSSAIX A. et GROSBRAS J. : « Exercices de sondages avec aide-mémoire et solutions ».

ARDILLY P. (1994) «Les techniques de sondages », Edit Technip-Paris.

15

Annexes

Annexe 1 : Dictionnaire des variables

Variable Libllé Variable Libllé

localite Localité dec Comment marche vos affaires en decembre?

q01 Quartier jodec Nombre de jours ouvrés de decembre?

q02 Ilot janv Comment marche vos affaires en janvier?

q03 Concession jojanv Nombre de jours ouvrés de janvier

q04 N° Entreprise fev Comment marche vos affaires en fevrier?

ident Identifiant jofev Nombre de jours ouvrés de fevrier

identif2 mars Comment marchent vos affaires en mars

q071 Jour de crétion jomars Nombre de jours ouvrés de mars

q072 Mois de création q151 Periodicité hotels

q073 Année de création q152av Taux hôtels fort avant

q08 Nature q152ap Taux hôtels fort après

q013 Activité principale q153av Taux hôtels moyen avant

q018 Repondant q153ap Taux hôtels moyen après

q11 Determination périodes d'activité q154av Taux hôtels bas avant

lun Comment marche vos affaires le lundi? q154ap Taux hôtels bas après

mar Comment marche vos affaires le mardi? q161 Periodicité transport

mer Comment marche vos affaires le mercredi? q162av Nombre depart fort avant

jeu Comment marche vos affaires le jeudi? q162ap Nombre depart fort après

ven Comment marche vos affaires le vendredi? q163av Nombre depart moyen avant

sam Comment marche vos affaires le samedi? q163ap Nombre depart moyen après

dim Comment marche vos affaires le dimanche? q164av Nombre depart bas avant

sem1 Comment marche vos affaires la première semaine du mois? q164ap Nombre depart bas après

jo1 Nombre jours ouvrés de la première semaine q171 Periodicité taux transport

sem2 Comment marche vos affaires la deuxième semaine du mois? q172av Taux transport fort avant

jo2 Nombre jours ouvrés de la deuxième semaine q172ap Taux transport fort après

sem3 Comment marche vos affaires la troisième semaine du mois? q173av Taux transport moyen avant

jo3 Nombre jours ouvrés de la troisième semaine q173ap Taux transport moyen après

sem4 Comment marche vos affaires la quatrième semaine du mois q174av Taux transport bas avant

jo4 Nombre jours ouvrés de la quatrième semaine q174ap Taux transport bas après

sept Comment marche vos affaires en septembre? q181 Periodicité activité principale

josept Nombre de jours ouvrés de septembre q182av Apport principal fort avant

oct Comment marche vos affaires en octobre? q182ap Apport principal fort après

jooct Nombre de jours ouvrés d'octobre q183av Apport principal moyen avant

nov Comment marche vos affaires en novembre q183ap Apport principal moyen après

jonov Nombre de jours ouvrés de novembre q184av Apport principal bas Avant

16

Variable Libllé Variable Libllé

q184ap Apport principal bas Après q1134ap Montant energie bas après

q191 Periodicité activité secondiare q1141 Periodicité montant transport

q192av Apport secondaire fort avant q1142av Montant transport fort avant

q192ap Apport secondaire fort après q1142ap Montant transport fort après

q193av Apport secondaire moyen avant q1143av Montant transport moyen avant

q193ap Apport secondaire moyen après q1143ap Montant transport moyen après

q194av Apport secondaire bas avant q1144av Montant transport bas avant

q194ap Apport secondaire bas après q1144ap Montant transport bas après

q1101 Periodicité montant chiffre d'affaires q1151 Periodicité traitement personnel

q1102av Montant affaires fort avant q1152av Traitement personnel fort avant

q1102ap Montant affaires fort après q1152ap Traitement personnel fort après

q1103av Montant affaires moyen avant q1153av Traitement personnel moyen avant

q1103ap Montant affaires moyen après q1153ap Traitement personnel moyen après

q1104av Montant affaires bas avant q1154av Traitement personnel bas avant

q1104ap Montant affaires bas après q1154ap Traitement personnel bas après

q1111 Periodicité montant marchandises q1161 Periodicité chrages locatives

q1112av Montant marchandises fort avant q1162av Traitement personnel fort avant

q1112ap Montant marchandises fort après q1162ap Charges locatives fort après

q1113av Montant marchandises moyen avant q1163av Charges locatives moyen avant

q1113ap Montant marchandises moyen après q1163ap Charges locatives moyen après

q1114av Montant marchandises bas avant q1164av Chrages locatives bas avant

q1114ap Montant marchandises bas après q1164ap Chages locatives bas après

q1121 Periodicité montant fournitures q1171 Periodicité sous-traitance

q1122av Montant fournitures fort avant q1172av Sous-traitance fort avant

q1122ap Montant fournitures fort après q1172ap Charges locatives fort après

q1123av Montant fournitures moyen avant q1173av Sous-traitance moyen avant

q1123ap Montant fournitures moyen après q1173ap Sous-traitance moyen après

q1124av Montant fournitures bas avant q1174av Sous-traitance bas avant

q1124ap Montant fournitures bas après q1174ap Sous-traitance bas après

q1131 Periodicité montant energie

q1132av Montant energie fort avant

q1132ap Montant energie fort après

q1133av Montant energie moyen avant

q1133ap Montant energie moyen après q1134av Montant energie bas avant

17

Annexe 2 : Box-plots des variables d’intérêt Figure 3 : Box plot de la variable q183av (Apport principal moyen avant)

.02

7872 apport principal moyen avant

Figure 4 : Box plot de la variable q183ap (Apport principal moyen après)

.02

7000 apport principal moyen après

18

Figure 5 : Box plot de la variable q113av (Montant marchandises moyen avant)

.03

6500 montant marchandises moyen avant

Figure 6 : Box plot de la variable q113ap (Montant marchandises moyen après)

.03

9000 montant marchandises moyen aprè

19

Annexe 3 : Stems and leaves Stem-and-leaf plot for q183ap (apport principal moyen après) 0** 00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00, ... (1190) 1** 00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,20, ... (185) 2** 00,00,00,00,00,03,03,03,03,03,03,03,03,03,03,03,03,03,03,03, ... (47) 3** 00,00,00,00,00,05,50,50,60,60,74,75,90 4** 00,00,00,00,20 5** 00,00,88 6** 00,00 7** 00,20,50 8** 00 9** 00,05 10** 00,00 11** 12** 13** 00 14** 15** 00,00 16** 17** 18** 00,00 19** 20** 35 21** 00 22** 23** 24** 50 … 45** 00 46** 77 … 60** 00 70** 00

Stem-and-leaf plot for q1113av (montant marchandises moyen avant) 0** 00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00, ... (851) 1** 00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,01,02, ... (256) 2** 00,00,00,00,00,00,00,00,00,00,10,25,35,44,50,50,50,60,80 3** 00,00,00,00,00,00,00,00,00,00,05,15,33,50,56 4** 00,00,00,00,00,00,20,25,28 5** 00,80 6** 43,43,43 7** 00,30,47,50,50 8** 00,00 9** 10** 00,00 11** 00 12** 80 13** 20 14** 15** 00,00,00 16** 17** 08 18** 19** 20** 21** 00 22** 23** 24** 25** 00,50 26** 27** 66 … 65** 00

20

Stem-and-leaf plot for q1113ap (montant marchandises moyen après) 0** 00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00, ... (1310) 1** 00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00, ... (112) 2** 00,00,00,00,00,20,25,25,26,40,40,50,63,80 3** 00,00,00,00,00,25,38,50,50,56,65 4** 00,40 5** 00,00,00,00,50,75 6** 00,00,00 7** 8** 15,40 9** 00,80,99 10** 00 11** 12** 80 13** 14** 15** 00 16** 17** 00 … 27** 66 … 90** 00

Annexe 4: Estimations de winzorised et alpha trimmed means Pour la variable q183av Winzorize mean : 102.67859

sum q183av [aw=poids] if (q183av<=1050) local sommetrnq=r(mean)*r(sum_w) local winzo=(23.6345735 *1050+`sommetrnq')/1388.66314 di `winzo'

Right tailed Alpha trimmed mean: (alpha = taux de outliers) Variable | Obs Weight Mean Std. Dev. Min Max -------------+----------------------------------------------------------------- q183av | 1152 1365.02857 86.27634 134.1837 .02 1050

Pour la variable q183ap Winzorized mean : 58.438445

sum q183ap [aw=poids] if (q183ap<=

local sommetrnq=r(mean)*r(sum_w) local winzo=(13.9127512*1000+`sommdi `winzo'

Right tailed Apha trimmed mean: (alpha = taux de ou Variable | Obs Weight Mean

-------------+---------------------------------

q183ap | 1453 1725.2015 50.8453

*Les 12 outliers représentent 13,91 individus auvu des coefficients d’exptrapolation

1000)

etrnq')/1739.11426

tliers) Std. Dev. Min Max

--------------------------------

97.62976 .02 1000

21

Pour la variable q1113av Winzorized mean : 73.025254

sum q1113av [aw=poids] if (q1113av<=800) local sommetrnq=r(mean)*r(sum_w) local winzo=(16.6476055 *800+`sommetrnq')/1393.21965 di `winzo'

Right tailed Alpha trimmed mean: (alpha = taux de outliers) Variable | Obs Weight Mean Std. Dev. Min Max -------------+----------------------------------------------------------------- q1113av | 1162 1376.57205 64.23357 97.51233 .03 800

Pour la variable q1113ap Winzorized mean : 42.947431

sum q1113ap [aw=poids] if (q1113av<=600) local sommetrnq=r(mean)*r(sum_w) local winzo=(13.2073723*600+`sommetrnq')/1393.21965 di `winzo'

Right tailed Alpha trimmed mean: (alpha = taux de outliers) Variable | Obs Weight Mean Std. Dev. Min Max -------------+----------------------------------------------------------------- q1113ap | 1458 1730.5699 40.74158 66.38721 .03 600

Annexe 5 : Bootstrap sur les winzorised means Pour la variable q183av

Le programme STATA est le suivant program define winq183av version 7.0 if "`1'" == "?" { global S_1 winzoq183av exit } * poids des d outliers* qui sum q183av [aw=poids] if q183av>1050 local poidsout= r(sum_w) *poids total qui sum q183av [aw=poids] local poidstot=r(sum_w)

22

*calcul du winzorized mean winzo qui sum q183av [aw=poids] if q183av<=1050 local sommetrnq=r(mean)*r(sum_w) local winzoq183av=(`poidsout'*r(max)+`sommetrnq')/`poidstot' post `1' (`winzoq183av') end bstrap winq183av, reps(500)

(obs=1470)

Bootstrap statistics

Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]

------------+----------------------------------------------------------------

winzoq183av | 500 102.6786 -.352443 5.301452 92.26267 113.0945 (N)

| 92.78415 113.2341 (P)

| 93.37152 114.1259 (BC)

-----------------------------------------------------------------------------

N = normal, P = percentile, BC = bias-corrected

Pour les variables q183ap ; q1113av et q1113ap, le programme se modifie en remplaçant les textes grisés suivant le tableau suivant : Tableau 1

Variable q183ap q1113av q1113ap description

winq183av winq183ap winq1113av winq1113ap Nom du programme

q183av q183ap q1113av q1113ap Nom de la variable concernée

winzoq183av winzoq183ap winzoq1113av winzoq1113ap Nom de l’estimazteur bootstrap

1050 1000 800 600 Seuil au-delà duquel on est considéré comme outlier

Bootstrap statistics

POOUR LA VARIABLE q183ap Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]

------------+----------------------------------------------------------------

winzoq183ap | 500 58.43845 -.0796941 3.450431 51.65928 65.21761 (N)

| 51.77943 65.42441 (P)

| 51.84245 65.57652 (BC)-----------------------------------------------------------------------------

N = normal, P = percentile, BC = bias-corrected

23

POOUR LA VARIABLE q1113av

Bootstrap statistics Variable | Reps Observed Bias Std. Err. [95% Conf. Interval] ------------+---------------------------------------------------------------- winzoq113av | 500 73.02525 -.0505734 3.761854 65.63423 80.41628 (N) | 66.36188 80.91783 (P) | 66.56652 81.58176 (BC) ----------------------------------------------------------------------------- N = normal, P = percentile, BC = bias-corrected

POOUR LA VARIABLE q1113ap

Bootstrap statistics

Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]

-------------+---------------------------------------------------------------

winzoq1113ap | 500 44.97741 -.1995108 2.185894 40.68272 49.2721 (N)

| 40.80772 49.09934 (P)

| 41.04801 49.73628 (BC)

-----------------------------------------------------------------------------

N = normal, P = percentile, BC = bias-corrected

Annexe 5 : Bootstrap sur les alpha trimmed means Pour la variable q183av bs "sum q183av [aw=poids] if q183av<=1050" "r(mean)", reps(500)

Bootstrap statistics

Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------------

bs1 | 500 86.27634 .3286153 3.768796 78.87167 93.681 (N)

| 79.65116 94.32502 (P)

| 79.51547 93.93105 (BC)

-----------------------------------------------------------------------------

N = normal, P = percentile, BC = bias-corrected

24

Pour la variable q183ap bs "sum q183ap [aw=poids] if q183ap<=1000" "r(mean)", reps(500)

Bootstrap statistics

Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------------

bs1 | 500 50.84529 -.0549498 2.464829 46.00257 55.68802 (N)

| 46.27514 55.87797 (P)

| 46.58707 56.92311 (BC)

-----------------------------------------------------------------------------

N = normal, P = percentile, BC = bias-corrected

Pour la variable q1113av bs "sum q1113av [aw=poids] if q1113av<=800" "r(mean)", reps(500) Bootstrap statistics Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------------

bs1 | 500 64.23357 -.0738211 2.884513 58.56628 69.90085 (N)

| 58.54799 69.69091 (P)

| 58.96519 70.0144 (BC)

-----------------------------------------------------------------------------

N = normal, P = percentile, BC = bias-corrected

Pour la variable q1113av bs "sum q1113ap [aw=poids] if q1113ap<=600" "r(mean)", reps(500) Bootstrap statistics Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]

---------+-------------------------------------------------------------------

bs1 | 500 40.74158 .042171 1.688072 37.42498 44.05819 (N)

| 37.58352 44.15766 (P)

| 38.03995 44.76864 (BC)

-----------------------------------------------------------------------------

N = normal, P = percentile, BC = bias-corrected

25

Annexe 6: Etude des variables d’intérêt par secteurd’activté

ETUDE DE LA VARIABLE q183av PAR TYPE D’ACTIVITE

Figure 7 : Box plot de q183av pour le secteur production

1.5

2700 apport principal moyen avant

nombre d’oultilers : 7 outliers (valeurs>900) Taux de outliers : 7*100/370 Winzorize mean : 139.67214

sum q183av if (q183av<=900)&(type==1) local sommetrnq=r(mean)*r(N) local winzo=(7*900+`sommetrnq')/370 di `winzo'

Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q183av | 363 125.0102 147.5182 1.5 900

Figure 8 : Box plot de q183av pour le secteur Commerce

.02

7872 apport principal moyen avant

26

Nombre d’oultilers : 11outliers (valeurs>686) Taux de outliers : 11*100/469 Winzorize mean : 83.502548

sum q183av if (q183av<=686)&(type==2) local sommetrnq=r(mean)*r(N) local winzo=(11*686+`sommetrnq')/469 di `winzo'

Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q183av | 458 69.03209 107.4264 .02 686

Figure 9 : Box plot de q183av pour le secteur Service

.5

2100 apport principal moyen avant

nombre d’oultilers : 10outliers (valeurs>420) Taux de outliers : 10*100/333 Winzorize mean : 64.006116

sum q183av if (q183av<=420)&(type==3) local sommetrnq=r(mean)*r(N) local winzo=(10*420+`sommetrnq')/333 di `winzo'

Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q183av | 323 52.98463 83.94014 .5 420

27

ETUDE DE LA VARIABLE q183ap PAR TYPE D’ACTIVITE

Figure 10 : Box plot de q183ap pour le secteur production

.11

4500 apport principal moyen après

nombre d’oultilers : 7 outliers (valeurs>720) Taux de outliers : 7*100/428 Winzorize mean : 80.378697

sum q183ap if (q183ap<=720)&(type==1) local sommetrnq=r(mean)*r(N) local winzo=(7*720+`sommetrnq')/428 di `winzo'

Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q183ap | 421 69.74366 94.12325 .11 720

Figure 11 : Box plot de q183av pour le secteur Commerce

.02

6000 apport principal moyen après

nombre d’oultilers : 9 outliers (valeurs>375) Taux de outliers : 9*100/595

28

Winzorize mean : 42.56564 sum q183ap if (q183ap<=375)&(type==2) local sommetrnq=r(mean)*r(N) local winzo=(9*375+`sommetrnq')/595 di `winzo'

Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max

-------------+-----------------------------------------------------

q183ap | 586 37.45999 64.86507 .02 375

Figure 12 : Box plot de q183av pour le secteur Service

.02

7000 apport principal moyen après

nombre d’oultilers : 5 outliers (valeurs>420) Taux de outliers : 5*100/442 Winzorize mean : 41.117318

sum q183ap if (q183ap<=420)&(type==3) local sommetrnq=r(mean)*r(N) local winzo=(5*420+`sommetrnq')/442 di `winzo'

Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q183ap | 437 36.78228 69.57505 .02 420

29

ETUDE DE LA VARIABLE q1113av PAR TYPE D’ACTIVITE

Figure 13 : Box plot de q1113av pour le secteur Production

.2

2765.75 montant marchandises moyen avant

nombre d’oultilers : 7 outliers (valeurs>425) Taux de outliers : 7*100/373 Winzorize mean : 71.344387

Right tailed Alpha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q1113av | 366 64.58048 75.03288 .2 425 Figure 14 : Box plot de q1113av pour le secteur Commerce

.1

6500 montant marchandises moyen avant

nombre d’oultilers : 7 outliers (valeurs>800) Taux de outliers : 7*100/469 Winzorize mean : 75.866549

30

Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max

-------------+-----------------------------------------------------

q1113av | 462 64.89483 101.6774 .1 800

Figure 15 : Box plot de q1113av pour le secteur Service

.03

1500 montant marchandises moyen avant

Nombre d’oultilers : 7 outliers (valeurs>333) Taux de outliers : 7*100/334 Winzorize mean : 55.856502 Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q1113av | 327 49.92377 63.98518 .03 333.33 .

31

ETUDE DE LA VARIABLE q1113ap PAR TYPE D’ACTIVITE

Figure 16 : Box plot de q1113ap pour le secteur Production

.1

2765.75 montant marchandises moyen aprè

nombre d’oultilers : 7 outliers (valeurs>280) Taux de outliers : 6*100/430 Winzorize mean : 38.669285

Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q1113ap | 424 35.25423 41.88937 .1 280

Figure 17 : Box plot de q1113ap pour le secteur Commerce

.07

1700 montant marchandises moyen aprè

nombre d’oultilers : 11 outliers (valeurs>400) Taux de outliers : 11*100/596 Winzorize mean : 44.246485 Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q1113ap | 585 37.5571 57.57528 .07 400

32

Figure 18 : Box plot de q1113ap pour le secteur Service

.03

9000 montant marchandises moyen aprè

nombre d’oultilers : 1 outliers (valeurs>980) Taux de outliers : 1*100/443 Winzorize mean : 45.664988 Right tailed Apha trimmed mean: (alpha = taux de outliers) Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- q1113ap | 442 43.55111 78.01332 .03 980

33

Annexe 7: Syntaxes SPSS pour le traitement de la base Les syntaxes pour le recodage des sans objets et l’imputation des non réponses sont

d’un volume très important, elles ne sont donc pas toutes placées en annexe afin de ne pas trop alourdir le document. Syntaxe 1 : Récodage des Sans objet pour les variables de cycle d’actvité * Création d'une variable av_ap2 tenant compte uniquement des renseignements sur les variables avant. get files file = "D:\raoul\exploitation_enquête\Gt_Bassam\entretest.sav". execute. COMPUTE av_ap2 = 0 . VARIABLE LABELS av_ap2 'Existence avant le 19 sept 2002 suivant les données sur les variables avant' . value labels av_ap2 1 'Créée avant le 19 sept 2002' 0 'Créée après le 19 sept 2002' . EXECUTE . DO IF ((q162av >= 0) | (q163av >= 0) | (q164av >= 0) | (q172av >= 0) | (q173av >= 0) | (q174av >= 0) | (q182av >= 0) | (q183av >= 0) | (q184av >= 0) | (q192av >= 0) | (q193av >= 0) | (q194av >= 0) | (q1102av >= 0) | (q1103av >= 0) | (q1104av >= 0) | (q1112av >= 0) | (q1113av >= 0) | (q1114av >= 0) | (q1122av >= 0) | (q1123av >= 0) | (q1124av >= 0) | (q1132av >= 0) | (q1133av >= 0) | (q1134av >= 0) | (q1142av >= 0) | (q1143av >= 0) | (q1144av >= 0) | (q1152av >= 0) | (q1153av >= 0) | (q1154av >= 0) | (q1162av >= 0) | (q1163av >= 0) | (q1164av >= 0) | (q1172av >= 0) | (q1173av >= 0) | (q1174av >= 0)) . RECODE av_ap2 (0=1) . END IF . EXECUTE . FILTER OFF. USE ALL. SELECT IF((av_ap=0)&(av_ap2=1)). EXECUTE . FREQUENCIES VARIABLES=q11 /ORDER ANALYSIS . * 11 valeurs mnquantes pour la variable Determination de la périodicité du cycle d'activité (q11). * On reporte les valeurs de la périodicité de l'activité principale (q181) . * les individus 105356005021et 105356002008 presentent des non réponses totales sur toutes les variables exploitables. DO IF (MISSING(q11)) . compute q11 = q181 . END IF . EXECUTE . * Cohérence entre périodicité du cycle d'activité (q11) et Commet marchent vos affaires ...(le jour) de la semaine. CROSSTABS /TABLES=q11 BY lun mar mer jeu ven sam dim /FORMAT= AVALUE TABLES /CELLS= COUNT . *Il ya cohérence mais présence de valeurs manquantes pour les jours de la semaine. * Cohérence entre périodicité du cycle d'activité (q11) et Comment marchent vos affaires ...(la semaine) du mois. CROSSTABS /TABLES=q11 BY sem1 sem2 sem3 sem4 /FORMAT= AVALUE TABLES

34

/CELLS= COUNT . * Une entreprise présente q11=3 et repond à sem1=3. on la cherche pour traitement. * Après filtrage. on constate qu c'est une erreur de saisie et on affecte à cet individu le code SANS OBJET (9) pour la variable sem1. FILTER OFF. USE ALL. SELECT IF((q11=3)&(sem1=3)). EXECUTE . do if ((q11=3)&(sem1=3)). recode sem1 (3=9). end if. execute. * Cohérence entre périodicité du cycle d'activité (q11) et Comment marchent vos affaires ...(le mois) de l'année. CROSSTABS /TABLES=q11 BY sept oct nov dec janv fev mars /FORMAT= AVALUE TABLES /CELLS= COUNT . * Il n'ya que le pb de valuers manquantes. Syntaxe 2 : Imputation des variables montant marchandises **Imputation de la variable q181 qui va servir de variable auxilaire pour imputer les variables de cxharges non financières q1112av à q1174ap. if sysmis(q181) q181=q11. frequencies q181. **Imputation de q1111. **Les individus 113368001002 et 113488001001 n'ont pas répondu à question q1111 et ont donné des mntants sur leurs dépenses en marchnadises. **pour les autres individus qui n'ont pas répondu à q1111 ni aux montants des dépenses. if (sysmis(q1111)&identif2<>113368001002&identif2<>113488001001) q1111=q181. frequencies q1111. **on remarque que les valeurs des réponses de ces deux individus à la question q1113av est plus proche des montants journaliers donnés par les autres individus, on les classe alors dans la modalité q1111=1. if (identif2=113368001002 or identif2=113488001001) q1111=1. frequencies q1111. COMPUTE periodic = 10*q181+q1111 . VARIABLE LABELS periodic 'juxtaposée de q181 et q1111' . execute. AGGREGATE /OUTFILE="c:\aggr.sav" /BREAK=periodic /mq1112av = MEAN(q1112av) /mq1112ap= MEAN(q1112ap) /mq1113av= MEAN(q1113av) /mq1113ap= MEAN(q1113ap) /mq1114av= MEAN(q1114av) /mq1114ap = MEAN(q1114ap) mpu execute. SORT CASES BY periodic(a). MATCH FILES /FILE=* /TABLE="c:\AGGR.SAV"

35

/BY periodic. execute. if sysmis(q1112av) q1112av=mq1112av. if sysmis(q1112ap) q1112ap=mq1112ap. if sysmis(q1113av) q1113av=mq1113av. if sysmis(q1113ap) q1113ap=mq1113ap. if sysmis(q1114av) q1114av=mq1114av. if sysmis(q1114ap) q1114ap=mq1114ap. execute. FREQUENCIES VARIABLES=q1112av q1112ap q1113av q1113ap q1114av q1114ap.

36