IE
Définition des besoins pour une application d’analyse
décisionnelle de type SOLAP pour la criminalité
Réalisé par : Dr Yvan Bédard, professeur Sonia Rivest, professionnelle de recherche Marie-Josée Proulx, professionnelle de recherche Martin Nadeau, professionnel de recherche
Pour la : Direction des affaires policières et de la prévention de la criminalité, ministère de la Sécurité publique
Janvier 2002
AVANT-PROPOS
Ce document constitue le rapport de travail et le recueil des livrables du projet « Définition des besoins
pour une application d’analyse décisionnelle de type SOLAP pour la criminalité » réalisé pour la Direction
des affaires policières et de la prévention de la criminalité du ministère de la Sécurité publique du Québec
par l’équipe du professeur Yvan Bédard du Centre de recherche en géomatique de l’Université Laval.
Ce document contient :
• le rapport de travail du projet;
• le plan de travail du projet (annexe 1);
• la définition de la portée du prototype (annexe 2);
• la définition d’analyses types, incluant un tableau résumant les besoins en données (annexe 3);
• le modèle multidimensionnel (dimensions, mesures et cubes) (annexe 4);
• le compte-rendu des rencontres (annexe 5).
Le support numérique qui accompagne ce document contient :
• les documents énumérés précédemment (documents Microsoft Word 2000);
• l’inventaire de données (document Microsoft Access 2000);
• le prototype de système d’analyse OLAP (document Microsoft PowerPoint 2000);
• la base de données implantée dans Microsoft SQL Server 2000;
• les essais de cubes multidimensionnels implantés dans Microsoft Analysis Services 2000;
• les courriels échangés ainsi que les documents envoyés par le MSP (sauf les données DUC 1 et
DUC 2).
INTRODUCTION
La Direction des affaires policières et de la prévention de la criminalité (DAPPC) du ministère de la
Sécurité publique (MSP) effectue régulièrement des analyses statistiques sur les données de criminalité au
Québec et publie annuellement des analyses basées sur les données recueillies dans le cadre du programme
de déclaration uniforme de criminalité (DUC), versions agrégée (données mensuelles DUC 1) et révisée
(nouvelle version DUC 2 basée sur l’événement). Ces statistiques sont présentées principalement sous
forme de tableaux (voir par exemple le document « Statistiques 1999 sur la criminalité au Québec » publié
par le MSP). Aucune représentation cartographique des résultats n’est produite. Lorsque des formes de
représentation (tableaux, graphiques) sont produites, elles demeurent statiques et ne permettent pas de
manipuler l’information selon les besoins immédiats ou selon les nouvelles questions qui se posent à la vue
des résultats.
Une nouvelle méthode d’analyse, l’approche SOLAP, est proposée afin que les analystes en criminalité
puissent tirer parti de la richesse d’information, particulièrement l’information spatio-temporelle, contenue
dans les bases de données de déclaration uniforme de criminalité (la base de données DUC 2 contenant des
données plus détaillées). L’approche SOLAP combine les avantages de l’analyse multidimensionnelle
interactive (OLAP) aux possibilités de visualisation et de manipulation de la composante spatiale
géométrique des données cartographiques. L’approche SOLAP est bien adaptée aux analyses spatio-
temporelles, c’est-à-dire impliquant l’espace et le temps. Elle permet de rendre l’information sur la
criminalité facilement et rapidement disponible à plusieurs usagers sans que ces derniers aient besoin de
connaissances spécifiques en informatique.
La première étape du développement du système SOLAP consiste en la réalisation d’un prototype, ici sous
forme de maquette, visant la définition des besoins de la DAPPC en matière de gestion des données en vue
d’effectuer des analyses géospatiales de type décisionnel à partir des données de criminalité.
L’équipe du professeur-chercheur Yvan Bédard du Centre de recherche en géomatique (CRG) de
l’Université Laval a été mandatée pour la réalisation de la phase 1 du projet. Le plan de travail de la phase
1 est présenté à l’annexe 1. Les intervenants qui ont participé à la réalisation du mandat sont listés dans le
tableau 1.
Tableau 1 : Liste des intervenants pour la phase 1 du projet
Intervenants du Centre de recherche en géomatique de l'Université Laval Nom Fonction Implication au mandat
Dr Yvan Bédard Professeur, département des sciences géomatiques Supervision
Sonia Rivest Professionnelle de recherche, CRG Réalisation du prototype et de la documentation
Marie-Josée Proulx Professionnelle de recherche, CRG Réalisation du prototype et de la documentation
Martin Nadeau Professionnel de recherche, CRG Réalisation du prototype
Louis-Étienne Guimond Étudiant 1er cycle, sciences géomatiques Réalisation de l'inventaire de données
Intervenants du ministère de la Sécurité publique du Québec Nom Direction/Service Implication au mandat
Hélène Simon
Chef de service, Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité
Définition des besoins et approbation des différents livrables
Diane Potvin
Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité
Préparation des données et approbation des différents livrables
Louise Motard
Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité
Préparation des données et approbation des différents livrables
Suzy Bélanger
Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité
Préparation des données et approbation des différents livrables
Tho-Thanh Ly
Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité
Préparation des données et approbation des différents livrables
Robert Lavertue
Service de la prévention de la criminalité, Direction des affaires policières et de la prévention de la criminalité
Approbation des différents livrables
Guy Nadeau
Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité
Approbation des différents livrables
Stéphane Miousse Étudiant-stagiaire Préparation des données
Le présent rapport contient une description des principales étapes accomplies durant le mandat, soit :
Définition de la portée du prototype
Définition d’analyses types
Inventaire de données
Modélisation multidimensionnelle
Élaboration de l’interface et des fonctions du prototype
Détermination des modes de représentation graphique et de la sémiologie graphique
Réalisation du prototype
Discussion de problématiques de développement du système fonctionnel
RÉALISATION DU MANDAT
Définition de la portée du prototype
La portée du prototype a été définie au départ afin que les deux parties, futurs utilisateurs et concepteurs,
aient la même vision du livrable final de cette phase du projet. Le but premier du prototype était de faciliter
la définition des besoins des futurs usagers du système en leur permettant de comprendre ce que peut offrir
un outil OLAP spatial (ou SOLAP) pour l'analyse des données de criminalité. L’utilisation d’une méthode
de prototypage permet de faciliter et d’accélérer l’analyse et la conception du système fonctionnel qui sera
développé lors d’étapes subséquentes du projet.
Le prototype a été réalisé sous forme d’une maquette de système SOLAP. Cette maquette est présentée à
l'aide du logiciel Microsoft PowerPoint. Le prototype n’est donc pas un système fonctionnel, mais bien une
série d’images présentant une simulation du fonctionnement du futur système.
Parmi les données des programmes DUC1 et DUC 2 qui seront complètement intégrées au système
fonctionnel, un échantillon représentatif, couvrant les régions administratives de Montréal et de Québec
pour les années 1990 à 1999, a été intégré au prototype.
Les détails de la définition de la portée du prototype sont présentés dans le document de l’annexe 2.
Définition d’analyses types
Afin que le prototype puisse présenter des exemples d’analyse pertinents, un certain nombre d’analyses
types que la DAPPC désire réaliser ont été définies. Par la suite, les besoins en données pour chacune des
analyses définies ont été évalués. Les détails des analyses définies et des besoins en données sont présentés
dans les documents de l’annexe 3. Deux analyses (ou combinaisons d’analyses) ont été retenues pour être
présentées dans le prototype. L'accent a été mis sur les jeunes et les infractions relatives aux agressions
sexuelles ainsi qu'aux drogues et stupéfiants :
Analyse 1 :
- En 1999, quel est le taux de victimisation relatif aux agressions sexuelles (code
1310+1320+1330+1340) pour les moins de 18 ans au Québec? Sur quels territoires retrouve-
t-on les taux les plus élevés? Les plus faibles? Et, selon le sexe?
- Comment ces taux se comparent-t-il avec ceux de l’année précédente?
- En 1999, sur quels territoires retrouve-t-on les taux de victimisation relatifs aux agressions
sexuelles des femmes les plus élevés par rapport à ceux des hommes pour les moins de 18
ans? À l'inverse, où retrouve-t-on les taux de victimisation relatifs aux agressions sexuelles
des hommes les plus élevés par rapport à ceux des femmes?
- Sur quels territoires retrouve-t-on les plus fortes proportions de victimes de moins de 18 ans
dont l'auteur présumé est un membre de la famille? De plus, sur quels territoires retrouve-t-on
les plus fortes proportions de victimes agressées de 15 à 17 ans par un auteur présumé ayant
sensiblement le même âge qu'elles (+ ou - 3 ans)?
- Au Québec, en 1999, quelles ont été les différences entre les agressions sexuelles commises
dans des endroits publics versus les endroits privés (relation avec l’auteur présumé, nature des
blessures, arme utilisée, consommation)?
Analyse 2 :
- En 1999, la répartition entre les jeunes et les adultes auteurs présumés diffère-t-elle en
fonction du type de drogue (cannabis, cocaïne, héroïne, …) ou du type d’infraction
(possession, culture, importation, …)?
- En 1999, quel est le nombre d’infractions et le taux de criminalité relatifs aux drogues et aux
stupéfiants, pour les différentes municipalités? Est-ce que la répartition des municipalités
affichant un taux élevé montre un patron spatial particulier? Est-ce que le taux de criminalité
est plus élevé pour les municipalités les plus populeuses? Pour l’ensemble des municipalités,
quel est le pourcentage d'augmentation du taux de criminalité relatif aux drogues et aux
stupéfiants entre 1990 et 1999? Entre 1995 et 1999?
- En 1999, pour les jeunes, quel est le taux de perpétration relatif aux drogues et stupéfiants?
Quel est le taux pour chaque groupe d’âge? Pour chaque sexe pour ces groupes d’âge?
Inventaire de données
Parallèlement à l’étape de définition des analyses types, un inventaire de données a été réalisé. La portée
de cet inventaire a été limitée aux données, cartographiques et descriptives, potentiellement pertinentes à la
réalisation du prototype et aussi de la première version du futur système fonctionnel. L’inventaire a été
réalisé à l’aide d’une application fournie par le CRG qui consiste en une base de données Microsoft Access
permettant d’emmagasiner des métadonnées sur les collections de documents (ex. données DUC 2), les
classes d’objets (ex. victimes) se retrouvant dans ces documents, ainsi que les attributs de ces classes
d’objets (ex. âge de la victime) à l’aide de formulaires. L’inventaire de données est disponible sur le CD
fourni.
Modélisation multidimensionnelle
Les données à utiliser dans un système SOLAP doivent être structurées de façon multidimensionnelle.
Cette structure est basée sur les concepts suivants : dimension, mesure, fait et cube. Une dimension peut
être définie comme un axe ou un thème selon lequel les données seront analysées. Le temps, les infractions
et les lieux d'infraction sont des exemples de dimensions. Une dimension contient des membres organisés
en hiérarchie, chacun des membres appartenant à un niveau hiérarchique, c’est-à-dire présentant un niveau
de granularité particulier. La granularité est définie comme étant le niveau de détail des données
emmagasinées dans une base de données. Pour la dimension « temps », les années, les mois et les jours
sont des exemples de niveaux hiérarchiques et « 1998 » est un exemple de membre appartenant au niveau
« année ». Une mesure est un élément de donnée numérique sur lequel portent les analyses, en fonction des
différentes dimensions. Par exemple, le nombre d'infractions et le taux de criminalité sont des mesures
possibles. Un fait représente la valeur d’une mesure, mesurée ou calculée selon un membre de chacune des
dimensions. Par exemple, « le taux de criminalité pour les infractions relatives aux agressions sexuelles
ayant été perpétrées dans des lieux publics en 1995 est égal à 453,2 » est un fait qui exprime la valeur de la
mesure « taux de criminalité » pour le membre « agressions sexuelles » de la dimension « infractions », le
membre « lieu public » de la dimension « lieux d’infraction », et le membre « 1995 » de la dimension
« temps ». Finalement, un cube peut être défini comme un ensemble de mesures organisées par un
ensemble de dimensions. Un exemple serait un cube des données DUC 1 comprenant les dimensions
« temps », « infractions », « découpage administratif », « auteur présumé », « état de classement » et « type
de corps policier », ainsi que les mesures « nombre d’infractions », « taux de criminalité », « nombre
d’auteurs présumés », « taux de perpétration » et « population ».
Suite aux analyses effectuées sur les données et aux discussions avec les futurs utilisateurs du système, il
est suggéré de structurer les données selon deux cubes différents : un premier cube pour les données du
programme DUC 1 et un second pour les données du programme DUC 2. Cela permet de tenir compte des
différences significatives entre les deux jeux de données. Par exemple, la classification des infractions
diffère selon les programmes. De plus, les données provenant du programme DUC 2 permettent la création
d’un nombre plus élevé de dimensions. Lorsque l’analyse porte sur une période débutant en 1997 ou plus
tard, le cube des données DUC 1 ou le cube de données DUC 2 peuvent être utilisés. L’utilisateur peut
choisir le cube approprié pour des analyses couvrant cette période. Lorsque l’analyse porte sur une période
débutant avant 1997, le cube des données DUC 1 est utilisé. Ainsi, lorsque l’analyse requiert l’étude
d’évolutions de mesures, par exemple l’évolution du taux de criminalité, sur une période débutant avant
1997, les données du programme DUC 1 sont utilisées. Cela est conforme aux notes méthodologiques
présentées dans les documents statistiques produits par le MSP. La division des données en deux cubes
permet de s’assurer que l’usager a accès aux données les plus appropriées pour le type d’analyse qu’il
désire effectuer.
Le cube des données DUC 1 contient les dimensions suivantes :
- temps du rapport
- infraction
- découpage territorial
- auteur présumé
- état du classement
- type de corps policier
Les mesures définies pour ce cube sont :
- nombre d’infractions
- taux de criminalité
- nombre d’auteurs présumés
- taux de perpétration
- population
Le cube des données DUC 2 contient les dimensions suivantes :
- temps du rapport
- temps de début d’affaire
- temps de fin d’affaire
- infraction
- victime
- auteur présumé
- découpage territorial
- relation avec auteur présumé
- état du classement
- lieu
- nature des blessures
- arme la plus dangereuse
Les mesures incluses dans ce cube sont :
- nombre d’infractions
- taux de criminalité
- nombre d’auteurs présumés
- taux de perpétration
- nombre de victimes
- taux de victimisation
- population
Les détails des dimensions et mesures des cubes brièvement décrits ci-haut sont présentés à l’annexe 4.
Certaines des dimensions composant le cube des données DUC 2 ont été construites à partir du
regroupement d’autres dimensions élémentaires. C’est le cas, entre autres, de la dimension des infractions
qui classifie les infractions selon leur catégorie, mais qui contient aussi les informations concernant le
modus operandi, le type de biens volés et la valeur des biens. Les regroupements, en plus de diminuer le
nombre de dimensions à manipuler, permettent d’imposer certaines contraintes de navigation à l’utilisateur
et ce, à l’intérieur des bases de données, selon la structure des tables de dimensions. Par exemple, le
regroupement peut permettre de sélectionner un type de bien volé seulement dans le cas où l’infraction est
bien un vol. Ce type de contrainte est plus difficile à implanter à l’aide de dimensions élémentaires car la
programmation de procédures de vérification est alors nécessaire. Les différents regroupements utilisés
sont visibles dans le modèle multidimensionnel de l’annexe 4.
En plus des mesures déjà disponibles à l’intérieur de chacun des deux cubes, le prototype permet de créer
de nouvelles mesures, appelées mesures calculées, à partir des mesures existantes qui sont stockées à
l’intérieur des cubes. Différents taux et rapports de taux peuvent être calculés de cette façon. Les mesures
calculées ne sont cependant pas conservées dans le cube afin de maintenir l’intégrité des données.
Un schéma en étoile a été produit pour chacun des cubes. Un schéma en étoile est un modèle de données
multidimensionnel qui peut être utilisé pour représenter concrètement le contenu détaillé d’un cube. Un
schéma en étoile contient une table centrale, la table des faits, connectée à un certain nombre de tables
disposées de manière radiale, les tables de dimensions. La table des faits, comme son nom l’indique,
contient les faits (un fait a été défini plus haut). Les tables de dimensions contiennent les attributs de tous
les membres d’une dimension. Les schémas en étoile créés sont présentés à l’annexe 4. Ils sont aussi
disponibles sur le CD fourni.
La dimension de découpage administratif est la seule dimension spatiale du système. Elle permet
cependant plusieurs chemins de navigation : le découpage administratif, comprenant aussi les corps de
police ainsi que leur niveau de service, le découpage de recensement officiel, le découpage de recensement
utilisé au MSP (qui est parfois différent du découpage officiel) et enfin le découpage par strates de
population. Chacun des membres de la dimension de découpage territorial est associé à un élément
géométrique qui doit être emmagasiné dans une base de données externe. Les éléments géométriques sont
affichés sur la carte et une symbologie particulière leur est assignée lorsque des données descriptives leur
sont associées. Dans le contexte du prototype décrit ici, les données géométriques sont emmagasinées dans
la base de données du logiciel SoftMap.
Les dimensions « victime » et « auteur présumé » du cube DUC 2 doivent permettre, à l’aide d’une
fonction particulière de l’interface, de constituer des groupes d’âge variables selon les besoins immédiats
de l’analyse. Ces groupes d’âge variables, lorsque créés, sont ajoutés sous le membre « toutes divisions de
population » du niveau « division de population ».
En plus des données de criminalité, les cubes doivent aussi contenir les données de population pour le
calcul de différents taux. Les données démographiques à utiliser sont celles de Statistique Canada pour les
niveaux géographiques des régions administratives et des MRC. Pour les municipalités, les données de la
gazette officielle du Québec doivent être utilisées. Dans le contexte du prototype, puisque ces dernières
données n’étaient pas disponibles, les données démographiques des municipalités ont été estimées à l’aide
des données de Statistique Canada ainsi qu’avec la valeur de la population totale des municipalités. Pour
les autres niveaux géographiques, les données démographiques sont calculées à l’aide des données de
chacune des municipalités les composant.
Élaboration de l’interface et des fonctions du prototype
Par le biais de discussions avec les intervenants de la direction des affaires policières et de la prévention de
la criminalité (DAPPC), l’interface et les fonctions à inclure dans le prototype ont été définies. La figure 1
présente l’interface du prototype.
Figure 1. Interface du prototype développé pour l'analyse des données de criminalité.
Cette interface contient plusieurs zones : - La zone de contrôle située au haut de l’interface et contenant les différents menus et les différentes
barres d’outils.
- La zone de navigation située à droite de l’interface et permettant de sélectionner les différents membres de dimensions à visualiser ainsi que les différentes mesures. Cette zone permet aussi de sélectionner les couches à afficher en arrière-plan. Cette fenêtre peut être fermée pour laisser plus d’espace à la zone d’affichage.
- La zone d’affichage située à gauche de l’interface et permettant d’afficher les différentes représentations des données.
Zone de contrôle
Cette zone contient les menus suivants :
- Le menu Fichier permettant d’ouvrir et de fermer les connexions nécessaires à l’application, d’ouvrir un nouveau cube et de sauvegarder l’environnement de travail.
- Le menu Édition permettant d’effectuer des opérations de copier-coller (par exemple pour copier des éléments à l’intérieur d’un autre document).
- Le menu Affichage permettant d’afficher les différentes composantes de l’interface, entre autres la fenêtre de navigation lorsqu’elle a été fermée. Ce menu permet aussi d’afficher plusieurs représentations des résultats de l’analyse simultanément.
- Le menu Liste des fenêtres actives permettant d’avoir la liste des fenêtres qui sont présentement ouvertes.
La zone de contrôle contient aussi les barres d’outils suivantes :
- La barre d’outils de navigation cartographique (recentrer la carte, déplacer la carte, changements d’échelle (zoom avant et zoom arrière) et retour à l’échelle d’affichage minimale).
- La barre d’outils de sélection (sélection d’un élément par pointé, sélection d’un groupe d’éléments par un rectangle, sélection d’un groupe d’éléments par un cercle, sélection d’un groupe d’éléments par un polygone).
- La barre d’outils d’impression (impression d’un rapport pré-formaté et impression de l’écran).
- La barre d’outils de mesure (mesure de distance, mesure de superficie, mesure de rayon).
- La barre d’outils OLAP (remontage, forage, forage latéral et information OLAP (incluant l’information descriptive)).
- La barre d’outils de statistiques (calcul de somme, calcul de moyenne et calcul de médiane).
- La barre d’outils d’affichage (rafraîchir l’affichage, initialiser l’affichage, modification de la symbologie et affichage de la légende)
- La barre d’outils de modification des types de représentation (carte, histogramme, histogramme horizontal, diagramme circulaire, tableau et diagramme à lignes brisées).
- Bouton d’affichage des métadonnées (les métadonnées sont en fait des données sur les données, qui permettent d’en apprécier la qualité, la précision etc. Par exemple le nom du producteur et la date de dernière mise à jour sont des métadonnées). Les métadonnées utilisées dans le cadre du projet devront être structurées selon une norme approuvée à déterminer, par exemple celle de l’ISO.
L’information descriptive disponible, affichée lorsque le bouton d’information OLAP est utilisé, est la suivante :
- Pour les municipalités, les MRC et les régions administratives :
- Nom
- Population
- Superficie
- Nombre de kilomètres de routes
- Nombre d'écoles
- Nombre de bars
- Nombre de centres commerciaux
- % de population francophone
- % de population anglophone
- % de population parlant d’autres langues que le français ou l’anglais
- % de population saisonnière
- Richesse foncière
- Données de transit
- Pour les corps de police :
- Nom
- Niveau de service
- Population desservie
- Nombre d'agents
- Pour les régions métropolitaines de recensement et les agglomérations de recensement :
- Nom
- Population
Zone de navigation
La zone de navigation contient deux onglets principaux :
- L’onglet Thèmes permettant de sélectionner les membres des dimensions à visualiser ainsi que les mesures à analyser. Cet onglet comprend d’abord deux sections, la première permettant de sélectionner la période d’analyse et la seconde permettant de sélectionner les mesures à analyser. La sélection de la période d’analyse (temps du rapport) est la première opération à effectuer. Elle permet de sélectionner le cube (DUC 1 ou DUC 2) à utiliser. Une fois cette opération réalisée, les dimensions et les mesures contenues dans le cube sont activées, c’est-à-dire que l’arbre correspondant à la dimension ou aux mesures s’affiche dans la fenêtre prévue à cet effet et l’utilisateur peut alors effectuer des sélections.
Les dimensions sont regroupées en quatre onglets :
- L’onglet Personnes contenant les dimensions « victime », « auteur présumé », « relation avec auteur présumé » et « nature des blessures ».
- L’onglet Infraction contenant les dimensions « infractions », « lieu », « arme la plus dangereuse » et « état du classement ».
- L’onglet Temps contenant les dimensions « temps début affaire » et « temps fin affaire ».
- L’onglet Territoire contenant les dimensions « découpage territorial » et « type de corps policier ».
Dans cet onglet, au-dessus de la fenêtre permettant de sélectionner les mesures d’intérêt, un bouton
permet de créer de nouvelles mesures calculées.
- L’onglet Géographie permettant de sélectionner, parmi la liste des couches disponibles, les couches à afficher en arrière-plan. Ces couches peuvent servir de support visuel aux données résultant des analyses et peuvent aussi servir à la localisation détaillée de ces données. De plus, les couches affichées en arrière-plan peuvent contribuer à une meilleure compréhension de certains phénomènes mis en relief par les analyses.
Les couches disponibles pour affichage comprennent les fonds de carte fournis par Softmap ainsi que les
couches suivantes :
- Emplacement des bars
- Centroïdes de municipalités
- Corps de police (couverture polygonale)
- Emplacement des postes de police
- Établissements d’enseignement
- Régions administratives
- MRC
- Municipalités
- Unités de recensement (RMR et AR)
- Zones urbaines
Certaines de ces données sont actuellement disponibles au MSP :
- Les couches d’emplacement des bars et d’emplacement des postes de police sont disponibles à l’intérieur du prototype SoftMap que possède le MSP. Cependant, des données supplémentaires à jour seront à acquérir pour couvrir l’étendue temporelle du système.
- La couche des corps de police doit être construite à l’aide des données de desserte pour chacune des années couvertes par les données, ainsi qu’à l’aide de la couches des municipalités.
- La couche des unités de recensement doit être construite à l’aide des données sur les régions métropolitaines de recensement et sur les agglomérations de recensement (disponibles à l’Institut de la statistique du Québec) et de la couche de municipalités.
- La couche des centroïdes de municipalités est construite géométriquement à l’aide de la couche des municipalités.
- La couche des établissements d’enseignement doit provenir de la base nationale de données topographiques (BNDT) disponible auprès du Centre d’information topographique de Sherbrooke, de Géomatique Canada (BNDT 1:50000, entité bâtiment).
- Les couches des régions administratives, MRC et municipalités sont actuellement disponibles au MSP. Cependant, des données supplémentaires à jour seront à acquérir pour couvrir l’étendue temporelle du système.
- La couche des zones urbaines est à construire à partir des données tirées de la Base de données topographiques administratives (BDTA) ou de la Base de données géométriques et administratives (BDGA) que possède le MSP.
Zone d’affichage
Cette zone permet d’afficher une ou plusieurs représentations simultanées des résultats des analyses. Elle
sert aussi à afficher des indicateurs d'évolution de la criminalité sous forme de seuils et d’alertes, à
l’ouverture de l’application. Ces indicateurs visent à permettre à l’utilisateur d’avoir un aperçu rapide des
changements majeurs présents dans les données de l’année courante par rapport aux données de l’année
précédente, par exemple un taux de criminalité qui aurait augmenté ou diminué de façon significative pour
une certaine catégorie d’infractions. Des avertissements sur la qualité ou la fiabilité des données doivent
aussi s’afficher lorsque la situation le requiert. Ces avertissements doivent être tirés des limitations
d’analyse mentionnées dans les documents produits par le MSP. Ils doivent aussi porter sur le fait qu’une
donnée est obligatoire ou facultative car les résultats des analyses, dans le cas des données facultatives,
peuvent être non significatifs. Lorsqu’une donnée est facultative, le système doit indiquer le pourcentage
des dossiers dans lesquels cette donnée est présente.
Détermination des modes de représentation graphique et de la sémiologie
graphique
Toujours par le biais de discussions avec les intervenants de la DAPPC et selon les différentes expériences
effectuées, les modes de représentation graphique désirables pour chacun des types de données inclus dans
le prototype ont été déterminés. De même, la sémiologie appropriée a été définie.
Représentations graphiques
Les modes de représentation graphique utilisés sont les suivants :
- carte
- tableau
- histogramme
- histogramme horizontal
- diagramme circulaire
- diagramme à lignes brisées
L’utilisateur peut visualiser les données à l’aide de plusieurs modes de représentation graphique à la fois en
ouvrant des représentations supplémentaires via le menu Affichage.
La carte est le mode de représentation graphique par défaut lorsque les données du DUC 2 sont utilisées,
c’est-à-dire à l’ouverture du cube de données DUC 2. Le diagramme à lignes brisées est le mode de
représentation graphique par défaut lorsque les données du DUC 1 sont utilisées, c’est-à-dire à l’ouverture
du cube de données DUC 1. L’utilisateur peut changer de mode de représentation en tout temps en utilisant
le bouton approprié de l’interface.
Le taux de criminalité est la mesure visualisée par défaut à l’ouverture d’un cube, à moins qu’un cube n’ait
été ouvert à priori et que la mesure active de ce cube ne soit présente dans le nouveau cube ouvert. Il est à
noter que les mesures calculées ajoutées à un cube sont perdues à l’ouverture d’un autre cube car elles ne
sont pas emmagasinées dans le cube. Rappelons que l’ouverture d’un cube (DUC 1 ou DUC 2) est
effectuée lorsque l’utilisateur sélectionne sa période d’analyse dans la dimension « temps du rapport ».
Les règles de base qui régissent la création des représentations sont les suivantes :
- Pour l’affichage cartographique, les différents taux sont affichés en carte choroplète (polygones
colorés) par défaut et les différents nombres sont affichés sous la forme d’un nombre encadré par
défaut lorsqu’un seul membre de chacune des dimensions est sélectionné.
- Pour l’affichage cartographique, lorsque plusieurs membres d’une ou plusieurs dimensions sont
sélectionnés, l’affichage des mesures peut prendre différentes formes :
- L’utilisation de plusieurs cartes, par exemple une carte pour l’année 1998 et une
carte pour l’année 1999.
- L’utilisation de différentes variables visuelles, par exemple la couleur pour l’année
1998 et la texture pour l’année 1999.
- L’utilisation de diagrammes superposés aux éléments de la carte, par exemple un
histogramme contenant un bâtonnet pour l’année 1998 et un bâtonnet pour l’année
1999, superposés à chacun des polygones d’une carte des régions administratives.
- D’autres formes sont possibles. Dans le prototype, la première forme décrite ici a été
utilisée.
- Pour l’affichage cartographique, un cadrage automatique est effectué afin de mettre en évidence le
secteur analysé.
- Pour les graphiques à axes, la valeur des mesures représentées est placée sur l’axe vertical. La
valeur des membres des dimensions sélectionnés est placée sur l’axe horizontal. Plusieurs
mesures peuvent être représentées en utilisant ces graphiques.
- Pour les tableaux, les mesures sont placées en colonnes, tandis que les membres de dimensions
sont placés en rangées.
- Pour les diagrammes circulaires, la largeur d’un secteur circulaire est déterminée par la valeur
d’une mesure. Un secteur est présent pour chacune des combinaisons de membres de dimensions
à analyser. Il est possible d’afficher plusieurs mesures à l’intérieur de ce type de diagramme en
utilisant les différentes variables visuelles. Par exemple, une mesure pourrait servir à définir la
largeur des secteurs tandis qu’une autre pourrait servir à colorer les secteurs.
- Lorsqu’un histogramme est utilisé pour représenter les données de différentes unités
géographiques, un bâtonnet supplémentaire est utilisé pour représenter les données de l’entité
géographique parent. Par exemple, un diagramme montrant le taux de victimisation pour chacune
des régions présentera un bâtonnet pour le taux de victimisation de la province. L’affichage d’un
histogramme horizontal permet de faciliter la lecture des étiquettes.
- La classification des données utilisées pour les représentations utilise des classes d’intervalle fixe
par défaut. Le nombre de classes et leurs bornes sont modifiables en tout temps.
- Le nombre de classes par défaut varie avec le niveau géographique représenté. Une classe est
créée pour les taux qui égalent zéro pour bien les distinguer des autres taux.
- Le nombre de mesures représentées dépend du type de représentation utilisé afin de faciliter
l’interprétation des résultats.
Sémiologie graphique
La principale variable visuelle utilisée est la couleur. Par défaut, la classe contenant le taux provincial est
représentée en jaune. Les classes supérieures sont représentées dans les tons de rouge. Les classes
inférieures sont représentées dans les tons de vert. Les variables visuelles utilisées sont modifiables en tout
temps.
Il est possible et souhaitable de synchroniser la sémiologie utilisée d’une représentation à l’autre.
Réalisation du prototype
Les outils utilisés pour la réalisation du prototype sont :
- Microsoft SQL Server et Analysis Services
- SoftMap
- Microsoft Visual Basic
- Microsoft PowerPoint
- Paint Shop Pro
Les données servant aux analyses ont d’abord été emmagasinées dans SQL Server, selon les modèles en
étoile de l’annexe 4. Par la suite, dans Analysis Services, les dimensions ont été définies à l’aide du
modèle multidimensionnel de l’annexe 4 et des données emmagasinées dans SQL Server. Une fois toutes
les dimensions définies, des essais de cubes ont été réalisés. Les bases de données implantées (dans SQL
Server et Analysis Services) sont disponibles sur le CD fourni.
L’interface graphique a été réalisée à l’aide du langage de programmation Visual Basic. Cette interface
utilise les contrôles du logiciel de visualisation cartographique Softmap. Ce logiciel a servi à produire les
affichages cartographiques. Les affichages descriptifs (tableaux et diagrammes statistiques) ont été réalisés
à l'aide de Microsoft Excel (diagrammes statistiques) et de Microsoft Word (tableaux).
Les analyses à présenter dans le prototype ont été décomposées en sous-questions. Chacune de ces sous-
questions a été décomposée en étapes. Pour chacune de ces étapes, les représentations ont été produites.
Le montage final a été effectué à l’intérieur du logiciel Microsoft PowerPoint. Le logiciel Paint Shop Pro a
été utilisé pour la manipulation des images, par exemple les cartes, à intégrer dans l’interface. Des zones
de texte et des simulations de pointeurs ont été ajoutées pour former un tutoriel. La figure 2 présente une
image extraite du prototype.
Figure 2. Image tirée du prototype, présentant une carte du taux de victimisation par agression sexuelle, pour les jeunes, en 1999.
Des acétates textuels ont été ajoutés au début et à la fin afin de discuter certains points théoriques.
Le prototype contient les deux analyses types définies. Il est disponible sur le CD fourni.
Discussion de problématiques de développement du système fonctionnel
L’inventaire des données, l’analyse préliminaire et la réalisation du prototype ont permis de cerner
certaines problématiques qui se présenteront lors du développement du système fonctionnel. Ces
problématiques sont discutées ici.
Combinaisons de dimensions
Le nombre élevé de dimensions et le besoin d’ajouter des contraintes de navigation ont amené la
combinaison de certaines dimensions élémentaires. Ces combinaisons impliquent l’ajout de membres
permettant de ne sélectionner aucun membre particulier d’une dimension ayant été combinée. Par exemple,
pour la dimension des infractions, il est nécessaire d’ajouter un membre toutes infractions, afin de
sélectionner des données de modus operandi seulement. De plus, afin de lier les données de ces nouvelles
dimensions aux données provenant des bases de données DUC 1 et DUC 2, la création de nouveaux
identifiants, représentant la combinaison entre les identifiants originaux des dimensions élémentaires
combinées, est nécessaire.
Gestion des données temporelles
Plusieurs des données nécessaires au prototype et au futur système à développer varient en fonction du
temps. En effet, les unités de découpage territorial voient leur géométrie varier en fonction du temps. De
même, les corps policiers ont une desserte qui varie d’année en année et certains corps policiers en viennent
à disparaître complètement. Les données de population fluctuent aussi, de même que certaines
classifications de données, par exemple pour les infractions. Pour gérer efficacement cette existence et/ou
cette évolution, il est nécessaire d’utiliser une base de données temporelle. Par exemple, pour gérer
l’existence d’une entité, une date de début et une date de fin sont ajoutées dans la base de données. Pour
gérer l’évolution, une date est associée à chacun des changements d’état d’une entité. Cette gestion
temporelle nécessite la définition d’une résolution temporelle, c’est-à-dire la définition de la plus petite
unité de temps gérée par le système. Dans notre cas, pour les corps de police, la résolution temporelle
pourrait par exemple correspondre à l’année. Cette gestion temporelle doit s’appliquer autant aux données
descriptives qu’aux données géométriques et les requêtes faites aux bases de données lors de l’utilisation du
système doivent tenir compte de cette temporalité et l’utiliser afin de retrouver la donnée appropriée pour
une période donnée, quelle que soit l’architecture d’implantation choisie. Cette gestion temporelle
implique qu’une requête pour année quelconque est affichée sur un découpage correspondant à cette année
seulement. Pour l’instant, aucune fonction n’est prévue pour faire des correspondances entre des
découpages différents (par exemple des fonctions d’interpolation spatiale).
Validation des données
Comme les données proviennent de plusieurs sources, il est nécessaire de prévoir une étape de vérification
de la consistance des données et une étape de nettoyage afin de corriger ces inconsistances. Lors des
manipulations effectuées en vue du développement du prototype, par exemple, plusieurs inconsistances ont
été découvertes concernant le code géographique des municipalités.
CONCLUSION
Ce document a présenté les étapes de réalisation de la phase 1 du projet « Définition des besoins pour une
application d’analyse décisionnelle de type SOLAP pour la criminalité ». Cette phase consistait en la
réalisation d’un prototype visant à cerner les besoins des utilisateurs du futur système qui sera
potentiellement développé à la phase 2 du projet.
Certaines fonctions qui ne sont pas démontrées dans le prototype devront être incluses dans la première
version du système fonctionnel :
- Ajout des informations sur les subventions pour la prévention de la criminalité.
- Dans la dimension de découpage territorial, ajouter un chemin de forage alternatif permettant de
regrouper les municipalités selon les tables de concertation.
- Permettre de sauvegarder l’environnement de travail pour un utilisateur particulier. Cette
sauvegarde inclurait la sauvegarde des formules utilisées pour la construction des mesures
calculées.
- Sauvegarder la trace de toutes les manipulations effectuées sur les données dans un fichier
consultable à tout moment.
- Synchroniser la sémiologie des affichages simultanés.
- Comme fond de carte, utiliser une carte des régions administratives, avec comme étiquettes le nom
des capitales régionales.
- Ajouter une barre de titre à la fenêtre des représentations (même lorsqu’une seule représentation
est affichée), contenant le titre de la représentation.
- Pour les diagrammes statistiques, afficher la légende dans une fenêtre séparée, comme pour les
cartes.
Annexe 1
Plan de travail pour la phase 1 du projet
Définition des besoins pour une application d’analyse décisionnelle de type SOLAP pour la criminalité
Liste des tâches
Tâche Responsables Échéancier Date des rencontres
1. Définition de la portée du prototype
Marie-Josée Proulx Sonia Rivest
29 juin 2001
2. Définition d’analyses types (éventail d’analyses souhaitables) à intégrer au prototype
Marie-Josée Proulx Sonia Rivest
29 juin 2001
3. Inventaire des données (descriptives, temporelles et géométriques) nécessaires à la réalisation des analyses
Marie-Josée Proulx Sonia Rivest Louis-Étienne Guimond
29 juin 2001
4. Modélisation multidimensionnelle (avec dictionnaire) des données nécessaires aux analyses définies en 2 :
- définition des dimensions - définition des indicateurs et
des mesures - définition des cubes
Marie-Josée Proulx Sonia Rivest
6 juillet 2001
5. Élaboration de l’interface et des fonctions du prototype :
- interface générale - volet cartographique - volet descriptif - fonctions OLAP descriptives
et spatiales - fonctions de navigation
cartographique (pan, zoom, etc.)
- fonctions d’analyse spatiale - autres fonctions (ex. obtenir
de l’information descriptive sur les données, multifenêtrage, affichage en arrière-plan, etc.)
Marie-Josée Proulx Sonia Rivest Martin Nadeau Louis-Étienne Guimond
27 juillet 2001
6. Déterminer les modes de représentation cartographiques et descriptifs (diagrammes statistiques) et la sémiologie appropriés pour représenter les analyses
Marie-Josée Proulx Sonia Rivest Martin Nadeau Louis-Étienne Guimond
24 août 2001
7. Production des analyses types et montage du prototype
Martin Nadeau Louis-Étienne Guimond
28 septembre 2001
8. Préparation du rapport final Marie-Josée Proulx Sonia Rivest
28 septembre 2001
Annexe 2
Définition de la portée du prototype
Définition des besoins pour une application d’analyse décisionnelle de type SOLAP pour la criminalité
Définition de la portée du prototype
Contexte La Direction des affaires policières et de la prévention de la criminalité (DAPPC) effectue régulièrement des analyses statistiques sur les données de criminalité au Québec et publie annuellement des analyses. Présentement, ces analyses statistiques sont effectuées à partir des données recueillies par le programme DUC (Déclaration uniforme de criminalité), version agrégée (données mensuelles DUC 1 et version basée sur l’événement DUC 2) et sont présentées principalement sous forme de tableaux. Aucune représentation cartographique des résultats n’est produite. Lorsque des formes de représentation sont produites, elles demeurent statiques et ne permettent pas de manipuler l’information selon les besoins immédiats. Une nouvelle méthode d’analyse est donc nécessaire afin de permettre des analyses dynamiques adaptées aux besoins et aussi afin de pouvoir tirer parti de la richesse d’information, particulièrement l’information spatio-temporelle, contenue dans les bases de données (surtout du DUC 2). L’approche SOLAP est proposée. Cette approche combine les avantages de l’analyse multidimensionnelle interactive (OLAP) aux possibilités de visualisation et de manipulation de la composante spatiale des données cartographiques. L’approche SOLAP est bien adaptée aux analyses spatio-temporelles (impliquant l’espace et le temps). Elle permettra de rendre l’information sur la criminalité facilement et rapidement disponible à plusieurs usagers sans que ces derniers aient besoin de connaissances spécifiques en informatique. La première étape du développement du système SOLAP consiste en la réalisation d’un prototype, ici sous forme de maquette. But du prototype Le prototype développé dans le cadre de ce projet vise d’abord à faciliter la formulation des besoins spécifiques d’analyse décisionnelle du côté des futurs utilisateurs et à mieux comprendre ces besoins du côté des concepteurs. Ce processus a pour objectif de faciliter et d’accélérer l’analyse et la conception du système fonctionnel qui sera développé lors d’étapes subséquentes du projet. Le prototype facilitera aussi l’identification d’aspects plus critiques du futur système en faisant ressortir des problèmes et interrogations potentiels, entre autres au niveau de l’intégration, descriptive et spatiale, de données de différentes époques (et potentiellement de différents programmes de déclaration). Cela permettra de formuler des recommandations, des règles de fonctionnement et des orientations à tenir en compte lors de la conception du futur système et permettra aussi d’évaluer de façon plus précise les efforts de développement.
Le prototype permettra aussi de démontrer aux futurs utilisateurs et aux gestionnaires les avantages d’utilisation de cette méthode d’analyse qu’est le SOLAP par rapport aux méthodes actuellement en vigueur à la DAPPC. Portée du prototype Le prototype présentera une simulation de fonctionnement de système OLAP spatial pour un certain nombre d’analyses types. Parmi les données du programme DUC1 et DUC 2 qui seront complètement intégrées au système fonctionnel, un échantillon représentatif, couvrant les régions administratives de Montréal et de Québec pour les années 1990 à 1999, seront intégrées au prototype. Le prototype présentera une interface à l’utilisateur, des fonctions, des modes de représentation et une sémiologie graphique particulière. Le tout aura été élaboré conjointement par les utilisateurs et les concepteurs et reflétera l’interface, les fonctions, les modes de représentation et la sémiologie graphique du futur système. Les éléments du prototype (éléments d’interface, fonctions, modes de représentation et sémiologie graphique) seront expliqués en détails à l’intérieur du prototype même, le tout formant un tutoriel. Un volet éducatif comprendra une explication du contexte SOLAP et une vulgarisation du travail fait lors du développement du prototype. Limites Le prototype est une simulation de système seulement. Le prototype sera limité aux données nécessaires à la réalisation des analyses types ciblées.
Annexe 3
Définition d’analyses types et besoins en données
Définition des besoins pour une application d’analyse décisionnelle de type SOLAP pour la criminalité
Analyses sélectionnées pour être présentées dans le prototype
Analyse 1 : agressions sexuelles et jeunes En 1999, quel est le taux de victimisation relatif aux agressions sexuelles (code 1310+1320+1330+1340) pour les moins de 18 ans au Québec? Sur quels territoires retrouve-t-on les taux les plus élevés? Les plus faibles? Et, selon le sexe? Comment ces taux se comparent-t-il avec ceux de l’année précédente? En 1999, sur quels territoires retrouve-t-on les taux de victimisation relatifs aux agressions sexuelles des femmes les plus élevés par rapport à ceux des hommes pour les moins de 18 ans? À l'inverse, où retrouve-t-on les taux de victimisation relatifs aux agressions sexuelles des hommes les plus élevés par rapport à ceux des femmes? Sur quels territoires retrouve-t-on les plus fortes proportions de victimes de moins de 18 ans dont l'auteur présumé est un membre de la famille? De plus, sur quels territoires retrouve-t-on les plus fortes proportions de victimes agressées de 15 à 17 ans agressées par un auteur présumé ayant sensiblement le même âge qu'elles (+ ou - 3 ans)? Au Québec, en 1999, quelles ont été les différences entre les agressions sexuelles commises dans des endroits publics versus les endroits privés (relation avec l’auteur présumé, nature des blessures, arme utilisée, consommation)? Analyse 2 : drogues et stupéfiants et jeunes En 1999, la répartition entre les jeunes et les adultes auteurs présumés diffère-t-elle en fonction du type de drogue (cannabis, cocaïne, héroïne, …) ou du type d’infraction (possession, culture, importation, …)? En 1999, quel est le nombre d’infractions et le taux de criminalité relatifs aux drogues et aux stupéfiants, pour les différentes municipalités? Est-ce que la répartition des municipalités affichant un taux élevé montre un patron spatial particulier? Est-ce que le taux de criminalité est plus élevé pour les municipalités les plus populeuses? Pour l’ensemble des municipalités, quel est le pourcentage d'augmentation du taux de criminalité relatif aux drogues et aux stupéfiants entre 1990 et 1999? Entre 1995 et 1999? En 1999, pour les jeunes, quel est le taux de perpétration relatif aux drogues et stupéfiants? Quel est le taux pour chaque groupe d’âge? Pour chaque sexe pour ces groupes d’âge?
Annexe 4
Modèle multidimensionnel
Annexe 5
Compte-rendu des rencontres