hisstat realisaties en mogelijkhedende wet van benford: –onderzochte lokstat- datasets...
TRANSCRIPT
Workshop 20 juni 2012 1
HISSTAT
Voorstelling
Kritische analyse bronnen
Brussel, FOD Economie, 20 juni 2012
Workshop 20 juni 2012 2
Inhoud
1. Voorstelling van HISSTAT
2. Toepassing: kritische analyse van de volkstellingen (1800-1970)
3. Demonstratie van de website “Census 1900”
Workshop 20 juni 2012 3
1. Voorstelling van HISSTAT
Workshop 20 juni 2012 4
1. HISSTAT - voorstelling
• Beschrijving – Infrastructuur voor historische statistieken
• Databanken voor de opslag en het beheer van primaire, originele data
• Instrumenten voor de analyse van de gegevens (o.a. GIS)
• Metadatabank en bronnenkritiek
– Scope:
• Volledige Belgische grondgebied
– op microniveau (gemeenten of lager)
• Periode 1800-1970
Workshop 20 juni 2012 5
1 HISSTAT - voorstelling
• Doelstellingen – Bewaring van het statistisch erfgoed
– Wetenschappelijk potentieel van oude bronnen valoriseren
• Door data exploiteerbaar te maken
• Gebruik van moderne technieken mogelijk maken
• Potentieel wordt nog onvoldoende benut
– Stimuleren van interdisciplinaire samenwerking
– Brug slaan tussen micro-onderzoek en onderzoek op nationaal en internationaal niveau
– Coördinatie van expertise in België
Workshop 20 juni 2012 6
1. HISSTAT - voorstelling
• Verschillende aanpak door toestand bronnenmateriaal – 1801-1970 alleen geaggregeerde data
• op het niveau van de gemeenten (ca. 2500)
• alleen beschikbaar op papier (bibliotheken, archieven)
• digitalisering en ontsluiting door de UGent, Lokstat
– Vanaf 1961 data beschikbaar op individueel niveau
• in machine-leesbare vorm
• afkomstig van overheidsinstellingen
• ontsluiting door de VUB, Interface Demography
Workshop 20 juni 2012 7
Data available at local level (municipalities)
Data available at individual level
HISSTAT: Research Infrastructure for Historical Statistics based on Microdata in Belgium
Databases
Population statistics
1970 - 2001
VUB
Digital datasets from the Belgian gov.
Institutions (Censuses ADSEI,...)
GIS
(TRANSCENS)
1961- 2001
VUB
LOKSTAT: database of local statistics
1800 - 1970
UGent
Data from non digital sources:
Books, archives
Quantitative Database of the
Belgian Municipalities
Digital collections from external
depositors
GIS
(HISGIS )
1800-1961
UGent
Database
Tool
Raw Data source
1. HISSTAT - voorstelling
Workshop 20 juni 2012 8
1. HISSTAT - voorstelling
• LOKSTAT – Selectiecriteria van de microstatistieken
• Graad van detail
– moet volledig Belgische grondgebied beslaan
– moet teruggaan tot op het niveau van de gemeenten
• Relevantie en bruikbaarheid van de variabelen
• Beschikbaarheid van de bronnen
• Mogelijkheid tot vergelijking in de tijd
– Voornamelijk klassieke tellingen van de bevolking, landbouw, handel en nijverheid
– Occasionale statistieken (stemrecht, kadaster)
Workshop 20 juni 2012 9
1. HISSTAT - voorstelling
• LOKSTAT/HISSTAT – Project gefinancierd door de Herculesstichting
– Duur 2009-2013
– Toegang tot de data
• data komen vrij op het einde van het project
• staan ter beschikking van het wetenschappelijk onderzoek
– met inachtneming van de privacywetgeving
– via website Census 1900 (www.lokstat.ugent.be)
– op eenvoudige aanvraag bij ploegen VUB en UGent
Workshop 20 juni 2012 10
2. Voorbeeldtoepassing
Kritische analyse van de volkstellingen in België
1800-1970
Workshop 20 juni 2012 11
2. Kritiek volkstellingen 1800 - 1970
• Kritische evaluatie van Lokstat-data – Vraag naar de kwaliteit van oude statistieken
Tellingen zijn vatbaar voor vertekening en fouten
Relatief weinig bekend over de betrouwbaarheid, door
→ onvoldoende data in digitale vorm
→ gebrek aan evaluatietechnieken
– Kritische doorlichting met de volkstellingen 1800- 1970
1. Principes van de Wet van Benford
2. Analyse van de officiële uitslagen
Workshop 20 juni 2012 12
2. Kritiek volkstellingen 1800 - 1970
• De Wet van Benford – Artikel “The Law of Anomalous Numbers” (New York, 1938)
– Principe: frequentie van de begincijfers van getallen uit bepaalde datasets beantwoordt aan vaste verhoudingen • geen uniforme verdeling zoals intuïtief wordt aangevoeld
– Vast percentage begincijfers • 1 → 30,1 %
• 2 → 17,6 %
• 3 → 12,5 %
• 4 → 9,7 %
• 5 → 7,9 %
• 6 → 6,7 %
• 7 → 5,8 %
• 8 → 5,1 %
• 9 → 4,5 %
Totaal 100 %
Workshop 20 juni 2012 13
Workshop 20 juni 2012 14
2. Kritiek volkstellingen 1800 - 1970
• De Wet van Benford – Empirisch aangetoond in zeer uiteenlopende domeinen
– Wiskundige verklaring volgt pas laat (Hill 1996 )
– Datasets onderhevig aan de wet:
• op basis van waarnemingen
• geen onder- of bovengrens
• niet ontsproten aan de menselijke brein of random gekozen
– geen telefoonnumers, lotto-uitslagen; …
• Voldoende aantal waarnemingen
– bij voorkeur minstens 10.000
Workshop 20 juni 2012 15
2. Kritiek volkstellingen 1800 - 1970
Sambridge e.a. 2010
Workshop 20 juni 2012 16
2. Kritiek volkstellingen 1800 - 1970
• De Wet van Benford: praktische toepassingen – Opsporing bias in datasets
– Fraudebestrijding
• Boekhouding, financiële audits
• Macro-economische statistieken (bv. begrotingscijfers Eurozone)
• Verkiezingsuitslagen (Iran)
• Officiële statistieken van broekasgasemissies
– Vnl. toepassingen in V.S.
• Minder in Europa, weinig in België
– Toepasbaar op bevolkingsstatistieken (Benford 1938, Sakai 1991)
Workshop 20 juni 2012 17
2. Kritiek volkstellingen 1800 - 1970
• De Wet van Benford: – Onderzochte LOKSTAT- datasets
• Volkstellingen:
– Bevolking naar burgerlijke staat en geslacht, 1801-1970
(N = 185.000)
• Bevolkingsverloop:
– Geboorten, sterfte, in- en uitwijking per geslacht en per jaar, 1841-1976
(N = 2.500.000)
– Artikel
• “De macht van het getal: een kritische analyse van de bevolkingsstatistieken in België (1801-1970)” In: Belgisch Tijdschrift voor Nieuwste Geschiedenis (31 blz., ingestuurd mei 2012)
Workshop 20 juni 2012 18 0%
5%
10%
15%
20%
25%
30%
35%
1 2 3 4 5 6 7 8 9
Volkstellingen
Mouvement
Wet van Benford
% Aandeel van de eerste cijfers
Bevolkingsstatistieken van de Belgische gemeenten, 1800-1975 Bevolking naar geslacht en burgerlijke staat (tellingen); Geboorten, sterften, migratie (Mouvement)
2. Kritiek volkstellingen 1800 - 1970
Workshop 20 juni 2012 19
2. Kritiek volkstellingen 1800 - 1970
0
1
2
3
4
5
6
7
8
9
10
0
10
20
30
40
50
60
70
80
90
100
1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970
MAD χ²
χ² MAD
Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
Workshop 20 juni 2012 20
2. Kritiek volkstellingen 1800 - 1970
• De Wet van Benford: – Criteria van conformiteit (first digit, Drake & Nigrini 2000)
• Gemiddelde Absolute Afwijking
– 0 – 4 : grote gelijkenis met het patroon van Benford
» Verschillen toe te schrijven aan toeval
» Tellingen 1800 - 1818
– 4 – 8: duidelijke afwijkingen, maar acceptabel
» Tellingen 1830-1846, 1890-1971
– 8 en meer: aanzienlijke afwijking
» Tellingen 1856 - 1880
Workshop 20 juni 2012 21
2. Kritiek volkstellingen 1800 - 1970
0
1
2
3
4
5
6
7
8
9
10
0
10
20
30
40
50
60
70
80
90
100
1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970
MAD χ²
χ² MAD
3
Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
1
2
Workshop 20 juni 2012 22
2. Kritiek volkstellingen 1800 - 1970
Standaard telformulieren
-1818
1830-
Workshop 20 juni 2012 23
2. Kritiek volkstellingen 1800 - 1970
Standaard telformulieren
1818
1830
Workshop 20 juni 2012 24
2. Kritiek volkstellingen 1800 - 1970
0
1
2
3
4
5
6
7
8
9
10
0
10
20
30
40
50
60
70
80
90
100
1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970
MAD χ²
χ² MAD
Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
2
Workshop 20 juni 2012 25
2. Kritiek volkstellingen 1800 - 1970
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
1846 1856 1866 1880 1890 1900 1910 1920 1930 1947 1961
Fr.
Kostprijs van de volkstellingen (Fr. per inwoner – geïndexeerd, basis 1914)
Workshop 20 juni 2012 26
2. Voorbeeldtoepassing
0
1
2
3
4
5
6
7
8
9
10
0
10
20
30
40
50
60
70
80
90
100
1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970
MAD χ²
χ² MAD
3
Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
Workshop 20 juni 2012 27
2. Kritiek volkstellingen 1800 - 1970
• Organisatie volkstellingen 1880 - 1890
Controle van de gemeentelijke telformulieren – 1880: geringe controle
– beperkte controlemechanismen
– 1890: oprichting van een telbureau in de schoot van Binnenlandse Zaken • 37 000 tabellen nagekeken
– 4 829 tabellen voor rectificatie teruggestuurd naar gemeenten – 3 970 aanmaningen en rappels gestuurd naar gemeenten
Verschillen
Significant Niet-significant
Scope X
Richtlijnen X
Uitvoering X
Resultaten X
Controle X
Workshop 20 juni 2012 28
2. Kritiek volkstellingen 1800 - 1970
0
1
2
3
4
5
6
7
8
9
10
0
10
20
30
40
50
60
70
80
90
100
1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970
MAD χ²
χ² MAD
Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)
Workshop 20 juni 2012 29
2. Kritiek volkstellingen 1800 - 1970
• Volkstellingen 1801-1818 – Geen afwijking met de verdeling volgens Benford
• Datasets die de verdeling volgen zijn niet noodzakelijk betrouwbaar
– Alleen systematische cijfervertekening is detecteerbaar
• Redenen voor grote conformiteit met de verdeling van Benford
– Afwezigheid van centrale instantie die teluitkomsten kon bijwerken
– Telformulieren waren niet complex
Workshop 20 juni 2012 30
2. Kritiek volkstellingen 1800 - 1970
• Conclusie – De Wet van Benford biedt een bruikbaar referentiekader om datasets
kritisch te wegen
• bepaalde vormen van systematische afwijkingen detecteerbaar
• Voorzichtigheid is geboden bij de interpretatie van de resultaten
– De toepassingsvoorwaarden van de wetmatigheid zijn niet altijd duidelijk
– Artikel
• “De macht van het getal: een kritische analyse van de bevolkingsstatistieken in België (1801-1970)” In: Belgisch Tijdschrift voor Nieuwste Geschiedenis (31 blz., ingestuurd mei 2012)
Workshop 20 juni 2012 31
2. Kritiek statistieken bevolkingsverloop 1841-1976
0
20
40
60
80
100
120
140
160 χ²
Trend
Aantal geboorten geregistreerd per jaar en per geslacht in de Belgische gemeenten,
1841-1976 (uitgezonderd 1851-1879)
Conformiteit met de frequentieverdeling van Benford (eerste cijfer)
Workshop 20 juni 2012 32
2. Kritiek statistieken bevolkingsverloop 1841-1976
0
20
40
60
80
100
120
140
160
Trend
Aantal sterften geregistreerd per jaar en per geslacht in de Belgische gemeenten,
1841-1976 (uitgezonderd 1851-1879)
Conformiteit met de frequentieverdeling van Benford (eerste cijfer)
χ²
Workshop 20 juni 2012 33
3. Voorstelling van de website
“Census 1900”
Workshop 20 juni 2012 34
3. Voorstelling website
• Website Census 1900 – www.lokstat.ugent.be
– Ontwikkeld in samenwerking van Vakgroep Geografie UGent
– Bronnen: • Landbouwtelling 1895
• Nijverheidstelling 1896
• Volkstelling 1900
– Structuur: • Toelichting bronnen
• Tabellen
• Kaarten
– Technische achtergrond: • HTML
• PHP
• MySQL