mnohorozmĚrnÉ statistickÉ metody a analÝza nepojiŠtĚnÝch Škod a vozidel
DESCRIPTION
MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL. Petr Jedlička. Obsah prezentace. Úvod do problematiky nepojištěných vozidel v ČR role ČKP, GF, zákony apod. Odhad počtu provozovaných nepojištěných vozidel Charakteristiky nepojištěných škůdců - PowerPoint PPT PresentationTRANSCRIPT
1/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Petr Jedlička
MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL
2/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Obsah prezentace
• Úvod do problematiky nepojištěných vozidel v ČR • role ČKP, GF, zákony apod.
• Odhad počtu provozovaných nepojištěných vozidel
• Charakteristiky nepojištěných škůdců
• Mnohorozměrné statistické metody• Logistická regrese, diskriminační analýza,
• Shluková analýza
– Numerické ilustrace výsledků analýz ČKP
3/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Česká kancelář pojistitelů• Zřízena zákonem 168/1999 Sb.
• Hlavní úkoly ČKP– Spravuje Garanční fond (GF)– Informační středisko– Korespondenční dohody v systému zelené karty– Databáze pojistných smluv– Elektronické relace o dopravních nehodách– Databáze škod („Registr špatných řidičů“)
• Od roku 2007 ostrý pilotní provoz
• Více viz www.ckp.cz
4/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Vozidla bez sjednaného pojištění
• Nehody zaviněné nepojištěnými řidiči
– Vznik škody třetí osobě
• Odpovědnost nepojištěného škůdce
– Poškozenému škodu kompenzuje ČKP z GF– ČKP hradí veškeré škody nad 5 000 Kč
• Právo postihu
– Uplatňuje ČKP proti nepojištěnému škůdci
5/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Statistiky nepojištěných škod
• Významný meziroční nárůst
– Celkových závazků z nepojištěných škod– Objemu vyplaceného plnění– Počet evidovaných škod se stabilizuje
• Od roku 2004 ČKP tvoří technické rezervy
– Standardní pravidla jako pro pojišťovny– Do roku 2004 pouze v podrozvahové evidenci
• Problém odhadu velikosti „kmene“ nepojištěných
6/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Statistiky nepojištěných škod
Počet evidovaných ŠU 24/2b
0200400
600800
1 0001 200
1 4001 600
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
2000 2001 2002 2003 2004 2005 2006
čtvrtletí evidence
po
če
t Š
U
7/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Statistiky nepojištěných škod
Nárůst závazků GF 1 (rok 2000 = 100%)
0%
100%
200%
300%
400%
500%
600%
700%
800%
2000 2001 2002 2003 2004 2005 2006
rok vzniku ŠU
8/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Pojištěná vozidla – databáze ČKP
• Předávání dat pojistitelé vs. ČKP
– Cca. 5,7 mil. pojištěných vozidel k 31.12.2006
• Předávané údaje:
– Smlouva: pojistitel, počátek pojištění konec, pojistné…– Vozidlo
• SPZ, VIN, číslo TP
• Tarifní skupina, výkon, objem motoru, hmotnost, značka…
– Provozovatel, vlastník• Liší se např. u vozidel pořízených na leasing
9/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Počty pojištěných vozidel do 31.12.2006
Počet pojištěných vozidel
5 000 000
5 100 000
5 200 000
5 300 000
5 400 000
5 500 000
5 600 000
5 700 000
31.12.2004 30.6.2005 31.12.2005 30.6.2006 31.12.2006
10/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Pojištěná vozidla
ČP40%
Wuestenrot0% Allianz
10%
Triglav1%
Uniqa2%
ČSOB5%
Generali7%
Kooperativa24%
ČPP11%
Allianz
ČPP
ČP
ČSOB
Generali
Kooperativa
Triglav
Uniqa
Wuestenrot
11/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Vozidla evidovaná CRV
Počet provozovaných vozidel podle CRV
5 000 000
5 200 000
5 400 000
5 600 000
5 800 000
6 000 000
6 200 000
6 400 000
2002 2003 2004 2005 2006
12/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Nepojištěná vozidla
• Cíl: minimalizovat počet nepojištěných v ČR
• Detekce na základě srovnání dat CRV a ČKP
• Pravidla ztotožňování vozidel ČKP a CRV– Shoda alespoň ve 2 identifikátorech– SPZ, VIN, číslo TP
• V případě zániku pojištění a jeho neobnovení ve stanovené lhůtě:– ČKP informuje orgány místní samosprávy– Ty mohou uložit pokutu do výše 20 tis. Kč
13/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Nepojištěná vozidla – mezinárodní srovnání
Podíl nepojištěných vozidel
0%
5%
10%
15%
20%
25%
30%B
ulh
ars
ko
Ru
mu
ns
ko
Po
lsk
o
Ky
pr
Lo
tyš
sk
o
Ve
lká
Bri
tán
ie
Slo
ve
ns
ko
Es
ton
sk
o
Fra
nc
ie
Lit
va
Ma
ďa
rsk
o
Niz
oze
mí
Be
lgie
14/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Nepojištěná vozidla – mezinárodní srovnání
Podíl nepojištěných vozidel
0%
5%
10%
15%
20%
25%
30%B
ulh
ars
ko
Ru
mu
ns
ko
Lit
va
Po
lsk
o
Ma
ďa
rsk
o
Ky
pr
Lo
tyš
sk
o
Ve
lká
Bri
tán
ie
Slo
ve
ns
ko
Es
ton
sk
o
Fra
nc
ie
Niz
oze
mí
Be
lgie
15/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Odhad uvedený často v médiích
• Rozdíl počtu registrovaných a pojištěných vozidel
• Vychází 13% nepojištěných vozidel v ČR
• Nejedná se o adekvátní odhad– Data pojistitelů a CRV nejsou vždy konzistentní– Velké množství nepoužívaných vozidel v datech CRV
Registrovaná provozovaná vozidla = 6,35 mil.
Pojištěná vozidla = 5,5 mil. Nepojištěná = 850 tis.?
???
16/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Porovnání s počtem nepojištěných škod
• Nelze použít univerzálně
– Všechny nepojištěné škody nemusí být hlášeny – Problematický odhad škodní frekvence: o kolik je
nižší než u pojištěných vozidel?
Druh vozidla pojištěná registrovanápočet
nepojištěnýchpodíl %
odhad nepoj.voz
podíl nepoj.škod
podíl nepoj.voz
motocykly 539 188 817 470 278 282 34,0% 32 708 2,94% 5,72%osobní automobily 3 839 810 4 036 815 197 005 4,9% 147 616 1,89% 3,70%nákladní automobily 207 762 539 756 331 994 61,5% 3 279 0,78% 1,55%autobuy 16 553 20 357 3 804 18,7% 75 0,23% 0,45%tahače 765 859 795 988 30 129 3,8% 3 917 0,26% 0,51%traktory 262 693 143 727 0 0,0% 639 0,12% 0,24%ostatní vozidla 6 309 21 435 15 126 70,6% 154 1,21% 2,38%celkem 5 638 174 6 375 548 856 340 13,4% 185 089 1,61% 3,18%
počet vozidel odhad 1) odhad 2)
17/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Výsledné porovnání vozidel ČKP a CRVPojištěná vozidla = 5,5 mil.
Registrovaná provozovaná vozidla = 6,35 mil.
100 tis. ztotožněno s
neprovoz. nebo voz. v
převodu2%
5 mil.ztotožněno s provozovaným
registrovaným vozidlem91%
270 tis. podléhá evidenci
CRV, ale neztotožněno
5%
130 tis.poj. vozidla
nepodléhající registraci CRV
2 %
5 mil.ztotožněno s pojištěnými
vozidly79% 550 tis.
voz. v minulosti poj., bez platné pojistky9%
800 tis. vozidla nikdy nepojištěná
12%
270 tis.vozidla chybně
ztotožněná
260-440 tis. vozidla reálně
neprovozovaná
90-270 tis. skutečně
nikdy nepojištěná, provozovaná
90-110 tis. skutečně
nepojištěná provoz.
150-170 tis. vozidla reálně
neprovozovaná
290 tis.duplicity
???
• Odhadovaný počet nepojištěných provoz.vozidel 180 až 380 tis.
• Odpovídá podíl 3,2% až 6,4% všech provozovaných vozidel
18/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Přehled analýz fenoménu nepojištěných
• Rok 2004: nepojištěné škody
– Srovnání charakteristik s pojištěnými vozidly– Aktualizace v roce 2005
• Rok 2006: Analýza počtu skutečně provozovaných nepojištěných vozidel
– Výsledek v předchozím diagramu– Počet skutečně provozovaných nepojištěných vozidel
v rozmezí 180 až 380 tis.– Ztotožňování vozidel + statistické srovnání
19/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Mnohorozměrné statistické metody
• Aplikace při analýze nepojištěných škod
• Sledování rizikových znaků nepojištěných– Regionalita– Věk– Charakteristiky vozidla
• Použité metody– Logistická regrese– Diskriminační analýza– Shluková analýza
20/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Logistická regrese
• Speciální případ GLM (viz SAV LS 2005/2006)
• Binární vysvětlovaná proměnná – 1 = výskyt rizikového znaku (např. nepojištěný)– 0 = ostatní data
• Klasická regrese:
• Logistická regrese:
• Poměr šancí:
• Definice:
ppXXXYE ...110)|(
)1/(1)|( )( ...110 ppXXeXYE
))(1/()()( XYEXYEXodds
)()|1()( XYEXYPX
21/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Logistická regrese – odhady parametrů
• Klasická regrese
– odhad MNČ– V modelu odpovídá MLE odhadu – odhad nárůstu při jednotkové změně
• Logistická regrese
– Logitová funkce– Interpretace index nárůstu poměru šance při
jednotkové změně
YXXXb '1' )(
),0(~ 2 Ni
jb YjX
ppXXX
X
...110)(1
)(log
)exp( jjX
jppjj
ppjj
XX
XX
Xodds
Xodds
exp)exp(
))1(exp(
)(
)(
......0
......0
1
2
22/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Logistická regrese - ML odhady
• Odvození věrohodnostní funkce
• Logaritmická věrohodnostní funkce
• Soustava věrohodnostních rovnic
)1(
111 ))(1()(),...,( ii y
iy
i
n
inn xxyYyYP
)1(
1
))(1()()( ii yi
yi
n
i
xxl
))(1log()1())(log()(1
iiii
n
i
xyxyL
0))((1
iii
n
i
xyx speciálně 0)(1
ii
n
i
xy
23/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Logistická regrese – testování hypotéz
• Řešením soustavy získáme ML odhady
• Asymptotická normalita odhadu
• Fisherova informační matice
• Testování významnosti parametrů
Test poměrem věrohodnosti
b
))(,( 1.
~ JNbas
)(1)(()(
)( ,,1
2
xxxxL
EJ kiji
n
ijj
)1,0(~var
.
Nb as
j
jj
.)()(2 saturLbLD
21
. 0
~ zaHas
jj sDbezDG
24/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Logistická regrese – použití
• Ohodnocení
• Počet správně zatříděných dat
– Porovnání a – (čtyřpolní tabulka)
• Problém při rozdílné velikosti skupin 0 a 1
– Predikce téměř všech hodnot do početnější skupiny není užitečná
– Řešení: Určit váhy tak, aby # 0 a # 1 byl srovnatelný
pipi
ii xbxbbYS
,...1,10exp1
1
iS iYClassification of Cases (data - logistická regrese.sta)Odds ratio: 3,1546 Perc. correct: 65,66%Include condition: v4=1
ObservedPred.0,000000
Pred.1,000000
PercentCorrect
0,0000001,000000
8711267376,519683812369049,18688
25/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Logistická regrese - diagnostika
• Distribuční funkce hodnocení „dobrých klientů“
• Distribuční funkce hodnocení „špatných klientů“
• Kvalitní model: Velký rozdíl mezi
– Integrální kritérium– Supremální kritérium– Lorentzova křivka– Giniho koeficient
0|)( YaSPaF D
1|)( YaSPaF S
)(),( aFaF DS
daaFaFIK DS |)()(| |)()(|sup aFaFSK DS
a
)(|)(5,0|2 adFaFIK DS)(|)()(|2 adFaFaFGC SSD
26/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Logistická regrese – test dobré shody
• Hosmer – Lemeshow test– Zvolíme– Data rozdělíme do skupin– Hranice pro zatřídění do skupiny . Platí
– Na určené skupiny se aplikuje test dobré shody
– Lze definovat „Lift Chart“
KK
j
K
jFS
K
jF 11 1
K
jS
K
j
1
2
21
.2
1
0
~)(
)((
K
zaHas
iki
iikiK
k x
xyc
nebo
27/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Lift Chart• Srovnání distribuce dobrých a špatných klientů
• Křivka podílového kritéria
– pro
• STATISTICA definuje převrácenou hodnotou:
)(
)()(
aF
aFaLF
S
D
1)( aLF %100a
Lif t Chart - L if t valueCum ulative
Model Baseline10 20 30 40 50 60 70 80 90 100
Percentile
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
Lift
va
lue
28/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Výpočty odhadů parametrů
• Použit software STATISTICA – (GLZ, Non linear estimation)– Numerické metody na řešení soustavy věr. rovnic
• Quasi Newtonova metoda• Hooke-Jeeves• Simplex• Rosenbrock…
– Možno zvolit počáteční odhady, kritérium konvergence
– Čas výpočtu v řádu hodin pro desítky tisíc dat
29/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Diskriminační analýza
• Predikce zatřídění objektu do některé z předem daných skupin
– Neomezuje se pouze na binární klasifikaci
• Předpoklady
– Normalita vysvětlujících veličin– Apriorní pravděpodobnosti
• Výpočet diskriminačního skóru
kkpNkYX ,~|
1,...,1
1
k
K
kK
)log()()(5,0||log5,0)( 'kkkkkk xxxS
30/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Diskriminační analýza - odhady
• dáme do třídy s maximální hodnotou
• Standardní odhady parametrů na základě souboru dat
– Apriorní pravděpodobnosti
– Vektor středních hodnot
– Rozptylové matice
• Často se předpokládá lineární skór
Odhad
x )(xSk
N
kYYk
),(#
iki
k xkYY
),(#
1'
1),(#
1
iiiiki
k xxkYY
K...1'
1
1
kikiki
K
k
xxKN
31/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Diskriminační analýza - implementace
• Sw. STATISTICA zahrnuje moduly
– Klasická diskriminační analýza– Zobecněná diskriminační analýza GDA
• GDA
– Zeslabuje předpoklad mnohorozměrné normality podkladových dat
– Umožňuje pracovat s kategorickými vysvětlujícími proměnnými
32/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Příklady výstupu modelu
• Příklad srovnání klasifikací logistické regrese a binární zobecněné diskriminační analýzy
Classif ication of Cases (data FINAL new a.sta)Odds ratio: 6,5806
ObservedPred.
0,000000Pred.
1,000000PercentCorrect
0,0000001,000000
12772 836 93,856553299 1421 30,10593
Classif ication Matrix (data FINAL new a.sta)Row s: Observed classif icationsColumns: Predicted classifications
GroupPercentCorrect
G_1:0p=,74247
G_2:1p=,25753
G_1:0G_2:1Total
93,71693 12753 85529,93644 3307 141377,29157 16060 2268
33/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Shluková analýza
• Cíl: sloučit „podobné objekty“ do stejných skupin• Počet skupin nemusí být dán • rozměrný zdroj dat• Různé míry nepodobnosti splňující
– – –
• Např. Mahalanobisova zobecněná vzdálenost– Použitelná, jestliže – Pro 2 objekty – Pro 2 shluky
n ,...,1p
),( d
0),(d
0),( d
),(),(),( ddd
)var( i
211' )()(),( jijijiMd
kCC ,...,1
211' )()(),( DCDCM DCd
34/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Shluková analýza - výpočetNapř. algoritmus metody nejbližšího souseda
– „Single Linkage“
1. Definují se jednoprvkové shluky
2. Najdeme „shluky“ takové, že a sloučíme je do jednoho shluku
3. Postup opakujeme na zbylých shlucích. Najdeme splňující získají se buď 2 dvouprvkové nebo 1 tříprvkový shluk
4. Konec, jestliže prahová hodnota
• Viz dendrogram na analýze nepojištěných vozidel
niiCi ,...,1},{
ba, )min( ,, jiba dd
1n )2(,, )( jidc dddc,
)(, )( mjid
35/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Přestávka
36/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Výsledky modelu – regiony
• Nejrizikovější oblastí S a SZ Čech
Změna poměru šance na vznik nepojištěné
škody
0%25%50%75%
100%125%150%
Pra
ha
Lib
ere
cký
Úst
eck
ý
Ka
rlova
rský
Plz
eň
ský
Jih
oče
ský
Vys
oči
na
Pa
rdu
bic
ký
Hra
de
cký
Jih
om
ora
vský
Zlín
ský
Olo
mo
uck
ý
Se
vero
mo
ravs
ký
kraj nehody
37/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Odhady parametrů pro nepojištěné škody nepojisteni f iltr - Parameter estimates (data FINAL new a.sta)Distribution : BINOMIALLink function: LOGIT
Ef fectLevel of
Ef fectColumn Estimate Standard
ErrorWaldStat.
p
IntercmuzSU v Pražském krajiSU v libereckém krajiústeckýkarlovarskýplzeňskýjihočeskývysočinapardubickýhradeckýjihomoravskýzlínskýolomouckýseveromoravskývek do 2424-36let36-50 letvelkomesto (nad 100 tisíc40 tisíc až 100 tisíc10 tisíc až 40 tisiíc5 až 10 tisícPocet obyv 2VEKScale
1 -1,09251 0,475846 5,2713 0,0216800 2 0,09184 0,024965 13,5343 0,0002340 3 -0,41013 0,236330 3,0117 0,0826680 4 0,24486 0,048911 25,0638 0,0000010 5 0,20605 0,041271 24,9247 0,0000010 6 0,28416 0,057441 24,4729 0,0000010 7 -0,01312 0,046175 0,0807 0,7763460 8 -0,07948 0,045613 3,0364 0,0814150 9 -0,31701 0,054357 34,0130 0,0000000 10 -0,04373 0,050297 0,7560 0,3845930 11 -0,02183 0,047243 0,2134 0,6440950 12 -0,20778 0,045395 20,9498 0,0000050 13 -0,23900 0,056492 17,8991 0,0000230 14 0,05328 0,048906 1,1868 0,2759800 15 -0,08596 0,042617 4,0689 0,0436800 16 0,44318 0,087840 25,4557 0,0000000 17 0,12171 0,067397 3,2614 0,0709290 18 0,13368 0,043649 9,3792 0,0021950 19 0,23863 0,081115 8,6545 0,0032630 20 0,09430 0,035527 7,0445 0,0079510 21 0,06629 0,027402 5,8523 0,0155560 22 0,01610 0,035189 0,2093 0,647348
23 -0,00000 0,000001 3,1978 0,07373724 0,05387 0,004344 153,7675 0,000000
1,00000 0,000000
38/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Výsledky modelu – věk a počet obyvatel
•Nejrizikovější mladí řidiči z velkých měst
Změna poměru šance nepojištěné škody
50%
75%
100%
125%
150%
175%
200%
věk do 24let
věk 24-36 36-50 let nad 100tisíc
40 tisíc až100 tisíc
10 tisíc až40 tisiíc
5 až 10tisíc
věk škůdce a počet obyvatel bydliště
39/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Výsledky modelu – značka vozidel
Změna poměru šance nepojištěné škody
100%
150%
200%
250%
300%
SK
OD
A
FO
RD
FIA
T
OP
EL
VA
Z
VW
RE
NA
UL
T
PE
UG
EO
T
CIT
RO
EN
značka vozidla škůdce
• Nejrizikovější značka VAZ, s odstupem následuje VW, Ford…
40/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Výsledky modelu – tarifní skupina
Změna poměru šance nepojištěné škody
0%
50%
100%
150%
200%
250%
motocykly objem do1000 ccm3
1350 az 1850ccm3
1850 az 2500ccm3
nad 2500ccm3
tarifní skupina vozidla škůdce
• Významně nejrizikovější největší osobní automobily
41/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Celková diagnostika modelu
• Správně klasifikováno (do skupin 0, 1) přes 70% dat
• Hosmer – Lemeshow test zamítl celkovou shodu pozorovaných a očekávaných hodnot – Sledované faktory nevysvětlí rizikovost celého
souboru dat– Nicméně informace o nejrizikovějších a nejméně
rizikových je použitelná– Oddělení min. prvních 4 decilů je významné
42/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Lift Chart
Lift Chart - logistický model
100%
300%
500%
700%
900%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
kvantil hodnocení dat
43/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007
Distribuční funkce hodnocení )(),( aFaF DS
Distribuce hodnocení pojištěných a nepojištěných
0%10%20%30%40%50%60%70%80%90%
100%
0% 20% 40% 60% 80% 100%hodnocení modelu
"skupina 0(pojištění)""skupina 1"(nepojištění)y = x