mnohorozmĚrnÉ statistickÉ metody a analÝza nepojiŠtĚnÝch Škod a vozidel

43
1/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007 Petr Jedlička MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

Upload: ghalib

Post on 30-Jan-2016

34 views

Category:

Documents


0 download

DESCRIPTION

MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL. Petr Jedlička. Obsah prezentace. Úvod do problematiky nepojištěných vozidel v ČR role ČKP, GF, zákony apod. Odhad počtu provozovaných nepojištěných vozidel Charakteristiky nepojištěných škůdců - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

1/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Petr Jedlička

MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

Page 2: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

2/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Obsah prezentace

• Úvod do problematiky nepojištěných vozidel v ČR • role ČKP, GF, zákony apod.

• Odhad počtu provozovaných nepojištěných vozidel

• Charakteristiky nepojištěných škůdců

• Mnohorozměrné statistické metody• Logistická regrese, diskriminační analýza,

• Shluková analýza

– Numerické ilustrace výsledků analýz ČKP

Page 3: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

3/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Česká kancelář pojistitelů• Zřízena zákonem 168/1999 Sb.

• Hlavní úkoly ČKP– Spravuje Garanční fond (GF)– Informační středisko– Korespondenční dohody v systému zelené karty– Databáze pojistných smluv– Elektronické relace o dopravních nehodách– Databáze škod („Registr špatných řidičů“)

• Od roku 2007 ostrý pilotní provoz

• Více viz www.ckp.cz

Page 4: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

4/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Vozidla bez sjednaného pojištění

• Nehody zaviněné nepojištěnými řidiči

– Vznik škody třetí osobě

• Odpovědnost nepojištěného škůdce

– Poškozenému škodu kompenzuje ČKP z GF– ČKP hradí veškeré škody nad 5 000 Kč

• Právo postihu

– Uplatňuje ČKP proti nepojištěnému škůdci

Page 5: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

5/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Statistiky nepojištěných škod

• Významný meziroční nárůst

– Celkových závazků z nepojištěných škod– Objemu vyplaceného plnění– Počet evidovaných škod se stabilizuje

• Od roku 2004 ČKP tvoří technické rezervy

– Standardní pravidla jako pro pojišťovny– Do roku 2004 pouze v podrozvahové evidenci

• Problém odhadu velikosti „kmene“ nepojištěných

Page 6: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

6/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Statistiky nepojištěných škod

Počet evidovaných ŠU 24/2b

0200400

600800

1 0001 200

1 4001 600

1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

2000 2001 2002 2003 2004 2005 2006

čtvrtletí evidence

po

če

t Š

U

Page 7: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

7/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Statistiky nepojištěných škod

Nárůst závazků GF 1 (rok 2000 = 100%)

0%

100%

200%

300%

400%

500%

600%

700%

800%

2000 2001 2002 2003 2004 2005 2006

rok vzniku ŠU

Page 8: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

8/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Pojištěná vozidla – databáze ČKP

• Předávání dat pojistitelé vs. ČKP

– Cca. 5,7 mil. pojištěných vozidel k 31.12.2006

• Předávané údaje:

– Smlouva: pojistitel, počátek pojištění konec, pojistné…– Vozidlo

• SPZ, VIN, číslo TP

• Tarifní skupina, výkon, objem motoru, hmotnost, značka…

– Provozovatel, vlastník• Liší se např. u vozidel pořízených na leasing

Page 9: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

9/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Počty pojištěných vozidel do 31.12.2006

Počet pojištěných vozidel

5 000 000

5 100 000

5 200 000

5 300 000

5 400 000

5 500 000

5 600 000

5 700 000

31.12.2004 30.6.2005 31.12.2005 30.6.2006 31.12.2006

Page 10: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

10/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Pojištěná vozidla

ČP40%

Wuestenrot0% Allianz

10%

Triglav1%

Uniqa2%

ČSOB5%

Generali7%

Kooperativa24%

ČPP11%

Allianz

ČPP

ČP

ČSOB

Generali

Kooperativa

Triglav

Uniqa

Wuestenrot

Page 11: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

11/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Vozidla evidovaná CRV

Počet provozovaných vozidel podle CRV

5 000 000

5 200 000

5 400 000

5 600 000

5 800 000

6 000 000

6 200 000

6 400 000

2002 2003 2004 2005 2006

Page 12: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

12/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Nepojištěná vozidla

• Cíl: minimalizovat počet nepojištěných v ČR

• Detekce na základě srovnání dat CRV a ČKP

• Pravidla ztotožňování vozidel ČKP a CRV– Shoda alespoň ve 2 identifikátorech– SPZ, VIN, číslo TP

• V případě zániku pojištění a jeho neobnovení ve stanovené lhůtě:– ČKP informuje orgány místní samosprávy– Ty mohou uložit pokutu do výše 20 tis. Kč

Page 13: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

13/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Nepojištěná vozidla – mezinárodní srovnání

Podíl nepojištěných vozidel

0%

5%

10%

15%

20%

25%

30%B

ulh

ars

ko

Ru

mu

ns

ko

Po

lsk

o

Ky

pr

Lo

tyš

sk

o

Ve

lká

Bri

tán

ie

Slo

ve

ns

ko

Es

ton

sk

o

Fra

nc

ie

Lit

va

Ma

ďa

rsk

o

Niz

oze

Be

lgie

Page 14: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

14/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Nepojištěná vozidla – mezinárodní srovnání

Podíl nepojištěných vozidel

0%

5%

10%

15%

20%

25%

30%B

ulh

ars

ko

Ru

mu

ns

ko

Lit

va

Po

lsk

o

Ma

ďa

rsk

o

Ky

pr

Lo

tyš

sk

o

Ve

lká

Bri

tán

ie

Slo

ve

ns

ko

Es

ton

sk

o

Fra

nc

ie

Niz

oze

Be

lgie

Page 15: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

15/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Odhad uvedený často v médiích

• Rozdíl počtu registrovaných a pojištěných vozidel

• Vychází 13% nepojištěných vozidel v ČR

• Nejedná se o adekvátní odhad– Data pojistitelů a CRV nejsou vždy konzistentní– Velké množství nepoužívaných vozidel v datech CRV

Registrovaná provozovaná vozidla = 6,35 mil.

Pojištěná vozidla = 5,5 mil. Nepojištěná = 850 tis.?

???

Page 16: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

16/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Porovnání s počtem nepojištěných škod

• Nelze použít univerzálně

– Všechny nepojištěné škody nemusí být hlášeny – Problematický odhad škodní frekvence: o kolik je

nižší než u pojištěných vozidel?

Druh vozidla pojištěná registrovanápočet

nepojištěnýchpodíl %

odhad nepoj.voz

podíl nepoj.škod

podíl nepoj.voz

motocykly 539 188 817 470 278 282 34,0% 32 708 2,94% 5,72%osobní automobily 3 839 810 4 036 815 197 005 4,9% 147 616 1,89% 3,70%nákladní automobily 207 762 539 756 331 994 61,5% 3 279 0,78% 1,55%autobuy 16 553 20 357 3 804 18,7% 75 0,23% 0,45%tahače 765 859 795 988 30 129 3,8% 3 917 0,26% 0,51%traktory 262 693 143 727 0 0,0% 639 0,12% 0,24%ostatní vozidla 6 309 21 435 15 126 70,6% 154 1,21% 2,38%celkem 5 638 174 6 375 548 856 340 13,4% 185 089 1,61% 3,18%

počet vozidel odhad 1) odhad 2)

Page 17: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

17/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Výsledné porovnání vozidel ČKP a CRVPojištěná vozidla = 5,5 mil.

Registrovaná provozovaná vozidla = 6,35 mil.

100 tis. ztotožněno s

neprovoz. nebo voz. v

převodu2%

5 mil.ztotožněno s provozovaným

registrovaným vozidlem91%

270 tis. podléhá evidenci

CRV, ale neztotožněno

5%

130 tis.poj. vozidla

nepodléhající registraci CRV

2 %

5 mil.ztotožněno s pojištěnými

vozidly79% 550 tis.

voz. v minulosti poj., bez platné pojistky9%

800 tis. vozidla nikdy nepojištěná

12%

270 tis.vozidla chybně

ztotožněná

260-440 tis. vozidla reálně

neprovozovaná

90-270 tis. skutečně

nikdy nepojištěná, provozovaná

90-110 tis. skutečně

nepojištěná provoz.

150-170 tis. vozidla reálně

neprovozovaná

290 tis.duplicity

???

• Odhadovaný počet nepojištěných provoz.vozidel 180 až 380 tis.

• Odpovídá podíl 3,2% až 6,4% všech provozovaných vozidel

Page 18: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

18/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Přehled analýz fenoménu nepojištěných

• Rok 2004: nepojištěné škody

– Srovnání charakteristik s pojištěnými vozidly– Aktualizace v roce 2005

• Rok 2006: Analýza počtu skutečně provozovaných nepojištěných vozidel

– Výsledek v předchozím diagramu– Počet skutečně provozovaných nepojištěných vozidel

v rozmezí 180 až 380 tis.– Ztotožňování vozidel + statistické srovnání

Page 19: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

19/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Mnohorozměrné statistické metody

• Aplikace při analýze nepojištěných škod

• Sledování rizikových znaků nepojištěných– Regionalita– Věk– Charakteristiky vozidla

• Použité metody– Logistická regrese– Diskriminační analýza– Shluková analýza

Page 20: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

20/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Logistická regrese

• Speciální případ GLM (viz SAV LS 2005/2006)

• Binární vysvětlovaná proměnná – 1 = výskyt rizikového znaku (např. nepojištěný)– 0 = ostatní data

• Klasická regrese:

• Logistická regrese:

• Poměr šancí:

• Definice:

ppXXXYE ...110)|(

)1/(1)|( )( ...110 ppXXeXYE

))(1/()()( XYEXYEXodds

)()|1()( XYEXYPX

Page 21: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

21/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Logistická regrese – odhady parametrů

• Klasická regrese

– odhad MNČ– V modelu odpovídá MLE odhadu – odhad nárůstu při jednotkové změně

• Logistická regrese

– Logitová funkce– Interpretace index nárůstu poměru šance při

jednotkové změně

YXXXb '1' )(

),0(~ 2 Ni

jb YjX

ppXXX

X

...110)(1

)(log

)exp( jjX

jppjj

ppjj

XX

XX

Xodds

Xodds

exp)exp(

))1(exp(

)(

)(

......0

......0

1

2

Page 22: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

22/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Logistická regrese - ML odhady

• Odvození věrohodnostní funkce

• Logaritmická věrohodnostní funkce

• Soustava věrohodnostních rovnic

)1(

111 ))(1()(),...,( ii y

iy

i

n

inn xxyYyYP

)1(

1

))(1()()( ii yi

yi

n

i

xxl

))(1log()1())(log()(1

iiii

n

i

xyxyL

0))((1

iii

n

i

xyx speciálně 0)(1

ii

n

i

xy

Page 23: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

23/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Logistická regrese – testování hypotéz

• Řešením soustavy získáme ML odhady

• Asymptotická normalita odhadu

• Fisherova informační matice

• Testování významnosti parametrů

Test poměrem věrohodnosti

b

))(,( 1.

~ JNbas

)(1)(()(

)( ,,1

2

xxxxL

EJ kiji

n

ijj

)1,0(~var

.

Nb as

j

jj

.)()(2 saturLbLD

21

. 0

~ zaHas

jj sDbezDG

Page 24: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

24/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Logistická regrese – použití

• Ohodnocení

• Počet správně zatříděných dat

– Porovnání a – (čtyřpolní tabulka)

• Problém při rozdílné velikosti skupin 0 a 1

– Predikce téměř všech hodnot do početnější skupiny není užitečná

– Řešení: Určit váhy tak, aby # 0 a # 1 byl srovnatelný

pipi

ii xbxbbYS

,...1,10exp1

1

iS iYClassification of Cases (data - logistická regrese.sta)Odds ratio: 3,1546 Perc. correct: 65,66%Include condition: v4=1

ObservedPred.0,000000

Pred.1,000000

PercentCorrect

0,0000001,000000

8711267376,519683812369049,18688

Page 25: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

25/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Logistická regrese - diagnostika

• Distribuční funkce hodnocení „dobrých klientů“

• Distribuční funkce hodnocení „špatných klientů“

• Kvalitní model: Velký rozdíl mezi

– Integrální kritérium– Supremální kritérium– Lorentzova křivka– Giniho koeficient

0|)( YaSPaF D

1|)( YaSPaF S

)(),( aFaF DS

daaFaFIK DS |)()(| |)()(|sup aFaFSK DS

a

)(|)(5,0|2 adFaFIK DS)(|)()(|2 adFaFaFGC SSD

Page 26: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

26/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Logistická regrese – test dobré shody

• Hosmer – Lemeshow test– Zvolíme– Data rozdělíme do skupin– Hranice pro zatřídění do skupiny . Platí

– Na určené skupiny se aplikuje test dobré shody

– Lze definovat „Lift Chart“

KK

j

K

jFS

K

jF 11 1

K

jS

K

j

1

2

21

.2

1

0

~)(

)((

K

zaHas

iki

iikiK

k x

xyc

nebo

Page 27: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

27/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Lift Chart• Srovnání distribuce dobrých a špatných klientů

• Křivka podílového kritéria

– pro

• STATISTICA definuje převrácenou hodnotou:

)(

)()(

aF

aFaLF

S

D

1)( aLF %100a

Lif t Chart - L if t valueCum ulative

Model Baseline10 20 30 40 50 60 70 80 90 100

Percentile

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1,1

Lift

va

lue

Page 28: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

28/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Výpočty odhadů parametrů

• Použit software STATISTICA – (GLZ, Non linear estimation)– Numerické metody na řešení soustavy věr. rovnic

• Quasi Newtonova metoda• Hooke-Jeeves• Simplex• Rosenbrock…

– Možno zvolit počáteční odhady, kritérium konvergence

– Čas výpočtu v řádu hodin pro desítky tisíc dat

Page 29: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

29/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Diskriminační analýza

• Predikce zatřídění objektu do některé z předem daných skupin

– Neomezuje se pouze na binární klasifikaci

• Předpoklady

– Normalita vysvětlujících veličin– Apriorní pravděpodobnosti

• Výpočet diskriminačního skóru

kkpNkYX ,~|

1,...,1

1

k

K

kK

)log()()(5,0||log5,0)( 'kkkkkk xxxS

Page 30: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

30/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Diskriminační analýza - odhady

• dáme do třídy s maximální hodnotou

• Standardní odhady parametrů na základě souboru dat

– Apriorní pravděpodobnosti

– Vektor středních hodnot

– Rozptylové matice

• Často se předpokládá lineární skór

Odhad

x )(xSk

N

kYYk

),(#

iki

k xkYY

),(#

1'

1),(#

1

iiiiki

k xxkYY

K...1'

1

1

kikiki

K

k

xxKN

Page 31: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

31/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Diskriminační analýza - implementace

• Sw. STATISTICA zahrnuje moduly

– Klasická diskriminační analýza– Zobecněná diskriminační analýza GDA

• GDA

– Zeslabuje předpoklad mnohorozměrné normality podkladových dat

– Umožňuje pracovat s kategorickými vysvětlujícími proměnnými

Page 32: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

32/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Příklady výstupu modelu

• Příklad srovnání klasifikací logistické regrese a binární zobecněné diskriminační analýzy

Classif ication of Cases (data FINAL new a.sta)Odds ratio: 6,5806

ObservedPred.

0,000000Pred.

1,000000PercentCorrect

0,0000001,000000

12772 836 93,856553299 1421 30,10593

Classif ication Matrix (data FINAL new a.sta)Row s: Observed classif icationsColumns: Predicted classifications

GroupPercentCorrect

G_1:0p=,74247

G_2:1p=,25753

G_1:0G_2:1Total

93,71693 12753 85529,93644 3307 141377,29157 16060 2268

Page 33: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

33/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Shluková analýza

• Cíl: sloučit „podobné objekty“ do stejných skupin• Počet skupin nemusí být dán • rozměrný zdroj dat• Různé míry nepodobnosti splňující

– – –

• Např. Mahalanobisova zobecněná vzdálenost– Použitelná, jestliže – Pro 2 objekty – Pro 2 shluky

n ,...,1p

),( d

0),(d

0),( d

),(),(),( ddd

)var( i

211' )()(),( jijijiMd

kCC ,...,1

211' )()(),( DCDCM DCd

Page 34: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

34/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Shluková analýza - výpočetNapř. algoritmus metody nejbližšího souseda

– „Single Linkage“

1. Definují se jednoprvkové shluky

2. Najdeme „shluky“ takové, že a sloučíme je do jednoho shluku

3. Postup opakujeme na zbylých shlucích. Najdeme splňující získají se buď 2 dvouprvkové nebo 1 tříprvkový shluk

4. Konec, jestliže prahová hodnota

• Viz dendrogram na analýze nepojištěných vozidel

niiCi ,...,1},{

ba, )min( ,, jiba dd

1n )2(,, )( jidc dddc,

)(, )( mjid

Page 35: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

35/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Přestávka

Page 36: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

36/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Výsledky modelu – regiony

• Nejrizikovější oblastí S a SZ Čech

Změna poměru šance na vznik nepojištěné

škody

0%25%50%75%

100%125%150%

Pra

ha

Lib

ere

cký

Úst

eck

ý

Ka

rlova

rský

Plz

ský

Jih

oče

ský

Vys

oči

na

Pa

rdu

bic

Hra

de

cký

Jih

om

ora

vský

Zlín

ský

Olo

mo

uck

ý

Se

vero

mo

ravs

kraj nehody

Page 37: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

37/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Odhady parametrů pro nepojištěné škody nepojisteni f iltr - Parameter estimates (data FINAL new a.sta)Distribution : BINOMIALLink function: LOGIT

Ef fectLevel of

Ef fectColumn Estimate Standard

ErrorWaldStat.

p

IntercmuzSU v Pražském krajiSU v libereckém krajiústeckýkarlovarskýplzeňskýjihočeskývysočinapardubickýhradeckýjihomoravskýzlínskýolomouckýseveromoravskývek do 2424-36let36-50 letvelkomesto (nad 100 tisíc40 tisíc až 100 tisíc10 tisíc až 40 tisiíc5 až 10 tisícPocet obyv 2VEKScale

1 -1,09251 0,475846 5,2713 0,0216800 2 0,09184 0,024965 13,5343 0,0002340 3 -0,41013 0,236330 3,0117 0,0826680 4 0,24486 0,048911 25,0638 0,0000010 5 0,20605 0,041271 24,9247 0,0000010 6 0,28416 0,057441 24,4729 0,0000010 7 -0,01312 0,046175 0,0807 0,7763460 8 -0,07948 0,045613 3,0364 0,0814150 9 -0,31701 0,054357 34,0130 0,0000000 10 -0,04373 0,050297 0,7560 0,3845930 11 -0,02183 0,047243 0,2134 0,6440950 12 -0,20778 0,045395 20,9498 0,0000050 13 -0,23900 0,056492 17,8991 0,0000230 14 0,05328 0,048906 1,1868 0,2759800 15 -0,08596 0,042617 4,0689 0,0436800 16 0,44318 0,087840 25,4557 0,0000000 17 0,12171 0,067397 3,2614 0,0709290 18 0,13368 0,043649 9,3792 0,0021950 19 0,23863 0,081115 8,6545 0,0032630 20 0,09430 0,035527 7,0445 0,0079510 21 0,06629 0,027402 5,8523 0,0155560 22 0,01610 0,035189 0,2093 0,647348

23 -0,00000 0,000001 3,1978 0,07373724 0,05387 0,004344 153,7675 0,000000

1,00000 0,000000

Page 38: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

38/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Výsledky modelu – věk a počet obyvatel

•Nejrizikovější mladí řidiči z velkých měst

Změna poměru šance nepojištěné škody

50%

75%

100%

125%

150%

175%

200%

věk do 24let

věk 24-36 36-50 let nad 100tisíc

40 tisíc až100 tisíc

10 tisíc až40 tisiíc

5 až 10tisíc

věk škůdce a počet obyvatel bydliště

Page 39: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

39/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Výsledky modelu – značka vozidel

Změna poměru šance nepojištěné škody

100%

150%

200%

250%

300%

SK

OD

A

FO

RD

FIA

T

OP

EL

VA

Z

VW

RE

NA

UL

T

PE

UG

EO

T

CIT

RO

EN

značka vozidla škůdce

• Nejrizikovější značka VAZ, s odstupem následuje VW, Ford…

Page 40: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

40/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Výsledky modelu – tarifní skupina

Změna poměru šance nepojištěné škody

0%

50%

100%

150%

200%

250%

motocykly objem do1000 ccm3

1350 az 1850ccm3

1850 az 2500ccm3

nad 2500ccm3

tarifní skupina vozidla škůdce

• Významně nejrizikovější největší osobní automobily

Page 41: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

41/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Celková diagnostika modelu

• Správně klasifikováno (do skupin 0, 1) přes 70% dat

• Hosmer – Lemeshow test zamítl celkovou shodu pozorovaných a očekávaných hodnot – Sledované faktory nevysvětlí rizikovost celého

souboru dat– Nicméně informace o nejrizikovějších a nejméně

rizikových je použitelná– Oddělení min. prvních 4 decilů je významné

Page 42: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

42/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Lift Chart

Lift Chart - logistický model

100%

300%

500%

700%

900%

10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

kvantil hodnocení dat

Page 43: MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

43/43 Seminář z Aktuárských věd, UK MFF - LS 2006/2007

Distribuční funkce hodnocení )(),( aFaF DS

Distribuce hodnocení pojištěných a nepojištěných

0%10%20%30%40%50%60%70%80%90%

100%

0% 20% 40% 60% 80% 100%hodnocení modelu

"skupina 0(pojištění)""skupina 1"(nepojištění)y = x