Constantin Mircioiu Roxana Colette Sandulovici
STATISTICA APLICATA IN
FARMACIE SI STUDII CLINICE
Editia a – II – a
EDITURA UNIVERSITARA “CAROL DAVILA” BUCURESTI, 2009
Prof. dr. farm., mat. CONSTANTIN MIRCIOIU Dr. farm., mat. ROXANA COLETTE SANDULOVICI
STATISTICA APLICATA IN
FARMACIE SI STUDII CLINICE
Editia a II - a
pentru
cursul de biostatistica Facultatea de Farmacie, Universitatea de Medicina si Farmacie
“Carol Davila”, Bucuresti
cursul de biostatistica doctoranzi Universitatea de Medicina si Farmacie “Carol Davila”, Bucuresti
cursul de biostatistica si farmacocinetica Masterul de Biostatistica
Facultatea de Matematica, Universitatea Bucuresti
EDITURA UNIVERSITARA “CAROL DAVILA” BUCURESTI, 2009
PREFATA
La numai un an dupa prima aparitie a cartii de fata, conceput initial ca un curs pentru studentii din anul IV ai facultatii de farmacie, contextul stiintific si didactic s-a schimbat “semnificativ statistic”. In urma experientei cursurilor si seminariilor din cadrul facultatilor de farmacie si facultatilor de matematica a aparut necesitatea de a revizui o parte din material in scopul cresterii ponderii exemplelor din cadrul cercetarilor experimentale si studiilor clinice, mai dificile de urmarit decat exemplele “ideale”, dar mai ilustrative in ceea ce priveste modul de rezolvare a unor probleme reale, complexe.
S-au adaugat in primul rand cateva capitole noi de biostatistica “reala”: • estimarea bioechivalentei prin metode non-parametrice, problema amplu dezbatuta in acesti ani in contextul propunerii de a schimba regulile americane si europene de evaluare a bioechivalentei, • estimarea retrospectiva a factorilor de risc in cazul bolilor rare, • relatia intre evaluarea bioechivalentei si a echivalentei terapeutice, • aplicarea ANOVA in estimarea modelelor liniare.
Necesitatea acestor din urma capitole au aparut, in primul rand, in cadrul masteratului de Biostatistica organizat de Facultatea de Matematica in colaborare cu Facultatea de Farmacie si au facut obiectul unor dezbateri multidisciplinare la care au participat matematicieni, medici, farmacisti, chimisti si biologi in cadrul seminariilor de biostatistica aplicata la studiile clinice.
O alta directie a dezvoltarii a privit evaluarea statistica a datelor clinice in cadrul unor studii clinice concrete analizate la cursurile si seminariile de biostatistica la scoala doctorala de pe langa Universitatea de Medicina si Farmacie “Carol Davila”.
In final, dincolo de insusirea unor reguli de baza privind evaluarile statistice in capitolele mentionate s-a incercat sa se acrediteze conceptul fundamental privind validarea in spirala: validarea rezultatelor prin analiza statistica, validarea rezultatelor statistice prin evaluarea fenomenologica, remodelarea fenomenelor, extrapolarea experimentului, evaluarea statistica, s.a.m.d.
Rezumand intr-o singura fraza bunele intentii ale autorilor - acestia au vrut sa transmita ideea ca aplicarea in analiza datelor clinice numai a bunului simt sau numai a regulilor formale de calcul te pot rataci si uneori chiar sminti. Autorii Bucuresti, 2009
I. Elemente de teoria probabilitatilor Campuri de probabilitate
1
1.1. CÂMPURI DE PROBABILITATE Teoria matematică a probabilităţilor porneşte de la faptul că fiecărui
rezultat posibil al unui experiment aleator, rezultat pe care îl vom denumi eveniment, i se asociază o valoare numerică, numită “probabilitatea” evenimentului respectiv. Această valoare este o caracteristică obiectivă a evenimentului în condiţiile experimentului dat.
Să efectuăm, de exemplu, un experiment de m ori. Dacă în cele m experienţe un eveniment A s-a produs de k ori, atunci 0 ≤ k ≤ m, de unde rezultă pentru frecvenţa relativă:
0 1km
≤ ≤
adică frecvenţa relativă a unui eveniment este întotdeauna un număr cuprins între 0 şi 1.
Ţinând cont că frecvenţa relativă oscilează în jurul probabilităţii evenimentului considerat şi că probabilitate este acea caracteristică a evenimentului care ne indică în ce proporţii se produce evenimentul în cazul repetării experimentului de un număr foarte mare de ori, rezultă că şi probalitatea este tot un număr între 0 şi 1.
Din definiţia probabilităţii ca generalizare a conceptului de frecvenţă relativă, rezultă că probabilitatea unui eveniment imposibil este 0, iar probabilitatea unui eveniment sigur este 1.
Evenimentele pot fi simple, în sensul că nu se pot descompune mai departe, sau compuse din alte evenimente ce se petrec simultan. În acest context putem considera două operaţii între evenimente.
Scriem A ∩ B şi înţelegem prin aceasta un eveniment care constă în producerea evenimentelor A şi B, simultan. Scriem A B pentru cazul când se produce cel puţin unul din cele două evenimente.
∪
Fiind date două rezultate A şi B ale unui experiment efectuat de n ori, să presupunem că A s-a obţinut de ori şi B de ori. Evenimentul A B, deci obţinerea unui eveniment din cele două rezultate, s-a obţinut ca
atare, de
1k 2k∪
1 2 1 2k k k kn n+
n= + ori, ceea ce sugerează o regulă de tipul
Probabilitate (A ∪ B) = Probabilitate (A) + Probabilitate (B) În cele ce urmează vom introduce o prezentare axiomatică a
conceptului de probabilitate, după Kolmogorov1.
1Andrei Nicolaevici Kolmogorov (1903-1987), fost profesor la Universitatea din
Moscova, a avut contribuţii deosebite în analiza matematică, analiza funcţională şi teoria
I. Elemente de teoria probabilitatilor Campuri de probabilitate
2
1.1.1. Corp borelian 1.1.1.1. Definiţie: Fie E o mulţime şi K o familie nevidă de părţi ale lui E, K ⊂ ℘(E)
cu proprietăţile: 1. A∈ K CA⇒ ∈ K 2. K⇒ ∪ K ( ) ⊂∈NiiA ∞
∈1
iA3. E∈ K
Deci, este închisă la operaţiile de complementare şi reuniune. Se spune, în acest caz, că familia K, împreună cu operaţiile
menţionate, formează un corp bolerian. Denumirea de borelian vine de la matematicianul Emil Borel, unul dintre fondatorii teoriei probabilităţilor.
1.1.1.2. Consecinţă: Un corp borelian este o familie închisă faţă de operaţiunea de
intersecţie, indiferent de numărul elementelor sale pe care le intersectăm: K⇒( ) ⊂∈NiiA ∈iA∩ K
Demonstraţia se face imediat folosind faptul că şi
proprietăţile 1 şi 2.
i ii i
A C A⎛ ⎞= ⎜ ⎟
⎝ ⎠∩ ∪
1.1.1.3. Propoziţie: Fiind dată o familie de corpuri boreliene ( ) IiiK ∈ , intersecţia lor este
tot un corp borelian. Demonstratia se face imediat, folosind proprietăţile corpului borelian
şi ale operaţiilor de intersecţie, reuniune şi complementare. 1.1.1.4. Definiţie:
probabilităţilor. Cartea sa “Grundbegriffe der Wahrscheinlichketetsrechnung”, Berlin, 1933, a însemnat o revoluţie în teoria probabilităţilor, arătând că, formal, această teorie se poate trata ca un caz particular de teorie a integralei (sau “teoria măsurii”).
I. Elemente de teoria probabilitatilor Campuri de probabilitate
3
Fie H o familie oarecare de părţi ale unei mulţimi E . H poate fi completată la un corp borelian, numit corpul generat de Η , dacă i se adaugă E şi toate mulţimile ce se formează prin reuniune, intersecţie şi complementare pornind de la elementele H∈ Η.
Dacă luăm pe dreaptă, mulţimea intervalelor deschise de forma , , corpul borelian generat se numeşte simplu “borelianul pe
dreapta” şi constituie baza teoriei probabilităţilor, aşa cum va fi ea abordată în prezenta lucrare.
( ),a−∞ a R∈
Deoarece orice interval închis se poate obţine prin operaţiile meţionate din intervale deschise şi invers, orice interval deschis poate fi generat pornind de la intervale închise, borelianul pe dreapta este în acelaşi timp generat de mulţimea intervalelor închise.
Într-adevăr, se poate scrie:
[ ]ba, =∩∞
=⎟⎠⎞
⎜⎝⎛ +−
1
1,1n n
bn
a şi ( ) ∪∞
= ⎥⎦⎤
⎢⎣⎡ −+=
1
1,1,n n
bn
aba
1.1.1.5. Definiţie: O familie ( ) IiiA ∈ se numeşte desfacere a lui E dacă:
1. I este cel mult numărabilă; 2. φ=∩⇒∀∀ ji AAji, 3. EAi =∪
1.1.2. Spaţii măsurabile
1.1.2.1.1. Definiţie O mulţime E împreună cu un corp borelian K formează un spaţiu
măsurabil (E,K). Elementele lui K se numesc mulţimi măsurabile. 1.1.2.2. Definiţie Fiind date (E,K) si (F,L) spaţii măsurabile, o funcţie f: (E,K) (F,L)
se numeşte funcţie măsurabilă dacă îndeplineşte condiţia: →
∀ A, A∈L⇒ f-1(A)∈K sau, altfel spus: f-1(L) K ⊂ 1.1.2.3. Proprietăţi
a) Dacă f şi g sunt măsurabile, atunci f g, f +g şi f*g sunt măsurabile.
I. Elemente de teoria probabilitatilor Campuri de probabilitate
4
b) Dacă f este continuă, atunci f este borelian măsurabilă.
1.1.2.4. Observaţie Se poate face un paralelism între spaţiile topologice şi spaţiile
măsurabile, între funcţiile continue şi funcţiile măsurabile. Astfel, o funcţie este continuă dacă preimaginea oricărei mulţimi deschise este o mulţime deschisă iar măsurabilă este atunci când preimaginea oricărei mulţimi măsurabile este măsurabilă. Deasemenea, dacă f şi g sunt două funcţii continue, atunci f + g şi f*g sunt continue.
1.1.2.5. Definiţie
Se numeşte măsură orice funcţie pozitivă definită pe corpul mulţimilor măsurabile, μ : K R+ , “aditivă” pe orice familie ( ) numărabilă de mulţimi măsurabile disjuncte:
→ IiiA ∈
( ) ( )∑∞∞=⇒Φ=∩∀∀
11,, nnmn AAAAmn μμ∪
1.1.2.6. Consecinţe
a) ( ) 0=Φμ Într-adevăr, dacă luăm AA =1 , Φ=2A ⇒
( ) ( ) ( ) ( )2 0μ μ μ μΦ = Φ ∪Φ = Φ ⇒ Φ = b) Fie un şir de mulţimi şi fie...21 ⊆⊆ AA nAA ∪= , atunci ( ) (AAn )μμ → Demonstraţie: Fie \ . Mulţimile sunt disjuncte şi 1+= nn AB nA nB nn BBBA ∪∪∪ ...21= .
Din aditivitatea lui μ rezultă ( ) ( ) n
n
ii
n
i
in sBBA ==⎟⎟⎠
⎞⎜⎜⎝
⎛= ∑
== 11
μμμ ∪( ) ( ) ( )AABss
nn
iin μμμ ===→
∞
=
∞
= ∪∪ 11
nAA ∪= şi ( )iAμ < ∞ ( )nAμ⇒ < ( )Aμ Altfel, { },...1, += nnAn , dar ∩ Φ=nA ( ) ∞=nAμ
1.1.2.7. Exemple a) Fie μ definită după cum urmează:
• ( ) ∞=Aμ dacă A este infinită şi • ( ) =Aμ numărul elementelor din A , dacă A este finită. Această măsură se numeşte în mod natural “măsura de numărare”.
b) Fie un punct exterior Ex ∈0 fixat. Definim:
I. Elemente de teoria probabilitatilor Campuri de probabilitate
5
• ( ) 10
=Axμ dacă Ax ∈0 şi • ( )Ax0
μ = 0 dacă 0x A∉ Măsura este utilizată în mecanica cuantică şi se numeşte “măsura lui Dirac”.
1.1.3. Probabilitate Vom defini probabilitatea ca o măsură particulară.
1.1.3.1. Definiţie: Fiind dat un spaţiu măsurăbil ( )KE, . O funcţie P: cu
proprietăţile: [ 1,0→K ]
a) P – măsură şi b) P ( )E =1
se numeşte probabilitate. Deci, probabilitatea ar fi o măsură “normată”. 1.1.3.2. Proprietăţi: Pe baza proprietăţilor măsurii şi a faptului că P ( )E =1, se pot
demonstra cu uşurinţă următoarele proprietăţi: 1. ( ) ( ) ( )BPAPBAPBA −=⇒⊃ / 2. , ( )n∀ ( ) =⇒⊂ + nnn APAA ∪1 ( )nn AP∞→lim 3. , ( )n∀ ( ) ( )nnnnn APAPAA ∞→+ =⇒⊃ lim1 ∩ 4. ( ) ( ) ( ) ( )BAPBPAPBAP ∩∪ −+= 5. ( ) ( )∑≤ nn APAP∪ , numită subaditivitate numărabilă 6. ( ) 0=ΦP 7. ( ) ( )APCAP −= 1
În contextul teoriei probabilităţilor, mulţimile măsurabile devin evenimente, “spaţiul măsurabil” devine câmp de evenimente, iar E devine evenimentul total.
1.1.3.3. Definiţie: Un câmp de evenimente ( )KE, înzestrat cu probabilitatea P, se
numeşte câmp de probabilitate. 1.1.3.4. Definiţie: Un eveniment care nu mai poate fi inclus în alt eveniment
I. Elemente de teoria probabilitatilor Campuri de probabilitate
6
BAKBKA ⊂∈∀∈ ,, sau Φ=BA∩ se numeşte eveniment elementar sau atom.
1.1.3.5. Observaţii Prezentarea axiomelor teoriei probabilităţilor în contexul mai larg al
teoriei măsurii, dincolo de formalismul simplu şi rigoare, oferă şi avantajul unor interpretări “fenomenologice” şi “picturale” pentru unele formule. Astfel, dacă probabilitatea este o măsură, la fel ca aria pentru figurile plane (Fig. 1), formula:
( ) ( ) ( ) ( )BAPBPAPBAP ∩∪ −+= se poate citi ca:
( ) ( ) ( ) ( )aria A B aria A aria B aria A B= + −∪ ∩ ceea ce pare ca evident.
Fig. 1. Definiţia clasică elementară a probabilităţii derivă în mod natural din noţiunea de frecvenţă, despre care am vorbit mai sus.
Dacă un eveniment A se poate realiza în m feluri diferite dintr-un număr total n de evoluţii posibile ( )
njje,1=
, egal probabile, atunci :
a) ( ) 1jP e
n= şi b) ( ) mP A
n=
1.1.3.6. Exemplu Exemplul clasic de câmp de probabilitate finit îl constituie
evenimentele ce pot apărea atunci când, dintr-o urnă în care se află bile albe şi negre se extrag n bile. Dacă proporţia bilelor albe în urnă este p, şi deci a celor negre este 1q p= − , probabilitatea evenimentului A, ca din n bile extrase, k să fie albe, conform definiţiei clasice definite mai sus, se calculează imediat şi este:
( ) k k n knP A C p q −=
De exemplu, evenimentul ca din trei bile extrase, două să fie albe - - şi una să fie neagră - - se poate descompune în felul următor : a n
( ) ( ) ( )A a a n a n a n a a= ∪ ∪ şi
I. Elemente de teoria probabilitatilor Campuri de probabilitate
7
( ) ( ) ( ) ( ) 2 2 2 2 2 2 333P A P a a n P a n a P n a a p q p q p q p q C p q −= + + = + + = = 2
1.1.4. Probabilitate condiţionată
Fie B un eveniment a cărei probabilitate este diferită de 0. Probabilitatea unui eveniment A, reprezintă proporţia în care ne aşteptăm să se realizeze A în cadrul tuturor evenimentelor câmpului de probabilitate la care aparţine A
Probabilitatea lui A se mai poate analiza însă şi în contextul în care ştim că s-a produs anterior evenimentul B. Probabilitatea evenimentului A condiţionată de B se notează, în acest caz, cu: P(A/B) sau PB(A).
Dacă s-a constatat experimental o frecvenţă de apariţie kA şi, respectiv kB, pentru A şi B, frecvenţa relativă de apariţie a lui A, când deja a apărut B, va fi:
( )( )BP
BAP
nknk
kk
B
AB
B
AB∩
≅=
În acest context apare naturală definiţia probabilităţii evenimentului A, condiţionată de B, prin formula:
( ) ( )( )BP
BAPAPB
∩=
Un caz special îl constituie acela în care probabilitatea de apariţie a evenimentului A este aceiaşi, indiferent dacă s-a produs sau nu evenimentul B:
P(A) = PB(A) Spunem, în acest caz, că evenimentele A şi B sunt evenimente
independente. Observăm că, rescriind formula anterioară
( ) ( )( )BP
BAPAPB∩
= ( ) ( ) ( ) ( ) (BPAPBPAPBAP B ** )==⇒ ∩
se poate lua ca definiţie că două evenimente sunt independente atunci când: ( ) ( ) ( )BPAPBAP *=∩
1.1.5. Formula probabilităţii cauzelor (Bayes)
Fie A1, A2,…, An o desfacere a lui E pe care, în contextul teoriei probabilităţilor, o numim sistem complet de evenimente. Ea reprezintă în acelaşi timp o desfacere pentru E cât şi pentru orice eveniment EX ⊂ . ∪ jAE =
( )∪ ∩ XAX i=
I. Elemente de teoria probabilitatilor Campuri de probabilitate
8
Dat fiind că evenimentele sunt disjuncte, avem XAi ∩( ) ( )∑= XAPXP i ∩ .
Să presupunem că ( ) 0, ≠∀ iAPi . În aceste condiţii avem următoarea teoremă: 1.1.5.1. Teorema probabilităţii cauzelor
Probabilitatea producerii oricărui eveniment X, este egală cu suma probabilităţilor de producere a lui X, condiţionate de evenimentele complete ale sistemului ( ) niiA ,1= şi
( ) ( ) ( )( ) ( )∑
= XPAPXPAPAPi
j
Ai
AjjX
Demonstraţie:
Din definiţie avem PX(Aj) = ( )( )XP
AXP j∩
deci, PX(Aj) = ( )( )∑i
i
j
XAPAXP∩∩
= ( ) ( )
( )( ) ( )
( )∑i i
ii
j
jj
APAPXAP
APAPAXP
∩
∩= ( ) ( )
( ) ( )∑ XPAPXPAPI
j
Ai
Aj
PX(Aj) poate fi interpretat ca fiind probabilitatea ca X să aibă cauza
Aj. În acest caz, formula calculează probabilitatea lui X în funcţie de probabilităţile cauzelor care ar fi putut determina evenimentul X.
Probabilităţile P(Ak) se numesc apriorice, pentru că ele se cunosc înainte de eveniment. Probabilităţile PX(Aj) sunt probabilităţile aceloraşi cauze, dar după ce s-a întâmplat evenimentul X, şi se numesc din acest motiv, probabilităţi aposteriorice.
Exemplu, când un pacient intoxicat este adus la urgenţă el prezintă anumite simptome şi medicul, folosind experienţa sa, rezultatele determinărilor în sânge şi un sistem computerizat elaborează o listă cu probabilităţile ca intoxicaţia să se fi făcut cu o anumită substanţă.
În fizica statistică parametrii termodinamici sau cuantici ai unui sistem rezultă din însumarea unui număr foarte mare de evenimente. Probabilitatea de trecere de la o stare iniţială la o stare finală este dată de suma probabilităţilor de trecere pe anumite căi Ai ponderate fiecare cu
I. Elemente de teoria probabilitatilor Campuri de probabilitate
9
probabilitatea, sau altfel spus ponderea lor, p(Ai). Deoarece numărul căilor poate fi de puterea continuului, în locul sumelor apar integrale.
Sau, dacă s-ar produce o crimă, aposteriori, ne punem problema ierarhizării suspiciunilor privind potenţialii criminali.
Problema nu este de loc “teoretică” dacă suntem de exemplu o societate de asigurări sau dacă testul este un test de malignitate.
Bayer a fost un episcop care s-a preocupat de cauzele evenimentelor din lumea aceasta şi legătura lor cu cauza finală – Dumnezeu.
Formula probabilităţii cauzelor ne arată cum se transformă probabilităţile apriorice în probabilităţi aposteriorice, după apariţia evenimentului X.
De exemplu, ştiind că un medicament se absoarbe în, şi se elimină din sânge pe mai mult căi, cu diferite probabilităţi date de considerente fizico-chimice şi fiziologice, în funcţie de rezultatul unor determinări a concentraţiei ale acestora în sângele unui pacient, ne putem pune problema stabilirii ponderilor efective ale acestor căi, în scopul “individualizării” tratamentului.
1.1.5.2. Observaţie:
Putem deasemenea să considerăm cazul particular al desfacerii evenimentului total în două evenimente A şi complementul său CA.
Formula lui Bayes devine în acest caz:
PX(A) = ( ) ( )( ) ( ) ( ) ( )CAPXPAPXP
APXPCAA
A
+
1.1.5.3. Aplicaţie:
Dacă, de exemplu, P(B) este proporţia (probabilitatea) unei boli în populaţie şi cunoscând proporţia în care un test diagnostic este pozitiv la bolnavi PB(+) şi la sănătoşi PNB(+) putem calcula probabilitatea ca un pacient la care rezultatul testului este pozitiv să fie bolnav:
( ) ( ) ( )( ) ( ) ( ) ( )
B
B NB
P P BP B
P P B P P NB+
+=
+ + +
unde: ( )BP + este probabilitatea ca un bolnav să fie catalogat pozitiv de
către test şi se numeşte “sensibilitatea” testului. ( )NBP − este probabilitatea ca un sănătos să fie catalogat negativ de
către test şi se numeşte “specificitatea” testului.
I. Elemente de teoria probabilitatilor Campuri de probabilitate
10
Problema devine teribil de importantă dacă, de exemplu, este vorba de un test de depistare a cancerului
I. Elemente de teoria probabilitatilor Variabile aleatoare
11
1.2.VARIABILE ALEATOARE 1.2.1. Definiţii:
a) Se numeşte variabilă aleatoare (întâmplătoare sau statistică) o funcţie reală f definită pe mulţimea K a evenimentelor, cu proprietatea că, oricare ar fi numărul real a, mulţimea x K∈ pentru care ( )f x ≤ a este un eveniment din K .
În termeni de teoria măsurii, o variabilă aleatoare este o funcţie ( ) ( ): , , ,f E K P R B→ , măsurabilă.
Practic vorbind avem definită probabilitatea ca variabila să aibă valori mai mici decât orice număr dat a.
b) O variabilă aleatoare se numeşte variabilă aleatoare simplă dacă ia
un număr finit de valori: :f E R→ , ( )f E finită şi ( )( ) ( )( )1
i iP f x x P f x p−i= = =
c) Vom lucra, în cele ce urmează, ca regulă, cu variabile aleatoare
independente, adică variabile ce iau valori independente una de cealaltă: ( )( ) ( )( )( ) ( )( ) ( )( )jiji yygPxxfPyygxxfP ====∩= * , ji yx ,∀
1.2.2. Operatii cu variabile aleatoare:
Se poate verifica uşor că variabilele aleatoare formează o algebră, adică suma, şi produsul a două variabile aleatoare este tot o variabilă aleatoare; mai mult compunerea a două variabile aleatoare este tot o variabilă aleatoare.
Trebuie în acest context să fim atenţi la independenţa sau nonindependenţa variabilelor aleatoare implicate în operaţie.
De exemplu putem citi X+X unde X este o variabilă aleatoare în două feluri. Putem, de exemplu, să considerăm un experiment repetat de două ori rezultatele fiind independente
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛=
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛+
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
41
21
43
412
21
21
21
21
21
21,
în timp ce, dacă considerăm că X şi X nu iau valori independent, atunci 2 4
2 1 12 2
X X X⎛ ⎞⎜ ⎟+ = =⎜ ⎟⎝ ⎠
I. Elemente de teoria probabilitatilor Variabile aleatoare
12
Putem reprezenta grafic aceste probabilităţi.
De exemplu,1 2 31 1 14 2 4
X⎛ ⎞⎜=⎜⎝ ⎠
⎟⎟
apare sub forma
Fig. 2 Reprezentarea grafica a probabilitatilor
Fig. 3 Curba cumulativă a distribuţiei
1.2.3. Functia de repartitie Funcţia de repartiţie asociată lui f este funcţia ( )F x , [ ]: 0,F → 1
definită de formula: ( ) ( ) ( )( )1 ,F x P f x P f x−= ⟨ = −∞
Importanţa acestei funcţii constă în faptul că, dacă ( )F x este dată se poate determina probabilitatea ca f să ia valori într-un interval I ⊂ , oricare ar fi acel interval.
În cazul în care f ia un număr finit de valori, de exemplu { }3,2,1 , când cunoaştem ( ) 3,2,1=∀⟨ kkfP , cunoaştem practic şi ( ) 3,2,1=∀= kkfP .
Într-adevăr, ( ) ( )21 ⟨== fPfP ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )21*32*3232 ⟨−⟨=⟩⟨=⟩∩⟨== fPfPfPfPffPfP ( ) ( ) ( )2113 =−=−== fPfPfP
Ca regulă generală: ( ) ( ) ( )1 1P f k P f k P f k= = − ⟨ + − ⟨ Deci am determinat o distribuţie de probabilitate care poate fi
reprezentată sub forma unei matrici:
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛==
321
321ppp
kfP
I. Elemente de teoria probabilitatilor Variabile aleatoare
13
1.2.3.1.Proprietăţi Funcţia de repartiţie are următoarele proprietăţi:
a) ( ) ( )a b F a F b≤ ⇒ ≤ b) ( )lim 0a
F a→−∞
=
c) ( )lim 1a
F a→+∞
= d) este continuă la stânga. F
1.2.3.2. Dacă este continuă spunem că F f este variabilă aleatoare continuă.
În acest caz, probabilitatea ca f să ia orice valoare particulară este 0 ⇒ ( )( ), 0P f xξ ξ∀ = =
1.2.3.3. Exemplu : Dacă ne punem problema probabilităţii ca temperatura în cameră să fie t
=20,347562 aceasta este evident zero şi de fapt problema nici nu are sens – în măsura în care temperatura este o valoare medie în jurul căreia avem fluctuaţii continue. Dacă ne punem problema ca temperatura să fie într-un anumit interval noţiunea de funcţie de repartiţie capătă un conţinut concret.
1.2.4. Densitatea de repartitie Fie funcţia de repartiţie a unei variabile aleatoare ξ. Dacă există o
funcţie ( )F x
( )xρ , integrabilă pe intervalul ( )+∞∞− , , cu proprietatea că pentru orice este verificată egalitatea: x∈
( ) Fxx
ρ ∂=∂
atunci, ( )xρ se numeşte densitatea de repartiţie sau densitatea de probabilitate a variabilei aleatoare ξ, În acest caz, probabilitatea ca variabila aleatoare să ia valori într-un interval ( este dată de formula: )
t
ρ
,a−∞
( )( ) ( ) ( )a
P x a F a t dξ ρ−∞
⟨ = = ∫ şi respectiv:
( )( ) ( ) ( ) ( ) ( ) ( )a b a
bP b x a F a F b t dt t dt t dtξ ρ ρ
−∞ −∞≤ ⟨ = − = − =∫ ∫ ∫
I. Elemente de teoria probabilitatilor Variabile aleatoare
14
1.2.5. Valoarea medie Se numeşte valoare medie (sau speranţă matematică) a unei valori
aleatoare f, numărul ( ) i iM f x=∑ p , atunci când ξ este o variabilă aleatoare simplă şi,
respectiv
( ) ( )M f x xρ+∞
−∞= ∫ dx , atunci când ξ este o variabilă aleatoare continuă,
cu densitatea de probabilitate ρ. În literatură, operatorul de medie se mai notează şi cu E, de la
“expectation” – speranţă în engleză. În cazul variabilelor simple se observă că valoarea medie a variabilei f
este media ponderată a valorilor sale xi, cu ponderile pi, care reprezintă “frecvenţele” de apariţie ale valorilor respective.
1.2.5.1.Proprietăţi ale mediei:
Dacă f şi g sunt independente, atunci avem: a) ( ) ( )M af aM f=
b) ( ) ( ) ( )M f g M f M g+ = +
c) ( ) ( ) ( )* *M f g M f M g= Vom schiţa o demonstraţie a proprietăţii b):
( ) ( )( )
( )( ) ( )( ),
k l k lk l
k l k k lk l l k
M f g P F G x x
P F G x P F G x
+ = + =
= + l
∑∑ ∑ ∑ ∑
∩
∩ ∩
Dar, pe de altă parte, folosind proprietăţile intersecţiilor şi reuniunilor de mulţimi, respectiv distributivitatea intersecţiei faţă de reuniune şi a intersecţiei faţă de reuniune, şi faptul că l
lG E=∪ avem
( ) ( )( ) ( )k l lk kl lP F G P F G P F= =∑ ∩ ∩ ∪
şi similar, ( ) ( )k l l
kP F G P G=∑ ∩
Deci, ( ) ( ) ( ) ( ) ( )k lk lk l
M f g P F x P G x M f M g+ = + = +∑ ∑
I. Elemente de teoria probabilitatilor Variabile aleatoare
15
1.2.5.2. Definitie: a) Noţiunea de medie se generalizează, definindu-se momentul de ordin k al unei variabile aleatoare: • i i( ) k
kM f = x p∑ , atunci când ξ este o variabilă aleatoare simplă şi respectiv,
• ( ) ( )kkM f x x dxρ , atunci când ξ este o variabilă aleatoare
continuă.
+∞
−∞= ∫
b) Se numeşte moment centrat de ordin k al variabilei aleatoare f momentul de ordinul k al abaterii sale faţă de medie. ( ) ( ) i
kfi
ck pxfM ∑ −= μ
şi respectiv, ,în cazul unei variabile aleatoare
continue.
( )[ ] ( )dxxfMxk
ck ρμ ∫
+∞
∞−−=
Dispersia de selecţie, sau varianta unui şir de rezultate numerice ale unui experiment este media aritmetică a pătratelor abaterilor acestor valori faţă de media lor aritmetică X .
Dacă 1 2, ,..., nx x x sunt cele valori ale seriei, dispersia de selecţie a acestora, , este:
n2Xs
( )2
2 iX
x Xs
n
−=∑
După cum vom vedea mai departe la statistică, o formulă mai utilă
pentru dispersia de selecţie este: ( )2
2
1i
X
x Xs
n
−=
−∑
Dispersia de selectie este indicatorul principal al împrăştierii datelor unui experiment.
Dispersia unei variabile aleatoare este conceptul ce generalizează dispersia de selecţie.
I. Elemente de teoria probabilitatilor Variabile aleatoare
16
1.2.6. Dispersia Dispersia variabilei aleatoare X se notează cu ( )D X sau 2σ şi este, în
particular, momentul centrat de ordinul doi:
• , atunci
când variabila aleatoare este continua, şi respectiv
( ) ( )( ) ( )( ) ( )222D X M X M X x M X x dxσ ρ
+∞
−∞⎡ ⎤= = − = −⎣ ⎦ ∫
• i( )( ) ( )2 22i XM X M X xσ ⎡ ⎤= − = −⎣ ⎦ ∑ pμ , atunci când variabila
aleatoare este discretă. Rădăcina pătrată a dispersiei, σ, se numeşte abaterea medie pătratică a
variabilei X, iar sx abaterea standard.
1.2.6.1.Proprietăţi a) Pentru orice variabilă aleatoare X şi orice constante a şi b
( ) ( )2D aX b a D X+ = b) Dacă X, Y sunt două variabile aleatoare independente
( ) ( ) ( )D X Y D X D Y+ = + Demonstraţie:
Pentru orice două variabile aleatoare X şi , cu mediile Y Xμ şi respectiv Yμ , avem
( ) ( ) ( ) ( )( )( ) ( ) ( ) ( )( )
2 2
2 2X Y X Y
X Y X
D X Y M X Y M X M Y
M X Y D X D Y M X Y
μ μ μ μ
μ μ μ μ
+ = + − − = − + − +
+ − − = + + − −⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦
2
Y
Dar, atunci când X şi Y sunt independente ( ) X YM XY μ μ⇒ = ,
( )( ) ( )0
X Y Y X X Y
X Y X Y X Y X Y
M X Y M XY X Yμ μ μ μ μ μ
μ μ μ μ μ μ μ μ
− − = − − +⎡ ⎤⎣ ⎦= − − + =
=
( )( ) 0X YM X Yμ μ⇒ − −⎡ ⎤⎣ ⎦ = şi deci ( ) ( ) ( )D X Y D X D Y+ = + c) Între dispersie, valoarea medie şi momentul de ordinul doi există relaţia:
( ) ( ) ( )( )22D f M f M f= − Demonstraţie:
I. Elemente de teoria probabilitatilor Variabile aleatoare
17
μ =( ) ( )
( ) ( ) ( )( )
2 2 2
22 2 2 2
2
2
i X i i i i X i X i
X X
D X x p x p x p p
M f M f M f
μ μ
μ μ
= − = − +
= − + = −
∑ ∑ ∑ ∑
1.2.6.2.Observaţie Dacă numim ( )2M f – media pătratului si ( )( )2
M f – pătratul mediei formula capătă o formulare uşor de reţinut:”Dispersia este egală cu media pătratului, minus pătratul mediei”.
Relaţia se mai poate scrie sub forma ( )2 2XM X 2
Xμ σ= + şi am putea s-o numim „teorema lui Pitagora în probabilitate”.
1.2.6.3.Exemplu
În modelul clasic al urnei cu bile pe care l-am prezentat mai sus, probabilitatea evenimentului “din n bile extrase, k sunt albe” era
knkknk qpCp −= .
Media variabilei aleatore X care da numărul de bile albe din bile extrase va fi, prin definiţie,
n
( ) k k n knM X kC p q −=∑
Pentru a calcula această sumă considerăm următoarea identitate ( )n k k k n k
npt q C p t q −+ = ∑ , pe care o derivăm în raport cu t
( )( ) ( )n k k k n knpt q C p t q −′ ′+ = ∑
( ) 1 1n k k k n knnp pt q C p kt q− − −+ = ∑ şi apoi facem
⇒ 1t = k k n knnp C p kq −=∑
Am obţinut, deci, ( )M X np= Folosind aceiaşi identitate, dar derivând de două ori se arată că:
( )D X np= q . Cunoaşterea mediei şi dispersiei unei variabile aleatoare dă o
indicaţie asupra intervalului în care se află valorile variabilei, cu cea mai mare probabilitate. Mai exact, după cum arată teorema următoare, cu cât ne îndepărtăm mai mult de valoarea medie, cu atât valorile respective sunt mai puţin probabile ca valori ale variabilei date.
I. Elemente de teoria probabilitatilor Variabile aleatoare
18
1.2.7. Inegalitatea lui Cebâşev Dacă σ2 este dispersia variabilei aleatoare X , probabilitatea ca
modulul abaterii sale de la valoarea medie să ia valori mai mari decât un
număr 0ε ⟩ este mai mică decât 2
2
εσ .
( )2
2P x m σεε
− ≥ ≤
Demonstraţie:
Pornim de la definiţia dispersiei ( )[ ] ( ) iii pmxmxM 222 ∑ −=−=σ şi împărţim suma în doi termeni: unul corespunzător valorilor pentru care ix
ε≥−mxi şi unul corespunzător valorilor lui pentru care ix ix m ε− ⟨ .
( ) ( ) ( )2 22
i i
i i i i i ix m x m
2x m p x m p x m pε ε
σ− ⟨ − ≥
= − = − + −∑ ∑ ∑
Dacă neglijăm primul termen al sumei şi minorăm mxi − înlocuindu-l cu ε în al doilea termen, se obţine ( )
n
i
kkkmx
i pppp +++=≥ ∑≥−
...21
222 εεσε
,
cunkkk ppp +++ ...
21suma probabilităţilor valorilor pentru care
ikx
ε≥− mxik .
Dar ( )1 2
...nk k kp p p P x m ε+ + + = − ≥ şi deci am obţinut
( )2 2P x mσ ε≥ − ≥ ε ceea ce implică următoarea relaţie:
( )2
2P x m σεε
− ≥ ≤ .
Deoarece suma între probabilitatea unui eveniment A şi probabilitatea evenimentului contrar CA este 1, avem ( ) (1P CA P A= − ) şi inegalitatea se mai poate scrie sub forma
( )2
21iP x m σεε
− ⟨ ⟩ −
I. Elemente de teoria probabilitatilor Variabile aleatoare
19
1.2.7.1.Exemplu: Fie σε 3= , atunci inegalitatea Cebâşev dă:
( ) 88.098
9113 ==−=⟨− εmxP i
Exprimat în cuvinte, această inegalitate aparent banală, spune din punct de vedere fenomenologic, enorm de mult:
Probabilitatea ca orice variabilă aleatoare să ia valori mai
îndepărtate de valoarea sa medie decât de trei valori standard, este mai mică decât 0,12.
Vom vedea mai departe că, în cazul în care variabila aleatoare are suplimentar unele proprietăţi de regularitate, această probabilitate este chiar mult mai mică. Aceiaşi inegalitate ne permite înţelegerea legăturii între frecvenţa şi probabilitate, legătura care exprimă însăşi fundamentarea statisticii pe teoria probabilităţilor. Să considerăm variabila aleatoare care dă numărul de bile albe într-o extracţie de n bile din urnă. Pentru această variabilă avem următoarea teoremă, care se generalizează în teoria probabilităţilor în forme care depăşesc însă cadrul acestei lucrări.
1.2.8. Teorema lui Bernoulli (legea numerelor mari): Dacă se notează cu p probabilitatea ca un eveniment A (de exemplu
apariţia bilei albe) să se realizeze într-un experiment şi nkfn = este
frecvenţa cu care se realizează evenimentul A în n experimente identice consecutive, şirul ( )nf converge către în probabilitate. p
Altfel spus:
Frecvenţa experimentala tinde în probabilitate la probabilitatea teoretică.
I. Elemente de teoria probabilitatilor Variabile aleatoare
20
Demonstraţie:
( ) ( )( )εεε nkMkPnnpkPpnkP nnn ≥−=≥−=⎟⎟
⎠
⎞⎜⎜⎝
⎛≥− ∞→∞→∞→ limlimlim
Dar, aplicând inegalitatea lui Cebâşev: ( )( ) 22
2
εσε
nnkMkP ≤≥− şi deci
0limlim 22
2
=≤⎟⎟⎠
⎞⎜⎜⎝
⎛≥− ∞→∞→ ε
σεn
pnkP nn
Teorema lui Bernoulli afirmă numai că inegalitatea ε≥− pfn nu
are şansa să fie realizată sau că inegalitatea nf p ε− ⟨ are şanse mari să fie îndeplinită dacă n este suficient de mare
I. Elemente de teoria probabilitatilor Distributii de probabilitate
21
1.3. DISTRIBUŢII DE PROBABILITATE
1.3.1. Distribuţia normală Spunem că o variabilă aleatoare este normal repartizată ( )2,σmN ,
atunci când densitatea sa de probabilitate este data de formula:
( )( )
2
2
2
21,, σ
πσσρ
mx
emx−
−=
O primă condiţie ca ( )xρ să fie distribuţie de probabilitate este aceea că
( ) ( )( ) 1=+∞⟨⟨∞−=∫+∞
∞−tfPdxxρ
Pentru a verifica această condiţie, vom demonstra mai intai, folosind integrala dublă, ca:
π22
2
=∫∞+
∞−
−dxe
x
Fie 2 2
2 20 0
x y
I e dx e dy+∞ +∞− −
= =∫ ∫ , 2 2 2 2
2 2 2 20 0
*x y x y
D
I e dx e dy e dxdy+
+∞ +∞− − −⇒ = =∫ ∫ ∫∫
Facem schimabarea de variabila: cosx ρ θ= si siny ρ θ= unde
( )0 ,ρ ∈ ∞ si 0 ,2πθ ⎡ ⎤∈ ⎢ ⎥⎣ ⎦
.
Vom obtine: 2 2 2
2 2 2 2 20 0 0 02 2
I e d d e d eπ ρ ρ ρ
2π π πρ ρ θ ρ ρ
+∞ +∞− − − +∞= = = −∫ ∫ ∫ =
Am obtinut ca 2
2I π
=2
2 2I π π
⇒ = =
Dar, 2 2
2 20
22* 2* 2* 22
x x
e dx e dx I π π+∞ +∞− −
−∞= = = =∫ ∫
În cazul nostru, dacă facem schimbarea de variabilă σ
mxu −= avem
( )( )
12
12
1 22
2
2
2
=== ∫∫∫∞+
∞−
−∞+
∞−
−−∞+
∞−duedxedxx
umx
σπσπσ
ρ σ
I. Elemente de teoria probabilitatilor Distributii de probabilitate
22
Vom arăta în continuare că o variabilă aleatoare normal repartizată are media m şi dispersia . 2σ
Să calculăm mai întâi media:
[ ]( )
( )( )
( ) mmmduuemdxemx
dxemmxdxxeXM
umx
mxmx
=+=+=+−
=
=+−==
∫∫
∫∫∞+
∞−
−∞+
∞−
⎟⎠⎞
⎜⎝⎛ −
−
∞+
∞−
−−∞+
∞−
−−
02
12
1
21
21
2221
22
22
2
2
2
2
σπσσ
σπσ
πσπσ
σ
σσ
Integrala este nulă deoarece funcţia de integrat este impară. Pentru calculul dispersiei ne folosim de identitatea: ( ) ( ) ( ) ( )2 22D X M X M X M X M X= − = −⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦
( )( )
( ) =+==−∞+
∞−
−−∞+
∞− ∫∫ dueumdxexXMumx
σσπσπσ
σ 22222
2
2
2
21
21
=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛++= ∫
∞+
∞−
−−−dueueumem
uuu222222
222
221 σσπ
2
2 2 2 21 22
u
m u eπ σπ
+∞ −
−∞
⎛ ⎞= +⎜ ⎟⎜ ⎟
⎝ ⎠∫ du
Calculăm separat integrala rămasă şi obţinem:
2 2 2 2
2 2 2 2 21* 2u u u u
u e du u ue du ue e du π+∞
−∞
+∞ +∞ +∞− − − −
−∞ −∞ −∞
⎛ ⎞ ⎛ ⎞= − − = − − =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠∫ ∫ ∫
unde am integrat prin părţi, luând ϕ=u şi ψ ′=−−
2
2u
ue
Deci am obţinut ( ) ( )πσππ
2221 222 += mXM şi înlocuind în
expresia lui ( )XD obţinem:
( ) ( ) 2222 2221 σπσππ
=−+= mmXD
Pornind de la proprietăţile operatorilor de medie şi dispersie ( ) ( ) mXMmXM −=− ( ) ( )XDmXD =− şi
I. Elemente de teoria probabilitatilor Distributii de probabilitate
23
( )XDaa
XD 2
1=⎟
⎠⎞
⎜⎝⎛
se obţine că, dacă o variabilă aleatoare este normal repartizată ( )σ,mN ,
variabila aleatoare redusă σ
mX − este repartizată ( )1,0N , deci cu distribuţia
de probabilitate
( ) 2
2x
ex−
=ρ
Funcţia de repartiţie asociată este funcţia ( ) dxett x
∫ ∞−
−=Φ 2
2
numită
funcţia lui Laplace şi ale cărei valori se găsesc în tabelele din practic toate cărţile de statistică şi probabilităţi.
1.3.2. Distribuţie binomială Distribuţia binomială apare, aşa cum s-a arătat mai sus, la descrierea
evenimentelor asociate extracţiilor dintr-o urnă cu bile albe şi bile negre. Distribuţia variabilei aleatoare “numărul de bile albe din n bile
extrase” se poate reprezenta şi sub formă matricială:
⎟⎟⎠
⎞⎜⎜⎝
⎛= −− 011100 ......
10qpC
nqpC
kqpCqpC
X nkn
knkkn
nn
nn
După cum am arătat media şi dispersia unei variabile aleatoare repartizate binomial sunt npM = si npqD =
Repartiţia binomială apare întotdeauna atunci când un experiment cu
numai două răspunsuri posibile se repetă de n ori. Un caz particular îl prezintă experimentele care se repetă de un număr foarte mare de ori, iar evenimentul în a cărui apariţie suntem interesaţi are o probabilitate foarte mică, categorisit uzual ca “eveniment rar”.
La limită, când ∞→n , , dar rămâne constant, 0→p np λ=np ,
se obţine distribuţia Poisson.
I. Elemente de teoria probabilitatilor Distributii de probabilitate
24
1.3.3. Distribuţia POISSON Considerăm deci că λ=np şi trecem la limită după n
( ) ( )=⎟
⎠⎞
⎜⎝⎛ −
+−−=
−
∞→−
∞→
kn
k
k
nknkk
nn nnkknnnqpC λλ 1
!1...1limlim
( ) ( )1 ... 11 *lim lim 1!
n kk
n nk
n n n kk n
λλn
−
→∞ →∞
− − + ⎛ ⎞= −⎜ ⎟⎝ ⎠
dar ( ) ( ) 11...1lim =+−−
∞→ kn nknnn şi
( )
λ
λ
λλλ −
−−
−
∞→
−
∞→ =⎥⎥
⎦
⎤
⎢⎢
⎣
⎡⎟⎠⎞
⎜⎝⎛ −=⎟
⎠⎞
⎜⎝⎛ − e
nn
nkn
n
n
kn
n 1lim1lim şi deci,
λλ −−∞→ = e
kqpC
kknkk
nn !lim
Deci, distribuţia Poisson este dată de matricea
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛= −−−− λλλλ λλλ
en
n
ek
keeX nk
!...
!...
!1
10
Calculând, după definiţie, media şi dispersia unei variabile aleatoare distribuite Poisson şi ţinând cont că
λλ ekk
k
=∑ ≥0 ! , λλλ e
kk
k
k
=∑ ≥0 ! , ( ) λλλ e
kkk
k
k2
2 !1 =−∑ ≥
,
λλλ ek
kk
k
=∑ ≥1 ! se obţine
( ) ( ) ( ) λλλλλλ λλλλλ
==−
=−
== ∑∑∑ ≥−
−−
≥−
≥
−
1
1
10 !1!1! k
k
k
k
k
k
eek
ek
ekekXM
( ) ( )
( )[ ] ( )
( ) λλλλ
λλλλλ
λλλλλλλ
λλλ
λλλ
λλ
=−+=
=−⎥⎦
⎤⎢⎣
⎡+−=⎟⎟
⎠
⎞⎜⎜⎝
⎛−+−=
=⎟⎟⎠
⎞⎜⎜⎝
⎛+−=
−=
−
≥ ≥−
≥−
≥ ≥ ≥−
≥−
∑ ∑∑
∑ ∑ ∑∑
22
22 11
2
0 0 02
2
0
2
!!1
!1
!!2
!!
eee
kk
kkkee
kkkke
kkk
kke
kkeXD
k k
kk
k
k
k k k
kkk
k
k
I. Elemente de teoria probabilitatilor Distributii de probabilitate
25
1.3.3.1. Exemplu: Numărul evenimentelor adverse la un medicament dat este repartizat
Poisson. Cel mai mult este utilizată distribuţia Poisson în fizica statistică.
1.3.4. Aproximarea normală a distribuţiei binomiale Ca o regulă generală, dacă np şi nq sunt mai mari sau egale cu 5,
poate fi folosită aproximarea normală. Pentru distribuţiile binomiale în care p<0,5 aproximarea este bună pentru valori ale lui np şi nq mai mici decât 5.
În aceste condiţii,
npq
pnk
npqnpk −
=− este aproximativ normal distribuit cu
media 0 şi deviaţia standard 1. Această transformare înlesneşte de obicei calculul probabilităţilor
binomiale.
1.3.5. Repartitia χ2 Helmert - Pearson Se consideră n observaţii independente x1, x2, …, xn (variabile aleatoare independente) normal distribuite ( )2,N m σ .
Variabilele standard ii
x muσ−
= , ni ,1= sunt de asemenea
independente, iar suma pătratelor lor va avea o distributie ce poate fi determinată. Se defineşte ∑= n
iuX1
2 . Distribuţia variabilei X rezultate se notează χ2(n) şi este diferită
pentru fiecare valoare a lui n, iar parametru n se defineşte ca numărul de gradelor de libertate.
Vom determina în continuare parametrii (media şi dispersia) unei variabile distribuite χ2.
Pentru a afla media distributiei χ2 este necesară aflarea lui [ ]2iuM .
Deoarece [ ] 0=iuM , ( ) ( ) ( ) [ ]22 2 1i i i iM u M u M u D u= − =⎡ ⎤⎣ ⎦ =
Ca urmare ( )2 2 21 1
*1n ni iM n M u M u nχ ⎡ ⎤⎡ ⎤ ⎡ ⎤ n= = =⎣ ⎦ ⎣ ⎦⎣ ⎦∑ ∑ =
Dispersia va fi:
I. Elemente de teoria probabilitatilor Distributii de probabilitate
26
( )
( ) ( )( ) ( )
2 2 21 1
22 4 2 4 1
n ni i
i i i i
D n D u D u
nD u n M u M u n M u
χ ⎡ ⎤⎡ ⎤ ⎡ ⎤= = =⎣ ⎦ ⎣ ⎦⎣ ⎦⎡ ⎤ ⎡ ⎤⎡ ⎤= = − = −⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦
∑ ∑
Pentru a obţine [ ]4iuM se foloseşte regula integrării prin părţi:
( ) ( ) ( ) ( ) ( ) ( )dxxgxfxgxfdxxgxf ∫∫ ′−=′
În acest caz se va identifică: ( ) ( )
( ) ( ) 22
23
22
3uu
uexgexg
uxfuxf
−−=′⇒=
=′⇒=, deci se va obţine:
( )2 2
2 2 2
4 4 4 32 2
3 2 22 2 2
1 12 2
1 1 13 3 32 2 2
u u
i
u u u
M u u u du u e du u ue du
u e u e du u e du M u
ρπ π
π π π
+∞ +∞ +∞− −
−∞ −∞ −∞
+∞ +∞ +∞− − −
−∞ −∞−∞
⎡ ⎤ = = = =⎣ ⎦
⎛ ⎞ ⎛ ⎞⎡ ⎤2 3− − = =⎜ ⎟ ⎜ ⎟ ⎣ ⎦⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
∫ ∫ ∫
∫ ∫ =
Atunci,
[ ] [ ] [ ]( ) ( ) 213 2242 =−=−= iii uMuMuD şi substituind în relaţia de mai sus se va obţine
( )2 2 2iD n nD uχ⎡ ⎤ ⎡ ⎤= =⎣ ⎦ ⎣ ⎦ n
Deci variabila este repartizată χ2(n), cu n grade de libertate, având:
222
21
2 ... nxxxx +++=
• media ( )2E nχ = , respectiv
• dispersia ( )2 2D nχ = . Se poate arăta că densitatea de probabilitate este dată de funcţia
( ) ( )2
12 22 2
2
1
22
n
nf en
χ
χ χ− −
=⎛ ⎞Γ⎜ ⎟⎝ ⎠
,
unde este funcţia Euler de speţa I-a studiată la cursul de matematică şi
anume : .
Γ
( ) 1
0
te t dtαα+∞ − −Γ = ∫
Repartitia se foloseşte foarte mult în statistica matematică în verificarea ipotezelor asupra egalităţii dispersiilor.
2χ
I. Elemente de teoria probabilitatilor Distributii de probabilitate
27
1.3.6. Repatiţia STUDENT Analog cu distribuţia , repartiţia t a fost propusă de Student
(pseudonimul lui W.S.Gosset, chimist statistician englez), pentru statistica selecţiilor mici şi exprimă deviaţiile mediilor de selecţie
2χ
x , faţă de media
întregii populaţii μ, măsurate în ns (abaterea standard a mediilor de
selecţie). Dacă sunt date două variabile aleatoare ( )1,0NZ ∈ si
independente, se spune că variabila ( )nV 2χ∈
( )nZT TVn
= ∈ n
este repartizată Student cu n grade de libertate. Mărimea t nu depinde decât de numărul gradelor de libertate. Distribuţia de probabilitate a unei variabile aleatoare repartizate
Student tinde pentru ∞→n , la distribuţia normală ( ) 2
2
21 t
et−
→π
ρ
Densitatea de probabilitate este dată de funcţia:
( )1
2 2
11 2* * 1
2
nnxf x
n nnπ
+−
+⎛ ⎞Γ⎜ ⎟ ⎛ ⎞⎝ ⎠= ⎜ ⎟⎛ ⎞ ⎝ ⎠Γ⎜ ⎟⎝ ⎠
+ unde x R∈ şi n N∈ .
I. Elemente de teoria probabilitatilor Distributii de probabilitate
28
1.3.7. Repartiţia F (Behrens - Fisher – Snedecor) a raportului a două dispersii
Se consideră frecvent în statistică raportul a două dispersii care
estimează aceeaşi dispersie generală a unei colectivităţi. Dintr-o colectivitate generală se extrag două selecţii ( )1
2 nU χ∈ , . ( )22 nV χ∈
Raportul lor este o variabilă aleatoare repartizată F
( )21
2
1 ,nnF
nVnU
F ∈=
Examinând acest raport se observă că el nu conţine dispersia
colectivităţii generale σ2 , de unde rezultă că distribuţia acestui raport nu depinde decât de numărul gradelor de libertate si ale celor două dispersii.
1n 2n
Densitatea de probabilitate este dată de funcţia:
( )1 1
1
2
1 22 21
1 1
1 2 2 2
2 * * * 1 **
2 2
n nnn
n nn nf x x x
n n n n
+−
−
+⎛ ⎞Γ⎜ ⎟ ⎛ ⎞ ⎛ ⎞⎝ ⎠= +⎜ ⎟ ⎜ ⎟⎛ ⎞ ⎛ ⎞ ⎝ ⎠ ⎝ ⎠Γ Γ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
2n
,
când 0x ⟩ .
II. Statistica matematica si biostatistica Teorema limita centrala
29
II. STATISTICĂ MATEMATICĂ ŞI BIOSTATISTICĂ
Statistica matematică este principala aplicaţie a teoriei
probabilităţilor. Procedeele statistice constau, în esenţă, în elaborarea unor concluzii plauzibile privitoare la colectivităţi mari de fenomene, pe baza cunoaşterii unui număr restrâns dintre acestea şi extrapolării rezultatelor.
Legile care stau la baza statisticii şi care permit aceste generalizări sunt teorema limită centrală şi legea numerelor mari.
Într-o exprimare intuitivă, avem rezultatul că, dacă o variabilă aleatoare ξ este suma unui număr mare de variabile aleatoare independente, fiecare variabilă aleatoare având o pondere mică în sumă, atunci funcţia de repartiţie a variabilei aleatoare ξ este foarte apropiată de o funcţie de repartiţie normală.
Exprimat mai riguros şi mai general, avem următoarea teoremă:
2.1. Teorema limită centrală (A.M.Leapunov) Fie nξξξ ,...,, 21 variabile aleatoare independente.
Fie ( ) ( ) 2,k k kM a D kξ ξ σ= = şi ( )33kkk aM −= ξρ când nk ,1=
Notăm ( ) ∑= nin 122 σσ , ( ) ∑= n
in 133 ρρ
Dacă ( )
( )0lim =∞→
n
nn σ
ρ , atunci funcţia de repartiţie a variabilei
( )( )n
nn aaaσ
ξξξ +++−+++ ...... 2121
tinde, când ∞→n , către funcţia ( )xΦ a lui Laplace.
( ) dtexx t
∫∞−
−=Φ 2
2
21π
Teorema limită centrală este teorema fundamentală a teoriei erorilor. Laplace, Gauss şi alţi matematicieni, studiind repartiţia erorilor, au ajuns la concluzia că funcţia de repartiţie normală poate fi luată drept model teoretic pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii.
II. Statistica matematica si biostatistica Teorema limita centrala
30
2.2. Teorema lui Cebâşev Dacă nζζζ ,...,, 21 sunt variabile aleatoare (discrete sau continue) independente ale căror dispersii sunt mai mici decât o constantă C, atunci oricare ar fi numărul pozitiv ε, probabilitatea inegalităţii
( ) ( ) ( )1 21 2 ...... nn M M Mn n
ζ ζ ζζ ζ ζ ε+ + ++ + +
− ⟨
tinde către 1, atunci când numărul variabilelor aleatoare tinde către infinit. Demonstraţie:
Să considerăm variabila aleatoare n
nζζζζ
+++=
...21 . Având în
vedere liniaritatea operatorului de calcul a mediei avem
( ) ( ) ( ) ( )1 2 ... nM M MM
nζ ζ ζ
ζ+ + +
= .
Aplicând inegalitatea lui Cebâşev variabilei aleatoare ζ se obţine:
( ) ( ) ( )1 2
1 21 22
......... 1
n
nn
DM M M nP
ζ ζ ζ
n nζ ζ ζζ ζ ζ ε
ε
+ + +⎛ ⎞⎜ ⎟⎛ ⎞+ + ++ + + ⎝ ⎠− ⟨ ≥ −⎜ ⎟⎜ ⎟
⎝ ⎠ Mai departe, din proprietăţile operatorului D
( ) ( ) ( )nC
nnC
nCCC
nDDD
nD nn ==
+++≤
+++=⎟
⎠⎞
⎜⎝⎛ +++
2222121 ......... ζζζζζζ
Deci
( ) ( ) ( )1 21 22
...... 1nn M M M CPn n
ζ ζ ζζ ζ ζ εnε
⎛ ⎞+ + ++ + +− ⟨⎜ ⎟⎜ ⎟
⎝ ⎠≥ −
Trecând la limita pentru ∞→n obţinem ( ) ( ) ( )1 21 2 ......lim 1nn
n
M M MP
n nζ ζ ζζ ζ ζ ε→∞
⎛ ⎞+ + ++ + +− ⟨ ≥⎜ ⎟⎜ ⎟
⎝ ⎠
şi cum probabilitatea nu poate depăşi 1, ( ) ( ) ( )1 21 2 ......lim 1nn
n
M M MP
n nζ ζ ζζ ζ ζ ε→∞
⎛ ⎞+ + ++ + +− ⟨ =⎜ ⎟⎜ ⎟
⎝ ⎠
II. Statistica matematica si biostatistica Teorema limita centrala
31
Cel mai frecvent, în practică, variabilele aleatoare iζ au aceiaşi medie μ şi concluzia teoremei devine
1...
lim 21 =⎟⎟⎠
⎞⎜⎜⎝
⎛⟨−
+++∞→ εμ
ζζζn
P nn
În esenţă, teorema lui Cebâşev stabileşte că, deşi variabilele aleatoare independente pot lua valori îndepărtate faţă de mediile lor, media aritmetică a unui număr suficient de mare de astfel de variabile aleatoare ia cel mai probabil valori apropiate de un număr constant
( ) ( ) ( )1 2 ... nM M Mn
ζ ζ ζ+ + + (sau μ atunci când mediile variabilelor sunt
egale între ele). Ca urmare, între comportarea fiecărei variabile aleatoare şi
comportarea mediilor lor există diferenţă esenţială. Putem spune foarte precis ce valoare va lua media aritmetică a acestor variabile aleatoare. Explicaţia acestui fapt constă în aceea că abaterile diverselor variabile aleatoare sunt de semne diferite şi, ca urmare, se compensează între ele. 2.3. Metoda verosimilitatii maxime
Metoda verosimilitatii maxime da ca estimatie a parametrului θ aceea valoare θ care face maxima functia de verosimilitate.
Valoarea lui θ care maximizeaza functia de verosimilitate maximizeaza si logaritmul functiei de verosimilitate.
Astfel estimatia de verosimilitate maxima (EVM) este o valoare a lui θ care maximizeaza functia de verosimilitate si logaritmul functiei de verosimilitate. In cele mai multe probleme cu un singur parametru necunoscut, multimea valorilor parametrului θ : ( )H este un interval al dreptei reale. Derivatele
( )ln ,P x θθ
∂∂
si ( )2
2
ln ,P x θθ
∂∂
vor exista in toate punctele interioare ale multimii ( )H EVM se gaseste ca radacina a ecuatiei de verosimilitate
( )ln ,0
P x θθ
∂=
∂
O radacina a ecuatiei de verosimilitate in care ( )2
2
ln ,0
P x θθ
∂⟨
∂ este
un punct de maxim relativ.
II. Statistica matematica si biostatistica Teorema limita centrala
32
Printre radacinile ecuatiei de verosimilitate pot aparea si puncte de minim relativ. Asrfel este necesar sa determinam semnul derivatei de ordinul doi sau sa se verifice daca radacina obtinuta este un maxim relativ. Apar situatii in care θ nu poate fi obtinut rezolvand ecuatia de verosimilitate. De exemplu, maximul global al functiei de verosimilitate poate sa se realizeze pe frontiera spatiului parametrilor ( )H Aplicatie:
Fie 1 2, ,..., nX X X variabile aleatoare independente (si identic repartizate) binare cu
( ) ( )1 1 0P X p= = ∈Θ = ,1 .
Cand ( ) ( )1 2 1 2, ,..., , ,...,nX X X x x x= n este observata, functia de verosimilitate este:
( ) ( ) ( ) ( )1 1
1
1 1ii
nx n xx n x
i
l p p p p p− −
=
= − = −∏ , unde 1
n
ii
x x=
= ∑ .
Pentru a gasi EVM pentru parametrul , trebuie sa determinam maximul functiei
p( )l p sau echivalent al functiei de log – verosimilitate care
este ( ) ( )lnL p l p= . Se observa ca
( )10
1
n xL nxp p p
−∂= − =
∂ −
are ca unica solutie ( )0 ,1p x= ∈ (pentru { }0 ,1x∈ se poate verifica separat
ca unicul punct critic al lui L este tot p x= ). Cum
( )
( )
2
22 2
10
1
n xL nxp p p
−∂= − − ⟨
∂ −
putem concluziona ca p x= este unicul punct de maxim al lui L , si prin urmare x este unicul EVM pentru p.
II. Statistica matematica si biostatistica Teorema limita centrala
33
Aplicatie: Fie 1 2, ,..., nX X X variabile aleatoare independente, identic
repartizate cu repartitia normala ( )2,N μ σ , unde
( ) ( )2, 0θ μ σ= ∈Θ = × , ∞ sunt parametri necunoscuti, iar . 2n ≥
Pentru o observatie ( ) ( )1 2 1 2, ,..., , ,...,nX X X x x x= n , functia de log-verosimilitate este:
( ) ( ) ( ) ( )2 22
1
1ln ln ln 22 2 2
n
ii
n nL l xθ θ μ σσ =
= = − − − −∑ π
dat fiind ca, in acest caz,
( )( )2
2212
x
f x eμσ
θ σ π
−−
=
Rezolvand din nou o problema standard de extrem (pentru functia de 2 variabile L ), gasim ca unicul punct de maxim al lui L , si deci unicul EVM pentru ( )2,θ μ σ= este dat de:
1
1 n
ii
x xn
μ=
= = ∑ ; ( )22
1
1 n
ii
x xn
σ=
= −∑
Astfel gasim o proprietate specifica repartitiei normale: media si abaterea medie patratica ale unui esantion sunt estimatori de verosimilitate maxima (EVM-uri) pentru media si dispersia populatiei.
Aplicatie: In multe teste de laborator se iau probe din apa unui rau pentru a se
vedea daca apa este buna pentru inot. In particular prezinta interes concentratia in bacterii coliform a apei. Numarul de bacterii coliform este determinat pentru fiecare din cele n probe din apa raului. S-a obtinut rezultatele 1 2, ,..., nx x x . Problema care se pune este de estima pe μ , media numarului de bacterii coliform in unitatea de volum a apei raului.
Presupunem ca bacteriile sunt dispersate la intamplare in apa raului si ca localizarile bacteriilor sunt puncte aleatoare in spatiu. Atunci probabilitatea de a gasi ix bacterii intr-o proba de volum unitate este data de repartitia Poisson:
II. Statistica matematica si biostatistica Teorema limita centrala
34
( )!
ix
ief x
x
μμ −
= , unde 0,1,2,...ix = si 0 μ≤ ⟨ ∞ .
Deoarece volumele disjuncte sunt independente, probabilitatea celor n masuratori 1 2, ,..., nx x x este
( ) ( )1
1
,!
ix nn
i ni
jj
eP x f xx
μμμ−
=
=
∑= =∏
∏
Avem: ln lniP x nμ μ= −∑
( )ln , 1i
P xx n
μμ μ
∂= −
∂ ∑ si ( )2
2 2
ln , 1i
P xx
μμ μ
∂= −
∂ ∑
Daca , 0ix ⟩∑ ( )ln ,0
P x μμ
∂=
∂ are solutia unica 1
ix xn
μ = =∑ .
In acest punct a doua derivata este negativa, ceea ce indica ca avem
un maxim relativ. Deoarece ( ),0 0P x = si ( ),P x μ → 0 cand μ → ∞ , x este un
maxim absolut.
Daca 0ix =∑ , ecuatia ( )ln ,
0P x μμ
∂=
∂ nu are solutie si maximul
se realizeaza pe frontiera spatiului parametrilor: 0μ = . Astfel, in fiecare
caz, avem xμ = . Probabilitatea variabilelor de selectie este maxima daca media
populatiei μ este estimata prin media de selectie x . Observam ca
( ) ( ) ( )1 1iM M X M X n
n nμ μ μ= = =∑ =
ceea ce arata ca xμ = este un estimator nedeplasat pentru μ .
II. Statistica matematica si biostatistica Teorema limita centrala
35
Observatie:
Cu ajutorul functiei de verosimilitate se construieste unul dintre cele
mai utilizate teste statistice pentru modele parametrice: testul raportului de verosimilitate. Definitie:
Fie X un esantion dintr-o populatie { }kP Pθ θ∈℘= ∈Θ⊂ ,
pentru care se considera urmatorul set de ipoteze : 0 0:H θ ∈Θ vs. 1:AH θ ∈Θ
unde si 0 1Θ ∪Θ =Θ 0 1Θ ∩Θ =Φ .
Se numeste test al raportului de verosimilitate LR 1,2 (Likelihood ratio test) orice test care respinge ipoteza daca si numai daca 0H
( ) [ ]0 ,1X cλ ⟨ ∈ , unde:
( ) ( )( )
0supsup
lX
lθ
θ
θλ
θ∈Θ
∈Θ
=
1 Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials, Statistics in Medicine, 27 (2008), 4874 - 4894 2 Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST)
II. Statistica matematica si biostatistica Teorema limita centrala
36
2.4. TEORIA SELECŢIEI 2.4.1. Populaţii şi selecţii. Inferenţa statistică
În practică avem adesea nevoie să facem judecăţi asupra unor mari colecţii de rezultate posibile experimental ori a altor cantităţi, dar nu putem sau este extrem de scump, să examinăm toate aceste date. În astfel de cazuri, în loc să examinăm întregul set de date pe care îl numim în cele ce urmează populaţie, tragem concluziile după examinarea a o parte din ele, alese la întâmplare, parte pe care o numim selecţie.
Procedeul de obţinere a probelor este numit tot selecţie, iar procedeul de extrapolare a concluziilor la întreaga populaţie este cunoscut ca inferenţa statistică.
Vom considera că o caracteristică dată a populaţiei este o variabilă aleatoare pe un câmp de probabilitate ( )PK ,,Ω în care elementele lui Ω sunt chiar elementele populaţiei, iar P este o probabilitate cunoscută sau nu.
Enumerarea valorilor observate ale caracteristicii urmărite şi a frecvenţelor lor relative defineşte repartiţia statistică a selecţiei.
Teorema lui Leapunov, numită şi teorema fundamentală a statisticii matematice, care justifică utilizarea metodei selecţiei stabileşte că funcţia de repartiţie statistică a caracteristicilor selecţiilor tinde la funcţia teoretică de repartiţie a caracteristicii studiate când volmul selecţiei tinde la ∞.
2.4.1.1. Exemplu
Putem dori să tragem concluzii despre evoluţia rezistentei unei tulpini de germeni patologeni la un medicament dat şi, în acest scop, examinăm rezultatele antibiogramelor făcute într-un eşantion de spitale într-o perioadă recentă (luniile de iarnă), comparată cu aceeaşi perioadă a anului precedent. Deşi rezultatele obţinute se referă la spitale şi mai precis numai la o parte din ele, concluziile le extindem la scara întregii populaţii.
2.4.1.2. Exemplu
Rezultatele privind absorbţia unui medicament după administrarea orală prin determinarea nivelurilor din plasma ale medicamentului la un lot de voluntari sănătoşi le considerăm ca rezultate probabile pentru întreaga populaţie ce include şi potenţiali pacienţi.
Populaţia poate fi infinită sau finită, în ultimul caz, numărul indivizilor populaţiei – N- se mai numeşte şi volumul populaţiei. În mod
II. Statistica matematica si biostatistica Teorema limita centrala
37
similar, numărul de indivizi sau valori din cadrul unei probe este denumit volumul probei sau volumul eşantionului.
Valabilitatea concluziilor despre populaţie depinde de “reprezentativitatea” probei. Pentru populaţii finite aceasta înseamnă că fiecare membru al populaţiei are aceeaşi şansă să fie selectat, când spunem că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Desigur că selecţia unor voluntari sănătoşi pentru determinarea parametrilor farmacocinetici ai unui medicament nu este din acest punct de vedere o selecţie reprezentativă. În cazurile în care avem motive să credem că patologia căreia se adresează medicamentul nu afectează funcţiile metabolice şi de excreţie, această aproximare este acceptată pentru motivul că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp de lucru mult crescute.
În practică, în studiile de bioechivalenţă, pentru reducerea volumului loturilor pe care se fac testările, se administrează amândouă medicamentele la toţi membri lotului, în două perioade diferite. Fiecare component al lotului primeşte unul din medicamente în prima perioadă şi celălalt în a doua perioadă.
Deoarece perioada de administrare poate influenţa şi ea rezultatul experimentului, alegerea indivizilor care vor primi în prima perioadă primul medicament se face în mod aleator. În cazul când sunt mai multe perioade, de exemplu I-IV, şi mai multe medicamente A, B, C, D se alcătuieşte un tabel de felul urmator
Tabelul nr. 1: I II III IV A B D C B C A D C D B A D A C B
aşa zisul pătrat “latin”, unde observăm că fiecare literă apare o singură dată în fiecare linie şi în fiecare coloană. Se numeşte pătrat latin deoarece, cum se va arata mai departe, în cazul în care mai intervine şi o altă variabilă, de exemplu doza din fiecare medicament, se folosesc şi litere grecesti, alcătuindu-se pătrate “greco-latine”.
Deasemenea, studiile de bioechivalenţă se fac tot pe voluntari sănătoşi, pornind de la ipoteza că modificările de biodisponibilitate asociate stărilor patologice sunt aceleaşi pentru cele două medicamente testate, ceea ce, evident, este numai în parte adevărat.
În toate experimentele biologice, planificarea experimentului trebuie făcută în aşa fel încât diferenţele în tratament să nu coincidă cu diferenţe în
II. Statistica matematica si biostatistica Teorema limita centrala
38
vârstă, sex, sau alţi parametri. Dacă, de exemplu, femeile din lot primesc primul medicament şi bărbaţii al doilea, se spune ca diferenţele de sex sunt “confundate” cu diferenţele de tratament. În acest caz nu se poate spune dacă diferenţele obţinute se datorează tratamentului sau diferenţei de sex.
2.4.1.3. Parametrii de selecţie ai unei variabile aleatoare :
Dacă printr-un procedeu oarecare cuantificăm răspunsul culturilor microbiene la antibioticele din exemplul 1, sau dacă luăm în consideraţie concentraţiile de medicament în sânge, din al doilea exemplu, şi probabilităţile ca valorile să aparţină unor intervale diferite, obţinem o variabilă aleatoare X asociată cu rezultatul experimentului corespunzător.
Parametrii acestei variabile aletoare sunt denumiţi, prin abuz de limbaj, “parametri ai populaţiei”.
Dacă în exemplul al doilea Xi este concentraţia de medicament în sângele bolnavului i, la o oră de la administrare, la primul voluntar putem obţine o valoare x1, pentru al doilea voluntar o valoare x2, etc. În acest fel găsim valorile ale varibilelor aleatoare independente
. nxxx ,...,, 21
nXXX ,...,, 21
2.4.2. Media de selecţie este o variabilă aleatoare:
nXXX
X n+++=
...21
Dacă distribuţia lui X este normală - ( )σμ,N , aceiaşi pentru fiecare i, datorită linearităţii operatorului M care defineşte media, obţinem
( ) XM X μ μ= = adică valoarea pentru media mediei de selecţie este media
populaţiei. Dacă la datele experimentale se adaugă o constantă, i iX X a′ = + ,
media de selecţie creşte cu aceeaşi constantă: ( )
aXn
aXW
ni +=+
= ∑1
Similar, dacă fiecare valoare se înmulţeşte cu o constanta ,
media de selecţie
ii kXZ =
Z se înmulţeşte cu aceeaşi contantă: XknkX
Zn
i == ∑1
II. Statistica matematica si biostatistica Teorema limita centrala
39
2.4.3. Dispersia de selecţie Ca o măsură a abaterii datelor faţă de media de selecţie, se introduce
noţiunea de dispersie de selecţie ( )21
2
11 ∑ −−
=n
iX Xxn
S .
În aplicaţiile practice, pentru reducerea numărului de calcule, formula se aduce la o altă formă şi anume:
( )
( )( )
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛−
−=⎟
⎠⎞⎜
⎝⎛ −
−
=+−−
=
=⎟⎠⎞⎜
⎝⎛ +−
−=−
−=
∑ ∑∑
∑
∑ ∑∑
nn
ii
ni
ni
n nii
niX
nx
xn
Xnxn
XnXnxn
XnxXxn
Xxn
s
1
2
122
12
1
222
1
2
12
1
22
11
11
21
1
21
11
1
Dacă . 2 2i i Zz kx a s k s= + ⇒ = 2
X
Într-adevăr
( ) ( )222 2 21 1
1 11 1
n nZ i is z Z kx a k X a
n n= − = + − − =
− −∑ ∑ Xk s
Xs se numeşte abaterea standard de selecţie sau deviaţie standard, când nu este pericol de confuzie privind variabila aleatoare la care se referă folosindu-se şi notaţia . dsSe mai utilizează în practică şi noţiunile:
• Dispersia”populaţiei” = ( )211
1 ∑ −−
ni Xx
nşi respectiv
• Deviaţia standard a “populaţiei”, precum şi “abaterea standard a mediei” (prescurtarea SEM – standard error of mean) definită prin
raportul XsMn
= SE
• precum şi coeficientul de variatie *100xsvX
= .
2.4.4. Covarianta de selecţie Covarianta de selecţie se defineşte prin formula
( )( )YyXxn
s in
iXY −−−
= ∑111
II. Statistica matematica si biostatistica Teorema limita centrala
40
Se observă că aceasta se mai poate scrie şi sub altă formă, mai utilă în sensul simplificărilor de calcul în anumite aplicaţii.
( )( )
( ) ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛−
−=−
−
=+−−−
=
=+−−−
=
∑ ∑ ∑∑
∑
∑ ∑ ∑
nn n
iiii
nii
nii
n n niiiiXY
nyx
yxn
YXnyxn
YXnYXnYXnyxn
YXnxYyXyxn
s
11 1
1
1
1 1 1
11
11
11
11
2.4.5. Coeficientul de corelaţie de selecţie Coeficientul de corelaţie de selecţie se defineşte prin formula
( )( )( )
( ) ( )( )( )
( ) ( )
1
2 2
1 1
1
2 2
1 1
11,
1 11 1
ni i
XY
n nX Yi i
ni i
n ni i
x X y Ys nx ys s
x X y Yn n
x X y Y
x X y Y
ρ− −
−= = =− −
− −
− −=
− −
∑
∑ ∑
∑∑ ∑
2.4.6. Proprietăţi ale caracteristicilor de selecţie Considerăm în continuare o selecţie de volum n dintr-o populaţie cu media μ si dispersia 2σ 2.4.6.1. Propoziţie
Media mediei de selecţie este egală cu media populaţiei. ( )M X μ=
Demonstraţie:
( ) ( ) ( )i iM x M x nM Xn n n
μ μ= = =∑ =∑
2.4.6.2. Propoziţie Media dispersiei de selecţie este egală cu dispersia populaţiei
( )2 2XM s σ=
Demonstraţie:
II. Statistica matematica si biostatistica Teorema limita centrala
41
( ) ( ) ( )( ) ( )
( )
222 21 1 1
22 22 21 1
2
121
1 1 21 1
1 121 1
11
n n nX i i i
n ni i
nin
i
M s M x X M x X x xn n
M x nX nX M x nXn n
xM x
n n
⎛ ⎞= − = − +⎜ ⎟− −⎝ ⎠
− + = − − =− −
⎛ ⎞⎜ ⎟
= −⎜ ⎟− ⎜ ⎟⎝ ⎠
∑ ∑ ∑
∑ ∑
∑∑
1
n=∑
Dar, mai departe
( ) ( )2 21
niM x n 2σ μ= +∑
( )( ) ( ) ( ) ( )
( ) ( )
22
11 1
21
2 2 2 2 2 2
2
12
21
n n ni i i
i j
ni i
M x M x x x
n nM x M x M x
n n n n n
j
j
σ μ μ σ
≠
⎛ ⎞
μ
= + =⎜ ⎟⎝ ⎠
−= +
= + + − = +
∑ ∑ ∑
∑ =
şi înlocuind în expresia lui ( )2XM s obţinem
( ) ( )2 2 2 22 2
1X
n nM s
nσ μ σ μ
σ+ − −
= =−
2.4.6.3. Propoziţie
Variabila aleatoare
n
xZσμ−
= tinde , când ∞→n către o variabilă
( )1,0NAceasta este o consecinţă a teoremei limită centrală şi este aplicabilă
atât variabilelor continue cât şi celor discrete. Într-adevăr aplicând teorema lui Leapunov pentru variabilele
aleatoare obţinem că: nxxx ,...,, 2,
( )
n
Xn
nXnxxx nn
σμ
σμ
σσσμμμ −
=−
=+++
+++−+++2222
2121
.........
tinde către o variabilă aleatoare ( )1,0N .
II. Statistica matematica si biostatistica Teorema limita centrala
42
2.4.6.4. Propoziţie Dacă variabila aleatoare X este normal distribuită, atunci variabila
aleatoare ( )2
2
1σ
XsnV −= este repartizată ( )12 −nχ
Demonstraţie:
( )( ) ( ) ( )[ ]
( ) ( )( ) ( )
( ) ( )( ) ( )
( ) ( )2
2
121
21
22
21 1 1
22
21
2
21
2
2
2
2
1
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛−
−⎟⎠⎞
⎜⎝⎛ −
=−−−
=
=−+−−−−
=
=−+−−−−
=
=−−−
=−
=−=
∑∑
∑
∑ ∑ ∑
∑∑
n
XxXnx
XnXnXnx
XXxx
XxXxsnV
n i
ni
ni
n n nii
ni
niX
σμ
σμ
σ
μμ
σ
μμμμ
σ
μμμμ
σ
μμ
σσ
Dar variabila aleatoare σμ−ix
este repartizată ( )1,0N deoarece
( )ii M xxMμμ
σ σ−−⎛ ⎞ =⎜ ⎟
⎝ ⎠ şi
( )12 ==⎟
⎠⎞
⎜⎝⎛ −
σσμ ii xDx
D , iar ( )
n
Xσμ− este
repatizată tot ( )1,0N în conformitate cu teorema limită centrală. Deci, V este o sumă de n-1 pătrate de variabile de tip ( )1,0N .
2.4.6.5. Propoziţie Dacă este o selecţie dintr-o populaţie normal distribuită, atunci variabila aleatoare
nxxx ,...,, 21
ns
XT μ−= este repartizată Student cu n grade de libertate.
Demonstraţie:
II. Statistica matematica si biostatistica Teorema limita centrala
43
( )( ) 11 2
1
2
−
=
−
−
−
=
−
=−
∑nVZ
nXx
n
X
sn
X
ns
Xn
i
σ
σμ
σ
σμ
μ
unde
n
XZ σμ−
= este repartizată ( )1,0N , iar ( )
21
2
σ∑ −
=n
i XxV este
repartizată ( )12 −nχ . Deci, T este repartizată Student cu n-1 grade de libertate. 2.4.6.6. Propoziţie Date fiind două selecţii aleatoare independente si
din populaţii normal distribuite 111211 ,...,, nxxx
2,...,, 2221 nxxx ( )11,σμN şi ( )22 ,σμN ,
variabila aleatoare
22
22
21
21
σ
σS
S
F = este repartizată Fisher – Snedecor
( )1,1 21 −− nnFDemonstraţie: Avem într-adevar
( )( )( )
( ) 222
1
2
22
211
1
2
11
22
22
21
21
1
12
1
σ
σ
σ
σ
−
−
−
−
==∑
∑
nXx
nXx
S
S
Fn
i
ni
iar număratorul şi numitorul sunt repartizate, conform propozitiei 2.3.5.4.,
respectiv ( )
11
1
12
−−
nnχ şi
( )1
1
2
22
−−
nnχ .
II. Statistica matematica si biostatistica Teorema limita centrala
44
2.5. Estimaţii Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în
general cunoscute. Valorile numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul în care se folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în cazul în care se determină un interval în care se află, cu o anumită probabilitate valoarea estimată.
Un estimator al parametrului θ se va nota cu . O estimaţie este θnedeplasată dacă ( )ˆM θ θ= , adică media estimaţiei este egală chiar cu
valoarea teoretică a parametrului estimat. Conform proprietăţii 2.3.5.1, ( )M X μ= adică media de selecţie
este un estimator nedeplasat al mediei, iar conform proprietăţii 2.3.5.2., ( )2M s 2σ= adică dispersia de selecţie este un estimator nedeplasat al
dispersiei. Problema estimării intervalelor se reduce la găsirea unui interval de
încredere ( UL )θθ , cu un coeficient de încredere α−1 astfel încât ( ) αθθθ −=⟨⟨ 1ULP .
Este de dorit ca α−1 să fie cât mai mare (de obicei este cuprins între 0,9 şi 0,99) iar intervalul ( )UL θθ , să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se numesc cuantile de ordin β valoarea a variabilei aleatoare βx x pentru care ( ) ( ) βββ =⟨= xxPxF adică valoarea variabilei aleatoare care are la stânga
ei aria β sub curba densităţii de probabilitate. Evident:
22
αα =⎟⎟⎠
⎞⎜⎜⎝
⎛⟨ xxP
21
21
αα −=⎟⎠⎞⎜
⎝⎛ ⟨ −xxP
ααααα −=−−=⎟⎟⎠
⎞⎜⎜⎝
⎛⟨⟨ − 1
221
21
2
xxxP
Pentru a estima un interval se alege α−1 , se citesc din tabelele cuantilele, de exemplu
21 α−
x şi 2αx şi se precizează intervalul. În prealabil, în
funcţie de mărimea pentru care se caută intervalul se precizează cu care din repartiţiile cunoscute trebuie lucrat.
II. Statistica matematica si biostatistica Teorema limita centrala
45
2.5.1. Estimarea intervalelor de încredere pentru medii 2.5.1.1.Cazul când se cunoaste dispersia. Se consideră o populaţie repartizată normal ( )2,σμN . Dacă se cunoaşte
dispersia se poate folosi faptul că XZ
n
μσ−
= este repartizată . Se
notează cu cuantila de ordinul
( 1,0N )
αz α pentru repartiţia ( )1,0N . Evident
1 12 2 2 2
1 12 2
P z Z z F z F zα α α αα α α
− −
⎛ ⎞ ⎛ ⎞ ⎛ ⎞⟨ ⟨ = − = − − = −⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
Aşadar intervalul ⎟⎟⎠
⎞⎜⎜⎝
⎛−
21
2
, αα zz este un interval de estimare cu coeficientul
de încredere α−1 . Din anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la dreapta cât şi la stânga lor aceeaşi
arie, egală cu 2α .
Deoarece repartiţia ( )1,0N este simetrică faţă de axa Oy avem relaţia
21
2αα
−−= zz
Din relaţiile
1 1 1 12 2 2 2
1 12 2
1 12 2
* *
* *
Xz Z z z z
n
z X zn n
X z X zn n
α α α α
α α
α α
μσ
σ σμ
σ σμ
− − − −
− −
− −
−− ⟨ ⟨ ⇒ − ⟨ ⟨
⇒ − ⟨ − ⟨ ⇒
− − ⟨ − ⟨ − +
⇒
rezultă
1 12 2
X z X zn nα ασ σμ
− −− ⟨ ⟨ +
Aşadar intervalul căutat este
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+−=
−− nzX
nzXUL
σσθθ αα2
12
1,,
II. Statistica matematica si biostatistica Teorema limita centrala
46
Mărimea n
zE σα2
1−= poartă numele de eroare şi serveşte la calculul
numărului de experienţe
2
21
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛=
−
E
zn
α
atunci când este impusă eroarea şi se
alege un coeficient α−1 Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este
repartizată normal deoarece z este repartizată ( )1,0N indiferent de repartiţia variabilelor 1 2, ,..., nX X X (teorema limită centrală).
2.5.1.2.Cazul când dispersia este necunoscută Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează
dispersia de selecţie care este un estimator nedeplasat al dispersiei deoarece ( )2 2
XE s σ=
Se consideră o selecţie dintr-o populaţie de tipul nxxx ,...,, 21 ( )2, XN μ σ .
Conform celor arătate anterior mărimea X
XT sn
μ−= este repartizată
şi, ca urmare ( 1−nT )
ααααααα −=−−=⎟⎟⎠
⎞⎜⎜⎝
⎛−⎟⎟
⎠
⎞⎜⎜⎝
⎛=⎟⎟
⎠
⎞⎜⎜⎝
⎛⟨⟨
−−−−−−1
221
2,1
21,1
21,1
2,1 nnnn
tFtFtTtP
Deoarece repartitia Student este simetrică faţă de origine
21,1
21,1 αα
−−−−−=
nntt şi înlocuindu-l pe T în relaţia anterioară, se obţine
1, 1,1 1, 1,12 2 2 2
1n n n nX
XP t T t P t tsn
α α α αμ α
− − − − − −
⎛ ⎞⎜ ⎟⎛ ⎞ −
⟨ ⟨ = ⟨ ⟨ = −⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ⎜ ⎟⎝ ⎠
şi 1,1 1,1
2 2
X
n n
s sX t X tn nα αμ
− − − −− ⟨ ⟨ +
Ca urmare intervalul căutat este
II. Statistica matematica si biostatistica Teorema limita centrala
47
( )1,1 1,1
2 2
, ,X XL U n n
s sX t X tn nα αθ θ
− − − −
⎛ ⎞= − +⎜ ⎟⎝ ⎠
În acest caz eroarea este 1,1
2
X
n
sE tnα
− −=
Dacă numărul de experienţe este , se poate folosi aproximaţia 30⟩n
21
21,1 αα
−−−= zt
n
2.5.2.Estimarea intervalului de încredere α−1 pentru diferenţa a două medii Se consideră două selecţii din populaţii normal repartizate ( )2
11 ,σμN şi ( )2
22 ,σμN .
2.5.2.1. Cazul dispersiilor 22
21 ,σσ cunoscute.
Considerăm o selecţie aleatoare din populaţia 111211 ,...,, nxxx ( )2
11 ,σμN şi o
selecţie dintr-o populaţie222221 ,...,, nxxx ( )2
22 ,σμN .
Estimatorii nedeplasaţi ai mediilor 1μ şi 2μ sunt: 1
1 11
1
nx
Xn
i∑= si
2
1 22
2
nx
Xn
i∑=
Considerând variabila aleatoare 21 XX − , ea este normal repartizată iar estimaţia şi dispersia ei vor fi ( ) ( ) ( )1 2 1 2 1M X X M X M X 2μ μ− = − = − şi
( ) ( ) ( )2
22
1
21
2121 nnXDXDXXD σσ
+=+=− unde am ţinut cont că şi
sunt independente.
ix1 ix2
Mai departe, variabila aleatoare ( ) ( )
( )( ) ( )1 2 1 2 1 2 1 2
2 21 21 2
1 2
X X X XZ
D X Xn n
μ μ μ
σ σ
− − − − − −= =
− +
μ este repartizată N(0,1).
II. Statistica matematica si biostatistica Teorema limita centrala
48
Deoarece, 1
2 2
1P z Z zα α α−
⎛ ⎞⟨ ⟨ = −⎜ ⎟
⎝ ⎠ şi
21
2αα
−−= zz rezulta
( ) ( )2 2 21 2 1
1 2 1 2 1 21 11 2 1 22 2
X X z X X zn n n nα α
22σ σ σμ μ
− −− − + ⟨ − ⟨ − + +
σ
Aşadar, intervalul de estimaţie pentru diferenţa mediilor este
( ) ( ) ( )⎟⎟⎠
⎞⎜⎜⎝
⎛++−+−−=ΘΘ
−−2
22
1
21
21
212
22
1
21
21
2121 ,,nn
zXXnn
zXX σσσσαα
În acest caz, eroarea este 2
22
1
21
21 nn
zEσσ
α +=−
.
2.5.2.2. Dispersii necunoscute dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale
utilizăm dispersia ponderată de selecţie 222
21 σσσ ==
( ) ( ) ( ) ( )( ) ( )
( ) ( )1 2
2 21 1 2 22 2 21 2
1 21 2 1 2 1 2
2 2
1 1 2 21 1
1 2
1 11 11 1 1 1 2
2
p
n ni i
n s n sn ns s sn n n n n n
x X x X
n n
− + −− −= + =
− + − − + − + −
− + −=
+ −∑ ∑
=
ca un estimator nedeplasat pentru . 2σAvem într-adevăr,
( ) ( ) ( ) ( ) ( ) ( ) ( )2 2 2 21 1 2 2 1 1 2 22 2
1 2 1 2
1 1 1 12 2p
n M s n M s n nM s
n n n nσ σ
σ− + − − + −
= =+ − + −
=
În continuare vom arăta că mărimea ( ) ( )
21
2121
11nn
s
XXT
p +
−−−=
μμ este
repartizată ( )221 −+ nnT
II. Statistica matematica si biostatistica Teorema limita centrala
49
Se observă că
( ) ( )
21
2121
11
21
21
nns
XX
T
XX
p
XX
+
−−−
=
−
−
σ
σμμ
este raportul între o variabila
aleatoare repartizată N(0,1) şi deoarece
( ) ( )( ) 22
1111
11
21
1 1
2
22
2
11
221
1 1
2
22
2
11
2
2
21
21
21
1 2
1 2
21
−+
⎟⎟⎠
⎞⎜⎜⎝
⎛ −+⎟
⎟⎠
⎞⎜⎜⎝
⎛ −
=−+
−+−
===++
=+
∑ ∑∑ ∑
−
nn
XxXx
nnXxXx
ssnn
nn
snn
s
n n iin n
ii
ppp
XX
p
σσσ
σσσ
σ
variabila 21
11
21nn
s
XX
p +−σ
este de tipul ( )2
2
21
212
−+−+
nnnnχ
Dar 2
1111∑ ⎟⎟⎠
⎞⎜⎜⎝
⎛ −n i Xxσ
este repartizat ( )112 −nχ iar ∑ ⎟
⎟⎠
⎞⎜⎜⎝
⎛ −2
1
2
22n i Xxσ
este
repartizat , deci T este repartizat ( 122 −nχ ) ( )221 −+ nnT şi
ααααα −=−−=⎟⎟⎠
⎞⎜⎜⎝
⎛⟨⟨
−−+−+1
221
21,2
2,2 2121 nnnn
tTtP
Deoarece repartiţia Student este simetrică 2
1,22
,2 2121αα
−−+−+−=
nnnntt rezultă că
2121,2
2121212
1,221
11112121 nn
stXXnn
stXX pnn
pnn
+−−⟨−⟨+−−−−+−−+αα μμ
Deci,
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛++−+−−=ΘΘ
−−+−−+212
1,221
2121,2
212111,11,
1221 nn
stXXnn
stXX pnn
pnn
αα
cu eroarea 212
1,2
1121 nn
stE pnn+=
−−+α .
II. Statistica matematica si biostatistica Teorema limita centrala
50
2.5.3. Estimarea intervalelor de încredere pentru dispersie Considerăm o selecţie de volum n dintr-o populaţie normală ( )2,σμN .
Conform celor arătate anterior variabila aleatoare ( ) 2
2
1n sV
σ−
= este
repartizată ( )12 −nχ şi ca urmare
2 2
1, 1,12 2
1 12 2n n
P Vα αα αχ χ α
− − −
⎛ ⎞⟨ ⟨ = − − = −⎜ ⎟
⎝ ⎠
Deci, ( ) 2
21,12
22
2,1
1 αα χσ
χ−−−
⟨−⟨nn
sn si ( ) ( )2
2,1
22
2
21,1
2 11
αα χσ
χ−−−
−⟨⟨
−
nn
snsn .
2.5.4. Estimarea intervalului de încredere pentru raportul a două dispersii Se consideră selecţia aleatoare dintr-o populaţie
111211 ,...,, nxxx ( )21, ,σμN şi
o selecţie dintr-o populaţie222221 ,...,, nxxx ( )2
22 ,σμN .
Conform cu cele arătate anterior, raportul
22
22
21
21
σ
σs
s
F = este repartizat
şi deci ( )1,1 21 −− nnF ααααα −=−−=⎟⎟⎠
⎞⎜⎜⎝
⎛⟨⟨
−−−−−1
221
21,1,1
2,1,1 2121 nnnn
fFfP
Rezultă că 2
1,1,121
22
21
22
2,1,12
1
22
2121αα σ
σ−−−−−
⟨⟨nnnn
fssf
ss , iar intervalul de
estimaţie pentru raportul dispersiilor este:
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛=ΘΘ
−−−−−2
1,1,121
22
2,1,12
1
22
2121
,, ααnnnn
UL fssf
ss
II. Statistica matematica si biostatistica Teorema limita centrala
51
2.5.5. Aplicaţie: Utilizarea intervalelor de încredere în studiile de comparare a biodisponibilităţii medicamentelor3
La introducerea în terapie de către un producător a unui medicament
ce reprezintă o reproducere a altui medicament deja în uz, se pune problema comparării biodisponibilităţii acestora. În practică se cere ca raportul ariilor de sub curbele concentraţiilor plasmatice ale celor două medicamente să se afle in intervalul 0,8 - 1,25.
0,8 1,25TAUCRAUC
μμ
⟨ ⟨
unde indicele T se referă la medicamentul testat şi R desemnează medicamentul referinţă. Atunci însă când ariile de sub curbă prezintă variabilităţi intra şi interindividuale considerabile (determinările de biodisponiblitate se fac pe loturi de circa 10 – 20 de voluntari sănătoşi) este de preferat a se determina un interval de încredere pentru media ariei realizată de medicamentul nou.
Pornind de la faptul ca ( ) ( )
1 1R T R T
pR T
X XT
sn n
μ μ− − −=
+ este repartizată
se deduce un interval de încredere cu probabilitatea ( 2R TT n n+ − ) α−1 pentru T Rμ μ−
1 12 2
T R T RT RX X t X X tα αμ μ− −
− − ⟨ − ⟨ − +
unde am notat 1 1p
R T
s sn n
= + .
După cum se va arăta mai departe, această estimare este puţin utilă în caz că reprezintă practic intervariabilitatea, iar interschimbabilitatea care necesită bioechivalenţă trebuie să se bazeze pe intravariabilitate.
ps
3 W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 – 1, 1972
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
53
2.6. Verificarea ipotezelor statistice Ipoteze statistice
Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. Ele se referă fie la parametrii repartiţiei, fie la legea propriu zisa de repartiţie. Teste statistice
Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de elementele selecţiilor. Notaţii conventionale
Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se notează H0. Testarea necesită şi formularea unei ipoteze complementare, numită ipoteză alternativă şi notată HA. Dacă se acceptă H0, în mod normal se respinge HA şi invers.
Din acest motiv, ipotezele H0 si HA se aleg să fie complementare. Dacă testul priveşte valoarea unui parametru θ , de exemplu
00 : θθ =H şi 1: θθ =AH se poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să fie cunoscuţi şi, după acceptarea uneia din cele două ipoteze, distribuţiile ( )0,θρ x şi ( )1,θρ x devin complet definite. În acest caz, ipotezele sunt numite “simple”. Dacă însă ceilalţi parametric nu sunt cunoscuţi complet, ipotezele se numesc “ipoteze compuse”. De exemplu, dacă distribuţia este normală şi parametrul cautat este μ , iar dispersia este necunoscută, suntem în cazul unei ipoteze compuse. Probabilitatea unei decizii gresite
La verificarea ipotezelor se pot comite două feluri de erori: 1. Erorile de tipul 1 constau în respingerea ipotezei H0 atunci când
aceasta este adevărată. 2. Erorile de tipul 2 constau în acceptarea ipotezei H0 atunci când
aceasta este falsă. Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv β: α = P (respinge H0 / H0 adevărată) β = P (acceptă H0 / H0 falsă) = P (respinge HA / HA adevărată)
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
54
Deci, α este riscul de a respinge în mod greşit H0 şi β este riscul de a respinge în mod greşit HA. Probabilitatea de a respinge ipoteza H0 atunci când aceasta este falsă
βπ −= 1 se numeşte puterea testului. Coeficientul α este numit şi nivel de semnificaţie. Desigur că este de dorit ca valorile α şi β să fie cât mai mici. Valoarea lui α se alege şi în funcţie de importanţa implicaţiilor acceptării sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este considerat ca bun pentru majoritatea problemelor din practică. Dacă însă este vorba de un medicament foarte activ cum ar fi digoxina, este de preferat a alege α între 0,01 si 0,05. Pentru a verifica o ipoteză se folosesc datele de selecţie pentru calcularea unui test statistic. Domeniul de valori ale testului care corespunde respingerii ipotezei H0 cu probabilitatea α se numeşte regiune critică. Metodologia de verificare cuprinde în principiu următoarele etape:
1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului studiat, o repartiţie pentru populaţia statistică din care se face selectia;
2. se formulează ipoteza; 3. se calculează valoarea testului ales şi se compară cu limitele de
acceptare, respectiv respingere; 4. se acceptă sau se respinge, în funcţie de rezultat, ipoteza H0.
2.6.1. Ipoteze asupra mediei 2.6.1.1.Dispersia cunoscută
Se consideră o selecţia dintr-o populaţie normală ( )2,σμN . Considerăm variabila aleatoare X . Datorită linearităţii operatorului de mediere avem:
( ) ( )μμ
==⎟⎟
⎠
⎞
⎜⎜
⎝
⎛=⎟
⎟
⎠
⎞
⎜⎜
⎝
⎛= ∑∑
nn
nxM
nx
MXMn
in
i 11
Pentru dispersia lui X ţinem cont că ( ) xDabaxD 222 =+ ( ) şi că rezultatele xi reprezintă variabile aleatoare independente
( ) ( ) ( )jiji xDxDxxD 222 +=+ .
În aceste condiţii se obţine ( )
nnn
nxD
nx
Dn
in
i2
2
2
21
212 σσ
===⎟⎟
⎠
⎞
⎜⎜
⎝
⎛ ∑∑
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
55
Ca urmare a teoremei limită centrală, variabila aleatoare ( )
( )n
X
XD
XEXσμ−
=− este repartizata ( )1,0N .
Avem în acest caz, dacă vom alege un risc α , ipotezele şi criteriile de acceptare sau respingere conform cu tabelul de mai jos:
Tabelul nr. 2: H0 HA Regiunea critică
12
Z z α−
⟩ 0μμ = 0μμ ≠
12
Z z α−
⟨−
0μμ = 0μμ⟩ 1Z z α−⟩
0μμ = 0μμ⟨ 1Z z α−⟨−
2.6.1.2.Dispersia necunoscută În acest caz se înlocuieşte în formula anterioară σ cu estimaţia sa
şi se ţine cont că variabila aleatoare XsX
XT sn
μ−= este repartizată Student
cu n-1 grade de libertate.
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
56
2.6.2. Ipoteze asupra diferenţelor a două medii
2.6.2.1.Cazul când se cunosc dispersiile Se consideră două populaţii normale ( )2
11 ,σμN şi ( )222 ,σμN , o selecţie
aleatoare din din populaţia 111211 ,...,, nxxx ( )2
11 ,σμN şi o selecţie aleatoare
din populaţia 222221 ,...,, nxxx ( )2
22 ,σμN . Variabila aleatoare
( ) ( )
( )( ) ( )1 1 2 1 2 1
2 21 21 2
1 2
X X X XZ
D X Xn n
2μ μ μ μ
σ σ
− − − − − −= =
− +
este, dupa cum s-a
aratat anterior, repartizată N(0,1).
2.6.2.2.Cazul dispersiilor necunoscute, dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale
utilizăm dispersia ponderată de selecţie 222
21 σσσ ==
( ) ( ) ( ) ( )22
11
21
1 12
2
2
11
21
222
2112
1 2
−+
−+−=
−+−+−
= ∑ ∑nn
XxXxnn
snsnsn n
iip
ca un estimator nedeplasat pentru . 2σ
După cum s-a arătat anterior, mărimea ( ) ( )
1 2
1 2 1 22
1 2
1 1n n
p
X XT
sn n
μ μ+ −
− − −=
+
este repartizată ( )221 −+ nnT
2.6.2.3.Cazul observaţiilor perechi In cazul când observaţiile formează în mod natural perechi, cum ar fi de
exemplu când se măsoară concentraţiile în n probe, fiecare din ele cu două metode diferite sau cazul când două medicamente se administrează unui aceluiaşi lot de voluntari, în două perioade diferite.
Considerăm în acest caz variabila aleatoare 21 XXd −= . În cazul în care selecţiile aparţin la aceiaşi populaţie, media lui d va fi
zero: ( ) 0=dE .
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
57
Când se cunosc dispersiile avem ( )nn
dD d
22
212 σσ
σ +== şi variabila
aleatoare d
dσ
este repartizată ( )1,0N .
Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine
cont că variabila aleatoare
nsdd
după cum se poate arăta uşor, este
repartizată Student cu n-1 grade de libertate. 2.6.2.4. Compararea proporţiilor Dacă vom considera un experiment în care răspunsul este de tip da sau
nu, de exemplu vindecare sau nevindecare, supravieţuire sau moarte, etc., numărul de rezultate k de un anumit tip în n repetări ale experimentului este o variabilă aleatoare repartizată binomial.
Deoarece avem, după cum s-a calculat anterior ( ) npkE = şi , variabila aleatoare standardizată ( ) npqkD =
( )( )
npq
pnk
npqnpk
kDkEkz
−=
−=
−= se aproximează ca fiind normal repartizată.
Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”, cu parametrii (probabilitatea bilei albe) şi respectiv . În două selecţii din cele două populaţii, de volum şi respectiv presupunem că s-a obţinut răspuns “pozitiv” de şi respectiv ori.
1p 2p
1n 2n
1k 2k
Fie 2,1, == ink
hi
ii . În cazul ipotezei nule pppH == 210 : , variabila
aleatoare va fi distribuită cu media 0 şi dispersia 21 hh −
( ) ( ) ( ) ( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛−−=
−+
−=−
212
22
1
1121
11111nn
ppn
ppn
pphhD
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
58
În aceste condiţii se aproximează că variabila aleatoare
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+−
−
21
21
111nn
pp
hh va fi repartizată ( )1,0N .
O estimare naturală a lui p este 21
21
nnkkp
++
= .
O îmbunătăţire a aproximării se poate obţine prin introducerea unor
“corecţii de continuitate” pentru şi : 1h 2h
( )
1 21 2
1 2
1 12 2
1 11
h hn n
Z
p pn n
⎛ ⎞ ⎛− − −⎜ ⎟ ⎜
⎝ ⎠ ⎝=⎛ ⎞
− +⎜ ⎟⎝ ⎠
⎞⎟⎠
2.6.3. Estimarea dispersiei Considerăm o selecţie de volum n dintr-o populaţie normală ( )2,σμN .
Conform celor arătate anterior variabila aleatoare ( ) 2
2
1n sV
σ−
= este
repartizată ( )12 −nχ . 2.6.3.1.Estimarea raportului a două dispersii Se consideră selecţia aleatoare dintr-o populaţie
111211 ,...,, nxxx
( )211 ,σμN şi o selecţie aleatoare dintr-o populaţie
222221 ,...,, nxxx
( )222 ,σμN .
Conform cu cele arătate anterior, raportul
22
22
21
21
σ
σs
s
F = este repartizat
. ( )1,1 21 −− nnF
Se calculează 22
21
ssF = luându-se . 2
221 ss ⟩
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
59
( ) ( ) ( ) ( )[ ]
( ) ( )( ) ( )
( ) ( )2
1
2
21
2
21
22
21
2
21
2
2
2
2
1
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛−
−⎟⎠⎞
⎜⎝⎛ −
=−−−
=
=−+−−−−
=
=−−−
=−
=−
=
∑∑
∑
∑∑
n
XxXnx
XnnXnXx
XxXxsnv
n i
ni
ni
ni
ni
σμ
σμ
σμμ
σμμμμ
σμμ
σσ
Dar σμ−ix
este repartizat N(0,1) căci ( )
0=−
=⎟⎠⎞
⎜⎝⎛ −
σμ
σμ ii xEx
E şi
12 =⎟⎠⎞
⎜⎝⎛ −
σμix
D
Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).
2.6.3.2.Compararea mai multor dispersii. a) Testul Bartlett pentru verificarea omogenităţii dispersiilor Fie m estimări independente pentru dispersiile msss ,...,, 21 mσσσ ,...,, 21
pe baza unor selecţii de volume . mnnn ,...,, 21
Se pune problema verificării ipotezei privind egalitatea acestor dispersii 22
2210 ...: mH σσσ ===
În acest caz Bartlet a arătat că variabila aleatoare
( ) ( )( )∑
∑ =− m ki
k
ii isssksk
12
222 lnlnln303,2
unde , 1−= ii nk ∑= ikk şi s dispersia ponderată a întregului set de date,
este repartizată ( )12 −mχ .
b) Testul rapid Cochran pentru selecţii de acelaşi volum Daca selectiile considerate au acelasi volum nnnn k ==== ...21 ,
atunci se calculeaza valoarea ∑
= kis
sG
12
2max
max care se compară cu o valoare
maximă admisă pentru acceptarea ipotezei nule. In formula de mai sus avem:
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
60
( )∑=
−−
=n
jiiji xx
ns
1
22
11 si 2
12max max iki ss ≤≤=
Ipoteza se respinge daca 0H ( )αcG ⟩max unde ( )αc se gaseste din tabelele Cochran la perechea ( )1, −nk grade de libertate si la probabilitatea ( )( ) αα −=⟨ 1max cGP .
c) Testul Hartley Daca selectiile au acelasi volum se poate aplica pentru testul 12≤k
2
2
minmax
i
icalc s
sH =
iar ipoteza se respinge daca 0H ( )αHHcalc⟩ unde ( )αH se gaseste din tabelele Hartley la probabilitatea ( )( ) αα −=⟨ 1max HHP .
2.6.3.3. Aplicaţie: Utilizarea testului t în analiza comparativă a medicamentelor
În compararea mediilor am utilizat testul t, numit şi testul Student. Deoarece acesta este poate cel mai utilizat în analiza medicamentelor, vom face câteva consideraţii asupra aplicării practice a acestuia.
La compararea efectului a două medicamente, la compararea rezultatului determinărilor analitice cu valoare impusă de standardul de control asupra medicamentului precum şi în multe alte situaţii, apar rezultate diferite acolo unde ne aşteptăm ca acestea să fie egale. Ne punem întotdeauna problema dacă, diferenţele constatate în practică sunt “semnificative” sau nu. Deoarece rezultatele provin din testarea unor eşantioane reduse, nu putem fi niciodată siguri în ceea ce priveşte parametrii întregii populaţii. Totuşi, asumându-ne un risc mai mare sau mai mic, trebuie să luăm decizii.
Dacă, de exemplu, dozăm cantitatea de substanţă activă din 10 comprimate care provin dintr-o şarjă de 1.000.000 de comprimate, alegerea celor 10 comprimate se presupune că s-a făcut aleator şi ele reprezintă un eşantion reprezentativ pentru întreaga şarjă. Problema este dacă, în funcţie de valoarea medie a conţinutului pentru cele 10 comprimate şi variabilitatea celor 10 valori, putem spune, asumându-ne un anumit risc, că valoarea medie a concentraţiei în substanţa activă pentru tot lotul este cea declarată. În acest caz aplicarea testului t în verificarea ipotezei asupra mediei, aşa cum s-a arătat mai sus, este imediată.
La compararea mediilor a două selecţii independente, numite în experimentele cu medicamente “grupuri paralele”, o atenţia deosebită
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
61
trebuie acordată verificării independenţei efective a acestora. De exemplu la testarea efectelor unui medicament asupra unui grup de pacienţi în comparaţie cu un alt grup ce se numeşte placebo, trebuie avut în vedere că pacienţii să nu se influenteze ca urmare a discuţiilor între ei. Dacă loturile sunt de animale ce trăiesc în aceiaşi cuşcă, medicamentul poate favoriza sau din contra, defavoriza un grup în lupta animalelor pentru hrană şi adaugă efecte suplimentare asupra rezultatelor finale ale testului.
În sfârşit, un caz foarte frecvent în testările comparative ale efectelor sau nivelelor plasmatice ale medicamentelor, este acela al observaţiilor pereche, când lotul de subiecţi trataţi se constituie ca propriul martor. Acestea oferă unele avantaje asupra experimentului pe grupuri paralele.
În primul rând, în experimentul pe grupe paralele, variabilitatea rezultă din diferenţele de răspuns la medicament între cele două grupuri, aşa numita “intervariabilitate”. În experimentul pereche apare “intravariabilitatea”, variabilitatea în răspunsul aceluiaşi subiect la două tratamente diferite şi avem motive să presupunem că aceasta este mai mică, de regulă decât intervariabilitatea. Teoretic, intervariabilitatea include şi intravariabilitatea şi deci nu poate fi mai mică decât aceasta. Din aceste motive, testul pereche oferă avantajul unei variabilităţi mai mici.
Testul pereche oferă apoi avantajul că lotul poate fi mai mic. În experimentul pe grupe paralele, de exemplu două loturi de 10 subiecţi primesc două medicamente diferite. În experimentul pereche numai 10 subiecţi pot primi în prima administrare un medicament şi în a doua perioadă al doilea medicament.
Desigur că acestă cuplare nu este întotdeauna posibilă. Când dozăm cantitatea de substanţă activă din comprimate sau determinăm timpul de dizolvare, acestea sunt consumate în timpul testării.
Trebuie menţionat că testul pereche prezintă dezavantajul că între cele două tratamente trebuie să existe o perioada destul de lungă pentru ca primul medicament administrat să se elimine din organism care, în cazul medicamentelor cu timp de înjumătăţire mare cum ar fi de exemplu piroxicamul, depăşeşte 30 de zile, in cazul clomifenului sau al penicilinei retard fiind nevoie de perioada intre cele doua administrari, de mai multe luni. În aceste situaţii se prelungeşte destul de mult timpul pentru definitivarea studiului.
Deasemenea, efectul primului medicament, în cazul că experimentele se fac pe pacienţi, poate duce la o îmbunătăţire a stării de sănătate a acestora şi la o modificare considerabilă a răspunsului la al doilea tratament.
II. Statistica matematica si biostatistica Teste neparametrice
63
2.7. Teste neparametrice
Testul t pentru compararea mediilor depinde, în special pentru selecţiile de volum mic, de ipoteza că cele două populaţii sunt distribuite aproximativ normal şi că dispersiile sunt practic egale.
De regulă, tehnicile statistice care se ocupă de variabilele continue
se bazează pe ipoteza că variabila aleatoare are o distribuţie normală de bază. Ipoteza nu este atât de restrictivă, deoarece de multe ori este posibil să o modificăm astfel încât să obţinem alta, aproximativ normal distribuită. Suplimentar, dacă vom considera mediile, în concordanţă cu teorema limită centrală, distribuţia mediei probelor se aproprie cu atât mai mult de distribuţia normală, cu cât creşte volumul probelor.
Şi astfel, ca o concluzie practică, erorile se datorează mai curând
lipsei de constanţă a dispersiei sau lipsei de independenţă a variabilelor decât deviaţiilor de la normalitate.
Pentru cazurile când nu stim distribuţia variabilei, o cale alternativă
este să aplicăm teste care nu necesită ipoteze despre tipul de distributie. Testele independente de distributie, numite şi teste de rang,
înlocuiesc valorile variabilei cantitative observate cu rangurile lor. Testele neparametrice sunt valabile şi pentru variabile normal distribuite, dar sunt mai puţin eficiente, pentru acelaşi prag de semnificaţie fiind necesare eşantioane mai mari decât pentru testele parametrice.
In acelasi timp este de retinut ca testele neparametrice nu sunt un
paraceu universal: aplicarea lor este posibila atunci cand sunt continue si independente.
II. Statistica matematica si biostatistica Teste neparametrice
64
2.7.1. Media şi dispersia eşantioanelor dintr-o populaţie finită.
Să considerăm o populaţie finită de N elemente, la care asociem numerele . Dacă presupunem că toate elementele au aceeaşi
probabilitate
Nxxx ,...,, 21
N1 , putem calcula media şi dispersia populaţiei:
(1) ( ) ∑∑ ===N
iiN
i xN
pxXE11
1μ
şi (2)
( ) ( ) ( )( ) ( )( )
∑∑∑∑
∑∑
∑∑
≠≠
−−
=−⎟⎠⎞
⎜⎝⎛ −=
=−=
=−=−==
jiji
Ni
jiji
Ni
Ni
Ni
Niii
Ni
xxN
xN
NxxN
xNN
xN
xN
pxpxXEXEXD
212
2212
2
2
1212
2
112222
21211
11
σ
Multimea tuturor selecţiilor posibile de mărimea n din populaţie va include:
( )nn xxxx ,,...,, 121 − ( )1121 ,,...,, +− nn xxxx . . . ( )NnNnN xxx ,...,, 21 +−+− Aceste probe sunt formate prin alegerea a n elemente din N. Există
căi de a alege o astfel de probă. Încă o dată, presupunem că fiecare
probă are aceeaşi probabilitate de a fi selectată,
nNC
nNC
1 .
Să considerăm media selecţiei j: ∑=
=n
ijij x
nX
1
1 şi să considerăm
variabila aleatoare ( ) nNCjjXX
,1==
Valoarea medie a variabilei X este
II. Statistica matematica si biostatistica Teste neparametrice
65
( )
( ) ( )
( ) ⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+++
++++++++++=
===
+−+−
+−−
==∑∑
NnNnN
nnnn
nN
C
jjn
Nj
C
jj
xxxn
xxxxn
xxxxn
C
XC
pXXEnN
nN
...1
...1...11
1
21
1121121
11
Acum să considerăm de câte ori intră în sumă orice particular, să spunem . Probele care conţin se obţin prin selectarea a (n-1) alte elemente din populaţia disponibilă de (N-1) elemente şi, aceasta se poate face în moduri. Vor fi deci probe conţinând şi la fel se aplică pentru fiecare .
ix
1x 1x
11
−−
nNC 1
1−−
nNC 1x
ix
( )( )
( ) ( )11!!1
!1!!
! −−=
−−−
=−
= nN
nN C
nN
nNnN
nN
nNnNC
În consecinţă
(3) ( ) μ==⎟⎠⎞
⎜⎝⎛= ∑∑−
−N
iN
inNn
N
xN
xCnC
XE11
11
111
ceea ce înseamnă că media mediei probei este egală cu media populaţiei. Pentru calcularea dispersiei folosim identitatea
(4) ( ) ( ) ( )( )22D X E X E X= −
Să considerăm ( ) ∑∑==
==nN
nN C
jjn
Nj
C
jj X
CpXXE
1
2
1
22 1
Mai departe
( ) ( )2
21
2
1211
2...1......1
⎥⎦⎤
⎢⎣⎡ +++++⎥⎦
⎤⎢⎣⎡ ++++= +−+−−
=∑ NnNnNnn
C
jj xxx
nxxxx
nX
nN
Când ridicăm la pătrat fiecare termen, fiecare va deveni şi, după cum vedem, fiecare apare de ori. Astfel
ix 2ix
ix 11
−−
nNC
(5) ( ) ......1 222
21
112
1
2++++=∑ −
−=
NnN
C
jj xxxC
nX
nN
Ridicarea la pătrat a sumei dă deasemenea termeni de forma şi fiecare termen va apare de .
ji xx22
−−
nNC
În consecinţă, putem scrie
II. Statistica matematica si biostatistica Teste neparametrice
66
(6)
( ) ( )⎥⎦⎤
⎢⎣⎡ ++++++= −
−−
−−
=∑ NN
nNN
nNn
N
C
jjn
N
xxxxCn
xxxCnC
XC
nN
121222
222
21
112
1
2...2...111
Pentru a înlocui în (4) punem ( )( )2XE în forma:
(7)
( )( ) ( )
( )2
1212
222
21
2
121
2
...2...
...1
Nxxxx
Nxxx
xxxxN
XE
NNn
NN
−
−
+++
+++=
=⎥⎦⎤
⎢⎣⎡ ++++=
Substituind (6) şi (7) în (4) , obţinem:
(8)
( ) ( )
( )NNnNn
N
NnNn
N
xxxxN
CnC
xxxN
CnC
XD
1212222
222
212
112
...221
...111
−−−
−−
++⎟⎟⎠
⎞⎜⎜⎝
⎛−+
++++⎟⎟⎠
⎞⎜⎜⎝
⎛−=
Coeficientul lui ( )222
21 ... Nxxx +++ se poate scrie ca
( )
1 11 12 2 2 2 2
11
2
1 1 1 1 1 1 1 1
11
n nN Nn
nNN
N nC CNC n N n N nN N nNCn
N n Nn N N
− −− −
−−
2
−− = − = − =
− −=
−
=
şi coeficientul lui ( )NN xxxx 121 ... −++ este
( )( )
( )( ) ( )1
221
1222
11
1222
222
22
−−
−=−−
−=−
−−
−−
−−
NnnN
NNNnNn
NC
nnnNNC
nN
nN
Apoi substituind aceste rezultate în (8), obţinem:
(9) ( ) ( )( ) ( ) ( )
⎭⎬⎫
⎩⎨⎧ ++−+++
−−−
= − NNN xxxxN
xxxN
NNn
nNXD 121222
2212 ...2...1
1
Partea din { } este exact , astfel încât 2σ
(10) ( )2 2 11
1 1N n nD X
n N n Nσ σ− −⎛ ⎞= = −⎜ ⎟− −⎝ ⎠
II. Statistica matematica si biostatistica Teste neparametrice
67
Observam ca avem aparent o contradictie cu regula:
( ) ( )2 2
2 2
1ii
x nD X D D xn n n n
σ σ⎛ ⎞= = =⎜ ⎟⎜ ⎟
⎝ ⎠=∑ ∑
In fapt, in aceasta regula X este media unui experiment repetat de n ori, de exemplu, extragerea consecutive, una cate una a n bile, pe cand X de mai sus semnifica extragerea a n bile dintr-odata.
De exemplu, selectia ( )1,...,1,1 nu este posibila in cazul nostru si altfel nici o repetare, toate elementele selectate fiind distincte.
Este de notat că dacă ∞→N , atunci dispersia lui n
X2σ
→ , forma
ei obişnuită pentru o populaţie infinită, sau pentru experimentul de tip extracţie din urnă cu întoarcerea bilelor extrase în urnă.
2.7.2. Testul de rang Wilcoxon
Testul de rang Wilcoxon1 este un test cu ipoteza nulă că două populaţii sunt identice, fată de ipoteza alternativă că ele diferă printr-o translaţie lineară. Testul înlocuieşte observaţiile prin rangurile lor. Rangurile sunt repartizate la valorile din selecţii în ordinea creşterii mărimii fără să ţină cont de probele cărora le aparţin.
Să presupunem că o probă este de mărime n şi alta de mărime N-n. Testul presupune că orice combinaţie de ranguri în aceste două grupuri este egal probabilă. Numărul total de moduri de grupare a rangurilor este . n
NCConsideram urmatorul exemplu Nivelele plasmatice maxime ale ionului după administrare
i.m. −4EDTA
Tabelul 3. Voluntar CE IA BL PM MC DP SL Prima zi 33,3 25,1 22,8 32,4 23,7 48,33 33,04 rangurile 9 3 1 7 2 11 8 a-3-a zi 25,4 31,2 28,4 39,2 rangurile 4 6 5 10
Privind rezultatele în a treia zi de tratament la proba de mărime n,
suma rangurilor este 4+6+5+10=25. Combinaţiile de ranguri pentru care 1 F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947
II. Statistica matematica si biostatistica Teste neparametrice
68
putem obţine o sumă a rangurilor mai mică decât aceasta, pentru un n = 4 dat sunt
1+2+3+4=10, 1+2+3+5=11, 1+2+3+6=13, 1+2+3+7=14, 1+2+3+8=15 etc.
După cum se poate vedea nu este uşor să calculăm toate posibilităţile, astfel încât vom folosi faptul că media rangurilor unei probe este distribuită aproximativ normal cu parametri care sunt calculati în continuare.
Sunt disponibile tabelele care dau limitele de acceptare a ipotezei pentru suma obţinută, ca o funcţie de n, N şi riscul asumat. Pentru
exemplul nostru găsim în tabele, pentru 0H
05,0=α , 41 =n şi intervalul 11 – 25.
72 =n
Fie R suma rangurilor şi R media rangurilor probei de mărime n.
Conform (1), valoarea medie a lui R este ( ) ∑=N
ixN
RE1
1 .In cazul nostru
sunt rangurile de N valori însemnând numerele 1,2,….,N. În consecinţă ix
( ) ( ) ( ) ( )2
12
11...21111
+=⇒
+=+++== ∑ NRENN
NN
Nx
NRE N
i
Calculul lui dă: 2σ
( ) ( ) ( )( ) ( )( ) ( )( ) ( )
121
211
6121111
11
22
2
2
1212
2
1212222
−=⎟
⎠⎞
⎜⎝⎛ +
−++
=−=
=−=−==
∑∑
∑∑NNN
NNNN
Ni
Ni
N
xN
xN
XEXEXD
NN
Ni
Niσ
Dispersia lui R se obţine prin înlocuirea lui σ în (10)
(11) ( ) ( )( )n
nNNN
nNn
NNn
nRD
121
1121
111
22 −+=
−−−
=⎟⎠⎞
⎜⎝⎛
−−
−=σ
În concluzie, variabila aleatoare ( )( ) ( )( )
nnNN
NR
RD
RER
121
21
−+
+−
=− va fi
repartizată aproximativ ( )1,0N . Intr – o notatie alternativa N poate fi notat cu 1n n2+ , n cu si N–n
cu obtinandu-se: 1n
2n
II. Statistica matematica si biostatistica Teste neparametrice
69
( )
1 2
1 2 2
1
12
112
n nRZ
n n nn
+ +−
=+ +
Se mai utilizeaza si alta forma a formulei. Se amplifica cu , se
obtine 1n
1Rn R= si ( )
( )
1 1 2
1 2 1 2
121
12
n n nR
Zn n n n
+ +−
=+ +
Kruskal si Wallis2 au observat ca aproximaţia este îmbunătăţită când valoarea α este mai mare de 0,02 prin aducerea lui R mai aproape de media
lui cu n2
1 .
În literatura medicală şi biologică testul se mai numeşte Mann – Whitney şi se utilizează notaţiile 1nn = şi 2nnN =− ( 21 nn ≤ ).
Când cel puţin unul din numerele şi sunt mai mici decât 10, distribuţia de probabilitate a sumei rangurilor pozitive R se poate calcula direct. Intervalele de încredere cu diverse probabilităţi (0,95; 0,99; etc.) pentru R se găsesc în tabele.
1n 2n
In exemplul nostru n = 4, N = 11, R = 25, 25,6425
==R şi
( )( ) ( )( )
1 11 16,25 0,252 2 0,1971 11 1 11 4412 12*4
NRZ
N N nn
+ +− −= = =
+ − + −=
Valoarea obţinută ne asigură că nu apare o acumulare a EDTA la orice nivel de risc α din cele uzual utilizate.
Dacă facem corecţia pentru continuitate
2 W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952
II. Statistica matematica si biostatistica Teste neparametrice
70
( )( ) ( )( )
1 1 11 1 16,25 0,3752 2 2 8 0,28571 11 1 11 4412 12*4
NRnZ
N N nn
+ +− + − += = =
+ − + −=
concluzia nu se schimba. 2.7.3. Ajustarea pentru valori egale în testul Wilcoxon
Dacă apar egalităţi, o alternativă pentru neglijarea lor este de a repartiza la aceste observaţii media rangurilor pe care le-ar fi primit dacă nu erau egale.
Să considerăm un grup de k egalităţi. Numerele întregi m+1, m+2, …, m+k sunt înlocuite cu media lor.
( ) ( ) ( )( )
212
1...21 +
+=
++
=++++++ km
k
kkkm
kkmmm
Suma pătratelor ( )222
21 ... Nxxx +++ este astfel redusă prin
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( )( ) ( ) ( )
( ) ( ) ( ) ( )
22 2 2
22 2 2 2 2
2
11 2 ...
2
12 1 2 ... 1 2 ... 1
41 1 2 1 1
2 12 6 41 1 1
4 2 3 312 12 12
km m m k k m
k kkm k m k km km k
k k k k k k km k k m
k k k k k Tk k
+⎡ ⎤+ + + + + + − + =⎢ ⎥
⎣ ⎦
++ + + + + + + + − − + − =
+ + + += + − + − =
+ − += + − − = =
Suma rangurilor rămâne neschimbată. Astfel:
( ) ( )( ) ( )
( )( ) ( )
( )( ) ( )N
TNNN
TNNNNN
NNTNNN
NNN
TNNNN
xN
xN
Ni
Ni
121
1233241
12131212
211
126121111
2
2
2
2
2
12122
−−=
−−−++=
=+−−++
=
=⎥⎦⎤
⎢⎣⎡ +
−⎟⎠⎞
⎜⎝⎛ −
++=−= ∑∑σ
şi ( ) ( )2 112 1
N N T N nD RnN N− − −
=−
II. Statistica matematica si biostatistica Teste neparametrice
71
2.7.4. Teste referitoare la perechi de observaţii 2.7.4.1.Testul semnelor
Să considerăm nivelele plasmatice maxime ale unui medicament
după o primă administrare la un număr de n voluntari sănătoşi şi nivelele plasmatice maxime după trei zile de tratament. Fie
ix
iy( )yx,ρ probabilitatea de
apariţie a valorilor x şi y. Dacă medicamentul nu se acumulează în organism, cele două seturi de concentraţii sunt selecţii ale aceleiaşi populaţii şi ( ) ( )iiii xyyx ,, ρρ = pentru toate perechile.
Aceasta implică simetria lui ( )yx,ρ faţă de linia 0=− xy . Să definim variabila aleatoare xyz −= .
Avem că ( ) ( )21
=⟩=⟨ xyPxyP sau ( ) ( )2100 =⟩−=⟨− xyPxyP care
este mai departe echivalent cu ( ) ( )2100 =⟩=⟨ zPzP . Astfel z va avea o
mediană zero. Mai departe definim variabilele după cum urmează iz
1=iz pentru 0⟩izşi pentru 0=iz 0⟨iz . Presupunem continuitatea distribuţiei de grup originală ( )yx,ρ , z va fi
deasemenea continuă, şi “intersecţiile” (cazurile ii yx = ) vor avea probabilitatea zero.
iz sunt independente, astfel încât suntem în situaţia binomială de a face
n încercări independente, probabilitatea de succes 1=iz fiind 21 la fiecare
încercare. Astfel, ∑niz
1 are o distribuţie binomială cu parametrii
21
=p şi
n. Distribuţia de grup ( )yx,ρ poate fi diferită în fiecare încercare, însă de
fiecare dată ( )211 ==izP şi astfel distribuţia lui ∑n
iz1
va fi neschimbată.
II. Statistica matematica si biostatistica Teste neparametrice
72
Alternativa ipotezei nule este ca în locul lui să avem ix iii dxx −=′ , ceea ce înseamnă că fiecare descreşte cu o cantitate , unde . În acest caz
ix id 0⟩id( yx , )′ρ nu va mai fi simetric, ci deplasat spre stânga şi
( )2100 ⟩⎟
⎠⎞⎜
⎝⎛ ′⟩=⎟
⎠⎞⎜
⎝⎛ ⟩′−=⟩ iiiii xyPxyPzP .
Astfel, nu va mai fi în mod necesar constantă şi distribuţia lui
nu va mai fi o distribuţie binomială.
( 0⟩izP )∑n
iz1
Testul semnelor, dă pentru probabilitatea a k diferenţe pozitive
∑∑
∑∑∑−
==
−
=
−
=
==
==⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛=⎟
⎠⎞
⎜⎝⎛ =≥
kn
j
jnn
n
ki
innn
n
ki
inn
iniin
n
kii
ni
CC
CCzpnkzP
0
1
21
21
21
211
21
21,
În cazurile simple, pentru k şi n mici, această probabilitate se poate calcula direct.
Pentru valori mai mari, se poate folosi aproximaţia normală. Sa luăm în considerare valorile nivelelor plasmatice ale ionului
(Tabelul3) după administrarea i.m. la patru voluntari sănătoşi. −4EDTA
Tabelul nr. 4: Voluntar CE IA BL PM Prima zi 33,3 25,1 22,8 32,4 a-3-a zi 25,4 31,2 28,4 39,2
iz -7,9 +6,1 +5,6 +6,8
iz 0 1 1 1
Avem
06,021
21
21
21,
43
4044
44
044
4
1
====⎟⎠
⎞⎜⎝
⎛=⟩ ∑∑
−
=
CCpzPj
ji
ceea ce înseamnă că putem accepta ipoteza nulă privind egalitatea constantei de eliminare în prima zi cu cea din ziua a treia.
Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a distributiei binomiale:
1 12 21 1* *2 2
PnZ
n
− −=
II. Statistica matematica si biostatistica Teste neparametrice
73
unde p este proportia diferentelor pozitive. 2.7.4.2.Testul Wilcoxon pentru observaţii perechi
Wilcoxon a propus deasemenea un test pentru determinări pare în care rangurile sunt atribuite mărimii absolute a diferenţelor şi apoi se dă rangurilor semnul diferenţelor.
Ipoteza nulă este că distribuţia diferenţelor este simetrică faţă de zero, astfel orice rang este pozitiv sau negativ cu aceiaşi probabilitate. Valorile egale primesc ca rang media rangurilor grupului.
Numărul total de moduri de sume de ranguri ce se pot obţine este N2 .Să ataşăm rangurilor i variabilele aleatoare di ce iau valorile di=1 când i
este pozitiv şi di=0 când i este negativ, se foloseste insa cea mai mica valoare dintre suma rangurilor pozitive si a celor negative.
Să considerăm suma rangurilor pozitive ids i∑= .
Media ei va fi ( ) ( ) ( )∑∑ ==N
iN
i diEidEsE11
Dar ( )21
210
211 =∗+∗=idE şi ( ) ( )
41
21
1
+== ∑ NNisE N
( ) ( )( ) ( )
22 2 2
1 1
2 21
2
2
N Ni i
i j
Ni i j
i j
E s E id E i d ijd d
i E d ijE d d
≠
≠
⎛ ⎞= = +⎜ ⎟
⎝ ⎠
= +
∑ ∑ ∑
∑ ∑
i j =
Însă ( )21
210
211 222 =∗+∗=idE si
( ) 104100 ∗+∗∗=ji ddE *
41
41*1*1
41*0*1
41
=++
În consecinţă
( ) ( ) ⎥⎦⎤
⎢⎣⎡ −+=+= ∑∑∑∑∑
≠
NNN
ji
N iiiijisE1
22
112
122
41
212
41
21
Acum putem calcula dispersia lui s
( ) ( ) ( )( )
( )( )24
12141
41
41
21
1
2
2
11
22
11
222
++==
=⎟⎠
⎞⎜⎝
⎛−
⎥⎥⎦
⎤
⎢⎢⎣
⎡−⎟
⎠
⎞⎜⎝
⎛+=−=
∑
∑∑∑∑
NNNi
iiiisEsEsD
N
NNNN
II. Statistica matematica si biostatistica Teste neparametrice
74
În cazul în care apar egalităţi, ( ) ( )48
11 +− kkk trebuie să fie scăzut pentru
fiecare grup de egalitati. O alternativă este de a scoate toate valorile egale din probă. Să considerăm acum observaţiile pare din experimentul ce a dus la datele din tabelul 5.
Tabelul 5. Nivelele plasmatice maxime ale după
administrarea i.m. −4EDTA
Voluntar CE IA BL PM Prima zi 33,3 25,1 22,8 32,4 a-3-a zi 25,4 31,2 28,4 39,2 Diferenţa -7,9 +6,1 +5,6 +6,8 di 0 1 1 1 Rangul -4 2 1 3 S=3+2+1=6
În acest caz avem N=4 si
( )( )
( )
( )( )27,0
249*5*4
56
24121
41
=−
=++
+−
=−
=NNN
NNs
sDsEsz care este foarte
apropiat de valorile obţinute anterior.
2.7.4.3. Testul H, Krusskal – Wallis, de analiza a variatiei “pe o cale” aplicata rangurilor
Testul H, sau testul Kruskal – Wallis3 este o generalizare a testului Wilcoxon în cazul a k probe, . La fel ca şi în testul Wilcoxon, observaţiile primesc ranguri, şi media rangurilor Ri se calculează pentru fiecare grup.
2⟩k
( )2
1+=
NRE i şi ( ) ( )( )i
ii n
nNNRD
1212 −+
= unde ii
i
RRn
= si RRN
=
3 W.H.Kruskal, W.A.Wallis; Use of ranks in the one – criterion analysis of variance, J.Am.Stat.Assoc.,47,583-621,1952
II. Statistica matematica si biostatistica Teste neparametrice
75
Raportul ( )( )i
ii
RD
RER2
− va fi repartizat ( )1,0N , conform teoremei limita
centrala. Kruskal şi Wallis au arătat că suma pătratelor lor, cu un factor de
ponderare ⎟⎟⎠
⎞⎜⎜⎝
⎛−
Nni1 are aproximativ distribuţia ( )12 −kχ
( )( )( )
2
2
1
12 1 1
112
K ii
i i
i
NR nH kNN N n
n
χ=
⎡ ⎤+⎢ ⎥− ⎛ ⎞⎢ ⎥= − ≅ − ⇒⎜ ⎟⎢ ⎥ ⎝ ⎠+ −⎢ ⎥
⎢ ⎥⎣ ⎦
∑
( )( )( )
( )( )
( )( )
2 2
1 1
12 121 1 112
K Ki i ii
i ii
i
2
i iR R n R R nN nHN N n N N N N N
n= =
− −−= ⋅ = =
+ − + +∑∑ ∑
R R−
deci, deoarece sumam suma patratelor diferentelor intre mediile grupurilor si media totala, testul este in esenta un fel de ANOVA pe o cale si se aplica si atunci cand datele nu sunt normal repartizate, cu dispersii egale.
Am folosit,
( )22 2 2 2
2 ii i ii i i
i
Rn R R n R R R n N R N R
n− = − + = −∑ ∑ ∑ ∑ =
( )22 14
i
i
NRN
n+
= −∑
In final H se mai poate scrie :
( ) ( )212 3 1
1i
i
RH NN N n
= −+ ∑ +
Dacă apar valori egale, H trebuie să fie împărţit la factorul NN
T−
− ∑31
unde ( ) ( ) 31 1T k k k k= − + = − k este calculat pentru fiecare grup de legături.
Pentru probe mici aproximaţia nu este prea bună şi Kruskal şi Wallis au dat tabele pentru k=3 şi ni ≤ 5.
II. Statistica matematica si biostatistica Teste neparametrice
76
Să aplicăm testul pentru acelaşi experiment, considerând două grupuri de observaţii după prima administrare şi un grup de observaţii după a – 5- a administrare:
Nivelele plasmatice maxime ale ionului după administrarea i.m. sunt în tabelul3.
−4EDTA
54
71391 =
+++=R , 7
38112
2 =++
=R si 25,64
105643 =
+++=R
( )( ) ( )( )
( )( ) ( )( )
86,011
5,9117
74*25,6
118
83
117
74
1141
4*12411111
211125,6
1131
3*12311111
21117
1141
4*12411111
21115
1
121
21
22
22
==++=
=⎟⎠⎞
⎜⎝⎛ −
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−+
+−
+⎟⎠⎞
⎜⎝⎛ −
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−+
+−
+
+⎟⎠⎞
⎜⎝⎛ −
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−+
+−
=⎟⎠⎞
⎜⎝⎛ −∑
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
−+
+−
=Nn
nnNN
NRH i
i
i
i
Dat fiindcă valoarea obţinută pentru test aparţine zonei de acceptare, ipoteza ca grupurile sunt selectate din aceiaşi populaţie este acceptată.
103,0205,0;2 =χ
2.7.5. Alegerea între testele laplaciene şi testele neparametrice
Testele nonparametrice au o putere mai mică decât cele clasice, deoarece înlocuirea valorilor cu rangurile lor semnifică pierderea a o parte din informaţie. De exemplu am spune ca doi boxeri sunt de aceiasi valoare deoarece fiecare a câţtigat câte 5 meciuri din 10 întâlniri dintre ei. În condiţia în care în ultima întâlnire A l-a omorât pe B, concluzia trebuie schimbată, deoarece diferenţa de valoare între ei la ultimul meci a fost cu mult mai mare decât celelate diferenţe.
Această pierdere de informaţie este reală în cazul testelor neparametrice atunci când efectiv variabilele aleatoare sunt repartizate normal şi au dispersiile egale. În caz contrar se poate întâmpla ca un test neparametric să fie chiar mai eficient decât cele parametrice.
In altă ordine de idei, aplicarea testelor neparametrice în cazul selecţiilor de volume mari, este foarte laborioasă. Ca urmare, conduita de urmat în alegerea unui tip sau altul de test ar fi după cum urmează:
II. Statistica matematica si biostatistica Teste neparametrice
77
1. În cazul eşantioanelor mici sunt de preferat testele neparametrice deoarece calculele sunt mai rapide şi eficienţa este comparabilă cu cea a testelor clasice.
2. Când se ştie că selecţiile aparţin la populaţii repartizate normal şi cu dispersii egale, testele clasice sunt mai eficiente.
3. Când nu se cunosc repartiţiile variabilelor, alegerea şi concluziile se vor face în funcţie de alte informatii privitoare la experiment.
4. Când se ştie că variabilele aleatoare testate nu sunt repartizate normal sau este vorba de variabile care se bazează pe o scală arbitrară (“scoruri”) sau clasificări pe criterii preponderant calitative (de exemplu “ameliorarea” stării subiecţilor trataţi) se apelează la testele neparametrice. 2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul Friedman4
Consideram compararea a k esantioane de aceeasi marime, . in k=In acest caz datele se inscriu intr- o matrice. Daca rangurile le
stabilim pe fiecare linie, de exemplu, Tabelul nr. 6
Valoarea masurata a dozei subiect A B C
1 1 2 3 2 2 1 3 3 1 2 3 4 1 3 2 5 1 3 2
iR 6 11 13 Putem testa daca se produce o crestere semnificativa a valorilor
masurate (de exemplu ) o data cu cresterea dozei, aplicam testul Friedman
maxc
( ) ( )2 21
12 3 11c iR l c
lc cχ − = − +
+ ∑
unde l este numarul de linii si c este numarul de coloane.
4 Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973
II. Statistica matematica si biostatistica Teste neparametrice
78
II. Statistica matematica si biostatistica Regresia liniara
79
2.8. Regresia liniară Dreptele sunt construite din mulţimi de perechi de date, X şi Y.
Două asemenea perechi (de exemplu două puncte) definesc în mod unic o dreaptă.
Y A BX= + unde : • A reprezintă interceptul lui Y (valoarea lui Y când X=0) şi • B este panta
2 1
2 1
Y YYBX X X
−Δ= =Δ −
pentru oricare două puncte de pe dreaptă.
fig. 1. Panta şi interceptul definesc dreapta: pentru oricare A şi B date,
dreapta este definită. În exemplul elementar a două puncte date, o aproximare statistică pentru a defini dreapta nu este necesară.
Dacă reprezentarea grafică a două mărimi ce sunt observate simultan sugerează o dependenţă liniară, ajungem la problema determinării dreptei ce descrie “cel mai bine” această dependenţă. Cazurile din farmacie cele mai frecvente in acest sens privesc chimia analitica, unde semnalul este proportional, intre anumite limite, cu concentratia, legea Lambert-Beer fiind cel mai cunoscut exemplu. In acelasi timp, se incearca sa se simplifice lucrurile prin « liniarizare » in studiile de stabilitate ale medicamentelor. In terapie, o intrebare obligatorie la care trebuie sa raspunda prezentarea oricarui medicamente se refera la “liniaritatea farmacocineticii”.
După cum s-a discutat la capitolul privind extremele funcţiilor de mai multe variabile, o soluţie a acestei probleme o constituie “dreapta prin cele mai mici pătrate”, dreapta pentru care suma pătratelor distantelor de la ea la punctele experimentale este minimă. Această soluţie consideră punctele ca fiind “exacte”. Problema capătă cu totul altă înfăţişare atunci
II. Statistica matematica si biostatistica Regresia liniara
80
când punctele experimentale sunt considerate valori ale unor variabile aleatoare, devenind o problemă de statistică matematică şi analiză numerică în acelaşi timp.
dependenta semnalului masurat de concentratie
0
5
10
15
20
25
0 5 10 15
fitare liniara, dar dependenta non-liniara
-20
0
20
40
60
80
100
120
0 5 10 15
Fig. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile. a. dependenta este efectiv liniara dar datele sunt afectate de erori, b. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara
In general, chiar daca nu constientizam acest fapt, de fiecare data cand
incercam sa gasim o dependenta liniara intre doua variabile, facem implicit urmatoarele ipoteze: 1. Variabila X este masurata fara eroare. Desi nu este totdeauna adevarat, cel mai adesea X este masurat cu erori relativ mici, si in aceste conditii presupunerea poate fi considerata adevarata. In cazul unor teste privind un medicament administrat in mai multe doze, X este doza “nominala” care se considera ca a fost administrata. Eroarea in “dozare” este foarte mica.Un alt exemplu de variabila X care este adesea folosit este timpul care poate fi masurat cu suficienta precizie si acuratete. 2. Pentru fiecare X, y este independent si normal distribuit. Adesea vom folosi notatia Y.x pentru ă arata ca valoarea lui Y este o functie de X. 3. Variatia lui y se presupune a fi aceeasi pentru fiecare X. Daca variatia lui y nu este constanta, dar este fie cunoscuta, fie asemanatoare cu cea a lui X intr-un anume fel, sunt alte metode pentru a estima panta si ordonata dreaptei . 4. Intre X si Y exista o relatie de liniaritate. Y A BX= + , unde A si B sunt parametri adevarati. Bazandu-ne pe teorie sau experiente, avem motive sa credem ca X si Y sunt corelate liniar. In fig. 2b se vede ca dreapta care aproximeaza “cel mai bine” dependenta intre cele doua variabile nu
II. Statistica matematica si biostatistica Regresia liniara
81
corespunde legii reale care guverneaza fenomenul, “cel mai bine” nefiind de fapt bine.
Aceste premise sunt descrise în:
Fig. 3. Media si dispersia in regresia liniara
Exceptând poziţionarea (media, valoarea medie) distribuţia lui y este
aceeaşi la fiecare valoare a lui X. În exemplul acesta, media distribuţiei lui y descreşte pe măsură ce creşte X (panta e negativă).
In cazul studiilor de stabilitate, dependenta concentratiei substantei
active de timp este, in cel mai bun caz o exponentiala ktectc −= 0)(
Dar , pentru valori mici ale lui t exponentiala este aproximata de o dreapta
)1()( 00 ktcectc kt −≈= − Ca parametri esentiali ai cineticii de degradare se folosesc, in locul
constantei de viteza k , timpul de injumatatire si timpul de “siguranta” sau timpul la care concentratia scade la 90 % din valoare sa initiala.
Examinăm în continuare aspectele matematice pentru cazul cel mai simplu când valorile variabilei x (care în cele mai multe cazuri corespunde timpului) nu sunt afectate de erori şi, pentru fiecare valoare a lui x corespund un număr de valori y, determinate într-un singur experiment printr-o metodă afectată de erori întâmplătoare:
111211 ,...,, nyyy , pentru 1x..
iinii yyy ,...,, 21 , pentru , i=1,2,…,k ixCazul când pentru orice i avem 1=in este relativ mai simplu, dar
este de subliniat că şi în cazul când aceştia sunt diferiţi de 1 poate fi tratat în
II. Statistica matematica si biostatistica Regresia liniara
82
aceiaşi manieră admitând că între perechile ( )ii yx , să fie şi perechi cu acelaşi . ix
Să admitem că pentru un x fixat, valoarea măsurată y este o variabilă aleatoare cu urmatoarea structură:
(1) y xη ε α β ε= + = + + distribuită normal cu dispersia şi media 2σ xβαη += Problema care ne-o punem este aceea ca, din datele experimentale , să obţinem nişte estimări a, b şi s2 pentru α, β si σ2, şi să determinăm distribuţiile acestor estimaţii.
iy
Estimarea ecuaţiei de regresie o notam : (2) bxaY +=
Metoda celor mai mici pătrate dă valorile a şi b care minimizează suma pătratelor deviaţiilor (erorilor) între valorile observate şi cele prezise de ecuaţia de regresie (2):
iy
(3) ( ) ( )22 ∑ −−=∑ −= iiiiE bxayYySS Metoda este în principal datorată lui Gauss. Pentru aflarea parametrilor a şi b, nu este necesară ipoteza privind distribuţia normală a erorilor, dar aceasta este necesară pentru construirea unor intervale de încredere şi pentru testarea unor ipoteze privind aceiaţi estimatori. Metoda celor mai mici pătrate oferă avantajul că estimatorii pe care îi dă sunt deplasaţi şi au o dispersie minimă în clasa estimatorilor nedeplasaţi. Valorile lui a şi b care minimizează suma pătratelor erorilor sunt soluţiile sistemului
( )( ) 2
0 2 02 00
i i i i
i i i i i
SSy a bx na b x ya
i iy a bx x a x b x x ySSb
∂⎧ =⎪ ⎧ ⎧− − − = + =⎪ ⎪ ⎪∂ ⇔ ⇔⎨ ⎨ ⎨− − − = + =∂ ⎪ ⎪⎩ ⎩⎪ =⎪ ∂⎩
∑ ∑ ∑∑ ∑ ∑ ∑
(4)
Rezolvând sistemul prin regula lui Cramer se obţin ca estimatori pentru α şi β:
( )∑ ∑−∑ ∑ ∑ ∑−
= 22
2
ii
iiiii
xxnyxxxY
a şi ( )∑ ∑−
∑ ∑ ∑−= 22
ii
iiii
xxnyxyxn
b
Numărătorul expresiei lui b poate fi scris şi în forma
( ) iiii
iiiiii yxxnynx
yxnyxyxn ∑ −=⎟⎠⎞
⎜⎝⎛∑ ∑ ∑−=∑∑−∑
Deoarece ( ) 0=∑ − xxi şi ( ) 0=∑ − xxy i , mai putem scrie
II. Statistica matematica si biostatistica Regresia liniara
83
( ) ( ) ( ) ( )( )yyxxxxyyxxyxx iiiiiii −∑ −=∑ −−∑ −=∑ − Similar, după cum se poate uşor verifica, avem: ( ) ( )222 ∑ −=∑−∑ xxnxxn iii
În consecinţă, o formă alternativă pentru b este ( )( )( )∑ −
∑ −−= 2
yx
yyxxb
i
ii .
Putem verifica uşor că b este un estimator nedeplasat pentru β. Presupunem valoarea aşteptată dată de ecuaţia iy ixβα + , pentru un . Atunci:
ixx =
( )( ) ( )
( )( )( )
( )
( )( )
( )( )
( )( )
2 2
22
2 2 2
1
0
i i i i
i i
i ii i i
i i i
x x E y y x x xE b
x x x x
x xx x x x x nx x x x x x
α β
α β β
− − − += = =
− −
−− −= + = +
− − −β=
∑ ∑∑ ∑
∑ ∑∑ ∑∑ ∑ ∑
Dispersiile lui a şi b pot fi obţinute direct, deoarece sunt funcţii liniare de , care valori sunt presupuse independente şi distribuite normal, cu dispersia :
iy2σ
( ) ( )( )
( ) ( )( )( ) ( )∑ −
=∑ −
∑ −=
⎥⎥⎦
⎤
⎢⎢⎣
⎡
∑ −
∑ −= 2
2
22
2
2xxxx
yDxx
xx
yxxDbD
ii
ii
i
ii σ
Din prima ecuaţie a sistemului (4) avem: XbYa −= .
( ) ( ) ( ) ( )
( )
( ) ( )
( )
( ) ( )bDnx
xxnx
xxnnx
nx
x
xx
xn
xxxyD
nbDx
ny
DaD
i
i
i
i
iii
i
i
ii
∑=∑ −
∑=
=∑ −
∑∑+∑−
=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
∑ −+=
=∑ −
+∑=+⎟⎠⎞
⎜⎝⎛ ∑=
2
2
22
2
2
2
2
22
22
22
2
22
2
2
1
1
σ
σσ
σ
Deci, 22
bi
a Snx
S ∑=
II. Statistica matematica si biostatistica Regresia liniara
84
2.8.1. Estimaţii şi ipoteze asupra coeficientului b Coeficientul b are o importanţă deosebită şi prin aceea că el
reprezintă o măsură a corelării între x şi y. 1. Coeficientul b este, după cum s-a arătat, repartizat normal cu media
β şi dispersia ( )∑ −2
2
xxi
σ
2. Dacă iy sunt punctele experimentale, iar iY estimările lor teoretice,
ii bxaY += , suma pătratelor erorilor va fi ( )∑ −= 2iiE YySS . Vom
arăta că: 2
2σ=⎟
⎠⎞
⎜⎝⎛
−nSSE E
Pentru a demonstra aceasta relaţie plecăm de la definiţia sumei erorilor ( )[ ]
( ) ( )[ ] ( ) ( )[ ]( ) ( )[ ] ( ) ( )( ) ( )2222
22
2
2 ∑ −+−∑ −−∑ −=∑ −−−=
=∑ ∑ −−++−=−−+−=
=∑ +−=
xxbyyxxbyyxxbyy
bxaxbayybxayyy
bxaySS
iiiiii
iiii
iiE
Dar( )( )
( )∑ −
∑ −−= 2
xx
yyxxb
i
ii şi putem înlocui ( )( ) ( )∑ −=−∑ −2
xxbyyxx iii .
Deci avem ( ) ( ) BAxxbyySS iiE −=∑ −−∑ −=222
Calculăm separat ( )AE şi ( )BE .
( ) ( )[ ] ( ) ( ) ( )22222ynEyEynyEyyEAE iii −∑=∑ −=∑ −=
În continuare, folosind identitatea ( ) ( ) ( )( )22 YEYEYD += şi faptul că
( ) xyE βα += şi ( )n
yD2σ
= obţinem
( ) ( ) ( )
( ) ( )
222 2
22
i
i
E A x n Xn
x X
σα β σ α β
α β α β
⎡ ⎤⎡ ⎤= + + − + + =⎢ ⎥⎣ ⎦ ⎣ ⎦⎡ ⎤= + − + =⎢ ⎥⎣ ⎦
∑
∑
II. Statistica matematica si biostatistica Regresia liniara
85
( ) ( )
( ) ( )( )( )( ) ( )( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )
222 2
22
2 222 2 2 2 2
2 2 22 2 2 2
2 2
1
i
i
i i
i i i i
i i i
i i
x n Xn
x X
x X x X
x X x X x X x X
x X x nX x X
nn x x n x xn
σα β σ α β
α β α β
α β α β α β α β
β α β β α β
β β β
σσ β σ β
⎡ ⎤⎡ ⎤= + + − + + =⎢ ⎥⎣ ⎦ ⎣ ⎦⎡ ⎤= + − + =⎢ ⎥⎣ ⎦
= + + + + − − =
⎡ ⎤= − + + = − + + =⎣ ⎦
= − = − = − =
= − + − = − + −
∑
∑
∑∑ ∑
∑ ∑ ∑
∑ ∑
Mai departe,
( ) ( ) ( ) ( ) ( ) ( )( )[ ]( )
( )∑ ⎟⎟⎠
⎞⎜⎜⎝
⎛+
∑ −−=
=+∑ −=∑ −=
22
22
2222
βσXx
xx
bEbDxxbExxBE
i
i
ii
şi deci, ( ) ( ) ( ) ( ) ( ) 2222222 21 σσββσ −=−−−−+−= ∑∑ nXxXxnSSE iiE
3. Variabila aleatoare 2σESS
este repatizată ( )22 −nχ .
Pe baza acestor trei proprietăţi putem estima intervalele de încredere pentru β şi verifica ipoteze asupra valorilor sale.
a) Cazul dispersiilor cunoscute În cazul în care se cunoaşte dispersia erorilor de măsurare
se foloseşte faptul că variabila
aleatoare
( ) ( ) 2σε == ii yDD
( )
( )21
2
2
⎥⎥⎦
⎤
⎢⎢⎣
⎡
∑ −
−=
−=
xx
bbD
bz
i
σ
ββ este repartizată ( )1,0N .
II. Statistica matematica si biostatistica Regresia liniara
86
b) Cazul dispersiilor necunoscute
În acest caz se înlocuieşte dispersia lui b: ( )∑ −= 2
2
xxi
bσσ cu
estimatorul numit “ dispersia de selecţie”:
( )
( ) ( )∑ −−=
∑ −−
∑ −
= 22
2
22xx
nSS
xxn
Yy
Si
E
i
ii
b .
Variabila aleatoare
( ) ( ) ( ) 222
22
21
2
21
2 −
=
⎥⎦
⎤⎢⎣
⎡−
−
=
⎥⎥⎦
⎤
⎢⎢⎣
⎡
∑ −−
−=
−
n
Z
nSS
b
xxn
SS
bTn
E
b
i
E
χ
σ
σβ
β
este repartizată Student cu n-2 grade de libertate. Ca urmare putem determina intervalele în care se află β cu diverse probabilităţi sau verifica ipoteze privind valoarea lui, exact cum este utilizat testul t pentru testarea ipotezei privind media necunoscută. Intervalul de încredere pentru β este:
bn
bn
StbStb2
1,22
1,2αα β
−−−−+⟨⟨−
2.8.2. Estimarea dispersiei punctelor dreptei de regresie Considerăm un punct fixat şi punctul corespunzător lui: , pe dreapta de regresie y
0x 0y
bxaxy +=++= εβα xbaY += 000 bxxbYbxay +−=+=
( )xxbYy −+= 00 estimatia lui este o variabilă aleatoare distribuită normal.
0y
Avem ( ) 000 xYYE βα +== şi
( ) ( )( )
( )0
2 22 22 2 20 0 2y y b
i
D y x x x xn x x
σ σσ σ σ= = + − = + −−∑
0
II. Statistica matematica si biostatistica Regresia liniara
87
Estimând valoarea lui prin 2σ 2
2ESSs
n=
− avem
( )( )0
2
02 22
1y
i
x xs s
n x x
⎡ ⎤−⎢ ⎥= +⎢ ⎥−⎢ ⎥⎣ ⎦∑.
Variabila aleatoare ( )0
00
ysxyT βα +−
= este repartizată Student cu
grade de libertate şi permite calculul intervalelor de încredere pentru 2n−0xβα + .
( ) ( )
2 2
0 , 2 . 0 , 2 .2 21 1,n Y x n Y x
x x x xy t S y t S
n nx x x x
α α
− −
− −− −
⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎜ ⎟− + + +⎜ ⎟⎛ ⎞ ⎛ ⎞⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠⎝ ⎠∑ ∑
Dispersia depinde de distanţa între şi0Ys 0x x , iar limitele de
incredere ale lui Y pentru valori specifice ale lui x depind de dispersie, numarul gradelor de libertate, numarul de puncte utilizate pentru determinarea dreptei si valoarea sa este minimă atunci când xx =0 . În acest caz, Yy =0 şi yy ss =
0.
Facem observaţia că dispersia determinată în punctul este dispersia datorată regresiei. Valorile experimentale nu sunt însă valori ale regresiei
0y
( )xxbYy −+= 00 , estimate de drepta de regresie. În acest caz, valoarea individuală determinată diferă faţă de valoarea printr-o eroare ε, a cărei dispersie este egală cu , variabilitatea datelor individuale faţă de valorile corespunzătoare regresie Y.
0Y2σ
Ca urmare, valorile individuale vor avea dispersia: ( )( )∑ −
−++= 2
2
022
220
xx
xxn
i
y σσσσ
ceea ce , pentru valorile de selecţie devine ( )( )0
2
02 22
11y
i
x xs s
n x x
⎡ ⎤−⎢ ⎥= + +⎢ ⎥−⎢ ⎥⎣ ⎦∑.
II. Statistica matematica si biostatistica Regresia liniara
88
2.8.3. Calculul intervalelor de încredere pentru dreapta de regresie în cazul stabilităţii formelor farmaceutice.
In cazul studiilor de stabilitate avem doua tipuri de probleme. Pentru o concentratie data, de exemplu 90 % din cea initiala, in afara de timpul de pe dreapta de regresie cand se atinge acest prag, ne intereseaza si marginea inferioara a intervalului de timp, deci timpul pentru care suntem siguri ca nu a scazut concentratia sub 90 %. Din punct de vedere al sigurantei pacientilor , este mai bine sa contam pe acest timp.
FDA sugereaza ca ar fi mult mai potrivita abordarea folosind un interval de incredere unilateral decat unul bilateral pentru a estima data de expirare. Pentru cele mai multe produse, continutul in substanta activa poate doar sa descreasca in timp, si numai marginea inferioara a intervalului de incredere vs. curba timpului pot fi considerata relevanta. (o exceptie poate fi in cazul produselor lichide unde evaporarea solventului duce la cresterea concentratiei substantei active).
Pentru a obtine acest domeniu de valori pentru X (timpul pentru continutul de minim 90%) folosind metoda estimatiei grafice asa cum este descrisa mai sus, presupune calcularea bandei de incredere pentru un domeniu suficient de intins pentru X.
Fig. 5. Banda de incredere 95% pentru linia de « stabilitate »
“Banda” de încredere are formă de hiperbolă şi ilustrează variaţia
lărgimii intervalului de încredere pentru diferite valori ale lui X, respectiv Y.
II. Statistica matematica si biostatistica Regresia liniara
89
Calcularea intervalului de incredere pentru un X la o valoare specifica lui Y este
g
XXXXNgbStXgX y
−
⎥⎥⎦
⎤
⎢⎢⎣
⎡∑ ⎟
⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −+−±−
−−−
1
//)1(]/)([)(22
unde ( )
∑ ⎟⎠⎞
⎜⎝⎛ −
=− 2
2
22
XXb
Stg y
Aceasta procedura de estimare a lui X pentru o valoare data a lui Y se numeste adesea “predictie inversa”.
2.8.4. Studiul stabilităţii medicamentelor
Exemplul 1: Studiul stabilităţii în cazul comprimatelor de vitamina B1
(tiamimă).
Măsurătorile privind rata de descompunere a unui medicament au mare importanţă în studiile despre medicamente, datele de stabilitate fiind de regulă analizate prin metode statistice. Stabilirea unei date de expirare a medicamentului defineşte pragul de viaţă a acestuia. În mod tipic, medicamentul este stocat/depozitat în condiţii variate de temperatură, umiditate, lumină (intensitate a luminii) ş.a.m.d. şi este analizat gradul de de stabilitate/descompunere a medicamentului la intervale de timp specificate.
Experţii stabilesc datele de expirare a medicamentului bazându-se pe datele ştiinţifice referitoare la stabilitatea medicamentelor. Condiţiile fizice ale testului stabilităţii (de exemplu: temperatură, umiditate), durata testării, programul analizei, ca de altfel şi numărul loturilor, sticlelor şi tabletelor trebuie analizate luând probe pentru studiile de stabilitate. O definiţie şi o implementare atente a acestor condiţii sunt importante deoarece validitatea şi precizia recomandării termenului fina de expirare depinde de cum este realizat experimentul.
Reglementările GMP (Good Manufacturing Practice) stabilesc criteriile statistice, incluzând mărimea probelor test in functie de cele de referinţă (observarea şi măsurarea), intervalele pentru fiecare atribut/caracteristică măsurată fiind folosite pentru asigurarea validităţii estimărilor statistice de stablitate. Termenul de expirare trebuie să fie “statistic valid”.
II. Statistica matematica si biostatistica Regresia liniara
90
Mecanismul determinării duratei de viaţă a medicamentului poate fi complex, mai ales atunci când sunt utilizate condiţii extreme, cum ar fi cele pentru “accelerarea” studiilor de stabilitate (de exemplu temperatură ridicată şi condiţii de umiditate ridicate).
De obicei condiţiile extreme sunt utilizate în testarea stabilităţii pentru a economisi timpul şi pentru a obţine o dată de expirare mai aproape de realitate. Toate produsele trebuie testate pentru stabilitate şi în condiţiile recomandate de producător (deci nu accelerate). FDA a sugerat ca cel puţin trei loturi de produse să fie testate pentru a li se determina termenul de expirare. Este necesar a se înţelege că pentru loturi diferite se pot obţine rezultate de stabilitate diferite, mai ales în situaţiile în care excipienţii pot afecta stabilitatea. În aceste cazuri variaţia între calitate şi cantitate a aditivilor (excipienţilor) între loturi poate afecta stabilitatea. O altă cauză pentru care se folosesc mai multe loturi pentru testarea/determinare stabilităţii este acela de a asigura că toate caracteristicile de stabilitate sunt similare de la un lot la altul.
Intervalurile de timp alese pentru analiza păstrării probelor-martor depind de caracteristicile majore ale produsului şi de stabilitatea anticipată. Un model “statistic” optim pentru studiul stabilităţii ţine seama de timpul de depozitare prevăzut până când medicamentul va fi supus analizei. Această problemă este dezbătută pe larg de literatura farmaceutică. Totuşi, modelele rezultate din asemenea premise sunt de obicei greoaie şi nepractice. De exemplu, din punct de vedere statistic, panta eficacităţii/concentraţiei funcţie de timpul (graficul ratei descompunerii) se obţine cu mai multă precizie dacă jumătate din totalul punctelor observate sunt obţinute la timpul 0, iar cealaltă jumătate la finalul timpului de testare. Numitorul creşte în aceste condiţii, invers proporţional cu variabilitatea pantei.
În situaţiile practice se va urmări informaţia privind punctele de la începutul şi finalul analizei pentru a evaluarea ratei descompunerii pe durata studierii procesului de stabilitate precum şi verificarea linearităţii ratei de descompunere în funcţie de timp. Cu cât se studiază mai multe puncte experimentale se îndeplinesc mai bine cerinţele regulatorii ale FDA-ului. Cei mai folosiţi timpi pentru efectuarea analizelor sunt la timpii t: 0, 3, 6, 9, 12, 18 şi 24 luni şi apoi la intervale anuale de timp.
Să luăm în considerare o anumită formulare (ex.: comprimate) care fac obiectulul studiului stabilităţii. Se aleg trei tablete la întâmplare, se analizează la: 0,3, 6, 9, 12 şi 18 luni, după producţie, în condiţiile temperaturii camerii (20 de grade Celsius). Datele sunt prezentate în tabelul de mai jos.
II. Statistica matematica si biostatistica Regresia liniara
91
Timp X (luni) Concentratia Y * Media 0 51, 51, 53 51,7 3 51, 50, 52 51,0 6 50, 52, 48 50,0 9 49, 51, 51 50,3 12 49, 48, 47 48,0 18 47, 45, 49 47,0
Luând în considerare aceste date, se propune stabilirea termenului de valabilitate care se defineşte ca durata de timp de la data fabricaţiei până când un comprimat conţine 90% din substanţa activă declarată. Produsul luat în considerare are o concentraţie declarată de 50 mg şi cu o specificaţie tehnică care prevede o supradozare de 4%; în acest caz producătorul va fabrica tablete cu o concentraţie de 52 mg de substanţă activă.
Figura arată că datele sunt variabile. O examinare atentă a acestui grafic sugerează că dreapta este reprezentarea adecvată a acestor date.
4445464748495051525354
0 2 4 6 8 10 12 14 16 18 20
timp (luni)
Conc
entra
tie (m
g)
Aplicarea metodei dreptei celor mai mici pătrate este cel justificată
în situaţiile în care există un model teoretic care să arate că scăderea în concetraţie este lineară în raport cu timpul (în acest exemplu, un proces de ordin zero).
Cinetica scăderii concetraţiei substanţei active în timpul depozitării în cazul formelor dozate solide este complexă şi un modelul este greu de conceput. În cazul de faţă, se presupune că concetraţia şi timpul sunt în relaţie lineară:
( ) 0C t C kt= − unde • C(t) = concentraţia la timpul t • C0 = concentraţia la timpul 0 (interceptul Y, A)
II. Statistica matematica si biostatistica Regresia liniara
92
• k = constanta • t = timpul de depozitare Având ca obiectiv estimarea perioadei de valabilitate a medicamentului, cea mai uşoară metodă de analiză a acestor date este estimarea pantei şi interceptului dreptei celor mai mici pătrate.(La o primă vedere putem estima panta şi interceptul “din ochi” (metodă grafică). Când facem calculele celor mai mici pătrate, reţinem că fiecare valoare a timpului (X) este asociată cu trei valori ale concentraţiei medicamentului (y). Dacă calculăm C0 şi K, fiecare valoare de timp este numărată de trei ori şi N este egal cu 18. Avem:
( ) ( ) ( )0 0 0 1 1 1 .... 18 18 18 144X = + + + + + + + + + =∑
( ) ( ) ( )2 2 2 2 2 2 2 2 2 20 0 0 1 1 1 .... 18 18 18 1782X = + + + + + + + + + =∑
( ) ( ) ( )0 0 0 1 1 1 .... 18 18 188
18X
+ + + + + + + + += =
( ) ( )51 51 53 .... 47 45 49 894y = + + + + + + =∑
( ) ( )2 2 2 2 2 2 251 51 53 .... 47 45 49 44476y = + + + + + + =∑ 51 51 53 ... 47 45 49 50
18y + + + + + += =
( ) ( )0*51 0*51 0*53 .... 18*47 18*45 18*49 6984Xy = + + + + + + =∑
( ) ( ) ( )2 2 23* 0 8 ... 18 8 630X X ⎡ ⎤− = − + + − =⎣ ⎦∑
( ) ( ) ( ) ( ) ( )2 2 2 2 251 50 51 50 53 50 ... 49 50 74y y− = − + − + − + + − =∑
Avem:
( )2 22
18*6984 144*894 0,267 /18*1782 144
n Xy X yb mg luna
n X X
− −= = = −
−−∑ ∑ ∑∑ ∑
( )894* 0, 267 *8 51,8018
a y b X= − = − − =
Ecuaţia dreptei de regresie este: ( ) 51,80 0, 267*C t t= −
Ca estimare a dispersiei folosim:
II. Statistica matematica si biostatistica Regresia liniara
93
( ) ( ) ( )
( ) ( )
( )
2 22 2exp
222 2
22
2 2 2
244476 894 /18 0, 267 *630
1,182518 2
thii i y y b X Xy ySSE
n n n
yy b X X
nn
− − −−= = =
− − −
− − −= =
−
− − −= =
−
∑ ∑∑
∑∑ ∑
Calcularea timpului în care concetraţia comprimatului este de 90% din cantiatea de substanţă activă declarată, adică 45 mg, se foloseşte ecuaţia
pentru calcularea lui t (timpul) pentru o concetraţie de 45 mg (C = concetraţia la care comprimatul conţine 90% din substanţa activă declarată).
( ) 51,80 0, 267*C t t= −
51,80 0, 267*C t= − ⇒ 25,5t luni= Estimarea timpului la care concetraţia comprimatului va fi de 90% din cantitatea declarată iniţial (se regăsesc 45 mg de substanţă activă după 25,5 luni de la data fabricaţiei). Aceasta este un rezultat mediu bazat pe datele a 18 tablete. Pentru o singură tabletă, timpul de descompunere la 90% din cantitatea declarată de substanţă activă variază în funcţie de cantitatea de substanţă activă iniţială (la t = 0, t este timpul). Cu toate acestea, perioada de valabilitate a medicamentului se estimează pe baza rezultatelor mediilor. Exemplul 2:Studiul stabilitǎţii tiaminei (forma farmaceuticǎ – comprimate) In tabelul următor se va lua un studiu al stabilitaţii tiaminei (vitamina B1).
timpul (luni) t concetratia in tiamina C (mg/tableta) 0 1003 98.96 98.19 96.8
12 96.2
Timpul mediu este: 0 3 6 9 12 65
luni+ + + += = t
În tabelul urmator sunt calculate:
II. Statistica matematica si biostatistica Regresia liniara
94
t t t− ( )2t t−
C dC dC C− ( )2
dC C−
0 6 36 100 100 0 0 3 3 9 98.9 99 0.1 0.01 6 0 0 98.1 98 -0.1 0.01 9 3 9 96.8 97 -0.2 0.04
12 6 36 96.2 96 0.2 0.04 total=90 Total=0.1 unde: C = concentratia in tiamina (mg/tableta)
dC = concentratia calculata din dreapta de regresie t = timpul Dispersia se obţine astfel:
2 0 0,01 0,01 0,04 0,04 0,035 3
s + + + += =
−, adică 0,18
2SSEsn
= =−
, 2 0,1;5 2 0,1;3 2,35nt t tα − −= = = (avem 3 grade de libertate)
, 2* 0,18*2,35 0, 423s nT s tα −= = = Dar, pentru un t fixat, considerand si eroarea de determinare experimentala:
( )( )( )
2
0 0 211s
t tC t C k t T
n t t
−= − − + +
−∑
Se obţine un interval de încredere de 95% egal cu:
( )( )
2
2
6100 0,3* 0,423 1,2
6t
tt−
− ± +−∑
Pentru t=0 se obtine [ ]100 0,423 1,6 100 0,423*1,264 100 0,535 99,465 ;100,535± = ± = ± ⇒
Daca vom considera numai eroarea fata de dreapta de regresie
( )( ) ⎥
⎥⎦
⎤
⎢⎢⎣
⎡
∑ −
−+= 2
2
02 10
xx
xxn
ssi
y . Vom putea construi un interval de incredere
pentru punctul y fixat (deci o concentratie data).
II. Statistica matematica si biostatistica Regresia liniara
95
Variabila aleatoare ( )0
00
ysxyT βα +−
= este repartizată Student cu n-
2 grade de libertate şi permite calculul intervalelor de încredere pentru 0xβα + .
( ) ( )⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
⎟⎠⎞
⎜⎝⎛ −
⎟⎠⎞
⎜⎝⎛ −
++
⎟⎠⎞
⎜⎝⎛ −
⎟⎠⎞
⎜⎝⎛ −
+−−
−
−−
−
−
2
2.2,0
2
2.2,01,1
xx
xx
NSty
xx
xx
NSty xYnxYn αα
unde ; 1/n=1/5=0.2 . 0,03Y xS s= =Se obţine un interval de încredere de forma:
( )( )
2
2100 0,3* 0,423 0,2t t
tt t
−− ± +
−∑
Pentru t=0, concentratia activa initiala este estimata :
[ ]36100 0,423 0,2 100 0,327 99,673 ;100,32790
± + = ± ⇒
2.8.5. Regresia ponderata
Una din presupunerile implicite in aplicarea inferentei statistice este
acela ca variatia lui y este aceeasi la fiecare valoare a lui X. Apar multe situatii in practica atunci cand aceasta presupunere nu este respectata. Un caz frecvent este acela cand variatia lui y este proportionala cu X. Aceasta apare cand y are un coeficient constant al variatiei (CV) si y este proportional cu X (y = BX), observat de obicei in metodele de analiza instrumentala in chimia analitica.
Doua din abordarile posibile in rezolvarea acestei probleme sunt: a) O transformare a lui y pentru a face variatia omogena, cum ar fi
transformarea logaritmica . b) O analiza de regresie ponderata.
II. Statistica matematica si biostatistica Regresia liniara
96
O pondere uzuala in chimia analitica pentru valoarea la concentratia Xi
este inversul patratutului acesteia 2
1
iX . Deci, in formulele pentru calculul
coeficientilor A si B valorile yi se vor inlocui cu valorile 2i
iii X
yyw =
2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia
Se numesc reziduuri diferentele intre valorile calculate prin regresie si cele experimentale ( ceea ce , in alt context, numeam ca „erori”)
Examinarea reziduurilor poate dezvalui variatia heterogenitatii sau nonlinieritatea.
Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate
sunt valabile, reziduurile ar trebui sa fie aproximativ normal distribuite si n-ar trebui sa apara nici o tendinta.
Figura 6 arata un grafic al reziduurilor ca functie de X. Faptul ca
reziduurile prezinta o forma de palnie, marindu-se pe masura ce X creste, sugereaza folosirea unei transformari logaritmice sau utilizarea unor ponderi pentru a reduce heterogeneitatea variatiei.
II. Statistica matematica si biostatistica Regresia liniara
97
Valori reziduale
0
1
2
3
4
5
6
7
8
9
10
0 50 100
Concentratia
Val
oare
rezi
dual
a
Valori reziduale logaritmate
0
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5Concentratia (ln)
Val
ori r
ezid
uale
Fig. 6a Valorile reziduale in raport cu distributia normala
Fig.6b Valorile reziduale in raport cu distributia log normala. Mare parte din heterogenitatea variatiei a fost inlaturata.
Consideram o variabila aleatoare y care depinde liniar de variabila
aleatoare x : xy βα +=
Atunci cand facem determinarile experimentale noi nu stim nici daca cele doua variabile se coreleaza liniar si nici care este dreapta care descrie dependenta lor. Putem insa, prin analiza datelor experimentale sa determinam, prin metoda celor mai mici patrate, o estimare a dreptei
bxay +=ˆ daca vom considera un set de determinari ( )
jNjijy,1=
corespunzatoare pentru
un dat : ix
II. Statistica matematica si biostatistica Regresia liniara
98
Distanta de la un punct dat la ijy y se poate descompune in trei
componente: distanta pana la iy - media punctelor , distanta de la media grupului la valoarea estimata prin dreapta si distanta de la punctele de pe
dreapta la media totala
ijy
iy
y : ( ) ( ) ( )yyyyyyyy iiiiijij −+−+−=− ˆˆ
Ridicand la patrat, sumand si tinand cont ca sumele de produse mixte sunt zero, se obtine :
( ) ( ) ( ) ( )2222ˆˆ ∑∑∑∑ −+−+−=− yyNyyNyyyy iiiiiiijij
sau elinearitatelinearitatladedeviatieeroareT SSSSSSSS ++=
Observam ca, daca toate punctele ar fi pe o dreapta va fi zero, deci aceasta suma este o masura a corelarii liniare.
elinearitatladedeviatieSS
Intr-adevar :
( ) ( )xxSS
rxxbbxabxayyx
y −=−=−−+=−ˆ
Facem observatia ca datele pot fi aproximate foarte bine dupa o alta lege (de exemplu xky = cum este in cazul in care se aplica la dizolvare legea lui Higuchi).
Se definesc coeficientul de corelatie si a raportului de corelare ca :
II. Statistica matematica si biostatistica Regresia liniara
99
total
linear
SSSS
r =2 si total
elinearitatladedeviatielinear
Y
XYY
SSSSSS
s
ss +=
−= 2
22
2η
• Raportul de corelare 2η este proportia de variabilitate a lui Y atribuabila covariantei cu X ; • Coeficientul de determinare (corelatie) este proportia de variabilitate a lui Y atribuabila covariantei liniare cu X .
Legatura intre panta dreptei de regresie si coeficientul de corelatie Avem dupa definitie
∑ ⎟⎟⎠
⎞⎜⎜⎝
⎛ −⎟⎟⎠
⎞⎜⎜⎝
⎛ −=
y
i
x
i
Syy
Sxx
Nr 1
In cazul in care punctele sunt toate pe o dreapta iy ii bxay +=
( )yx
i
y
i
x
i
SSxxb
NSxbabxa
Sxx
Nr ∑∑
−=⎟
⎟⎠
⎞⎜⎜⎝
⎛ −−+⎟⎟⎠
⎞⎜⎜⎝
⎛ −=
211
dar, ( ) ( ) 22
222
2x
iiy Sb
Nxxb
Nxbabxa
S =−
=−−+
= ∑∑
Deci, inlocuind mai sus ( )
yx
i
y
i
x
i
SSxxb
NSxbabxa
Sxx
Nr ∑∑
−=⎟
⎟⎠
⎞⎜⎜⎝
⎛ −−+⎟⎟⎠
⎞⎜⎜⎝
⎛ −=
211
( )11
2
22
==−
= ∑x
x
xx
i
SS
bSSxxb
Nr
Cand punctele nu sunt pe dreapta, panta dreptei prin cele mai mici patrate b este:
( )( )( )
( )( ) ( )( )x
y
x
y
yx
ii
x
ii
i
ii
SS
rSS
SSyyxx
Syyxx
xx
yyxxb =
−−=
−−=
−
−−= ∑∑
∑∑
22
Deci, x
y
SS
rb =
II. Statistica matematica si biostatistica Regresia liniara
100
2.8.7. Stabilitatea dreptei de regresie in bioanalitica In bioanalitica si in chimia analitica in general, pentru fiecare
concentratie, la stabilirea dreptei “de etalonare” se fac mai multe determinari.
Curbele de etalonare (dreptele) trebuie sa treaca prin origine; adica in cazul acesta rezultatul trebuie să fie 0 dacă concentraţia de medicament este 0. Calcularea pantei este simplificată dacă dreapta este forţată să treacă prin punctul de (0, 0). În cazul acesta nostru, dacă interceptul este zero, panta este:
2
Xyb
X= ∑∑
Fig. 7. Curba care trece prin origine si are interceptul 0 Dacă această dreaptă urmează să fie folosită pentru a prevedea
concetraţiile actuale bazându-se pe rezultatele analizei experimentale, vom obţine răspunsuri care sunt diferite faţă de cele previzionate de dreapta trasată anterior. Cu toate acestea, ambele drepte au fost construite din acelaşi date experimentale. “Este vre-o dreapta care este corecta?” sau “Este una din cele 2 drepte mai “buna” decat cealalta?”. Desi nu putem spune cu încredere care dreapta este mai potrivita, este necesara o cunoastere a metodei analitice este foarte importanta in luarea deciziilor pentru una dintre cele 2 drepte.
De exemplu, un intercept diferit de zero, sugerează fie non-linearitatea pentru un sir de analize fie prezenţa unei substanţe care interferează în proba de analizat.
Dreapta pe care o vom folosi se va face pe baze statistice. Un test statistic al interceptului poate fi pornind de la ipoteza nula ca interceptul este 0, (H0: A = 0). Respingerea ipotezei este o dovadă puternică că dreapta cu intereceptul pozitiv este cea mai adecvata pentru aceste date.
II. Statistica matematica si biostatistica Regresia liniara
101
Se calculeaza apoi “acuratetea” sau “exactitatea “ acestor determinari, cuantificata prin distanta valorii calculate prin regresie
Piroxicam
Linear RegressionY = B*X + A
Parameter Value Error A -0.0029 0.0079
B 0.3294 0.0019 R 0.9999
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
0 2 4 6 8 10 12
Conc (µg/mL)
Area
Ana
lit/Ar
ea S
I
Fata de concentratia “nominala’, concentratia care s-a preparat
efectiv ( pe care o consideram ca nu este afectata de erori). In momentul in care media determinarilor efective la una din aceste concentratii se modifica, si dreapta de regresie se va modifica si deasemena si distantele tuturor punctelor experimentale la aceasta dreapta.
Este de dorit o dependenta stabila a acuratetei punctelor de
acuratetea datelor de intrare, in sensul ca o eroare mica in preparare sau in masurare, sa afecteze putin acuratetea “dreptei”.
In mod concret , consideram datele experimentale de la determinarea dreptei de etalonare a piroxicamului in probe de plasma (fig. 5). Orice eroare in preparare sau masurare schimba dreapta.
Sa evaluam ce efect are asupra acuratetei punctelor o eroare de 10 % la limita de cuantificare (LLOQ) si o eroare de 10 % la limita superioara de cuantificare.
Acuratetea punctelor dupa o schimbare de 10% a conc. experimentale la diferite limite de cuantificare
II. Statistica matematica si biostatistica Regresia liniara
102
Tabelul nr. 7 Limita inferioara de cuantificare Limita superioara de cuantificare
Conc A/SI Conc exp Acc
Acc initial Conc A/SI
Conc exp Acc
Acc initial
0.1 0.0240 0.083 83.3 90.014 0.1 0.0267 0.164 164.1 90.01 0.25 0.0818 0.259 103.4 102.841 0.25 0.0818 0.318 127.1 102.84 0.5 0.1570 0.487 97.4 97.070 0.5 0.1570 0.527 105.5 97.07 1 0.3396 1.041 104.1 103.991 1 0.3396 1.037 103.7 103.99 2.5 0.7903 2.409 96.4 96.321 2.5 0.7903 2.294 91.8 96.32 5 1.6711 5.083 101.7 101.643 5 1.6711 4.752 95.0 101.643 10 3.2840 9.978 99.8 99.786 10 3.6124 10.168 101.7 99.786
Se observa ca efectul erorilor la concentratii mici asupra celorlalte
concentratii este neglijabil, in timp ce efectul erorilor la valori mari asupra acuratetei concentratiilor mici este “critic” , transformandu-le pe acestea in “valori discordante”. Concluzii În studiul stabilitaţii medicamentului, pe lângǎ determinariile practice de stabilitate, aplicarea metodei regresiei lineare are un rol important. Astfel determinarea intervalului de încredere pentru a stabili termenul de valabilitate al unui medicament se obţine folosind aceasta metoda. Cu ajutorul dreptei de regresie (dreapta celor mai mici pǎtrate) se pot face estimari pentru a stabili valabilitatea unui produs. Aşa cum s-a aratat in exemplul tabletelor cu tiaminǎ, se ia in considerare limita inferioarǎ in calculul stabilitǎţii unui medicament, deoarece practic durata de viaţǎ a unui medicament se situeazǎ intre limitele acestui interval. În acest fel putem fi siguri ca data de expirare care este înscrisa pe cutie, este practice sub data efectivǎ de expirare şi se înlaturǎ eventualele erori care apar în calculul statistic. De regulǎ durata de valabilitate se calculeazǎ astfel încât la termenul de expirare, forma farmaceuticǎ luatǎ în considerare (în cazul nostru tabletele de tiaminǎ) sǎ conţinǎ cel puţin 90% din substanţa activǎ declaratǎ, respective dozatǎ. Luând în considerare aceste lucruri, estimarea dreptei de regresie, respective a parametrilor ei joacǎ un rol foarte important in studiul stabilitǎţii unui medicament, indiferent de forma farmaceuticǎ luatǎ în calcul.
II. Statistica matematica si biostatistica Regresia liniara
103
Calculul intervalelor de încredere sunt necesare de asemenea pentru a stabili durata de viaţa a unui medicament. Practic ele conduc la stabilirea valabilitǎţii acestor. Tocmai de aceea se ia în considerare limita inferioarǎ a acestor intervale. În acest mod se eliminǎ o parte din erori. În momentul datei limitǎ a valabilitǎţii unui medicament, acesta trebuie sa nu fi pierdut mai mult de 10% din cantitatea aflatǎ iniţial în produsul luat în calcul. În estimarea întervalelor de încredere pentru stabilirea valabilitǎţii unui medicament, analizele se fac de regulǎ la 0, 3, 6, 9, 12 luni, iar mai apoi anual. De asemenea se pot efectua şi studii de stabilitate accelerate, la timpi mai scurţi dar în condiţii de temperaturǎ şi umiditate crescute.
II. Statistica matematica si biostatistica Regresia liniara
104
II. Statistica matematica si biostatistica ANOVA
105
2.9. Metode statistice de analiza factorilor de variabilitate în experimentul biologic (ANOVA) Să cercetăm, în continuare, problema comparării mai multor selecţii provenite din populaţii pe care le ştim ca fiind normal repartizate, de exemplu concentraţiile plasmatice realizate de tablete care conţin diferiţi excipienţi, dar care au aceeaşi substanţă activă, în aceeaşi doză. Vrem să verificăm ipoteza compusă că acestea provin de fapt din aceiaşi populaţie, având media μ şi dispersia σ, deci că excipienţii folosiţi nu influenţează semnificativ cedarea şi absorbţia substanţei active:
μμμμ === 3210 :H 4
faţă de ipoteza alternativă că cel puţin două medii nu sunt egale. O variantă de rezolvare a problemei ar fi compararea mediilor de selecţie două câte două prin metodele prezentate anterior.
Fie, de exemplu, relaţia între mediile de selecţie 4321 xxxx ⟨⟨⟨ . Este evident greşit a aplica o relaţie de tranzitivitate şi a spune că 21 μμ = şi 32 μμ = şi 432143 μμμμμμ ===⇒= . Motivul acestei erori este legat în primul rând de violarea unui principiu de bază al teoriei selecţiei: alegerea la întâmplare a selecţiilor. Ori compararea loturilor după criteriul “a posteriori”, al mărimii mediilor de selecţie este într-adevăr o abatere de la acest principiu. Mai mult, nici măcar 41 μμ = nu implică în acest caz 32 μμ = din cauza dependenţei rezultatului testelor de relaţiile între dispersiile populaţiilor din care provin selecţiile. Ca urmare, problema comparării mai multor selecţii (loturi) trebuie abordată prin alte metode care să facă compararea tuturor selecţiilor în acelasi timp. O astfel de abordare se bazează pe compararea dispersiilor de selecţie şi se numeşte analiză dispersională. Analiza dispersională este o altă metodă fundamentală a statisticii care, în plus faţă de mijloacele de calcul a “tendinţei centrale” a rezultatelor experimentelor repetate, caracterizează mai ales variabilitatea acestora şi factorii ce o determină. Variabilitatea se poate datora existenţei unor factori cu influenţe sistematice, a unor factori aleatori de fluctuaţie mai pronunţată şi, în final, factori locali, inevitabili, determinând o fluctuaţie mai mică, definita “ca
II. Statistica matematica si biostatistica ANOVA
106
fluctuaţie experimentală”. Analiza dispersională îşi propune separarea “variabilităţii totale” în: variabilitatea datorată factorilor sistematici, variabilitatea factorilor cu efecte aleatoare, plus o variabilitate “reziduală” (diferenţa până la variabilitatea totală), care reprezintă de fapt variabilitatea experimentală. Din aceste variabilităţi se evaluează dispersiile parţiale corespunzătoare diferiţilor factori, calculându-se semnificaţia rapoartelor lor prin aplicarea testului F. Principial datele experimentale se grupează în funcţie de diferite criterii şi se urmăresc efectele asupra variabilitatii în funcţie de aceste criterii, efecte care se cuantifică în raport cu variablitatea reziduală. Analiza dispersională este cunoscută în aplicaţiile de biofarmacie şi farmacocinetică sub denumirea de ANOVA (de la Analysis of Variance). 2.9.1. Analiza funcţională unifactorială Cea mai simplă analiză dispersională, numită analiză dispersională unidimensională sau unifactorială (numită în literatura engleză şi “one-way ANOVA”) sau “experiment complet aleator”, “experiment cu grupuri paralele”, corespunde testului t de analiză a două eşantioane independente şi compară două sau mai multe grupuri. De exemplu, n pacienţi sunt grupaţi în k scheme de tratament. Putem să comparăm efectele a două medicamente administrate la mai multe grupuri de voluntari, la care se poate adauga şi un grup “placebo”. Voluntarii se distribuie aleator în toate grupurile. După măsurarea unui parametru dat, se testează ipoteza nulă că toate valorile parametrului testat sunt egale în populaţia corespunzătoare diferitelor tratamente testate, deci tratamentele sunt echivalente între ele.
In ipoteza că toate grupurile aparţin aceleiaşi populaţii, ideea testului este aceea că variabilitatea în interiorul grupurilor trebuie să fie de acelaşi ordin cu variabilitatea între mediile grupurilor.
În consecinţă, dispersia totală, evaluată ca suma a pătratelor diferenţelor între valorile individuale şi media întregii populaţii selectate SST, este separată într-o parte datorită variaţiei între grupuri (within), sau variabilităţii “interioare” şi o parte datorită variabilităţii “dintre” (between) grupuri: BWT SSSSSS += .
Dacă numărul de grupuri este k şi numărul de subiecţi în grupul i este această egalitate poate fi explicitată după cum urmează: in
II. Statistica matematica si biostatistica ANOVA
107
(2
1∑∑
=
−=n
i
n
jijT
i
XxSS ) (1)
unde =X media mareN
x
n
Xnn
x
ki
kii
i
i jij ∑
∑∑
∑∑∑
===1
1 şi iX este media
grupului i. Fixând grupul i putem scrie
( ) ( ) ( )[ ]
( ) ( ) ( )( )∑∑∑
∑∑
−−+−+−=
=−+−=−=
iii
ii
n
jiiij
n
ji
n
jiij
n
jiiij
n
jij
XXXxXXXx
XXXxXx
222
1
22
Ultimul termen este egal cu
( ) ( )( ) 022 =−−=⎟⎟⎠
⎞⎜⎜⎝
⎛−− ∑ iiiii
n
jiiji XnXnXXXxXX
i
şi (1) devine
( ) ( ) WB
k
i
n
jiij
k
iiiT SSSSXxXXnSS
i
+=−+−= ∑∑∑22
(2)
relaţie cunoscută ca identitatea analizei dispersionale. Considerăm variabilele aleatoare:
11
2
−=
−=∑ N
SSn
SSs T
i
TT , 2
1B
BSSsk
=−
şi kN
SSkn
SSs W
i
WW −
=−
=∑
2 .
Ţinând cont de regula generală demonstrată mai înainte că, ( ) ( )11 222 −≈− nn x χσδ avem,
( ) ( )( )
( )
2
.2 2
.,
1 11
ij ij
W ij i i ii j i ii
x xSS x x n n s
n
−= − = − = −
−
∑∑ ∑ ∑ i
Deci, ( ) ( )( ) ( )kNnn
SSs i
i
WW −=−≈
−= ∑∑
22222 11
χσχσ
II. Statistica matematica si biostatistica ANOVA
108
Analog, ( )1222 −≈ ksB χσ şi deci raportul 2
21
W
B
W
B
SS
kNSSkSS
F =
−
−= este
distribuit ( )1,F k N k− − .
Se observă că de fapt ( )
2
2
11 x
k
iii
B sk
XXn
kSS
=−
−=
−
∑ reprezintă
dispersia de selecţie ponderată a mediilor de grup faţă de marea medie. Abaterile mediilor grupurilor faţă de media generală depind atât de
hazardul măsuratorilor cât şi de factori ce ţin de însăsi natura grupurilor. Abaterile în interiorul grupurilor sunt independente de aceşti factori, deoarece fiecare valoare măsurată este raportată la însăşi media grupului respectiv. Ele reprezintă fluctuaţii aleatoare.
Variabilitatea în interiorul grupurilor reprezintă diferenţa între variabilitatea totală şi variabilitatea între grupuri.
Pentru simplificarea calculelor în aplicaţiile practice s-au introdus
notaţiile şi şi formulele precedente se
aduc la forme echivalente ce presupun un volum mai mic de calcule, după cum urmează:
∑∑∑ = xxk
i
n
jij
i
∑∑∑ = 22 xxk
i
n
jij
i
( ) ( ) ( )
( ) ( )N
xx
Nx
x
Nx
NNx
xXNxXxXxSS
ijij
ijijijijijijT
22
22
2
222222
22
∑∑∑∑
∑∑∑∑∑∑
−=−=
=+−=+−=−=
( ) ( )∑∑∑
∑
∑
∑∑∑ ∑
∑−
⎟⎟⎠
⎞⎜⎜⎝
⎛
=⎟⎟⎠
⎞⎜⎜⎝
⎛
−⎟⎟⎠
⎞⎜⎜⎝
⎛
=−= ==
k
i
k
i
n
jij
ki
i jijk k
i
n
jij
iiB
n
xn
x
n
x
n
xXXnSS
ii
1
2
1
2
1
1
2
1 1
2
12
II. Statistica matematica si biostatistica ANOVA
109
2.9.1.1. Aplicarea ANOVA in testarea ipotezei privind depdendenta liniara a datelor
Evaluarile statistice de pana acum permit determinarea unei drepte sau a unui fascicul de drepte care aproximeaza evolutia fenomenului descris de datele experimentale.
Un astfel de rezultat se poate obtine oricand, chiar si atunci cand evident evolutiile nu urmeaza un model liniar. Deci, « cea mai buna dreapta” poate fi in fond foarte proasta.
Din acest motiv este nevoie si de teste statistice care sa verifice ipoteza ca efectiv un model liniar este aplicabil.
a) Testarea linearitatii :
Pornind de la cele prezentate in capitolul privind regresia liniara,
observam ca are eroareSS IN − grade de libertate si deci IN
SSMS eroare
eroare −=
avem ca ( ) 2eeroareMSE σ=
In cele ce urmeaza vom calcula media sumei ; linearMS
( ) ( )( ) ( )( ) ( ) ( )2222ˆ bExxxbabxaEyyEMSE iiilinear ∑∑∑ −=−−+=−=
Dar, ( ) ( ) ( )[ ] ( ) ( )[ ]22
222 bE
xxbEbDbE
i
y +−
=+=∑
σ
Folosind relatia x
y
SS
rb = ⇒ ( )y
xbEσσ
ρ= si
( ) ( ) ( )( ) 222
2
222
2
2
22
2
2
yyx
yiy
x
y
i
yilinear
Nxx
xxxxMSE
σρσσ
σρσ
σσ
ρσ
+=−
+=
=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛+
−−=
∑
∑∑
In fapt aici am presupus ca pentru fiecare punct valorile corespunzatoare au o dispersie
ix
ijy 2xyσ care este aceeasi pentru toate
punctele si deci putem sa o notam cu sau . ix 2yσ 2
eσLucrurile nu se intampla intotdeauna in acest fel. De exemplu in
cazul dreptei de etalonare in bioanalitica dispersiile sunt practic semnificativ
II. Statistica matematica si biostatistica ANOVA
110
mai mari la limita de cuantificare (pana la 20%) – fata de restul concetratiilor la care limita admisa pentru « precizie » este de 15%.
Ipotezele de verificat sunt : 0:0 =ρH echivalenta cu 0:0 =βH folosind variabila
aleatoareeroare
linearIN MS
MSF =−,1 .
b) Testarea ipotezei de nonlinearitate : 0: 22
0 =− ρηHPentru aceasta se compara valorile testului
eroare
elinearitatladedeviatieINI MS
MSF =−− ,2 cu valorile din distributia Fischer.
• Raportul de corelare 2η este proportia de variabilitate a lui Y atribuabila covariantei cu X ; • Coeficientul de determinare (corelatie) este proportia de variabilitate a lui Y atribuabila covariantei liniare cu X . 2.9.1.2. Compararea parametrilor farmacocinetici ai unui medicament după administrarea pe mai multe căi
Să considerăm constanta de eliminare (Tabelul 8) pentru un medicament administrat într-o singură doză oral şi i.v., iar i.m. timp de trei zile la diferite grupuri. Este de aşteptat ca eliminarea să fie independentă de calea de administrare.
Vom compara constantele de eliminare după administrarea orală şi i.m. Tabelul nr. 8: Constanta de eliminare 14 min10 −∗ek
Oral prima doza i.m. o doza i.m. a-5-doza 106 55 84 109 40 105 160 109 174
∑ ijx 375 204 363 ∑ = 942x
∑ 2ijx 48717 16506 48357 1135802 =∑ x
in 3 3 3 N=9
1−in 2 2 2 ( ) 61 =−∑ in
ix 125 68 121
II. Statistica matematica si biostatistica ANOVA
111
( ) ( )∑ ∑∑ =−=−=−= 14984
9942113580
2222
Nx
xXxSS ijT
( )
6074985964392313872468759
9423
3633
2043
375 22221
2
1
2
1
1
2
=−++=−++=
=⎟⎟⎠
⎞⎜⎜⎝
⎛
−⎟⎟⎠
⎞⎜⎜⎝
⎛
=−=
∑
∑∑∑
∑∑ =
=k
i
i jijk
i
n
jijk
iiiB
n
x
n
xXXnSS
i
8910607414984 =−=−= BTW SSSSSS
14856
89102 ==−
=kN
SSs W
W , 30372
60741
2 ==−
=kSSs B
B
( ) ( ) 07,2148530376,2,1 2
2
====−− ∑W
Bi s
sFknkF valoare aflată în zona de
acceptare ( 26,75,97;6,2 =f si 92,1099;6,2 =f ) Aplicăm în continuare acelaşi procedeu, introducând şi administrarea i.v. Tabelul nr. 9: Constanta de eliminare 14 min10 −∗ek i.m. o doza i.m. a-5-doza i.v. 106 55 84 63 109 40 105 70 160 109 174
∑ ijx 375 204 363 133 1075=∑ x
∑ 2ijx 48717 16506 48357 8869 1224492 =∑ x
in 3 3 3 2 N=11
1−in 2 2 2 1 ( ) 71 =−∑ in
ix 125 68 121 66
( ) ( )∑ ∑∑ =−=−=−= 17392
111075122449
2222
Nx
xXxSS ijT
II. Statistica matematica si biostatistica ANOVA
112
( )
8428105056884443923138724687511
10752
1333
3633
2043
375 222221
2
1
2
1
1
2
=−+++=
=−+++=
=⎟⎟⎠
⎞⎜⎜⎝
⎛
−⎟⎟⎠
⎞⎜⎜⎝
⎛
=−=
∑
∑∑∑
∑∑ =
=k
i
i jijk
i
n
jijk
iiiB
n
x
n
xXXnSS
i
8964842817392 =−=−= BTW SSSSSS
12807
89642 ==−
=kN
SSs W
W , 28093
84281
2 ==−
=kSSs B
B
( ) ( ) 19,2128028096,2,1 2
2
====−− ∑W
Bi s
sFknkF valoare aflată în zona de
acceptare ( 26,75,97;6,2 =f şi 92,1099;6,2 =f ) 2.9.1.3. Condiţii necesare pentru aplicarea analizei dispersionale.
a) Modelul variabilei aleatoare supusă măsuratorilor Subliniem ceea ce am spus sau am presupus ca şi condiţii prealabile
pentru a putea aplica testul prezentat: 1) Pentru ca sumele calculate să fie repartizate 2χ este obligatoriu ca
selecţiile să provină din populaţii repartizate normal. Dacă acest lucru nu se întâmplă, rămâne să fie aplicate teste neparametrice, după cum s-a prezentat anterior.
2) Analiza dispersională compară dispersia între grupuri cu dispersia totală din interiorul grupurilor pentru punerea în evidenţă a efectelor sistemice. Dispersiile în populaţiile din care provin grupurile s-au presupus egale. Pentru verificarea acestei ipoteze se poate aplica testul F dispersiilor de selecţie luate două câte două, sau se poate aplica testul Bartlett.
3) Aditivitatea efectelor de intra şi intervariabilitate, fenomen care depinde de natura intimă a fenomenului măsurat. Ca urmare rezultatul masuratorilor este o variabila aleatoare care se poate scrie: ijiijx εαμ ++= cu ( ) 0=ijE ε şi ( ) 2
eijD σε = unde μ este
II. Statistica matematica si biostatistica ANOVA
113
media generală a populaţiei, ( ) 2ασα =D , iα este un factor fix ce variază de
la un grup la altul şi este egal cu diferenţa între μ şi media grupului
i iμ μ α= + , iar ijε este eroarea de măsurare. Media a n determinări în interiorul unui grup este
iiij
ii nX εαμ
εαμ ++=++= ∑ deoarece iα şi μ sunt constante.
Media generală va fi: εαμεα
μ ++=++= ∑∑∑knk
M iji deoarece
iα variază de la un grup la altul iar μ este acelaşi pentru întreaga populaţie.
Mai departe ( ) ( )ij i i ij i i ij ix X μ α ε μ α ε ε ε− = + + − + + = − şi dispersia în
interiorul grupului va fi: ( ) ( )
11
22
2
−
−=
−
−= ∑∑
i
iij
i
iiji nn
Xxs
εε iar media ei este
( ) ( ) ( ) 2
22
2
11 ei
iij
i
iiji n
En
XxEsE σ
εε=⎟
⎟
⎠
⎞
⎜⎜
⎝
⎛
−
−=⎟
⎟
⎠
⎞
⎜⎜
⎝
⎛
−
−= ∑∑ (din faptul că aşa cum s-a
arătat mai înainte ( ) 22 σ=xsE , fiind un estimator nedeplasat al dispersiei).
2xs
Sumând pentru toate grupurile se obţine
( ) ( ) ( ) ( )222 2 2
11 i ii iw e
n E Sn S N kE s EN k N k N i
σ σ−⎛ ⎞− −
= = =⎜ ⎟⎜ ⎟− − −⎝ ⎠=∑∑
Deci este un estimator nedeplasat al lui indiferent dacă ipoteza este adevărată sau nu.
2ws 2σ
0HDacă nnnn k ==== ...21
( ) ⎥⎦
⎤⎢⎣
⎡⎟⎠⎞⎜
⎝⎛ −+−
−=⎟
⎠⎞⎜
⎝⎛ −
−=
−= ∑ ∑∑
2222
111
1εεαα iiii
BB k
nXXnkk
SSs
( ) 2
2
1 ins
kn i
ε
εε=
−
−∑ şi ( )2
2 2eeE ns n
nε
σ σ= =
În ceea ce priveşte α avem două cazuri în funcţie de cum a fost ales: a) α este o variabila aleatoare ( )2,0 ασN , atunci 22 si 2
eB snss += α
( ) 222eB nsE σσα +=
II. Statistica matematica si biostatistica ANOVA
114
b) iα factori ficşi , 0=⇒−= ∑ iii αμμα şi 0=α , atunci
( ) 22
2
1i
B kns
−
−=
0es+∑ α
şi ( ) 22
2
1 ei
B knsE σ
α+
−= ∑
Daca ne referim la grupe oarecare, alese întâmplator din toate selecţiile posibile din întreaga populaţie, α este o variabilă aleatoare care aparţine ( )2,0 ασN , dar nu mai avem 0=∑ iα pentru o grupă de selecţie oarecare.
Este cazul când concluziile ce ne interesează se referă, în principal, la întreaga populatie şi nu la şarjele cercetate, de exemplu cand dorim sa verificam omogenitatea populatiei.
Calcule similare arată că, atunci când nnnn k ==== ...21 , şi 222
eB snss += α ( ) 222ασσ nsE eB += .
Ca urmare, 1
2
−=
kSSs B
B este o estimatie nedeplasată a lui numai
atunci când ipoteza este adevărată.
2eσ
0H b) Clasificarea ierarhică în trepte. Scindarea dispersiei totale în
dispersii parţiale ale treptelor. Dacă vom considera eroarea unei metode de analiză, este de aşteptat ca aceasta să fie egală cu suma erorilor parţiale ale fazelor analizei. Scindarea erorii totale în erorile parţiale ale fazelor oferă posibilitatea punerii în evidenţă a fazelor ce determină diminuarea reproductibilităţii şi a locului unde trebuie intervenit pentru îmbunătăţirea metodei. 2.9.2. Analiza dispersională multifactorială În analiza anterioară criteriul de împărţire în grupuri a fost unul singur – calea de administrare sau perioada de administrare. În continuare ne vom ocupa de cazul când vrem să determinăm ponderea a doi factori în acelaşi timp, folosind datele obţinute într-un singur experiment. Pentru simplificarea scrierii prezentăm pentru început cazul când testăm k medicamente continând aceeaşi substanţă activă, administrate în n perioade diferite. Se consideră că efectele determinate de cei doi factori analizaţi sunt variabile aleatoare independente. Având doi factori, se testează două ipoteze de nul. Dacă vom aşeza datele într-o matrice, liniile şi coloanele
II. Statistica matematica si biostatistica ANOVA
115
corespunzând respectiv pentru valori date ale primului şi ale celui de al doilea factor, o primă ipoteză se referă la egalitatea mediilor liniilor, iar a doua la egalitatea mediilor coloanelor. Ipoteza alternativă presupune existenţa unor diferenţe între linii sau respectiv între coloane. Tabelul nr. 10 :
Medicament
1 2 … k 1 X11 X12 X1k
.1x 2 X21 X22 X2k
.2x . . .
Perio
ada
Trat
amen
t
n Xn1 Xn2 xnk .nx
1.x 2.x
kx.
unde jx. reprezintă media valorilor din coloana i, iar .ix reprezintă media valorilor din linia j. In experimentele clinice analiza dispersionala pe 2 cai este asociata unui tip special de experiment numit “experiment cu blocuri complet randomizate”. Modelul acestui tip de experiment a fost dezvoltat in 1925 de catre R.A.Fischer1 care a cercetat productivitatea mai multor soiuri de grau, numite de el tratamente, semanate in mai multe blocuri omogene formate din mai multe loturi, loturi ce difereau intre ele prin compozitia solului. Distribuirea tratamentelor s-a facut aleator pe loturi in cadrul blocurilor. In acest fel fiecare bloc include toate tratamentele. Distributia aleatoare se face in fiecarui bloc. Obiectivul studiului este de a separa efectele reziduale aleatoare de efectele de bloc. Eficacitatea studiilor depinde de omogenitatea blocurilor. Aceste conditii, suplimentare conditiilor de distributie normala si de egalitate a dispersiilor, sunt greu de asigurat intotdeauna drept pentru care trebuiesc stabilite limitele abaterilor in functie de obiectivele studiului.
1 R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York, 1958
II. Statistica matematica si biostatistica ANOVA
116
2.9.2.1. Modelul variabilei aleatoare. Valorile experimentale le considerăm ca rezultanta unor efecte aditive corespunzător liniilor, coloanelor şi erorilor întâmplătoare: ijjiijx εβαμ +++= unde iα este partea lui datorată liniei (schemei de administrare), ijx jβ reprezintă contribuţia coloanei (forma medicamentoasă), iar ijε este eroarea experimentală. Modelul este in esenta un model « aditiv » prin aceea ca nu presupune interactiuni intre factori. Intr-o prezentare grafica, atunci cand consideram raspunsurile pentru un factor tinut constant si un factor ce ia doua valori diferite (numite de regula « nivele ») sa obtinem linii paralele.
De exemplu, consideram liniile de sub curba (AUC) ale propafenonei si hidroxi-propafenonei pentru doua medicamente, testat T si referinta R, administrate la aceiasi subiecti2.
Propafenona
2 C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites, Biointernational 2005, Octomber 24th-26th, London
II. Statistica matematica si biostatistica ANOVA
117
Hidroxi-propafenona
2.9.2.2. Scindarea sumei pătratelor abaterilor. Suma pătratelor abaterilor valorilor individuale faţă de media generala M este:
(∑∑ −= 2xxSS ijT ) , expresie ce se poate scrie şi în forma:
( ) ( ) ( ) ( )[ ]( ) ( ) ( ) RCLCLijCL
CLCLijT
SSSSSSxxxxxxxx
xxxxxxxxxxSS
++=∑∑ +−−+∑∑ −+∑∑ −
=∑∑ ∑∑ +−−+−+−=−=222
22
Produsele mixte nu s-au mai trecut deoarece sunt nule. Am scindat aşadar variabilitatea totală într-o componentă dată de linii, o componentă dată de coloane şi o componentă reziduală.
Corespunzător rezultatelor prezentate la analiza unifactorială, aici se poate arăta că:
( ) ( ) ∑∑ ++−= 2221 jCiLLCT nnnnSSE βασ
( ) ( ) ∑+−= 221 iLCL nnSSE ασ
( ) ( ) ∑+−= 221 jCLC nnSSE βσ
( ) ( )( ) 211 σ−−= LCR nnSSE
II. Statistica matematica si biostatistica ANOVA
118
In cazul analizei bifactoriale apar două ipoteze de nul pe care vrem să le testăm:
( ) :10H toate formele de tratament (liniile) sunt echivalente, adica 0=iα ; ( ) :20H toate medicamentele (coloanele) sunt echivalente, adica 0=jβ .
Indiferent dacă ipotezele sunt adevărate sau nu, ( ) 22 σ=RsE . Dacă cele două ipoteze sunt adevărate: , si sunt
estimaţiile nedeplasate ale lui .
22Re ss = 2
Cs 2Ls
2σ
Pentru a testa ipoteza ( )1H este natural să considerăm raportul 2
2
e
L
ss ,
iar pentru ipoteza ( )2H raportul 2
2
e
C
ss
.
În cazul în care pentru fiecare combinaţie de cauze se fac mai multe determinări folosind mai mulţi voluntari, variabilitatea se poate scinda în patru componente:
RWCLT SSSSSSSSSS +++=
2.9.2.3. Variaţia unui parametru farmacocinetic atât în funcţie de calea de administrare cât şi în funcţie de numărul de administrare Constanta de eliminare 14 min10 −∗ekTabelul nr. 11: Oral prima
doza i.m. o doza
i.m. a-5-doza
i.v.
106 55 84 63 109 40 105 70 160 109 174
∑ ix 375 204 363 133 1075=∑ x
∑ 2ix 48717 16506 48357 8869 1224492 =∑ x
in 3 3 3 2 N=11
1−in 2 2 2 1 ( ) 71 =−∑ in
ix 125 68 121 66
( )17392
22 =−= ∑∑ N
xxSST
Mai departe considerăm două grupuri: voluntarii cărora medicamentul li s-a administrat o dată şi voluntarii care au primit 5 doze.
II. Statistica matematica si biostatistica ANOVA
119
( ) ( ) 22351050568
1332043753
363.22
=−++
+=dozenrSSB
( ) 15157223517392. =−=−= dozenrSSSSSS TW
16849
15157==
− kNSSW , 15157
115157
1==
−kSSB
( ) ( ) 91684
151579,1,1 ===−− ∑ FknkF i care aparţine zonei de acceptare
pentru riscul 01,0⟨α ( )56,1099;9,1 =f dar nu aparţine zonei de acceptare pentru 05,0⟨α ( )12,595;9,1 =f .
( ) ( )17392
111075122449
22
22=−=−=−= ∑∑∑ N
xxxxSS iT
Un alt factor care poate influenţa concentraţia în sânge este calea de administrare.
( ) ( )
8428105056884443923138724687511
10752
1333
2043
375 22221
2
1
2
1
1
2
=−+++
=−++=
=⎟⎟⎠
⎞⎜⎜⎝
⎛
−⎟⎟⎠
⎞⎜⎜⎝
⎛
=−=
∑
∑∑∑
∑∑ =
=k
i
i jijk
i
n
jijk
iiiB
n
x
n
xXxncaleSS
i
( ) ( ) 22351050568
1332043753
363.22
=−++
+=dozenrSSB
( ) ( ) 67922235842817392. =−−=−−= dozenrSScaleSSSSSS BBTW În acest fel am obţinut următoarele rezultate:
Tabelul nr. 12 Sursa de variaţie GL SS Rapotul F Între căile de administrare 3 8428 f(3,6)=1,24 Între numarul de doze 1 2235 f(1,6)=0,32 Variaţia intragrupuri 6 6792 Variaţia totală 10 17392
şi comparând cu valorile din tabelele de repartiţie Fisher se constată că poate fi acceptată ipoteza că toate grupurile cercetate aparţin aceleiaşi populaţii statistice. Deci, nici calea de administrare şi nici numărul de doze nu influenţează rata eliminării.
II. Statistica matematica si biostatistica ANOVA
120
2.9.2.4. Compararea biodisponibilităţii unei substanţe active administrate în preparate diferite şi în perioade diferite de tratament.
Trei medicamente au fost administrate la nouă subiecţi într-un studiu de biodisponibilitate obţinându-se ariile de sub curbă prezentate mai jos :
Separăm acum varianta în patru componente: pacienţi, perioadă, medicament şi eroarea în interiorul tuturor grupurilor.
Perioada 1 2 3 Suma Pacient 1 B=107 C=102 A=99 308 Pacient 2 A=100 C=106 B=89 295 Pacient 3 B=98 A=90 C=128 316 Pacient 4 C=71 B=54 A=63 188 Pacient 5 A=92 B=111 C=107 310 Pacient 6 C=113 A=115 B=91 319 Pacient 7 B=169 A=107 C=195 551 Pacient 8 C=88 B=95 A=77 260 Pacient 9 A=122 C=168 B=155 445 Suma pe perioadă I: 160 II: 1028 III: 1004 2992=∑ x
Suma pe medicament A: 945 B: 969 C: 1078 3647202 =∑ x
Media pe medicament 105 107,7 119,8
( )1,33162
22 =−= ∑∑ N
xxSST
( ) ( ) ( )1,29834
3
9
1
22
=−= ∑ ∑∑=i
B Nxlinie
pacientiSS
( ) ( ) ( )5,1116
9
3
1
22
=−= ∑ ∑∑=i
B Nxmedicament
medicamentSS
( ) ( )3,264
9
2222
=−++
= ∑∑ ∑∑NxIIIIII
perioadaSSB
( ) ( ) ( ) 2,1947=−−−= perioadaSSmedicamentSSpacientiSSSSSS BBBTW Pe aceasta cale obţinem:
Sursa de variaţie DF Suma pătratelor Media Raportul F Între pacienţi 8 29834,1 3729,3 Între medicamente 2 116,1 558,3 3,15 Între perioade 2 264,3 132,1 0,75 Variaţia intragrupuri 14 1947,2 177 Total 26 33162,1
Deoarece 74,399,0;14,2 =f nu există diferenţe semnificative între cele două medicamente după administrare unică sau administrări multiple.
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
121
e
2.10. Estimarea efectelor intr-un experiment standard cross-over – prin teste t 2.10.1. Modelul statistic Considerăm două medicamente, unul de testat (T) şi altul de referinţă (R), administrate în două perioade (I şi II). Raţiunea principală a experimentului cross – over, eveniment în care o parte din subiecţi primesc cele două medicamente în secvenţa RT, iar cealaltă parte în secvenţa TR, este aceea că, analiza datelor obţinute poate pune în evidenţă efectele reziduale, sau “carry – over”, cum mai sunt numite, ale administrării în prima perioadă, asupra rezultatelor obţinute în perioada a doua. În cazul existenţei unor astfel de efecte este necesar să se poată face distincţia între efectele “directe”şi efectele reziduale. Efectul direct este efectul ce îl are medicamentul în perioada în care este administrat, pe când efectul carry – over este efectul pe care acesta îl are în perioada următoare administrării sale. Spunem că un medicament are un efect carry – over de ordin k, dacă efectul primei administrări se manifesta şi după k perioade de administrare. Rezultatele experimentului sunt variabile aleatoare pe care le considerăm având următoarea structură:
ijkY
( ) ( ), 1,ijk ik j ijkj k j kY S P F Cμ −= + + + + +
unde μ este media totala, i este indicele pentru subiect, kni ,1= , j este indicele pentru perioadă şi k este indicele pentru secvenţa. este efectul direct, fix, al medicamentului (formulării) administrat în perioada j, în secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament măsurată).
( )kjF ,
Schema de administrare fiind avem că şi,
din faptul că
⎟⎟⎠
⎞⎜⎜⎝
⎛TRRT
( )( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛=
RT
TRkj FF
FFF ,
μ este media lui avem ijkY ( ) 0, =∑ kjF si ( ) 0,1 =∑ − kjC .
( kjC ,1− ) este efectul carry – over (fix) al medicamentului administrat în perioada j-1 (considerăm că, datorită existenţei unui interval de timp “de spălare”, efectul carry – over nu depăşeşte o perioadă).
ijke reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru fiecare subiect.
Considerăm ca variabilele sunt repartizate identic, cu media 0 şi dispersia , iar variabilele sunt repartizate
ikS2sσ ijke ( )2,0 eN σ . În fapt,
dispersiile erorilor pot diferi de la un medicament la altul.
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
122
2.10.2. Testarea efectului secvenţei de administrare Pentru efectul secvenţei de administrare sau a efectelor carry – over, considerând următoarele totaluri pe subiecţi în cadrul unei secvenţe date:
kikiik YYU 21 += , kni ,1= , 2,1=k (R+T si respective T+R) Valoarea medie şi dispersia variabilelor vor fi: ikU
( )⎭⎬⎫
⎩⎨⎧
++
=2sec,21sec,2
ventainsubiectiipentruCventainsubiectiipentruC
UET
Rik μ
μ
( ) ( ) 2221 242 eskikiikik SDUD σσεε +=++=
( ) ( )222 22 esiku UD σσσ +== pentru toţi subiecţii. Fie RT CCC −= . C poate fi folosit pentru determinarea efectelor
carry – over. Datorită restricţiei 0=− RT CC efectele carry – over sunt egale pentru cele două formulări, adică 0=C , dacă şi numai dacă
. Ca urmare, testarea absenţei efectelor carry – over este echivalentă cu testarea egalităţii acestora. Când efectele carry – over sunt absente, efectul direct al medicamentului
0== RT CC
( )RT FFF −= poate fi estimat pe baza datelor din amândouă perioadele. Dacă efectele carry – over nu sunt egale, nu există un estimator nedeplasat pentru efectul direct al medicamentului, din acest motiv fiind necesară testarea prealabilă a existenţei efectelor carry – over.
Consideram de exemplu ca efectul medicamentului R este 9 si cel al medicamentului T este tot 9, efectul de perioada este 0 si efectul rezidual este 1 pentru R si 2 pentru T.
Vom avea rezultatele:
PI PII Secv. RT 9 9+1Secv. TR 9 9+2
Diferenta aparenta R-T va fi:
( ) ( )[ ] ( )[ ]2121
21
21
2sec1sec =+−=−+− vIIIvIII PPPP
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
123
Daca insa efectele de secventa sunt 10 pentru R si 9,5 pentru T, atunci efectul de perioada este tot 0, iar efectele carry – over egale amandoua cu 1, vom gasi:
PI PII Secv. RT 10 9,5+1Secv. TR 9,5 10+1
Ceea ce inseamna ca diferenta aparenta R-T va fi:
( ) ( )[ ] ( )[ ]215,15,0
21
21
2sec1sec =+−=−+− vIIIvIII PPPP
Deci, daca apar efecte reziduale inegale ele vor fi luate drept efecte de formulare.
Din acest motiv, pentru a ne asigura ca estimarea diferentei de formulare este corecta, trebuie sa testam in prealabil faptul ca nu avem efecte reziduale inegale.
Existenţa efectelor carry – over inegale poate fi determinată prin testarea următoarelor ipoteze:
RT CCCH =⇔= 0:0
RT CCCH ≠⇔≠ 0:1 Respingerea ipotezei nule duce la concluzia prezenţei efectelor carry
– over inegale. Pentru testarea ipotezelor asupra lui C se folosesc următoarele medii de selecţie corespunzând fiecărei secvenţe:
∑=
=kn
iik
kk U
nU
1.
1 , 2,1=k
1.U şi 2.U sunt mediile de selecţie pentru eşantioane aleatoare independente din populaţii normale cu dispersii egale. Ca urmare testarea se poate face utilizând testul t.
C poate fi estimat prin diferenţa între mediile subiecţilor pentru cele două secvenţe:
( ) ( )22.12.21.11.1.2.ˆ YYYYUUC +−+=−= Ţinând cont de presupunerile asupra variabilelor prezentate
anterior, este normal distribuit cu media C şi dispersia ikS
C
( ) ( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+=⎟⎟
⎠
⎞⎜⎜⎝
⎛++=
21
2
21
22 111122ˆnnnn
CD ues σσσ .
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
124
Dispersia ( )CD ˆ poate fi estimată prin înlocuirea lui cu dispersia de selecţie totală pentru subiecţii din cele două secvenţe:
2uσ 22ˆ uu S=σ
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+=
21
2 11ˆˆnn
CD uσ unde ( )∑∑= =
−−+
=2
1 1
2
.21
2
21ˆ
k
n
ikiku
k
UUnn
σ
Mai departe, ( ) 221 ˆ2 unn σ−+ este distribuit ( )221
22 −+ nnu χσ unde este o variabilă distribuită cu ( 221
2 −+ nnχ ) 2χ 221 −+ nn grade de libertate, independentă de . Astfel, în ipoteza , C 0H
2121
11ˆ11ˆ
ˆ
nn
XX
nn
CT
u
RTTR
u
c
+
−=
+= ++
σσ are o repartiţie Student cu
grade de libertate. Ca urmare, vom respinge ipoteza nulă
221 −+ nn
RT CCH =:0 în favoarea ipotezei alternative RTa CCH ≠: la un nivel α de semnificaţie, dacă
⎟⎠⎞
⎜⎝⎛ −+
⟩2,
2 21 nnc tT α .
Deoarece variabila testată conţine estimarea cT ( )222 22 esu σσσ += care se referă atât la variabilităţile între – şi intra – subiecţi, puterea testului va fi mai mică în cazul în care variabilitatea între – subiecţi este mai mare decât intravariabilitatea. În studiile de biodisponibilitate / bioechivalenţă, ca regulă, mărimea lotului de testat se alege pe baza calculelor privind puterea pornind de la efectul direct al medicamentului, efect ce implică intravariabilitatea. Pentru a creşte puterea testului, Grizzle1 a sugerat testarea ipotezei nule la un nivel de semnificaţie %10=α în loc de 5%.
Pe baza statisticii t, se poate calcula un interval de încredere
( ) %100*1 α− pentru C: 212,
2
11ˆˆ21 nn
tC unn
+±⎟⎠⎞
⎜⎝⎛ −+
σα .
Dacă intervalul conţine pe 0, atunci suntem în favoarea (sau de fapt nu putem respinge) ipotezei nule că nu există efecte carry – over sau că acestea sunt egale. Dacă intervalul nu conţine pe 0, tragem concluzia că există efecte carry – over diferite pentru cele două formulări.
1 J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21, 467-480, 1965
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
125
2.10.3. Efectul direct al medicamentului
În vederea testării efectului direct al medicamentului se pot folosi diferenţele între perioade în interiorul fiecărei secvenţe, după cum urmează:
( )kikiik YYd 1221
−= , kni ,1= , 2,1=k .
Valoarea medie şi dispersia pentru diferenţele din cadrul perioadelor sunt:
( )( ) ( )[ ]
( ) ( )[ ] ⎪⎭
⎪⎬
⎫
⎪⎩
⎪⎨
⎧
+−+−
+−+−=
2sec,21
1sec,21
12
12
ventainsubiectiipentruCFFPP
ventainsubiectiipentruCFFPPdE
TTR
RRT
ik
( )2
2 2
2 2e
ik d dMSED d Sσσ= = = =
Se vede că dispersia diferenţelor între perioade include numai intravariabilitatea, ceea ce reprezintă de fapt avantajul experimentului de tip cross – over. În ceea ce priveşte media diferenţelor, aceasta include atât efectul direct al medicamentului cât şi efectul rezidual (carry – over).
Sa notăm efectul perioadei şi efectul direct (efectul formulării) prin şi 12 PPP −= RT FFF −= .
Pentru a verifica ipotezele statistice asupra lui F, să considerăm mediile diferenţelor între perioade în interiorul fiecărei secvenţe:
∑=
=kn
iik
kk d
nd
1.
1 , 2,1=k .
Diferenţa între secvenţe ( 2.1. dd − ) este un estimator nedeplasat al lui F atunci când nu avem efecte carry – over inegale ( TR CC = )
( ) ( ) ( )222.1.CFCCFFddE TR
RT −=−
+−=− unde RT CCC −= .
Ca urmare, dacă RT CC ≠ nu avem un estimator nedeplasat pentru F din datele pentru amândouă perioadele. Dacă însă RT CC = , atunci
( ) ( )[ ] RT YYYYYYddF −=−−−=−= 12.22.11.21.2.1. 21ˆ
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
126
este un estimator nedeplasat cu dispersia minimă pentru F (unde
( )12.21.21 YYYT += şi ( )22.11.2
1 YYYR += ).
Schema de administrare fiind rezultă că ⎟⎟⎠
⎞⎜⎜⎝
⎛TRRT ( )21
21 RRYR += .
RY si TY sunt aşa numitele “least squares means” (LS) – mediile cele mai mici pătrate – pentru produsul de referinţă şi cel testat. În practică, F este estimată prin diferenţa directă între mediile celor două formulări
***ˆRT YYF −= ,
unde ⎟⎟⎠
⎞⎜⎜⎝
⎛+
+= ∑ ∑
= =
1 2
1 12211
21
* 1 n
i
n
iiiR YY
nnY şi ⎟⎟
⎠
⎞⎜⎜⎝
⎛+
+= ∑ ∑
= =
1 2
1 11221
21
* 1 n
i
n
iiiT YY
nnY
Când TR CC = , se obţine
( ) ( ) ( )[ ]2211212121
* 1 PnPnFnnnnnn
YE RR ++++++
= μ şi
( ) ( ) ( )[ ]1221212121
* 1 PnPnFnnnnnn
YE TT ++++++
= μ .
Deci, ( ) ( ) ( ) ( )[ ]22111221
** 1 PnnPnnnn
FFYYE RTRT −+−+
+−=−
Ca urmare, diferenţa între mediile celor două formulări , nu este un estimator nedeplasat pentru F decât atunci când
*F21 nn = .
Remarcam faptul ca in practica, din auza ca o parte din subiecti parasesc experimentul clinic inainte ca acesta sa se termina, cazul
este foarte rar. In ciuda acestui fapt unele softuri uzuale ignora aceste fapte ceea ce, dupa cum se va arata mai departe, poate duce la alterari semnificative ale rezultatelor.
21 nn =
Diferenţa între mediile “least – square” pentru cele două formulari, , este normal distribuită, cu media F şi dispersia F
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+=
21
2 11ˆnn
FD dσ .
Deoarece{ }1id , 1,1 ni = si { }2id , 2,1 ni = sunt două selecţii independente din populaţii normale cu dispersii egale (atunci când nu avem
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
127
efecte carry – over inegale) un test pentru efectul direct poate fi obţinut pe baza statisticii t – pereche.
1 2
ˆ
1 1ˆd
d
FT
n nσ
=+
unde este dispersia de selecţie pentru diferenţa între perioade, şi este un estimator nedeplasat al lui
2ˆ dσ2dσ
( )∑∑= =
−−+
=2
1 1
2
.21
2
21ˆ
k
n
ikikd
k
ddnn
σ
Deoarece ( ) 221 ˆ2 dnn σ−+ este distribuit ( )221
22 −+ nnd χσ , este distribuit t cu
dT221 −+ nn grade de libertate. Un interval de încredere
( ) %100*1 α− pentru F este următorul:
2121
11ˆ2,2
ˆnn
nntF d +⎟⎠⎞
⎜⎝⎛ −+± σα
Prezenţa efectului direct al medicamentului poate fi examinată prin testarea ipotezelor: RT FFH =:0 si RT FFH ≠:1 . Respingem dacă 0H
⎟⎠⎞
⎜⎝⎛ −+
⟩2,
2 21 nnd tT α .
Trebuie să observăm că această metodă de testare se referă la egalitatea efectelor celor două medicamente şi nu la “bioechivalenţa” lor, care va fi discutată mai departe.
După cum s-a menţionat mai sus, nu este un estimator nedeplasat al lui F în prezenţa efectelor carry – over inegale (
FRT CC ≠ ). Un estimator
nedeplasat al lui F poate fi obţinut totuşi folosind numai datele din prima perioadă, dar cu o pierdere de informaţie şi, în consecinţă, de precizie. Dacă
11.Y şi 12.Y sunt mediile celor două formulări în prima perioadă, atunci:
( ) ( ) ( ) FFFFPFPYYE RTRT =−=++−++=− 1111.12. μμ
Să notăm C
FYY ˆ11.12. =− . Avem că
C
F este un estimator
nedeplasat al lui F, chiar şi în prezenţa efectelor carry – over inegale.
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
128
Dispersia lui C
F este ( ) ( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛++=
21
22ˆ 11nn
D esC
F σσ . Observăm
deasemenea că ( ) ( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+⎟⎟
⎠
⎞⎜⎜⎝
⎛+=−
21
22ˆ 11
2ˆ
nnFDD e
sC
F σσ . Deci, pierderea de
precizie ca urmare a folosirii numai a datelor din prima perioadă este de minim 50% atunci când . 02 =sσ
Din acest motiv, în practică, este foarte importantă perioada de spălare pentru a dispărea efectele reziduale până la a două administrare.
În prezenţa efectelor carry – over inegale, se poate verifica ipoteza privind inegalitatea efectelor şi se poate construi şi un interval de încredere ( ) %100*1 α− pentru F folosind datele din prima perioadă.
Un estimator nedeplasat pentru ( )C
FD ˆ este ( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+=
21
2ˆ 11nn
SD fC
F
unde ( )∑∑= =
−−+
=2
1 1
2
1.121
2
21
k
n
ikkif
k
YYnn
S .
Observăm ca este un estimator nedeplasat pentru , dar
nu avem estimări individuale pentru si pornind numai de la datele din prima perioadă.
2fS 22
es σσ +2sσ 2
eσ
Intervalul de încredere ( ) %100*1 α− pentru F în prezenţa efectelor
carry – over inegale va fi 1 2
ˆ
, 21 22
1 1FfC n n
t Sn nα⎛ ⎞+ −⎜ ⎟
⎝ ⎠
± + .
Ipoteza nulă privind absenţa efectului direct este respinsă dacă
⎟⎠⎞
⎜⎝⎛ −+
⟩+
2,2
21
ˆ
2111 nn
f
C
F
t
nnS
α .
În practică, în prezenţa efectelor carry – over inegale, datele din prima perioadă sunt folosite efectiv pentru a testa bioechivalenţa, dar nu trebuie să uităm următoarele consecinţe ale acestei proceduri:
1) Puterea de detecţie a diferenţelor semnificative clinic este micşorată datorită creşterii dispersiei şi,
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
129
2) Pierderea de informaţie anulează însăşi avantajul experimentului crossover şi anume eliminarea variabilităţii între subiecţi în compararea formulărilor. 2.10.4.Efectul perioadei Să definim următoarele diferente:
( )( )⎭
⎬⎫
⎩⎨⎧
−−−
=TRventainsubiectiipentrud
RTventainsubiectiipentrudO
ik
ikik 2sec.,
1sec.,
Valoarea medie şi dispersia acestor diferenţe cross – over sunt:
( )( ) ( )[ ]
( ) ( )[ ] ⎪⎭
⎪⎬
⎫
⎪⎩
⎪⎨
⎧
−−+−
+−+−=
2sec,21
1sec,21
21
12
ventainsubiectiipentruCFFPP
ventainsubiectiipentruCFFPPOE
TRT
RRT
ik
şi
( )2
22 edikOD
σσ ==
Fie 1.O şi 2.O mediile de selecţie ale diferenţelor în secvenţele 1 şi 2. Avem
⎭⎬⎫
⎩⎨⎧
==
=21
2.
1.. kpentrud
kpentrudO k
Un estimator nedeplasat pentru efectul perioadei P poate fi obţinut ca
( ) ( )[ ]22.12.11.21.2.1. 21ˆ YYYYOOP −−−=−=
Deoarece 0=+ RT CC , P este un estimator de dispersie minimă pentru P, indiferent de prezenţa efectelor carry – over inegale.
Un interval de încredere ( ) %100*1 α− pentru P este
212,2
11ˆˆ21 nn
tP dnn
+±⎟⎠⎞
⎜⎝⎛ −+
σα .
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
130
Respingem ipoteza nulă privind absenţa efectului de perioadă: 210 : PPH = , 21: PPH a ≠ atunci când
⎟⎠⎞
⎜⎝⎛ −+
⟩2,
20
21 nntT α , unde
0
1 2
1 1ˆd
PT
n nσ
=+
.
Interferenţa statistică pentru efectele carry – over, directe şi de perioada sunt prezentate, în rezumat, în tabelul urmator Tabel nr. 15: Teste statistice pentru efectele fixe într-un experiment 2*2 cross – over.
Efect Efecte
carry – over inegale
MVUE* ( ) ..%100/1 ICα− Test statistic
Car
ry
- ov
er
-
( ) (.2 .1
.11 .21 .12 .22
C U U
Y Y Y Y
= − =
+ − +
1 2, 21 22
1 1u
n nC t
n nα σ⎛ ⎞+ −⎜ ⎟⎝ ⎠
± +
1 2
1 1c
u
CT
n nσ
=+
Efec
t dire
ct Nu
( ) (.1 .2
.21 .11 .2212
F d d
Y Y Y
= − =
⎡ − − −⎣
1 2, 21 22
1 1d
n nF t
n nα σ⎛ ⎞+ −⎜ ⎟⎝ ⎠
± +
1 2
1 1d
d
FT
n nσ
=+
Efec
t ind
irect
Da .12 .11
F Y YC= −
1 2, 21 22
1 1f
n n
F t SC n nα⎛ ⎞+ −⎜ ⎟
⎝ ⎠
± +
1 2
1 1f
f
FCT
Sn n
=+
Perio
ada
-
( ) (.1 .2
.21 .11 .1212
P O O
Y Y Y
= − =
⎡ − + −⎣
1 2, 21 22
1 1d
n nP t
n nα σ⎛ ⎞+ −⎜ ⎟⎝ ⎠
± +
1 2
1 1o
d
PT
n nσ
=+
II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t
131
MVUE* – minimum variance unbiased estimate – estimare nedeplasata de dispersie minima.
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
131
2.11. Estimarea efectelor prin ANOVA 2.11.1. Modelul Statistic General
Analiza dispersională a datelor de bioechivalenta urmeaza un model statistic de ANOVA pe doua cai cu interactiuni de tipul:
ijkjkjkijkY εγβαμ ++++= Să notăm că prezenţa unui efect de interacţiune este echivalentă cu
ne-aditivitatea efectelor principale. Suplimentar fata de conditiile puse la ANOVA pe doua cai, vom
avea 0∑∑ ==
kjk
jjk γγ
Statisticienii vorbesc despre “nivelele” pe care le iau factorii. Termenul se referă in fapt la valorile (numerice sau calitative) pe care le poate lua factorul. De exemplu dacă factorul este perioada într-un experiment de bioechivalenţă nivelele sale sunt I, II, III dacă experimentul are trei perioade. În ceea ce priveşte factorul formulare nivelele acestea sunt medicamentele experimentate (de exemplu referinţă, testat 1 şi testat 2). Într-un experiment standard de bioechivalenţă secvenţa are două nivele RT şi TR. Trebuie avut totuşi în vedere că aceaşti factori nu sunt toţi independenţi unii din ei putându-se obţine prin combinaţii liniare de ceilalţi.
Problema, la modul general, sufera o complicare majora atunci cand numarul nivelelor luate de un factor, nu este acelasi in fiecare celula, caz in care se spune ca experimentul nu mai este echilibrat (balansat). Ne vom limita, pentru moment, la studiul cazului echilibrat asa cum se face, se pare, in toate cartile si articolele publicate. Din pacate cazul mult mai frecvent in experimentele clinice este acela neechilibrat. De exemplu, in experimentele de bioechivalenta, datorita iesirii din experiment a unora dintre subiecti, secventele raman inegale. In chiar cazurile ca modelul se aplica experimentelor clinice, exista posibilitatea unei confuzii de termeni. Astfel , in lucrarile de statistica observăm că „repetiţie” semnifică faptul că acelasi experiment se repetă pe mai multi voluntari sau pacienţi, în timp ce, in experimentul de biostatistica, repetiţia înseamna administrarea aceluiaşi medicament de mai multe ori la acelaşi subiect deci in mai multe perioade, ceea ce este cu totul alt model de studiu. Ipoteza de verificat este aceea a lipsei efectelor factorilor si, ca urmare si a interactiunii intre acestia.
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
132
0
: 0 1: : 0 1
: 0 1 1
A k
B j
AB jk
H unde k KH H unde j J
H unde j J si k K
αβ
γ
⎧ = ≤ ≤⎪ = ≤ ≤⎨⎪ = ≤ ≤ ≤ ≤⎩
: 0alternativaH cel putin un factor este diferit de Se notează cu:
∑∑∑=•••i j k
ijkYY si cu ∑∑∑=•••i j k
ijkYIJK
Y 1
jk ijki
Y• = Y∑ şi cu 1jk ijkI
i
Y Y• = ∑
j ii k
Y Y• • = jk∑∑ şi cu 1j ijkIK
i k
Y Y• • = ∑∑
k ii j
Y Y•• = jk∑∑ şi cu 1k ijkIJ
i jY Y•• = ∑∑
Atragem atentia ca, intr-un experiment neechilibrat, formulele pentru calculul mediilor prezentate mai sus nu mai raman valabile. Mediile de selectie de tipul celor de mai sus sunt estimatori nedeplasati ai efectului celor doua formulari numai atunci cand secventele sunt egale.
In fapt experimentele sunt proiectate sa fie echilibrate dar pana la sfarsit ele devin neechilibrate.
Se observă că: ( )=−∑ •••YYijk ( )+−∑ ••••• YY k ( )+−∑ ••••• YY j
( )++−−∑ •••••••• YYYY kjjk ( )∑ •− jkijk YY Si, deoarece produsele mixte ale sumelor de mai sus sunt nule,
eroarea totala se poate descompune dupa cum urmeaza: =TSS ( ) =−∑ •••
2YYijk
= ( ) +−∑ •••••
2YY k ( ) +−∑ •••••
2YY j ( ) ++−−∑ ••••••••
2YYYY kjjk
( )∑ •−2
jkijk YY = 2222RABBA SSSS +++
Termenii acestei diferenţe corespund respectiv efectelor principale, interacţiunilor şi unei fluctuaţii aleatoare.
Deoarece indicele i se refera la subiectii experimentului ( )jkijk YY •− ,diferenta intre valoarea subiectului i si media subiectilor din perioada j si secventa k, reprezinta o „intervariabilitate”. In biologie aceasta este foarte
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
133
mare si ipoteza unor subiecti „identici” este departe de realitate sau se poate lua in calcul in cazul unor studii pe populatii foarte mari.
Pentru modelul echilibrat, dat fiind modelul statistic, sumele obtinute sunt estimari respectiv pentru parametrii cercetati de noi: =kα ( )••••• −YY k ; =jβ ( )••••• −YY j
=jkγ ( )•••••••• +−− YYYY kjjk ; ...ˆ Y=μ Statistica F pentru verificarea ipotezelor are la numărător respectiv mediile sumelor de pătrate , iar la numitor întotdeauna media sumei pătratelor rezidualelor . Gradele de libertate sunt respectiv
A B AH , H , H B2 2 2A B AB, , S S S
2RS
( ) ( ) ( )A R B R AB R, , , , ,ν ν ν ν ν ν unde: 1−= KAν , 1−= JBν , ( )( )11 −−= KJABν si ( )1−= IJKRν
Sinteza formulelor de calcul este dată în tabelul urmator. Testarea ipotezelor privind actiunea factorilor asupra rezultatelor studiului incrucisat.
Varia ţia
Grade de libertate (df)
Suma pătratelor (SS)
Media sumei pătratelor (MS=SS/df)
Statistica F
A A 1Kν = − ( )22A k
k
S IJ Y Y•• •••= −∑ A
AA
SMSν
2
= R
AA MS
MSF =
B B 1Jν = − ( )22B j
j
S IK Y Y• • •••= −∑ B
BB
SMSν
2
= R
BB MS
MSF =
Inte
racţ
iuni
AB
( )( 11 −−=
KJAB
)ν
( )∑∑ •••••••• +−−
=
j kkjjk
AB
YYYYI
S2
2
AB
ABAB
SMSν
2
=
R
ABAB MS
MSF =
Rez
idua
l R
( )1−=IJK
Rν ( )22R jkijk
i j k
S Y •= −∑∑∑ Y R
RR
SMSν
2
=
Tota
l S 1IJKν = −
( )2
T ijki j k
SS Y Y •••= −∑∑∑
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
134
2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua medicamente, incrucisat, cu doua perioade si doua secvente Modelul Biostatistic
Se consideră două medicamente, unul de testat (T) şi unul de referinţă (R), administrate unui lot de voluntari sănătoşi în două secvenţe (RT) şi (TR) şi două perioade (I şi II). Fiecare subiect este asignat aleator fie secvenţei 1 (RT), fie secvenţei 2 (TR). Subiecţii în cadrul secvenţei RT (TR) primesc medicamentul R (T) în prima perioadă şi medicamentul T (R) în cea de a doua perioadă. Perioadele de administrare sunt, de obicei, separate printr-o perioadă de „spalare ” de cel puţin de trei ori timpul de înjumătăţire al substanţei active din medicamentul administrat.
Scopul experimentului este de a stabili bioechivalenţa dintre cele două medicamente („formulations” în literatura engleză).
Pentru aceasta se aplica modelul de analiză statistica prezentat anterior:
ijkjkjkijkY εγβαμ ++++= Rezultatele experimentului sunt variabile aleatoare pe care le
considerăm având următoarea structură: ijkY
ikijkjkjkjijk SFPCY +++++= − εμ ,1
unde μ este media totala, i este indicele pentru subiect, kni ,1= , j este indicele pentru perioadă şi k este indicele pentru secvenţa. jkF este efectul direct, fix, al medicamentului (formulării) administrat în perioada j, în secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament măsurată sau un parametrul farmacocinetic calculat pornind de la aceasta). 1,j kC − este efectul carry – over (fix) al medicamentului administrat în perioada j-1, de exemplu concentratia medicamentului ramas in organism in perioada II din administrarea in perioada I.
Considerăm că, datorită existenţei unui interval de timp “de spălare” suficient intre administrari, efectul carry – over nu depăşeşte perioada consecutiva celei in care a fost administrat medicamentul.
ijke reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru fiecare subiect.
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
135
Considerăm ca variabilele (“efectul de subiect”) sunt repartizate identic pentru toate formularile administrate, cu media 0 şi dispersia , iar variabilele sunt repartizate
ikS2sσ
ijke ( )2,0 eN σ . În fapt, dupa cum a prezentat FDA ca argument pentru introducerea
bioechivalentei individuale, dispersiile erorilor pot diferi de la un medicament la altul.
Modelul se mai poate scrie si sub forma :
ijkikjkijk SY εμ ++= unde efectul fix jkμ este de forma prezentata in tabelul nr. 17 Tabelul nr. 17: Componenta nealeatoare a parametrilor farmacocinetici
Perioada (j=1,2) Secvenţa (k=1,2) I II 1 (RT)
11 1 RP Fμ μ= + + 12 2 T RP F Cμ μ= + + + 2 (TR)
21 1 TP Fμ μ= + + 22 2 R TP F Cμ μ= + + +
unde FR (FT) reprezintă efectul direct al administrării medicamentului R (T); P1 (P2) reprezintă efectul administrării în perioada I (II); CR (CT) reprezintă efectul rezidual („carry-over”) al administrării medicamentului R (T). şi P1+P2 = FR+FT = CR+CT = 0,
Procedand ca in cazul general prezentat mai sus, se descompune
suma totala a erorilor in sume cu ajutorul carora se pot estima efectele de secventa ( ), de perioada ( ), de formulare ( ), precum si a variabilitatilor intraindividuala ( ) , interindividuala ( ).
carrySS PSS drugSS
raSS int erSS int
Se folosesc notatiile ∑=i
iYY. si ∑=i
iYn
Y 1. ( unde n este
numarul valorilor sumate).
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
136
Tabelul nr. 18. Descompunerea sumei patratelor erorilor in sume corespunzatoare factorilor fixi si
interactiunile intre acestia
=TotalSS ( )−∑ Yijk =•••
2Y
( ) +−∑ •••••
2YY k
( ) +−∑ •••••
2YY j
( ) (++−∑ ••••••
2YY kj− •• YY jk
)2∑ •− jkijk YY
αSS γSS βSS
=withinSS
( ) =−∑ •
2
kiijk YY
( ) +−∑ •••••
2YY j
( ) +∑ •••
2Y+−− ••••• YYY kjjk
(( ) ( ))2∑ •••• −−− kkijkijk YYYY
PSS drugSS raSS int
=betweenSS
( ) =−∑ ••••
2YY ki
( ) +−∑ •••••
2YY k
( )2∑ ••• − kki YY
carrySS erSS int
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
137
Deci, se vede ca avem: • BetweenSS exprimă variabilitatea dintre subiecţi, • withinSS exprimă variabilitatea intra-subiecţi, si • =withinSS PSS + drugSS + raSS int
TotalSS are ( )T 1 22 n nν 1= + − grade de libertate. Cum sunt 1n n2+ subiecţi în ambele secvenţe are withinSS Within 1 2n nν = + grade de libertate, iar
are BetweenSS Between 1 2 1n nν = + − grade de libertate. In locul acestor formule se folosesc formule prescurtate. Mentionam aceste formule prescurate deoarece ele apar practic in
toate cartile de farmacie sau de statistica aplicata in farmacie. Ele reprezinta avantajul unor calcule mai rapide si dezavantajul ca nu sunt „inteligibile”, nefiind clara legatura lor cu variabilitatile parametrilor studiati. 2.11.3. Calculul variabilitatii interindividuale
Vom deduce formula uzuala pentru ( )2int 2∑∑ ••• −=k i
kkier YYSS
Ridicand la patrat se obtine
( )
int
2 2 2
2 2 2
2 2
2
2 2 2 22
2 2 2 2 * *2
22 2
er
i ki k k i k k k i k k k k
k i i k i i
ki k k k k i k k k k k k
k i k i
i k kk
k i k k
SS
YY Y Y n Y Y Y n Y
YY Y n Y Y Y n Y n Y
Y Ynn
•• •• • •• • •• ••
••• •• •• • •• •• ••
• ••
=
⎛ ⎞ ⎛= − + = − +⎜ ⎟ ⎜
⎝ ⎠ ⎝⎛ ⎞ ⎛
= − + = − +⎜ ⎟ ⎜⎝ ⎠ ⎝
= −
∑ ∑ ∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
∑∑ ∑
2
2
⎞=⎟
⎠⎞=⎟
⎠
Mai departe, deoarece prin definitie, ;2 2i k k
i k k
k
Y YY Yn
• ••• ••= = se
obtine formula „farmaceutica” a sumei patratelor intersubiecti:
=erSS int ∑∑ −k k
k
ik
ki
nYY22
2..
,
2.
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
138
Facem observatia ca la descompunerea sumelor am folosit termenii in engleza deoarece in aceasta limba exista cate doua cuvinte (provenind din latina si din saxona) corespunzand cuvintelor romanesti inter si intra.
2.11.4. Calculul efectelor de secventa In ceea ce priveste , el se poate obtine din diferenta intre
mediile secventelor, care este egala cu diferenta efectelor reziduale din cele doua secvente, motiv care justifica si utilizarea „interschimbabil” a celor doi termeni .
carrySS
Intr-adevar, observând că 11 2
1 2
n Y n YYn n
2•••••
+=
+•• rezultă
( ) ( )
( )( )
( )( ) ( )
( ) ( ){ }
1
2 21 2Carry 1 2
22 2 221 2 1 21 2 2 1 2 12 2
1 21 2 1 2
21 2 1
12 22 11 2121 2
2 2
22 2
2
SS n Y Y n Y Y
n nn n n nY Y Y Y Y Yn nn n n n
n n Y Y Y Yn n
•• ••• •• •••
•• •• •• •• •• ••
• • • •
= − + −
= − + − =++ +
⎡ ⎤= + − +⎣ ⎦+
2−
Media parantezei ( ) (12 22 11 2112
Y Y Y Y• • • • )⎧ ⎫⎡ ⎤+ − +⎨ ⎬⎣ ⎦⎩ ⎭ este
2T RC C−
conform demonstratiei ce urmeaza: 1,ijk ik j jk j k ijkY S P F Cμ ε−= + + + + +
Calculand mediile corespunzatoare lui 11Y• , 12Y• , 21Y• si 22Y• vom obtine:
( )11 1 RE Y P Fμ• = + + ( )21 2 T RE Y P F Cμ• = + + +
( )12 1 TE Y P Fμ• = + + ( )22 2 R TE Y P F Cμ• = + + +
( )12 22 2 TE Y Y Cμ• •+ = + ( )11 21 2 RE Y Y Cμ• •+ = +
De unde rezulta ca: ( ) ( )12 22 11 2112 2
T RC CE Y Y Y Y• • • •−⎛ ⎞⎧ ⎫⎡ ⎤+ − + =⎨ ⎬⎜ ⎟⎣ ⎦⎩ ⎭⎝ ⎠
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
139
Deci, efectul ce apare din diferenta intre secvente este in fapt legat de diferenta intre efectele rezidule din cele doua secvente.
CarrySS şi au respectiv InterSS Carry 1ν = şi Inter 1 2 2n nν = + − grade de libertate.
Calculul simplificat al erorii intraindividuale Dupa cum s-a aratat in tabelul de mai sus, poate fi
descompusa in trei componente: o componenta datorata efectului direct al medicamentului ( ), o componenta datorata perioadei ( ) si o componenta datorata variabilitatii intra – subiect ( ):
withinSS
drugSS PSS
raSS int radrugPwithin SSSSSSSS int++= Dintre aceste trei componente, este in fapt singurul termen
legat de variabilitatea biologica intraindividuala. Vom deduce in continuare o formula de calcul “rapid” al acestui termen .
int raSS
Aplicand succesiv formula ( ) ( )nx
xxx iii
2
22 ∑∑∑ −=− se obtine
dupa cum urmeaza.
( ) ( )( ) ( )( )
=⎥⎦
⎤⎢⎣
⎡−
−−=−−−= ∑∑
∑∑•
••••• 2
2
22
intj
jkijk
jkijkkkijkijkra
YYYYYYYYSS
( ) ∑∑ ∑∑∑∑∑
∑ ••••••• +−−=−
−⎟⎠
⎞⎜⎝
⎛
−=k
kki
k
jkijk
ik
kki
k
iijk
ijk nYY
nY
YYY
n
YY
222
2222
,
2
2
2
2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor
Descompunerea lui permite testarea ipotezei privind prezenţa variabilităţii inter-subiecţi, adică:
withinSS2
0H : 0sσ = versus . 2aH : 0sσ >
În acest sens se foloseşte statistica
Inter InterV
Intra Intra
SSFSS
νν
= .
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
140
Similar, celelalte efecte se pot testa cu ajutorul raportului intre suma erorilor corespunzatoare si (pe post de in modelul general). int raSS RSS
Sinteza formulelor de calcul este dată în tabelul urmator. Tabelul nr. 19: Analiza efectelor fixe cu ajutorul dispersiilor: Sursa de variatie
df SS MS F
Inter - subiecti Secventa (carry - over
1=Carryν CarrySS
Carry
Carry
Carry
SS
MS
ν=
=
er
Carry
Carry
MSMS
F
int=
=
Reziduale 221 −+= nnInterν InterSS
Inter
Inter
er
SSMS
ν=
=int
ra
er
er
MSMS
F
int
int
int
=
=
Intra - subiecti Efectul direct al medicamentului
1=Fν FSS F
FF
SSMS ν=
ra
F
F
MSMS
F
int=
=*
Perioada 1=Pν PSS P
PP
SSMS ν=
ra
P
P
MSMS
F
int=
=
Reziduale 221 −+= nnIntraν IntraSS
Intra
Intra
Intra
SSMS
ν=
=
Total ( ) 12 21 −+= nnTotalν TotalSS
*Formula este validă doar dacă efectul carry-over este nul. Observatii
Vom studia acum legătura dintre cele două modele reprezentate in Tabelul nr.1 si Tabelul nr.4
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
141
Dacă factorul A este secvenţa de administrare a medicamentului si factorul B este perioada, atunciα este suma intre efectul carry-over si
efectul subiectilor, ( )1 2P Pβ = este efectul perioadei si R T
T R
F FF F
γ⎞⎛
= ⎟⎜⎝ ⎠
este efectul interacţiunii secvenţei de administrare a medicamentului cu perioada (adică efectul direct al medicamentului „formulation”).
Se observă că sunt verificate conditiile specificate la prezentarea modelului general:
1 2 R T
1 2 1 2
11 12 R T 21 22
11 21 T R 12 22
0 C C0 P P0 F F0 F F
α αβ βγ γ γ γγ γ γ
+ = = ++ = = ++ = = + = ++ = = + = +γ
Facem observatia, altfel esentiala, ca prezentarea in foarte multe
lucrari de biostatistica si bioechivalenta a efectului medicamentului ca interactiune intre secventa si perioada este de neinteles in lipsa identificarilor de mai sus.
In fapt, este vorba de combinatii intre variabile care sa permita separarea efectelor. Aceste combinatii pot aparea ca efecte ai unor factori ce nu se regasesc intr-un tablou farmacologic al determinantilor diferentelor intre formulari.
Efectul de secventa (carry) ramane o piatra de incercare in experimentele de bioechivalenta si aparitia lui in studii efectuate pe baza de protocoale concepute astfel incat sa se evite complet aparitia efectelor reziduale, este de neexplicat.
II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA
142
II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor
143
2.12. Legatura intre ANOVA si testul t in compararea efectelor 2.12.1. Compararea intre modelul statistic general si modelul statistic specific „cross – over”
In esenta, diferenta intre cele doua modele se refera la alegerea
„termenului rezidual”; modelul 1 nu descompune pe ; 2
RS modelul 2 distinge între reziduale intra-individuale şi reziduale inter-individuale.
Mai exact:
( ) ( )totalwithinbetween
radrugPercarry
erradrugPcarryRABBAT
SSSSSS
SSSSSSSSSS
SSSSSSSSSSSSSSSS
=+=
=++++=
=++++=+++=
intint
intint2222
Această descompunere modifică formulele statisticilor F . In modelul „biostatistic” se imparte cu un numar mai mic ( int raMS ) ceea ce conduce la un interval de incredere mai larg pentru efectele de formulare si deci la cresterea probabilitatii de acceptare a „egalitatii efectelor”. 2.12.2. Testarea efectului secvenţei de administrare folosind metoda ANOVA:
== carrycarry SSMS ( )2112 ••••• −YYn + ( )2222 ••••• −YYn =2
21
2211112 ⎟⎟
⎠
⎞⎜⎜⎝
⎛
++
− •••••• nn
YnYnYn
+2
21
2211222 ⎟⎟
⎠
⎞⎜⎜⎝
⎛
++
− •••••• nn
YnYnYn = ( )
( )221
2
212212
nnYYnn
+− •••• + ( )
( )221
2
122
122nn
YYnn+
− ••••
= ( )21221
212•••• −
+YY
nnnn
=( )
21
2
12
112
nn
YY
+
− •••• =( )
2
21
12
112
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
+
− ••••
nn
YY=
II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor
144
( ) ( ) ( )
2
22
1 2 1 2 1 212 22 11 21 1 2
1 2 1 2
1 2
2 21 22 1 1
n n n n U UY Y Y Y U Un n n n
n n
• •• • • • • •
⎡ ⎤⎢ ⎥
−⎧ ⎫ ⎢ ⎥⎡ ⎤+ − + = − =⎨ ⎬⎣ ⎦ ⎢ ⎥+ +⎩ ⎭ +⎢ ⎥⎢ ⎥⎣ ⎦
Deci,
2 2
1 2 1 22
int
1 2 1 2
12 *ˆ21 1 1 1ˆ
carry
er uu
MS U U U UMS
n n n nσ
σ
• • • •
⎛ ⎞ ⎛⎜ ⎟ ⎜
− −⎜ ⎟ ⎜= =⎜ ⎟ ⎜+ +⎜ ⎟ ⎜⎜ ⎟ ⎜
⎝ ⎠ ⎝
⎞⎟⎟⎟⎟⎟⎠
Se observa ca decizia obtinuta prin ANOVA in ceea ce priveste efectul
rezidual este acelasi cu rezultatul obtinut prin testul t. Incercam, in continuare, sa facem aceiasi comparatie intre cele doua
metode de evaluare a efectului de perioada. 2.12.3. Testarea efectului perioadei folosind ANOVA
( ) ( )
( ) ( ) ( )( ) ( ) ( ){ }
( )
2 1
1 2 1 2
2 2
P
2 21 21 2
2 21 2 2 11 2
2 2 21 2
2 1
1 2
j jkk j i k j
n nn n n n
SS Y Y n Y Y
n n Y Y Y Y
n n Y Y Y Y
n n Y Yn n
• • ••• • • •••
• • ••• • • •••
• • • • • • • •+ +
• • • •
= − = −
⎡ ⎤= + − + −⎢ ⎥⎣ ⎦
⎡ ⎤ ⎡ ⎤= + − + −⎣ ⎦ ⎣ ⎦
+= −
+
∑∑∑ ∑∑
Observatie:
Observam ca raMS
MS
int
β nu mai duce la acelasi rezultat ca in testul t efectuat
pentru variabilele 1•O si 2•O .
II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor
145
Nepotrivirea apare din aceea ca nu stim exact cum sa calculam media
perioadei: media „least square” 2
21 jjj
YYY ••
••
+= sau media obisnuita
21 nnY
Y jj += ••
••
In acelasi context, al secventelor inegale, mai avem si media totala cand apare problema folosirii mediei mediilor secventelor („least square”) sau media obisnuita.
Mentionam ca in literatura formulele finale sunt date fara demonstratie, iar in aplicatiile efective sunt luate intotdeauna variante pentru cazul particular
(secvente egale). 21 nn =Problema isi are importanta deoarece, de cele mai multe ori, la finalul
experimentului de bioechivalenta nu mai avem 21 nn = . Concluzii:
În practică, în prezenţa efectelor carry – over inegale, si deci a aparitiei
efectelor de secventa, se recomanda a se folosi pentru a testa bioechivalenţa, datele din prima perioadă. Nu trebuie să uităm insa următoarele consecinţe ale acestei proceduri:
1) puterea de detecţie a diferenţelor semnificative clinic este micşorată datorită creşterii dispersiei ( se inlocuieste dispersia intraindividuala cu cea interindividuala) şi,
2) pierderea de informaţie prin acceptarea existentei unor efecte de secventa si renuntarea la datele din perioada a – 2 – a. In fond se anulează avantajul major al experimentului crossover şi anume faptul ca fiecare subiect este propriul sau martor.
Analiza dispersionala (ANOVA) se aplica in toata lumea in evaluarea
studiilor de bioechivalenta, dar in final rezultatele sale nu influenteaza in nici un fel decizia privind bioechivalenta.
Efectele de perioada nu influenteaza estimarea efectelor de formulare. Aparitia efectelor de formulare nu semnifica nimic! Egalitatea nu implica
bioechivalenta si nici bioechivalenta nu implica egalitatea. Aparitia efectelor de secventa invalideaza metoda de testare a efectelor de
formulare. Pe de alta parte insa, testarea egalitatii duce la o informatie nesemnificativa.
II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor
146
In acelasi timp este de mentionat ca toate ghidurile referitoare la analiza bioechivalentei recomanda utilizarea MSE „mean square erorr” in formula de testare a bioechivalentei. Dar aceasta iarasi nu inseamna nimic. In fond
22 dMSE σ= si nimic nu ne impiedica sa estimam direct 2dσ prin care este mai
usor calculat si rezultatul este acelasi.
2dS
Ramane totusi ca ANOVA – in cazul in care pune in evidenta efectele de secventa – impune o examinare atenta a protocolului studiului si verificarea masurilor de indepartare a efectelor reziduale.
Ca o concluzie finala, ANOVA nu este un instrument de decizie, rolul sau fiind „informativ”.
II. Statistica matematica si biostatistica Estimarea bioechivalentei
147
2.13. Estimarea bioechivalentei 2.13.1. Metode parametrice de estimare a bioechivalentei 2.13.1.1. Metoda intervalului de incredere Anterior a fost prezentata modalitatea de testare a ipotezei nule ca doua produse sunt “egale” intre ele dupa efectuarea unui experiment 2*2 cross-over, metoda care a fost criticata de multi autori. In locul acesteia a fost propusa de Metzler1 o metoda bazata pe intervale de incredere. Daca intervalul de incredere ( ) %100*21 α− pentru diferenta
RT μμ − sau pentru raportul R
T
μμ
se afla in limitele de acceptare impuse,
atunci se accepta ca medicamentul testat este bioechivalent cu cel de
referinta. Uzual se aplica regula %20± , iar 05.02=
α si, in acest caz,
regula de acceptare devine: a) Produsele sunt bioechivalente daca intervalul de incredere 90% pentru RT μμ − este in limitele %20± din efectul produsului de referinta sau daca,
b) R
T
μμ
este intre 80% si 125% cu probabilitatea 90%.
Aici trebuie facuta observatia ca, in ambele cazuri, aplicarea regulii presupune cunoasterea lui Rμ , ceea ce nu este niciodata cazul, si se ia din acest motiv RY pe post de Rμ . 2.13.1.2. Metoda celor “doua teste unilaterale”, Schuirmann
Ipoteza nula este ipoteza compusa din doua ipoteze simple, testul de bioechivalenta descompunandu-se de fapt in doua teste unilaterale:
IRTH θμμ ≤−:01 vs 1 :a T RH Iμ μ θ− ⟩ si
SRTH θμμ ≥−:02 vs SRTaH θμμ ⟨−:2 O biodisponibilitate mai mare a produsului testat decat cel de
referinta, implica posibilitatea unor efecte secundare sau toxice crescute si o “siguranta” mai mica. Bioechivalenta implica o echivalenta atat in ceea ce priveste efectul cat si in ceea ce priveste siguranta.
1 C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974
II. Statistica matematica si biostatistica Estimarea bioechivalentei
148
Daca vrem sa testam ipotezele enuntate la un nivel de semnificatie α , in conditiile in care presupunem ca datele sunt normal repartizate, putem aplica testul t. Echivalenta este stabilita atunci cand
( )( )1 2
1 2
, 21 1ˆ
T R II
d
Y YT t n n −
n n
θα
σ
− −= ⟩ +
+si
( )( )1 2
1 2
, 21 1ˆ
T R SS
d
Y Yn n
n n
θα
σ
− −T t= ⟨ − + −
+
2
2d
MSEσ = (MSE = Mean Square Error din ANOVA),
deci 2
dRMSEσ = (RMSE = Root Mean Square Error)
Observam ca procedeul celor doua teste t unilaterale este echivalent cu metoda clasica de testare a includerii intervalului de incredere pentru
RT μμ − cu probabilitatea ( ) %100*21 α− in intervalul de acceptare.
2.13.1.3. Transformarea logaritmica a datelor Ghidurile de testare a bioechivalentei recomanda transformarea
logaritmica a datelor. Daca datele initiale sunt repartizate normal si coeficientul de variatie
este mic, atunci si datele transformate urmeaza aproximativ o distributie normala.
Pentru a demonstra aceasta observam ca : 22
2
CVXD ==⎟⎟⎠
⎞⎜⎜⎝
⎛ −μσ
μμ
Daca CV este suficient de mic μμ−X este aproximat de zero si :
μμ
μμ
μμ −
≅⎟⎟⎠
⎞⎜⎜⎝
⎛ −+=⎟⎟
⎠
⎞⎜⎜⎝
⎛=−
XXXX 1lnlnlnln
Deci, μμμ −
+≅XX lnln ; ( ) μlnln =XE si ( ) 2ln CVXD =
Deci, ( )2,lnln CVNX μ= , adica datele transformate sunt distribuite normal cu media μln si dispersia . 2CV
Deci, coeficientul de variatie obtinut din datele netransformate este o estimare a dispersiei datelor transformate.
II. Statistica matematica si biostatistica Estimarea bioechivalentei
149
De obicei insa transformarea logaritmica are rostul de a corecta
asimetria datelor initiale si a le « restrange » prin aceea ca trece in 2σ 2
2
μσ .
In cazul in care nu este foarte mic lucrurile sunt cu mult mai complicate.
2CV
Intervalul de incredere pentru diferenta mediilor datelor transformate sunt aproximativ egale cu cele pentru logaritmul raportului
mediilor netransformate
∗∗ − RT μμ
⎟⎟⎠
⎞⎜⎜⎝
⎛
R
T
μμln .
Intr-adevar, fie ( ) TTXE μ= , ( ) RRXE μ= , ( ) ∗= TTXE μln si ( ) ( ) 2lnln σ== RT XDXD
Avem:
( ) ( ) ( )
( ) ( )
2ln
22 2 2
11 ln ln2
1 11 ln 12 2
T
T
XT T T T
T T T T
E X E e E X X
E X eμ
μ
2σμ μ σ μ
∗∗ ∗ ∗
⎛ ⎞= = ≅ + + =⎜ ⎟⎝ ⎠
= + + = + + + = +
Similar obtinem: 2
2σμ μ +=∗ReR
Ca urmare
2
2lnln 2
2
σ
σ
μμ
μ
μ
+
+=
∗
∗
R
T
e
e
R
T si cum 2
2σ este de asteptat sa fie
foarte mic in raport cu si , avem : ∗Reμ ∗
Teμ
∗∗ −=≅ ∗
∗
RTR
TR
T
ee μμ
μμ
μ
μ
lnln
2.13.2. Metode non – parametrice de testare a bioechivalentei
Daca nu sunt verificate ipotezele necesare aplicarii ANOVA (si implicit a testului t), in particular ipotezele privind normalitatea si egalitatea dispersiilor, intervalul de incredere se determina folosind testele non-parametrice. Metoda se bazeaza pe compararea rangurilor. In analiza bioechivalentei, exista indoieli si incertitudini in ceea ce priveste natura distributiei parametrilor farmacocinetici . Timp de multi ani parametrii
II. Statistica matematica si biostatistica Estimarea bioechivalentei
150
bioechivalentei au fost analizati ca valori netransformate. Ulterior reglementarile oficiale au recomandat transformarea logaritmica a datelor.
In prezent, analiza statistica se bazeaza pe transformarea logaritmica
a AUC si a valoarii . Deoarece maxC ⎟⎠⎞
⎜⎝⎛=−
BABA lnlnln aceasta este o
analogie (dar nu acelasi lucru) cu analiza raportului parametrilor estimati. O metoda de calcul neparametric a intervalului de incredere pentru
raportul parametrilor a fost data de Hollander si Wolfe2 si extinsa ulterior alaturi de alte metode nonparametrice de Steinijens si Diletti3.
Metodele sunt tentante dar, un lucru esential trecut de obicei sub tacere este acela ca se presupune ca nu apar efecte de perioada sau efecte de secventa. Pe de alta parte, chiar daca statistica arata aparitia unor astfel de efecte, nu avem nici o garantie ca acestea sunt reale. In fapt o decizie corecta privind aceste efecte se bazeaza numai pe evaluarea fenomenologica, pe baza proprietatilor fizicochimice ale substantelor active, a considerentelor fiziologice si a caracteristicilor designului experimentului clinic.
Consideram N subiecti intr-un experiment cross-over cu doua perioade si doua secvente ( care insa nu se iau in calcul). In prima faza se determina diferentele pentru fiecare subiect (Testat – Referinta). Pentru cazul unei transformari logaritmice a AUC se compara diferentele logaritmului raspunsurilor pentru fiecare subiect:
( ) ( ) RAUCAUCAUCAUC
R
TRT =⎟⎟
⎠
⎞⎜⎜⎝
⎛=− lnlnln
Se pot calcula si rapoartele R
T
AUCAUC
deoarece acestea sunt in relatie
biunivoca cu diferentele logaritmurilor. Se compara R′ , media geometrica pentru rapoarte, pentru toate
perechile posibile de N rapoarte individuale (R), unde N este numarul de
subiecti. Exista ( )2
1+NN astfel de perechi, incluzand si raportul R/R intre
un subiect si el insusi.
2 Hollander M, Wolfe D A, Non-parametric Statistical Methods,Wiley, New York, 1973 3 Steinijens V W, Diletti E, Statistical Analysis of Bioavailability Studies: Parametric and Non-parametric Confidence Intervals, Eur. J. Clin. Pharmacol 24, 127-136,1983
II. Statistica matematica si biostatistica Estimarea bioechivalentei
151
Facem observatia ca media geometrica a rapoartelor este in corespondenta biunivoca cu media aritmetica al logaritmului valorilor :
3ln3
lnlnln abccba=
++ , etc.
Valorile lui R′ sunt apoi ordonate crescator in functie de rang. Limita inferioara si superioara a intervalului de incredere nonparametric de 90%, respectiv 95%, sunt redate in tabelul privind intervalele de incredere folosind testul de rang Wilcoxon.
In practica, nu este necesara compararea logaritmica deoarece noi suntem interesati de rapoartele dintre testat si referinta. Daca noi comparam
rapoartele si folosim media geometrica a perechilor ( )2
1+NN pentru
ranguri, obtinem un interval de incredere pentru rapoartele directe dintre testat si referinta. 2.13.3. Compararea rezultatelor metodelor parametrice si non – parametrice in estimarea bioechivalentei unor forme farmaceutice cu meloxicam
Problema studiului de bioechivalenta privind supozitoarele cu MELOXICAM - medicamentul testat si MELOXICAM - medicamentul de referinta, a fost aceea ca aplicand procedurile statistice standard produsele apareau, dupa cum se poate vedea (fig. 8) chiar si cu ochiul liber – ca fiind inechivalente.
Fig. 8. – Curbele medii pentru produsul testat si cel de referinta
II. Statistica matematica si biostatistica Estimarea bioechivalentei
152
O examinare mai atenta insa a profilelor individuale (fig.9a si fig 9b) arata o distribuite omogena, relativ normala a profilelor in cazul medicamentului testat si o distributie absolut anormala in cazul produsului de referinta4.
Fig. 9a– Curbele individuale pentru produsul de referinta
Fig. 9b– Profilele individuale dupa administrarea medicamentului testat
4 A.Medvedovici, F.Albu, C.Georgita, C.Mircioiu, V.David, A non-extracting procedure for the determination of meloxicam in plasma samples by HPLC-diode array detection,Arzneimittel Forschung/Drug Research,.55 (6), 326-331 (2005).
II. Statistica matematica si biostatistica Estimarea bioechivalentei
153
Apare ca profilele medicamentului testat se imparte in 3 grupe diferite: un subiect cu valori aberant de mici, 5 voluntari cu valori mari si restul – un grup mai omogen – cu valori intermediare.
In acest context, testarea uzuala a bioechivalentei parametrilor in cele doua populatii (R si T) si pe egalitatea dispersiilor, este departe de a fi cea mai indicata metoda. 2.13.3.1. Estimarea egalitatii mediilor plasmatice folosind testul “non – parametric” Wilcoxon
La testarea egalitatii mediilor plasmatice a doua preparate farmaceutice (testat –T si referinta – R) continand MELOXICAM s-a constatat urmatoarea distributie a datelor: Subject 1 3 5 6 7 8 10 11 12
AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5
AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1
Subject 13 15 16 17 18 19 20 21 23
AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3
AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4
Tabel 20 Studiem mai intai diferentele dintre AUC pentru medicamentul testat si referinta. Subject 1 3 5 6 7 8 10 11 12 AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5 AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1
AUC AUCT R− 8215 1230 2822 9114 18130 3901 18340 37547 9731
Subject 13 15 16 17 18 19 20 21 23 AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3 AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4
AUC AUCT R− 299 19320 8002 11544 2573 -10226 11172 -6456 12024
Tabel 21
Valorile egale (diferenta este zero) sunt inlaturate din calculele urmatoare. Diferenta egala cu zero nu contribuie cu noi informatii privind diferenta dintre tratamente. Vom ordona crescator aceste diferente netinandu-se cont de semn (Tabel 22). Subject 13 3 18 5 8 21 16 1 6
AUC AUCT R− 299 1230 2573 2822 3901 -6456 8002 8215 9114
Rang 1 2 3 4 5 6 7 8 9 Subject 12 19 20 17 23 7 10 15 11
AUC AUCT R− 9731 -10226 11172 11544 12024 18130 18340 19320 37547
Rang 10 11 12 13 14 15 16 17 18
II. Statistica matematica si biostatistica Estimarea bioechivalentei
154
Dupa ordonarea completa a diferentelor (netinandu-se cont de semne) se vor adauga semnele corespunzatoare diferentelor originale care au determinat aceste ranguri:
Subject 13 3 18 5 8 21 16 1 6
AUC AUCT R− 299 1230 2573 2822 3901 -6456 8002 8215 9114
Rang + semn 1 2 3 4 5 -6 7 8 9 Subject 12 19 20 17 23 7 10 15 11
AUC AUCT R− 9731 -10226 11172 11544 12024 18130 18340 19320 37547
Rang + semn 10 -11 12 13 14 15 16 17 18
Tabel 23
Astfel, subiectul 21 care avea inainte rangul 6 va capata rangul -6 deoarece diferenta pentru acest subiect este negativa. Acelasi lucru se va intampla si cu subiectul 19 care va capata rangul -11.
Vom calcula suma rangurilor pozitive si suma rangurilor negative: 154181716151413121098754321 =+++++++++++++++=+R
si 17116 =+=−R In tabelul de mai jos sunt prezentate valorile “critice” ale celor doua
sume de ranguri necesare pentru nivelul de semnificatie 5%, respectiv 1%, pentru N valori (N se considera numarul de perechi excluzand perechile a caror diferenta este 0). Cea mai mica suma a rangurilor trebuie sa fie cel mult egala cu cea din tabelul de mai jos (tabel 24)pentru a considera cele doua grupuri de rezultate ca fiind diferite la nivelul de incredere specificat.
Numarul de subiecti N
05,0=α 01,0=α
6 0 - 7 2 - 8 3 0 9 5 1
10 8 3 11 10 5 12 13 7 13 17 10 14 21 13 15 25 16 16 30 19 17 35 23 18 40 28 19 46 32 20 52 37
II. Statistica matematica si biostatistica Estimarea bioechivalentei
155
In studiul analizat 18=N , suma minima a rangurilor este si (valoarea corespunzatoare din tabel). De aceea, spunem ca
17=−R4017 ≤ cele
doua medicamente realizeaza nivele plasmatice diferite pentru 05,0=α . Rezultatele acestui test sunt foarte aproape de cele obtinute cu testul t. Considerand ca ipotezele testului Wilcoxon sunt mai putin restrictive in comparatie cu testul t, atunci cand nu avem garantia inplinirii conditiilor de aplicare a testului t, testul de mai sus este un test de recomandat. Pentru valorile date aproximarea normala este mai la indemana pentru a compara mediile celor doua populatii:
( )
( )( )24
1124
1
++
+−
=NNN
NNRZ
unde R este suma rangurilor (poate fi utilizata oricare dintre suma rangurilor pozitive sau negative) si N este numarul de elemente (exceptand valorile egale).
In cazul nostru, 18=N si 154=R , deci,
9832,2
1219*5,18*18
419*18154
=−
=Z .
In cazul in care se vor exclude subiectii 6 si 21 vom avea: , ,
16=N127=+R 9=−R si
0508,3
1217*5,16*16
417*16127
=−
=Z
Deci si aproximarea normala a distributiei rangurilor ne duce la
aceiasi concluzie privind existenta unei diferente semnificative intre nivelele plasmatice ale lui R si T.
II. Statistica matematica si biostatistica Estimarea bioechivalentei
156
3.13.3.2. Estimarea bioechivalentei prin calculul “non – parametric” al intervalelor de incredere
La testarea bioechivalentei acelor doua preparate farmaceutice (testat –T si referinta – R) s-au obtinut urmatoarele valori pentru . maxC
Subiect 1 3 5 6 7 8 10 11 12
maxC R 923 1739 770 173 795 698 918 707 1381
maxC T 1289 1856 728 639 1726 1028 1626 799 1206
T/R 1,39 1,06 0,94 3,69 2,17 1,47 1,77 1,95 1,50 Subiect 13 15 16 17 18 19 20 21 23
maxC R 927 641 643 879 787 1795 865 1030 1401
maxC T 1048 1241 968 1132 981 1654 1590 809 1768
T/R 1,13 1,93 1,50 1,28 1,24 0,92 1,83 0,78 1,26 Tabel 25
Vom determina media geometrica pentru fiecare raport RT adica
radicalul dintre produsul a doua rapoarte. Astfel: pentru subiectul 1 media geometrica este radicalul dintre produsul raportului subiectului 1 combinat cu el insusi:
397,139653,1*39653,1 ≈ Pentru subiectul 1 combinat cu subiectul 2, media geometrica este
radicalul produsului dintre raportul subiectului 1 si raportul subiectului 2: 221,1067,1*397,1 ≈
Acest rationament il vom aplica pentru fiecare dintre cei 18 subiecti.
Se vor determina ( ) 1712
19*182
1==
+NN de combinatii diferite incluzand
si fiecare raport cu el insusi.
II. Statistica matematica si biostatistica Estimarea bioechivalentei
Mediile geometrice determinate sunt: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
1 1,397 1,221 1,149 2,271 1,741 1,434 1,573 1,652 1,452 1,257 1,644 1,450 1,341 1,319 1,134 1,602 1,047 1,328 2 1,221 1,067 1,005 1,985 1,522 1,254 1,375 1,444 1,269 1,098 1,437 1,268 1,172 1,153 0,992 1,401 0,916 1,161 3 1,149 1,005 0,945 1,869 1,433 1,180 1,294 1,359 1,195 1,034 1,353 1,193 1,103 1,086 0,933 1,318 0,862 1,092 4 2,271 1,985 1,869 3,694 2,832 2,332 2,558 2,686 2,361 2,043 2,674 2,358 2,181 2,146 1,845 2,606 1,703 2,159 5 1,741 1,522 1,433 2,832 2,171 1,788 1,961 2,059 1,810 1,567 2,050 1,808 1,672 1,645 1,414 1,998 1,306 1,655 6 1,434 1,254 1,180 2,332 1,788 1,473 1,615 1,696 1,491 1,290 1,689 1,489 1,377 1,355 1,165 1,645 1,076 1,363 7 1,573 1,375 1,294 2,558 1,961 1,615 1,771 1,860 1,635 1,415 1,852 1,633 1,510 1,486 1,278 1,804 1,179 1,495 8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953 1,717 1,486 1,945 1,715 1,586 1,560 1,342 1,895 1,239 1,570 9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509 1,306 1,709 1,507 1,394 1,372 1,179 1,666 1,089 1,380
10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131 1,479 1,305 1,207 1,187 1,021 1,442 0,942 1,194 11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936 1,707 1,579 1,553 1,336 1,886 1,233 1,563 12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505 1,392 1,370 1,178 1,663 1,087 1,378 13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288 1,267 1,089 1,539 1,006 1,275 14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247 1,072 1,514 0,989 1,254 15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921 1,301 0,851 1,078 16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838 1,202 1,523 17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785 0,996 18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262
Mediile geometrice considerate o singura data sunt:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 1,397 2 1,221 1,067 3 1,149 1,005 0,945 4 2,271 1,985 1,869 3,694 5 1,741 1,522 1,433 2,832 2,171 6 1,434 1,254 1,180 2,332 1,788 1,473 7 1,573 1,375 1,294 2,558 1,961 1,615 1,771 8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953 9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509
10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131 11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936 12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505 13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288 14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247 15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921 16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838 17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785 18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262
157
III. Statistica matematica si biostatistica Estimarea bioechivalentei
158
Tabel 26 Intervalele de incredere folosind testul de rang Wilcoxon
Rangul limitei inferioare Rangul limitei superioare Numarul de subiecti (N) 95% 90% 95% 90% 6 1 3 21 19 7 3 4 26 25 8 4 6 33 31 9 6 9 40 37
10 9 11 47 45 11 11 14 56 53 12 14 18 65 61 13 18 22 74 70 14 22 26 84 80 15 26 31 95 90 16 30 36 107 101 17 35 42 119 112 18 41 48 131 124 19 47 54 144 137 20 53 61 158 150 21 59 68 173 164 22 66 76 188 178 23 74 84 203 193 24 82 93 219 208
Dupa cum se observa, limita inferioara, respectiv superioara a intervalului de incredere 95% este valoarea rangului 14, respectiv 65 al mediilor geometrice determinate anterior, deoarece numarul de subiecti este
. 18=NPentru a determina un rang al mediilor geometrice vom construi, in
EXCEL, tabelul mediilor geometrice luate o singura data Vom folosi functia small(array;k) care calculeaza valoarea de rang
k dintr-un set de date (array). In cazul nostru array, in tabelul Exccel, a fost F3:Q20, ,
respectiv 131 pentru intervalul de incredere , deci am avut: 41=k
%95CI• =small(F3:Q20; 41)=1,194 • =small(F3:Q20; 131)=1,696
ceea ce inseamna un interval de incredere ( )696,1,194,1%95 =CI In cazul intervalului de incredere 90% limita inferioara va avea
rangul 48, iar cea superioara rangul 124 corespunzand astfel intervalului : ( )652,1,247,1%90 =CI
• =small(F3:Q20;48)=1,247 • =small(F3:Q20;124)=1,652
III. Statistica matematica si biostatistica Estimarea bioechivalentei
159
Limitele inferioare si limitele superioare stabilite de FDA pentru
bioechivalenta sunt ( )25,1,800,0 . In ambele situatii se constata ca nu putem demonstra bioechivalenta
celor doua produse.
2.13.3.3. Estimarea bioechivalentei folosind testul non – parametric Wilcoxon, pornind de la un model care ia in considerare si efectele de perioada
Fie, folosind notatiile standard de la modelul incrucisat cu doua
perioade si doua secvente, diferenta intre formularile testate
RT μμθ −= .
Consideram testarea bioechivalentei folosind doua teste unilaterale:
LLLAL undeHvsH θθθθθ −=⟩≤ ∗∗∗ 0:0: 101 si
UUUAU undeHvsH θθθθθ −=⟨≥ ∗∗∗ 0:0: 202
In vederea testarii ipotezelor enuntate consideram combinatia (“contrastul”):
⎩⎨⎧ =−
=2sec;
1sec,;ventadinsubiectiipentrud
ventadinsubiectiipentruULhdb
ik
hikhik
θ,
unde: • kni ,1= , 2,1=k , reprezinta numarul de subiecti in cele doua secvente
• 2
12 PPdik−
= este jumatate dintre diferentele intre cea de-a II a
perioada si prima perioada • UsauL dupa cum ne referim la compararea cu limita inferioara sau cea superioara a intervalului de acceptare a bioechivalentei
h =
III. Statistica matematica si biostatistica Estimarea bioechivalentei
160
Folosind rationamentul de la testarea efectelor in experimentul cross-over pentru diferenta intre valorile pereche ale unui subiect dat vom obtine:
ikd
( )( ) ( )[ ]
( )[ ]⎪⎩
⎪⎨
⎧
=+−
=−+−=
221
1221
12
12
kpentruPP
kpentruPPbE
h
hik
θ
θθ
( ) ( )2
22 edikhik dDbD
σσ ===
Observam ca din definitiile de mai sus rezulta imediat ca: ( ) ( ) ( ) ∗=−=− hhhihi bEbE θθθ21
Media sumei rangurilor este ( )
41211 ++ nnn
(s-a demonstrat la testul
Wilcoxon).
Consideram suma rangurilor: si si
variabilele aleatoare
(∑==
1
11
n
iLiL bRR ) )(∑=
=
1
11
n
iUiU bRR
( )2
111 +−=
nnRW LL si ( )
2111 +
−=nnRW UU .
Inlocuirea sumei rangurilor R cu ( )2
1+−
nnR este “testul Mann –
Whitney” care insa este in esenta acelasi test.
( ) ( ) ( ) ( )22
12
1 2111211 nnnnnnnWEWE UL =+
−++
==
si
( ) ( ) ( )12
12121 ++==
nnnnWDWD UL
Tragem concluzia ca produsele sunt bioechivalente atunci cand amandoua ipotezele si sunt respinse. 01H 02H
Deci, relatia: ( )αwWU ≤ si ( )α−⟩ 1wWL unde valorile ( )αw se gasesc in tabele, iar valorile complementare se calculeaza cu formula: ( ) ( )αα wnnw −=− 211 , implica biochivalenta celor doua produse.
III. Statistica matematica si biostatistica Estimarea bioechivalentei
161
In cazul in care avem si un numar de cozi (valori egale), atunci valorile egale se inlocuiesc cu media rangurilor lor si dispersiile devin
kνr
( ) ( ) ( )QnnnnWDWD UL −++== 1121
2121 ,
unde ( )( ) ( )∑ −−++
==
krr
nnnnQ
1
3
2121 11
ννν .
Cand numarul de valori este suficient de mare (de exemplu, mai mare de 40) se poate folosi aproximatia normala:
( )( )
( )
( )1121
21
2121
211
++
++−
=−
=nnnn
nnnR
WDWEW
ZL
L
LLL si
( )( )
( )
( )1121
21
2121
211
++
++−
=−
=nnnn
nnnR
WDWEW
ZU
U
UUU
Vom compara pentru studiul de bioechivalenta privind produsul MELOXICAM testat(T) si referinta (R) efectuat pe 18 subiecti.
totAUC
Subiecti 1 6 7 10 11 15 19 20 21 secv 1 RT RT RT RT RT RT RT RT RT
1P 36721 3494 24163 21584 40403 21322 48654 19776 31387
2P 44936 12608 42293 39924 77951 40642 38428 30948 24932
Subiecti 3 5 8 12 13 16 17 18 23 secv 2 TR TR TR TR TR TR TR TR TR
1P 65279 50454 25033 34553 25217 37065 37007 19996 35726
2P 64049 47631 21132 24823 24918 29063 25463 17423 23702
Vom calcula 2
12 PPdik−
= = jumatate dintre diferentele intre cea de-
a II a perioada si prima perioada Calculam
III. Statistica matematica si biostatistica Estimarea bioechivalentei
162
1 2
36721 3494 ... 31387 64049 47631 ... 23702 449009 9
RR
AUCAUC
n n= =
++ + + + + + +
= =+
∑
Determinam: 8980*2,0 ===− RUL AUCθθ Deci,
13088898041081111 =+=−= LL db θ ,…..,5752898032289191 =+−=−= LL db θ 4872898041081111 −=−=−= UU db θ ,…,
12208898032289191 −=−−=−= UU db θ 615121212 −=== dbb UL , ……., 6012929292 −=== dbb UL
Ordonam descrescator valorile absolute ale lui , respectiv si vom determina rangurile corespunzatoare
Likb Uikb( )LikbR , respectiv ( )UikbR .
( ) 51105132134671
11 =++++++++=∑=
=
n
iLiL bRR
( )6
210*951
2111 =−=
+−=
nnRW LL
( ) 7821011431618861
11 =++++++++=∑=
=
n
iUiU bRR
( )33
210*978
2111 =−=
+−=
nnRW UU
secv 1 1P 2P ikd LiLi db θ−= 11 ( )LikbR UiUi db θ−= 11 ( )UikbR
RT 36721 44936 4108 13088 7 -4872 6 RT 3494 12608 4557 13537 6 -4423 8 RT 24163 42293 9065 18045 4 85 18 RT 21584 39924 9170 18150 3 190 16 RT 40403 77951 18774 27754 1 9794 3 RT 21322 40642 9660 18640 2 680 14 RT 48654 38428 -5113 3867 13 -14093 1 RT 19776 30948 5586 14566 5 -3394 10 RT 31387 24932 -3228 5752 10 -12208 2
III. Statistica matematica si biostatistica Estimarea bioechivalentei
163
secv
2 1P 2P ikd 22 iLi db = ( )LikbR 22 iUi db = ( )UikbR
TR 65279 64049 -615 -615 17 -615 15 TR 50454 47631 -1411 -1411 15 -1411 12 TR 25033 21132 -1950 -1950 14 -1950 11 TR 34553 24823 -4865 -4865 11 -4865 7 TR 25217 24918 -149 -149 18 -149 17 TR 37065 29063 -4001 -4001 12 -4001 9 TR 37007 25463 -5772 -5772 9 -5772 5 TR 19996 17423 -1287 -1287 16 -1287 13 TR 35726 23702 -6012 -6012 8 -6012 4
Din tabel avem: ( ) 2205,0;9;9 ==Ww α si ( ) ( ) 59229*91 21 =−=−=− αα wnnw
Intrucat ( )22 33 Uw α⟨ ⇒ ⟨ W si ( )6 59 1 Lw α⟨ ⇒ − ⟩ W nu putem afirma ca produsele sunt bioechivalente 2.13.3.4.Calculul parametric
LATIN SQUARE DESIGN : ANOVA TABLE for AUCtot
LATIN SQUARE with Log (neperian) option SOURCE D.F SS MS F p Period 1 0.000350993 0.000350993 0.00114772 0.9734 NS Subject(Seq) 16 10.4047 0.650296 2.12643 0.07096 NS Formulation 1 0.320187 0.320187 1.04699 0.3214 NS Sequence 1 0.0100203 0.0100203 0.0327659 0.8586 NS Error 16 4.89306 0.305816 Total 35 15.6284 -------------------------------------------------------------------------------- N Mean SD SEM GeoMean Geo SD Formulation:num = R 18 10.2755 0.850093 0.200369 29012.8 2.33987 Formulation:num = T 18 10.4641 0.421689 0.0993931 35035.2 1.52453 -------------------------------------------------------------------------------- Root Mean Square Error = 0.553007 ; CV = 0.0533286 phi = 0.72353 Power of the test = 0.161064 1 - ( Power of the test ) = 0.838936 Minimum detectable difference = 0.188617
III. Statistica matematica si biostatistica Estimarea bioechivalentei
164
-------------------------------------------------------------------------------- BIOEQUIVALENCE TESTS FOR Level R and level T Reference Confidence Interval: [ 0.8, 1.25] Geomean Ratio (Test/Reference) = 1.20758 90% standard confidence interval (around the ratio:[test form]/[ref form])=[ 0.87528, 1.666] t(0.05 - 16df) = 1.7459 Cannot conclude equivalence. -------------------------------------------------------------------------------- TWO ONE-SIDED T-TESTS FOR Level R and level T Lower: t( 16df) = 0.1873 Upper: t( 16df) = 2.2338 t(0.05 - 16df) = 1.7459 Cannot conclude equivalence
LATIN SQUARE DESIGN : ANOVA TABLE for Cmax LATIN SQUARE with Log (neperian) option SOURCE D.F SS MS F p Period 1 0.18169 0.18169 3.02264 0.1013 NS Subject(Seq) 16 4.71008 0.29438 4.89739 0.001414 *** Formulation 1 1.22793 1.22793 20.4283 0.000349 *** Sequence 1 0.0137681 0.0137681 0.229051 0.6387 NS Error 16 0.961752 0.0601095 Total 35 7.09523 -------------------------------------------------------------------------------- N Mean SD SEM GeoMean Geo SD Formulation:num = R 18 6.72375 0.494661 0.116593 831.927 1.63994 Formulation:num = T 18 7.09312 0.316931 0.0747013 1203.66 1.37291 -------------------------------------------------------------------------------- Root Mean Square Error = 0.245172 ; CV = 0.0354889 90% standard confidence interval (around the ratio:[test form]/[ref form])=[ 1.2544, 1.6687] t(0.05 - 16df) = 1.7459 Cannot conclude equivalence.
III. Statistica matematica si biostatistica Estimarea bioechivalentei
165
2.13.4.Compararea rezultatelor Este de observat ca testele neparametrice, la fel ca cele parametrice
indica faptul ca cele doua produse nu sunt bioechivalente. Aceasta deoarece intr-adevar la aproape toti subiectii avem:
Ttot
Rtot AUCAUC ⟨
Si totusi rezultatul este profund incorect deoarece intravariabilitatea si distributia non-normala a rezultatelor produsului de referinta indica foarte probabil si o intravariabilitate mare a produsului de referinta.
Dupa cum se vede in fig. 10, fig.11. avem o diferenta foarte mare intre medicamentul de referinta si medicamentul testat dar aceasta diferenta este o combinatie intre intravariabilitatea lui R si cea a lui T.
R TTreatmentName
0
100000
200000
300000
400000
AU
Cto
t(ng
/mL*
h)
AUCtot v s TreatmentName
01 0305 0607 0810 1112 1315 1617 1819 2021 23
R TTreatmentName
0
500
1000
1500
2000C
max
(ng/
mL)
Cmax v s TreatmentName
01 0305 0607 0810 1112 1315 1617 1819 2021 23
Fig. 10Valorile AUCtot pereche pentru R si T Fig. 11Valorile Cmax pereche pentru R si T
In acest caz, dupa cum au propus aproape toti cercetatorii in ultimii
ani ar trebui introduse criterii “scalate” – adica largirea limitelor de acceptare a bioechivalentei, in functie de intravariabilitatea referintei.
Din pacate aceasta nu se poate obtine decat din experimente repetate, deci experimente in care medicamentul referinta este administrat de doua ori.
In experimentul cross-over fara repetitie se obtine o intravariabilitate sau din ANOVA care sunt o combinatie a variabilitatilor pentru
medicamentul testat si referinta si acestea nu se pot estima separat.
2dS raSS int
III. Statistica matematica si biostatistica Estimarea bioechivalentei
166
II. Statistica matematica si biostatistica Teste statistice de discordanta
167
2.14. TESTE STATISTICE DE DISCORDANTA
In ceea ce priveste valorile anormale , se pun in principal trei probleme: - decizia privind respingerea sau omisia acestor valori, - analiza efectului lor de distorsionare a rezultatelor estimarilor parametrilor populatiei, - existenta unor factori neluati in seama si necesitatea elaborarii unui alt model statistic, corespunzator realitatii.
In vederea realizarii primului obiectiv se aplica testele de discordanta , numite si teste de respingere , dar decizia de respingere sau non-respingere nu poate fi luata fara examinarea si a celorlate doua probleme enuntate.
Putem defini intuitiv notiunea de discordanta (outlier) astfel: o observatie care deviaza atat de tare de restul observatiilor incat poate fi suspectata ca a fost generata printr-un mecanism diferit. Cand este vorba de un set de date universale, caracteristica principala a unei observatii discordante este “departarea” sau deviatia (masurata) la o scara adecvata) fata de grupul majoritatii observatiilor (inlying observations). Cand este vorba de date multivaluate / structurate, discordanta inseamna abaterea de la modelul statistic (de ex. Regresia liniara) caruia i se supun celelalte valori. In general, putem spune ca, intr-un esantion, o valoare (sau o submultime de valori) este “discordanta” daca nu respecta patentul caruia ii apartin celelalte valori ( este inconsistenta cu restul observatiilor).
In principiu exista doua mecanisme care pot da nastere unui esantion ce pare sa contina valori outlier (daca excludem factorul de eroare umana sau defectiunile aparaturii folosite). Aceste mecanisme dicteaza in buna masura felul in care vor fi tratate aceste valori speciale. a. Datele provin dintr-o distributie heavy tailed (graficul functiei de repartitie se apropie relativ „incet” de asimptota data de axa Ox) precum distributia Student T. In acest caz, valorile aparent indepartate de restul reprezinta un factor firesc, intrisec legii de repartitie.
Acest fenomen nu este caracteristic distributiei normale sau distributiilor gamma (ce manifesta o apropiere rapida de asimptota Ox), drept pentru care nu vom discuta acest mecanism. b. Datele provin din doua distributii diferite. Una dintre acestea, „distributia de baza” genereaza „observatii bune”, in timp ce cealalta, „distributia contaminata” creeaza „observatii discordante” sau „contaminanti”. Daca distributia contaminanta are o descrestere asimptomatica mai lenta decat cea de baza, atunci va fi evidenta tendinta
II. Statistica matematica si biostatistica Teste statistice de discordanta
168
contaminantilor de a se manifesta ca valori discordante, indepartate de restul observatiilor.
În general există o gamă foarte largă de teste din care putem alege şi în mod natural ne punem problema care sunt criteriile de a alege un test sau altul într-o situaţie particulară şi cum putem defini performanţa testului ales. Sunt patru aspecte principale care trebuiesc luate în considerare. 1. Modelul de bază şi determinarea semnificaţiei. În orice context un test statistic poate fi construit pur şi simplu pe baza intuiţiei şi să respingem sau să acceptăm valorile extreme. Totuşi avem nevoie de un criteriu de respingere care să asigure o anumită semnificaţie operaţiei ceea ce impune în mod esenţial elaborarea unor ipoteze de lucru privind distribuţia testului statistic sau măcar să ştim ceva despre distribuţia de probabilitate pe coadă. 2. Ipoteza alternativă care să ne permită definirea valorilor anormale. 3. Definirea performanţei testului şi a conceptului asociat de putere. Alegerea dintre mai multe teste ar trebui să fie bazată pe performanţa lor relativă. Evaluarea performanţei relative, de exemplu calculul puterii trebuie sau poate fi făcută când avem definită ipoteza alternativă şi distribuţia testului statistic în condiţiile ipotezei alternative. Probemele sunt foarte complicate motiv pentru care până în ultimii ani ele au fost comple ignorate. 4. Care sunt proprietăţile dorite pentru testul de discordanţă. Astfel ne putem pune problema unui test uniform cel mai puternic sau măcar să ne mulţumim cu o optimalitate locală sau cu certitudinea unei nedeplasări sau cu satisfacerea unor proprietăţi de invarianţă. Alternativ putem să construim teste folosind o metodă larg acceptată cum ar fi metoda verosimilăţii maxime a rapotului. 2.14.1. Construcţia testelor de discordanţă
Testele aplicabile au fost clasificate în şapte clase. 1. Statistici bazate pe raportul exces / dispersie.
Acestea sunt rapoarte ale diferenţelor între valoarea aberantă şi vecinul său cel mai apropiat sau imediat după acesta în şir şi intervalul valorilor sau alte măsuri ale dispersiei selecţiei.
Ca exemplu avem 1
2
n n
n
x xx x
−−−
Propus de Dixon pentru examinarea unei valori aberante superioare şi care evită valoarea x1 sau
1n nx xσ
−−
II. Statistica matematica si biostatistica Teste statistice de discordanta
169
unde σ este deviaţia standard în modelul de bază. Testul presupunea σ cunoscut şi o repartiţie normală a probelor.
Putem înlocui σ cu o estimare a sa dintr-o probă restrânsă din care s-au eliminat valorile bănuite ca aberante.
2. Statistici bazate pe raportul dintre lungimea domeniul de valori / dispersie.
Testele se obţin din cele de mai sus prin înlocuirea numărătorului cu lungimea domeniul valorilor. Ca exemplu avem
1nx xs−
unde s poate fi obţinut din întreg setul de valori sau dintr-un set restrâns prin eliminarea valorilor bănuite a fi aberante sau poate fi cunoscut din alte măsurători.
Dezavantajul acestor teste este acela că el nu face distincţie între cazurile când avem o valoare aberantă superioară, una inferioară sau de amândouă tipurile. 3. Statistici bazate pe raportul deviaţie / dispersie.
Aceste teste înlătură dezavantajul celor anterioare prin aceia că se înlocuieşte lungimea domeniului de valori cu distaţa dintre o valoare aberantă şi măsură a tendinţei centrale a datelor. De exemplu putem considera raportul
1x xs−
La fel ca şi s , x poate fi calculat din intregul set de date sau dintr-o parte a acestuia. 4. Statistici bazate pe sume de pătrate.
Aceste statistici se bazează pe suma pătratelor restricţionate şi suma pătratelor pentru întregul set de valori. De exemplu raportul
( )
( )
2 2, 1
12
1
n
n nii
n
ii
x x
x x
−
−=
=
−
−
∑
∑,
unde
2
1, 1
2
n
ii
n n
xx
n
−
=− =
−
∑ poate fi folosit pentru testarea a două valori aberante
superioare xn şi xn-1 dintr-o populaţie normal distribuită.
II. Statistica matematica si biostatistica Teste statistice de discordanta
170
5. Statistici pe baza raportului între valorile extreme şi valorile medii. Aceste statistici s-au dovedit în particular relevante pentru datele cu distribuţie de tip Gamma. 6. Statistici bazate pe momente de ordin superior.
Statistici care măsoară asimetria sau curbura pot fi folosite şi pentru testarea valorilor aberante.
( )
( )
3
32 2
i
i
n x x
x x
−
⎡ ⎤−⎢ ⎥⎣ ⎦
∑
∑ şi
( )( )
4
22
i
i
n x x
x x
−
⎡ ⎤−⎢ ⎥⎣ ⎦
∑
∑
7. Statistici W. Aceste teste se bazează pe rapotul dintre pătratul unei combinaţii liniare a tuturor datelor şi suma pătratelor abaterilor faţă de medie.
( )( )2
2
∑∑
−=
xx
xwW
i
ii
(ponderile w , calculate in functie de parametrii selectiei , se gasesc in tabele).
O situaţie specială apare atunci când avem un grup de valori anormale superior sau inferior şi când testele enumerate mai sus nu pot pune în evidenţă aberaţii datorită unui efect de mascare. De aceea s-au conceput teste pentru evaluarea mai multor valori aberante simultan (proceduri bloc).
Alte teste examinează valorile extreme secvenţial. În fapt acestea examinează în principal valoarea aberantă maximă pe baza unui test deviaţie / dispersie şi dacă xn se devedeşte valoare aberantă el se repetă operaţia pentru xn-1 pe proba redusă. Procedura se continuă până când se găseşte o valoare neaberantă.
Aplicarea unui test sau altul ne poate duce la concluzii in general diferite, in final decizia privind declararea unei valori ca discordante tinand de analiza fenomenului.
Exemplu: 1, 5, 11, 4, 2, 6, 3 O prima masura de precautie pe care trebuie sa o luam este aceea de
a verifica faptul ca distributia datelor nu se modifica radical prin schimbarea unitatilor de masura, deci la schimbari liniare sau la schimbarea de la o distributie normala la una exponentiala.
II. Statistica matematica si biostatistica Teste statistice de discordanta
171
Prima operatiune, indiferent de testul aplicat, este aceea de asezare a datelor in ordine crescatoare.
1, 2, 3 , 4, 5, 6 , 11 Rezultatul este bine sa fie vizualizat printr-o asezare a punctelor pe o dreapta.
Fig. nr. 6
Motivul pentru care o prima sau ultima valoare pot fi considerate ca discordante este acela ca aceste valori apar a fi foarte separate de de restul datelor , in raport cu imprastierea datelor din selectie.
Aceasta ne duce in mod natural la ideia unei statistici bazata pe raportul A/D unde A este abaterea valorii extreme fata de restul datelor iar D este o masura a dispersiei datelor .
Pe post de A putem lua de exemplu diferenta intre valoarea extrema si urmatoarea valoare, cea mai apropiata de ea 67 xx − , sau distanta intre aceasta si restul datelor considerate ca un grup Mx −7 , unde M este media celorlalte 6 valori.
Pentru D putem considera fie lungimea intervalului de valori , sau distanta intre urmatoarele doua valori 16 xx − 56 xx − care este cu mult
mai mic decat 67 xx − , sau dispersia primelor 6 valori Consideraţiile de mai sus sugerează următoarele statistici pentru
testarea valorilor extreme:
( ) 7 6
6 1
56,7 ;1,6 15
x xyx x−
= = =−
; ( ) 7 6
6 5
56,7 ; 5,6 51
x xyx x−
= = =−
7 11 3,5 2,143,5
x xTs
′− −′ = = =′
Statisticile sunt de forma ( ), ; , s r
q p
x xy r s p qx x−
=−
Am putea lua de exemplu, la numitor în prima statistică întregul domeniu de variaţie al valorilor
( ) 7 6
7 1
56,7 ;1,6 0,510
x xyx x−
= = =−
II. Statistica matematica si biostatistica Teste statistice de discordanta
172
iar în loc de 5x xTs
′−′ =′
sa folosim 5x xTs−
= , dar statisticile rămân în
esenţă aceleaşi. Consideram spre exemplu valorile concentratiilor maxime ale
MELUOL , un metabolit activ al nicergolinei la 24 de voluntari sanatosi. Pentru a lua o decizie cat mai corecta, vom examina atat valorile individuale, cat si raportul valorilor pentru un acelasi voluntar.
Mai mult decat atat, pentru a avea si o imagine a acestor valori si a raportului dintre ele, considera reprezentarile valorilor pentru medicamentul de referinta (R ) si pentru cel testat ( T ) precum si a raporturilor T/R si a „dependentei” T ( R ) ( care, daca valorile s-ar corela perfect, ar trebui sa fie o dreapta).
Tabelul nr. 21:
Subject CMAX,T (ng/ml)
CMAX,R (ng/ml) T/R T/R
CMAX,T (ng/ml)
CMAX,R (ng/ml)
1 65.70 48.98 134 46 2 2 2 7.85 6.73 117 47 3 3 3 10.11 21.76 46 56 3 3 4 3.94 2.65 149 62 4 4 5 29.54 22.60 131 71 4 4 6 10.58 14.84 71 78 4 5 7 6.84 5.95 115 88 5 6 8 14.79 16.54 89 89 7 7 9 17.29 6.57 263 90 7 7 10 11.61 8.75 133 92 8 7 11 27.48 14.82 185 102 10 9 13 5.24 3.72 141 106 11 14 14 32.11 36.33 88 111 12 15 15 12.49 20.29 62 115 12 15 16 4.23 4.60 92 117 13 15 17 7.01 14.96 47 131 15 15 18 1.96 1.76 111 133 16 15 19 3.09 3.03 102 134 17 17 20 15.91 15.01 106 141 22 20 21 21.54 14.94 144 144 27 22 22 3.34 4.30 78 149 30 23 23 3.75 6.72 56 185 32 36 24 12.67 14.08 90 263 66 49 N 23 23 media 111 14 13 Mean 14.31 13.475 StDev 48.6 14.2 11.4
II. Statistica matematica si biostatistica Teste statistice de discordanta
173
Fig. nr. 7
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
0 5 10 15 20 25 30
CMAX,T (ng/ml)CMAX,R (ng/ml)
T(R)
R2 = 0.7497
0.00
10.00
20.00
30.00
40.00
50.00
60.00
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00
Fig. nr. 8
T
0
10
20
30
40
50
60
70
1 3 5 7 9 11 13 15 17 19 21 23
R
0
10
20
30
40
50
60
1 3 5 7 9 11 13 15 17 19 21 23
T / R
0
50
100
150
200
250
300
1 3 5 7 9 11 13 15 17 19 21 23
Observam dupa ordonare, ca valorile concentratiilor maxime pentru
voluntarul 1 sunt cele mai mari si, cel putin pentru T, mult mai mari (aparent discordante) decat pentru ceilalti voluntari.
Voluntarul 9 apare normal in contextul valorilor individuale pentru
T si R dar raportul lor este cel mai mare, si probabil destul de indepartat de celelalte rapoarte.
II. Statistica matematica si biostatistica Teste statistice de discordanta
174
In tabelul de mai jos sunt redate rezultatele aplicarii testelor Dixon si Tn pentru R, T si T/R . Din punct de vedere al testului Dixon, toate valorile sunt discordante.
Aplicand testul Tn , voluntarul 9 este de eliminat dat fiind raportul
T/R discordant. Tabelul nr. 22: voluntar 9 T/R Dixon (Xk-Xk-2)/(Xk-X3)= 0.55 >0.41 voluntar 1 T/R = 134 valoare normala voluntar 1 R Dixon (Xk-Xk-2)/(Xk-X3)= 0.57 >0.41 voluntar 1 T Dixon (Xk-Xk-2)/(Xk-X3)= 0.58 >0.41 voluntar 9 T/R Tn = ( Xk-Xmediu)/S= 3.14 >2.82 voluntar 1 T/R Tn = ( Xk-Xmediu)/S= 0.48 <2.82 voluntar 1 R Tn = ( Xk-Xmediu)/S= 3.12 >2.82 voluntar 1 T Tn = ( Xk-Xmediu)/S= 3.62 >2.82
Acelasi test arata insa ca voluntarul 1 este anormal din punct de
vedere al celor doua valori, dar nu si din punct de vedere al raportului T/R. Dat fiind ca decizia privind bioechivalenta este influentata doar de
intravariabilitate si nu depinde de intravariabilitate, voluntarul 1 nu este de eliminat.
In final, decizia privind clasificarea unei valori drept discordante,
depinde de analiza fenomenologica si mai putin de rezultatul testelor statistice.
II. Statistica matematica si biostatistica Teste statistice de discordanta
175
2.14.2. Criteriul Dixon pentru respingerea outliers Tabelul nr. 23
Nivel de semnificatie k 5% 1%
3 ( )( )1
1210 XX
XXrk −
−=
daca cea mai mica valoare este suspecta
0.941 0.988
4 0.765 0.889 5 ( )
( )1
110 XX
XXrk
kk−
−= −
daca cea mai mare valoare este suspecta
0.642 0.780
6 0.560 0.698 7 0.507 0.637 8 ( )
( )11
1211 XX
XXrk −
−=−
daca cea mai mica valoare este suspecta
0.554 0.683
9 0.512 0.635 10 ( )
( )2
111 XX
XXrk
kk−
−= −
daca cea mai mare valoare este suspecta
0.477 0.597
11 ( )( )11
1321 XX
XXrk
k−
−=−
−
daca cea mai mica valoare este suspecta
0.576 0.679
12 0.546 0.642 13 ( )
( )2
221 XX
XXrk
kk−
−= −
daca cea mai mare valoare este suspecta
0.521 0.615
14 ( )( )12
1322 XX
XXrk −
−=−
daca cea mai mica valoare este suspecta
0.546 0.641
15 0.525 0.616 16 ( )
( )3
222 XX
XXrk
kk−
−= −
daca cea mai mare valoare este suspecta
0.507 0.595
17 0.490 0.577 18 0.475 0.561 19 0.462 0.547 20 0.450 0.535 21 0.440 0.524 22 0.430 0.514 23 0.421 0.505 24 0.413 0.497 25 0.406 0.489
II. Statistica matematica si biostatistica Teste statistice de discordanta
176
Valorile critice pentru t ca test bilateral la nivelul de semnificatie 5 % pentru eliminarea valorilor discordante:
Tabelul nr. 24: Valoare T Valoare T 3 1.155 15 2.549 4 1.481 16 2.585 5 1.715 17 2.620 6 1.887 18 2.651 7 2.020 19 2.681 8 2.126 20 2.709 9 2.215 25 2.822 10 2.290 30 2.908 11 2.355 35 2.979 12 2.412 40 3.036 13 2.462 50 3.128 14 2.507 100 3.383 2.14.3. Valori discordante fata de corelatia liniara
Un tip special de valoare discordanta este cazul cand un punct experimental pare a nu se potrivi cu modelul corespunzator celorlalte date. Acest lucru este prezentat in figura 9 in contextul simplu al regresiei liniare.
Punctele P din interiorul cercului punctat corespund unui model de regresie liniara. De remarcat totusi faptul ca “elipsa “ ce am desenat-o noi in jurul dreptei de regresie este arbitrara , dar sa presupunem ca avem considerente fenomenologice care sa ne permita definirea unui domeniu in interiorul caruia punctele sa poata fi acceptate ca urmand modelul liniar.
Daca presupunem ca variabila x nu este o variabila aleatoare, si pentru un x dat se determina experimental mai multe valori y, si daca acestea sunt distribuite normal, se poate calcula un interval de incredere in afara caruia sa putem eticheta valorile drept discordante
II. Statistica matematica si biostatistica Teste statistice de discordanta
177
Fig. 9 Estimarea dreptei care descrie relatia intre variabilele y si x Putem, la fel de bine considera dreapta de regresie drept valoarea
adevarata si sa consideram un domeniu centrat pe aceasta. Aceasta este echivalent cu inlocuirea dispersiei in fiecare punct x cu o singura dispersie, a intregii multimi de puncte (fig.10) .
Dupa cum s-a prezentat la capitolul privind regresia liniara, dreapta “adevarata” y = α + β x (in cazul cand datele urmeaza efectiv un model liniar) este aproximata de dreapta care aproximeaza cel mai bine punctele experimentale y = a + b x , in sensul ca suma patratelor distantelor de la puncte la dreapta este minima (dreapta prin cele mai mici patrate).
Fig.10 Distributia normala a punctelor in jurul valorilor de pe dreapta de regresie Sa consideram in continuare cateva tipuri de puncte in afara
multimii de valori “normale”. Fie de exemplu punctul A in fig. 11. El va fi o valoare discordanta
fata de multimea P sau in multimea P+A relativ la modelul regresiei liniare. El este la o distanta mare de dreapta care fiteaza punctele, sau altfel spus, includerea sa in multimea de date mareste semnificativ variatia reziduala.
II. Statistica matematica si biostatistica Teste statistice de discordanta
178
Important este, in afara de considerarea efectului punctului asupra erorii reziduale, sa evaluam si efectul asupra parametrilor dreptei de regresie. Parametrii acesteia sunt dependenti de punctele pe care le fiteaza.
Daca in loc de A consideram punctul experimental B obtinand multimea de date P+B, B nu apare a fi o valoare discordanta (un punct experimental discordant) relativ la estimarea regresiei liniare a modelului.
Dar punctul B are un efect considerabil asupra fitarii modelului, intrucat includerea sa in multimea punctelor care determina dreapta prin cele mai mici patrate creste substantial precizia cu care este estimata panta dreptei de regresie.
Si aceasta deoarece x-ul sau este la o distanta considerabila fata de x-ul celorlalte puncte din P. In fapt el este o valoare discordanta in ce priveste coordonata x fata de complexul P+B. Spunem ca B este un punct cu “parghie mare”. A se obseva ca punctul parghie este o componenta a variabilei independente si nu a raspunsului. Astfel, daca in loc de B luam punctul experimental discordant C (cu aceeeasi coordonata x ca a lui B), obtinem multimea P+C si C are aceeasi parghie mare ca si B.
Totusi, in comparatie cu B, includerea lui C schimba substantial estimarea liniei de regresie. Spunem ca C este un punct influential in multimea P+C. Deasemenea C este o valoare discordanta (relativ la modelul regresiei liniare ca in toate cazurile discutate). In multimea P+A valoarea discordanta A are o parghie mai mica dar este influentiala pentru ordonata la origine si mai putin pentru panta.
Pentru simplitate am introdus notiunile de valori discordante, puncte parghie si date influentiale in termeni de puncte individuale. Dar, in particular, aceste notiuni se aplica la fel de bine si grupurilor sau submultimilor de puncte.
Fig. 11 Valori discordante fata de dreapta de regresie
II. Statistica matematica si biostatistica Teste statistice de discordanta
179
2.14.3.1.Drepte si puncte discordante Problema “discordantei” se complica atunci cand in fapt datele nu se
inscriu pe o singura dreapta ci pe doua sau mai multe drepte in functie de valorile lui x.
Exemplul cel mai sugestiv si cel mai important pentru farmacocinetica in acest sens este acela al medicamentelor cu doua etape de injumatatire, una initiala rapida (de exemplu distributia in compartimentul profund) si una finala ( de exemplu eliminarea) , lenta , notate uzual cu α si β .
Deci datele urmeaza un model biexponential si, dupa logaritmare, se obtin doua domenii de dependenta liniara a logaritmului concentratiei de timp , dupa cum se observa in fig.10 pentru concentratia plasmatica a nicergolinei.
Concentration of nycergoline after oral administration
1
10
100
0 5 10 15 20 25 30
time ( hours)
conc
. ( n
g/m
l)
Fig. 12 Datele de la 4 h la 8 h se inscriu pe o dreapta , iar datele de la 8 h la
24 h pe o alta dreapta. Deci avem un timp de injumatatire de distributie si un timp de injumatatire de eliminare. O analiza pur si simplu statistica ar duce la concluzia ca ultimele doua puncte reprezinta valori discordante. Compararea datelor privind farmacocinetica nicergolinei la mai multi voluntari duce la concluzia ca nu este vorba de o supraestimare a concentratiilor la ultimele doua puncte ci efectiv avem doua faze de eliminare din sange.
Din alt unghi privind lucrurile, intr-un grup de subiecti caracterizati printr-o eliminare monoexponentiala si deci, in reprezentarea logaritmica cu inscrierea punctelor dincolo de tmax pe o dreapta, pot aparea unul sau mai multi voluntari cu eliminare biexponentiala. In fapt este posibil ca toti
II. Statistica matematica si biostatistica Teste statistice de discordanta
180
subiectii sa aiba o eliminare bifazica, dar modelul “aparent” in functie de intervalul de recoltare si evaluare a probelor de sange sa fie cand cel real, cand unul simplificat.
Ca exemplu, prezentam cazul ibuprofenului. Ibuprofenul fiind cu mult mai solubil in lipide urmeaza un model farmacocinetic cu cel putin doua compartimente. Datele experimentale pot fi insa modelate la majoritatea subiectilor cu un model monocompartimental. In fapt, apare o “degenerare” a modelului prin compensarea unor procese ce afecteaza concentratia plasmatica.
Suntem interesati in vederea predictiei, de modele cat mai simple. Cand unul din subiecti apare efectiv cu o comportare mai complexa, poate fi de preferat eliminarea lui ca “outlier”, desi in fond, el este mai aproape de realitate decat ceilalti subiecti.
Si aici lucrurile sunt relative. Daca vom considera curba medie pentru un lot de voluntari carora li s-a administrat oral omeprazol, vom putea obtine o fitare corespunzatoare cu solutia unui model monocompartimental. Unul dintre subiecti poate aparea discordant fata de medie.
Introducerea unui “time-lag” ce corespunde unei intarzieri in absorbtie (omeprazolul se administreaza, din cauza ca este instabil in mediu acid, de regula sub forma de capsule enterosolubile) acesta revine si el in rand cu ceilalti.
2.14.3.2. Voluntari discordanti in studii de bioechivalenta
Cazul cel mai reprezentativ este acela al medicamentelor al caror metabolizare poate fi lenta la o mica parte din subiecti. Analiza curbelor din figura 4 duce la ideea ca doi dintre voluntari sunt metabolizori lenti, deoarece au concentratii mult mai mari decat restul voluntarilor
Plasma levels of propafenone after repeted administration of RYTMONORM (KNOLL) TO 24 healthy volunteers
0
300
600
900
96 144time (hour)
conc
entra
tion
(ng/
ml)
IIIIIIIVVVIVIIVIIIIXXXIXIIXIIIXIVXVXVIXVIIXVIIIXIXXXXXIXXIIXXIIIXXIV
Figura 13.
II. Statistica matematica si biostatistica Teste statistice de discordanta
181
Din punct de vedere “statistic” ei vor parea ca “discordanti” indiferent de testul aplicat. Din punct de vedere al scopului urmarit, dupa cum se vede din figura 14, ei nu ar trebui eliminati deoarece nu influenteaza rezultatul final – medicamentele apar a fi bioechivalente (fig.14)
Mean plasma levels of propafenone after repeted administration of PROPAFENON (………..) and RYTMONORM (KNOLL) to 24 healthy volunteers
0
100
200
300
96 144
time (hour)
conc
entra
tion
(ng/
ml)
TR
Figura 14 De fapt, dupa cum este prezentat in capitolul privind evaluarea
statistica a bioechivalentei, ceea ce importa cu mult mai mult, este intravariabilitatea, variabilitatea unui subiect fata de sine insusi, in cele doua perioade ale experimentului.
Dupa cum se vede in figura 15, cei doi “ouliers” in ceea ce priveste intravariabilitatea au si o variatie semnificativa intre cele doua perioade, deci eliminarea lor poate fi luata in consideratie.
In acest caz insa, curbele din figura 14 vor deveni si mai apropiate si nu se va schimba decizia privind bioechivalenta.
0
500
1000
conc
entra
tion
(ng/
ml)
Figura 15
II. Statistica matematica si biostatistica Teste statistice de discordanta
182
Uneori, unele curbe pot parea discordante prin aceea ca prezinta doua sau mai multe maxime, ceea ce este neuzual in farmacocinetica. Daca este vorba insa de oxicami (piroxicam, meloxicam, tenoxicam etc.), acest fenomen este normal datorita circulatiei enterohepatice a acestor medicamente. Deci curbele de meloxicam din figura 16 nu pot fi considerate curbe discordante.
Mean plasma levels of meloxicam
0
0.8
1.6
0 1
time (h)
Con
cent
ratio
n (u
g/m
l)
2
RT
Figura 16.
In evaluarea bioechivalentei esentiala este compararea perechilor de
curbe apartinand aceluiasi voluntar. Dupa cum se vede din figura 17, cele doua curbe difera foarte mult.
Medicamentele sunt foarte apropiate in ceea ce priveste mediile lor, dar difera foarte mult la acelasi individ in perioade diferite, ceea ce reprezinta o intravariabilitate mare, caracteristica clasei “conazolilor” (ketoconazol, fluconazol, itraconazol etc.).
Voluntarul prezentat are un raport mult prea mare atat intre
concentratiile maxime, cat si intre ariile de sub curba si el este efectiv “outlier”.
II. Statistica matematica si biostatistica Teste statistice de discordanta
183
Figura 17. Aparent acelasi caz ar fi si in figura 18. Spunem ca aparent, deoarece
in cazul acidului mefenamic diferentele intre formularile farmaceutice sunt foarte frecvente si este vorba efectiv de bio-inechivalenta.
Mean plasma levels of mefenamic acid
0
3.5
7
0 4 8 12 16 20
Time (hours)
24
R
T
Figura nr. 18
In concluzie, problema eliminarii unor puncte, sau a unor curbe, sau
a multimii curbelor pentru un subiect dat, nu este in principal o problema
de statistica ci una tinand de analiza fenomenului studiat, de variabilele ce-l
determina si de modelul teoretic urmat.
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
185
2.15. Puterea testului. Calculul numarului de voluntari 2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru obtinerea unei estimari a mediei cu o precizie fixata
Pentru un interval de incredere (1-α ), pentru media une populatii precizia estimarii este in fapt definita de lungimea intervalului. Cu cat intervalul este mai mic, cu atat mai precisa va fi estimarea. De aceea, marimea esantionului se poate alege pornind de la lungimea intervalului de incredere care sa asigure o precizie stabilita anterior E, sau altfel spus, o limita a erorii.
Astfel cand datele urmeaza o distributie normala, marimea esantionului necesar va fi data implicit de relatia:
2
E Y znασμ= − = (1)
De exemplu, presupunem ca dorim sa avem 95% incredere si ca eroarea in media estimata sa fie mai mica de 10% din deviatia standard (i.e., E ≤ 0.1 σ ).
Deci, σσα *1.02
=n
z si ca urmare ( )
3852.384*1.0 2
22
2 ≈==σ
σαzn
Procedeul se extinde imediat la cazul estimarii intervalelor de incredere pentru diferenta intre mediile a doua selectii dupa cum se arata in tabelul urmator. Tabelul 25 Determinarea marimii esantionului in functie de precizie: Parametru Estimarea Intervalul de incredere Marimea esantionului μ −
Y n
zY σα2
±−
2
22
2 Ezn σα=
21 μμ − 21
−−
−YY nn
zYY22
21
2
21 )(σσ
α +±−−−
2
22
212
2
)(E
znσσ
α
+=
p p
nqpzpˆˆˆ
2α± 2
2
2
ˆˆ*
Eqpzn α=
21 pp − 21 ˆˆ pp −
( ) ( )n
ppn
ppz
pp
2211
2
21
ˆ1ˆˆ1ˆ
ˆˆ
−+
−±
±−
α
( )2
22112
2
ˆˆˆˆ*
Eqpqpzn +
= α
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
186
E poate fi luat o valoare absoluta, o fractie din σ sau o fractie din valoarea mediei estimate. In lipsa unei estimari experimentale a lui p se poate lua un numar “maxim” prin aceea ca se ia ( )pp −1 maxim, deci
21
=p .
De retinut ca alegerea lui n astfel incat eroarea sa nu depaseasca un anumit prag urmareste atingerea unei precizii date in estimarea lui μ cu considerarea numai a erorii de tip I.
O abordare independenta de distributie poate fi obtinuta folosind inegalitatea lui Cebasev:
1-α = P{ } 2
2
1nE
EY σμ −≥≤−−
(2)
Inlocuind inegalitatea cu egalitatea si luand, la fel ca mai sus E = 0.1 σ si α=0,05 obtinem :
2
2
nEσα = si 2000
01,005,0 2
2
2
2
=∗
==σ
σασE
n
Observam ca cifra « asiguratoare » este mult mai mare din aceea ca nu avem nici o informatie despre distributie. 2.15.2. Testarea ipotezelor. Calculul numarului de subiecti in functie de probabilitatile erorilor de tipul I si tipul II fixate in prealabil
Pentru a calcula numarul de subiecti in functie si de puterea testului trebuie specificata diferenta semnificativa clinic in cazul parametrului masurat. In cele mai multe studii clinice obiectivul este demonstrarea eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt medicament. Indiferent de comparator, este important sa se specifice ce diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta diferenta o vom nota cu Δ . Aceasta diferenta defineste “grosismentul” microscopului definit de studiul clinic cu care comparam cele doua medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci va fi nevoie de un numar mic de subiecti.
Daca diferenta este relative mica, va fi nevoie de un grup de subiecti mai mare. Daca ∞→Δ , puterea tinde la 1, iar cand
avem0→Δ 01 →− β . Practic se determina numarul de subiecti necesari asigurarii unei
anumite puteri pentru un risc α dat sau, altfel spus selectarea unei
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
187
probabilitati pentru eroarea de tip II acceptabila – in conditiile unui risc de eroare de tip I fixat.
Raportul dintre α si β este ca cel din selectia de incertitudine a lui Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea erorii de tip II. 2.15.3. Testarea ipotezelor privind media unui lot Presupunem ca testam urmatoarele ipoteze: H0 : 0μμ = vs. 0: μμ >aH cu risculα cand dispersia este cunoscuta. Simplificam ipoteza alternativa alternativa, luand
2σ
Δ+= 0: μμaH unde >0 este o diferenta minima pe care o consideram semnificativa clinic si vrem sa o punem in evidenta.
Δ
Daca diferenta este mai mare decat Δ , va fi mai mic. Deci noi luam in acest fel un “asigurator” (conservativ) asumandu-ne un risc cat mai mic.
nn
Deoarece, in ipoteza alternativa ca Δ+= 0μμ , testul statistic
n
Y/
)( 0
σμ Δ+−
−
urmeaza o distributie standard normala. Puterea testului este data de relatia { }0
01 0
1 var
( )/ /
aP H respinsa H ade ata
YP zn nα
β
μ μ μσ σ
−
−
− = =
⎧ ⎫⎪ ⎪− + Δ Δ
= > − = + Δ⎨ ⎬⎪ ⎪⎩ ⎭
.
1n nP z z P z zα ασ σ⎧ ⎫ ⎧Δ Δ ⎫⎪ ⎪ ⎪= > − = − < − ⎪⎨ ⎬ ⎨ ⎬⎪ ⎪ ⎪⎩ ⎭ ⎩ ⎪⎭
,
de unde , din definitia cuantilelelor
1n nz z zβ α ασ σ−
Δ Δ= − = − −
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
188
si de aici
[ ]
2
22
Δ
+= βασ zz
n
Acest rezultat este adevarat si pentru cazul cand ipoteza alternativa este 0: μμ <aH .
Pentru a testa ipoteza bilaterala 0H : 0μμ =
vs. Δ−= 0: μμaH sau Δ+= 0: μμaH
0H este respinsa in zona critica, adica pentru
0
12
x z
n
αμ
σ −
−⟩ sau 0
12
x z
n
αμ
σ −
−⟨ − .
Deci
0 011
2 2
1 x xP z sau z
n n
α αμ μβ μσ σ −
⎛ ⎞⎜ ⎟− −
− = ⟨ ⟩ = =⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
μ
0 0 12 2
* *P x z sau x zn nα ασ σμ μ
−
⎛ ⎞1μ μ⟨ + ⟩ +⎜ ⎟
⎝ ⎠= =
0 1 0 11 1
12 2
x xP z sau
n n n n
α αμ μ μ μμ μ
σ σ σ σ −
⎛ ⎞⎜ ⎟− −− −
= ⟨ + ⟩ +⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
z
Deoarece media adevarata este 1μ ,
n
xσμ1− este repartizat . Prin
urmare
( 1,0N )
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
+−
Φ−+
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
+−
Φ=−−
21
10
2
10 11 αα σμμ
σμμ
β z
n
z
n
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
189
Pentru 5.010 −⟨−
nσμμ
se poate considera ca 02
10 ≅⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
+−
Φ ασμμ
z
n
, si deci
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
+−
Φ=−
21
10ασ
μμβ z
n
Conform definitiei avem ( ) ββ =Φ z , 22
1 αα zz −=−
si ca urmare
2
10αβ σ
μμz
n
z −−
= si βα
μμσzzn +
−=
2
10 .
Scotand pe n din ecuatie obtinem:
( )210
2
2
2
μμ
σ βα
−
⎟⎟⎠
⎞⎜⎜⎝
⎛+
=
zzn
Daca impartim cu 21μ obtinem:
( )2
2*1001
CVσμ
=−
si 2
0 1
1
*100 %μ μμ
⎛ ⎞−= Δ⎜ ⎟
⎝ ⎠
si formula devine:
( )
( )
22
22
%
%
CV z zn
α β
⎛ ⎞+⎜ ⎟
⎝ ⎠=Δ
Cazul distributiei binomiale Fie Y variabila aleatoare Bernoulli cu probabilitatea de succes p si
probabiliatae de esec 1-p. Obiectivul studiului este de a alege intre H0 : p = p0 si Ha : p = p1 (p1>p0) din evaluarea unui esantion de marime n. Proportia de selectie
1
1 n
ii
P Yn =
= ∑
urmeaza aproximativ o distributie normala cu media p si dispersia p(1-p)/n .
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
190
Pentru testarea ipotezelor enuntate ne folosim de aproximarea normala
0
0 0
( )( )
P pP E P ZD P p q
n
−−= ≈
⎪⎪⎭
⎪⎪⎬
⎫
⎪⎪⎩
⎪⎪⎨
⎧
−−
⟩−
=
=⎪⎭
⎪⎬⎫
⎪⎩
⎪⎨⎧
=+⟩=
⎪⎪⎭
⎪⎪⎬
⎫
⎪⎪⎩
⎪⎪⎨
⎧
=⟩−
=
11
0
11
10
11
1
10
010
0
qpqp
z
nqppp
nqppp
ppnqp
zppppz
nqppp
o
o
o
α
ααβ
11
00
11 qpqp
z
nqp
z αβ −Δ
=
nqpqp
qpzz
1111
00 Δ=+ αβ
In concluzie rezulta pentru n :
nqpzqpz
=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
Δ
+2
0011 αβ
2.15.4. Testul pentru compararea mediilor a doua populatii
O procedura asemanatoare ca mai sus poate fi aplicata pentru determinarea marimii esantionului necesar pentru obtinerea unei puteri date in compararea a doua metode de tratament. Fie 21 μμ si mediile tratamentului 1 si, respectiv, tratamentului 2. Cele doua ipoteze sunt: : 0H 21 μμ = vs. 21: μμ ≠aH Presupunand ca 2
1σ si sunt cunoscute si considerand o ipoteza alternativa specifica, simplificata
22σ
Δ=− 21: μμaH formula care da puterea testului este prin definitie
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
191
{ }0
1 12 21 21
2 2
1 vara
d d
P H respinsa H ade ata
Y Y Y YP z sau zα α
β
μ μσ σ
− − − −
−
− = =
⎧ ⎫⎪ ⎪− −
= > ⟨ − = + Δ⎨ ⎬⎪ ⎪⎩ ⎭
unde 2
22
1
21
nndσσ
σ +=
Dar, in ipoteza alternativa, statistica d
YYσ
Δ−−−−
)( 21 este o variabila
normala standard, z Facand aceleeasi operatii ca mai sus, de punere in evidenta a variabilei normal repartizate, si neglijand
1 21 2
2d
Y YP zα μ μσ
− −⎧ ⎫⎪ ⎪−
⟨ − = + Δ⎨ ⎬⎪ ⎪⎩ ⎭
se obtine:
211 2
2
( )1d d
Y YP zαβ μσ σ
− −⎧ ⎫− −Δ Δ⎪ ⎪− = > − − = + Δ⎨ ⎬⎪ ⎪⎩ ⎭
μ .
De aceea
2 d
zαβσ
⎛ ⎞Δ= Φ − −⎜ ⎟
⎝ ⎠,
de unde,
d
zzσαβΔ
−−=2
.
Daca presupunem ca 21 nnn == si atunci 222
21 σσσ ==
2 2 2
222 2d
z z
n
α β σσ⎡ ⎤ Δ Δ
+ = =⎢ ⎥⎣ ⎦
si deci
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
192
2
2
2
2
2
2
2
22
21 2)(
Δ
⎥⎦
⎤⎢⎣
⎡+
=Δ
⎥⎦
⎤⎢⎣
⎡++
=βαβα σσσ zzzz
n
Pentru un test unilateral, formula de mai sus pentru determinarea marimii esantionului devine:
[ ]2
222
21 )(
Δ
++= βασσ zz
n
De retinut ca atunci cand dispersia populatiei este necunoscuta, alegerea marimii lotului nu este o problema usoara. De exemplu, in testarea ipotezei nule in expresia H0 : 0μμ = vs. 0: μμ >aH
cand valoarea adevarata este Δ+= 0μμ , statistica ns
Y/
)( 0 Δ+−−
μ urmeaza o
distributie t necentrata cu parametrul de ne-centrare σδ /Δ= . Tabelul de mai jos contine marimea calculata a loturilor pentru testul t privind meda si respectiv, diferenta dintre mediile tratamentelor respective, pentru diferite valori ale lui δ - “diferenta semnificativa”
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
193
Tabelul nr. 26: Test unilateral Test bilateral
05.0=α Riscul
1.0=α =β 0.01 0.05 0.1 0.2 0.5 =β 0.01 0.05 0.1 0.2 0.5
μ μσ
0−=Δ
σμμ 21 −=Δ
0.15 122 0.20 137 0.20 70 0.25 88 0.25 139 101 45 0.30 61 0.30 122 97 71 32 0.35 102 45 0.35 90 72 52 24 0.40 108 78 35 0.40 101 70 55 40 19 0.45 108 86 62 28 0.45 80 55 44 33 15 0.50 88 70 51 23 0.50 65 45 36 27 13 0.55 112 73 58 42 19 0.55 54 38 30 22 11 0.60 89 61 49 36 16 0.60 46 32 26 19 9 0.65 76 52 42 30 14 0.65 39 28 22 17 8 0.70 66 45 36 26 12 0.70 34 24 19 15 8 0.75 57 40 32 23 11 0.75 30 21 17 13 7 0.80 50 35 28 21 10 0.80 27 19 15 12 6 0.85 45 31 25 18 9 0.85 24 17 14 11 6 0.90 40 28 22 16 8 0.90 21 15 13 10 5 0.95 36 25 20 15 7 0.95 19 14 11 9 5 1.00 33 23 18 14 7 1.00 18 13 11 8 5 1.1 27 19 15 12 6 1.1 15 11 9 7 1.2 23 16 13 10 5 1.2 13 10 8 6 1.3 20 14 11 9 5 1.3 11 8 7 6 1.4 17 12 10 8 4 1.4 10 8 7 5 1.5 15 11 9 7 4 1.5 9 7 6 1.6 14 10 8 6 4 1.6 8 6 6 1.7 12 9 7 6 3 1.7 8 6 5 1.8 11 8 7 5 1.8 7 6 1.9 10 7 6 5 1.9 7 5 2.0 9 7 6 4 2.0 6 2.1 8 6 5 4 2.1 6 2.2 8 6 5 4 2.2 6 2.3 7 5 5 4 2.3 5 2.4 7 5 4 4 2.4 2.5 6 5 4 3 2.5 3.0 5 4 3 3.0 3.5 4 3 3.5 4.0 4
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
194
2.15.5. Compararea a doua proportii Cand variabilele rezultate sunt cu doua valori posibile (tratamentele fie imbunatatesc, fie nu imbunatatesc starea pacientului) variabilele care ne intereseaza mai mult sunt proportiile pacientilor a caror stare s-a ameliorat si nu media unor masuratori date. Fie p1 si p2 proportia de succes (e.g. vindecare sau imbunatatire) in grupul in care s-a facut tratamentul si, respective in grupul de control. Marimea esantionului se poate determina similar cu cazul testului t bilateral obtinandu-se pentru n :
2
221
22112
)(
)1()1()1(2
pp
ppppzppzn
−
⎥⎦
⎤⎢⎣
⎡−+−+−
=βα
unde 2
21 ppp += .
2.15.6. Marimea esantionului pentru comparari de mai multe medii prin analiza dispersionala (ANOVA) Pentru analiza dispersionala pe o singura cale cu n observatii pe fiecare tratament, obiectivul principal este de a testa ipoteza privind provenienta esantioanelor din aceiasi populatie. Folosind notatiile de la capitolul privind analiza dispersionala avem:
0H
0: 210 ==== kH τττ … , si cu ipoteza alternativa zeroestenuunputincelH ia τ: Reamintim ca:
∑=−
+=⎟⎠⎞
⎜⎝⎛
−=
k
iik
nkSSAEMSAE
1
22
11)( τσ si 2
)1()( σ=⎟⎟
⎠
⎞⎜⎜⎝
⎛−
=nkSSEEMSEE
Astfel, pentru o deviatie data de la ipoteza nula , masurata prin
, valori mari ale lui micsoreaza sansele de obtinere a
valorii FA = MSA/MSE in zona critica a testului.
0H
∑=
−k
ii kn
1
2 )1/(τ 2σ
Sensibilitatea testului descrie puterea procedurii de a detecta diferentele intre mediile grupurilor si reprezinta, in fapt, puterea testului.
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
195
Aceasta putere se interpreteaza ca probabilitatea ca F sa cada in zona critica atunci cand ipoteza nula este falsa si mediile tratamentelor difera intre ele. Conform ipotezei nule FA=MSA/MSE urmeaza o distributie F cu (n1,n2) grade de libertate, unde kNnkvsikv −=−=−= )1(1 21 . Deci, pentru analiza dispersiei one-way, puterea este data de:
{ }
⎭⎬⎫
⎩⎨⎧
≠−
>=
=>=−
∑=
01
),,(
var),,(1
1
221
21
k
iiA
aA
knvvfFP
ataadeesteHvvfFP
τα
αβ
(3)
Pentru valori date pentru si puterea poate fi
crescuta folosind esantioane mai mari. Problema revine la proiectarea unui experiment cu o valoare a lui n astfel incat sa avem asigurata o putere data.
∑=
−k
ii kn
1
2 )1/(τ 2σ
In ipoteza alternativa ca urmeaza o distributie
noncentrata cu un parametru de noncentralitate
A
k
ii F,0
1
2 ≠∑=
τ
δ unde 21
2
2
2σ
τδ
∑==
k
iin
.
Asfel relatia (3) devine
{ }),,,(01
),,(1 211
221 δαταβ vvfFP
knvvfFP A
k
iiA >=
⎭⎬⎫
⎩⎨⎧
≠−
>=− ∑=
relatie care defineste implicit numarul necesar de subiecti. 2.15.7. Modelul crossover Ipoteze punctuale privind egalitati. FieYijk raspunsul voluntarului i in secventa k in perioada j. Consideram un model care neglijeaza efectele carryover inegale: ijkkjjikijk eTPSY ++++= ),(μ , (4) unde i = 1,2, …, este numarul de voluntary, j este perioada, k = 1, 2 este secventa.
kn
In modelul de mai sus μ este media totala, este efectul aleatoriu al voluntarului i in secventa k, este efectul de perioada j, este efectul direct al tratamentului administrat in perioada j, secventa k, adica
ikS
jP ),( kjT
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
196
Placebo pentru k = j ),( kjT =
Medicamentul testat pentru k≠ j, k = 1, 2; j = 1, 2 si eroarea in masuratori. ijke Pentru modelul (4) se presupune ca{ }ikS sunt distribuite independent si identic cu media zero si dispersia si 2
Sσ { }ijke sunt distribuite
independent cu media zero si dispersia . Se presupune ca 2σ { }ikS si { }ijke sunt independente intre ele. Sa testam urmatoarele ipoteze:
0 : T PH μ μ= vs :a TH Pμ μ≠ (5) Consideram diferentele intre perioade pentru fiecare voluntar in interiorul fiecarei secvente definite:
),(21
12 kikiik YYd −=
unde i = 1,2, …, , k = 1, 2. kn Un test pentru ipotezele (5) poate fi un test t bilateral dupa cum urmeaza:
1 2
1 1ˆ
T Pd
d
Y YT ,
n nσ
− −
−=
+
unde )(21
12.21.
−−−
+= YYY T , . 11 . 221 (2
P )Y− − −
= +Y Y si
∑∑= =
−
−−+
=2
1 1
2.
21
)(2
1ˆk
n
ikikd
k
ddnn
σ , ∑=
−
=kn
iijk
kjk Y
nY
1
1. , ∑=
−
=kn
iik
k
k dn
d1
.1
Conform ipotezei nule, Td are o distributie t cu 221 −+ nn grade de libertate. Daca nu se accepta ipoteza nula, atunci 1 2(1 / 2, 2).dT t n nα> − + − In ipoteza alternativa simplificata Δ+= pT μμ puterea testului Td poate fi evaluat similar. In scop de echilibrare, presupunem ca n nn= =21 ; ceea ce inseamna ca fiecare secventa va avea acelasi numar de voluntari.
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
197
L
Cele doua ipoteze de mai sus sunt de regula inlocuite cu doua perechi de ipoteze (metoda Schuirmann)
01 : T PH μ μ θ− ≤ vs. 1 :a T PH Lμ μ θ− > si
02 : T PH Uμ μ θ− ≤ vs. URTaH θμμ ⟩−:2 , unde Lθ si Uθ sunt limitele pentru echivalenta semnificative clinic. Dupa cum se observa ipoteza nula este ca medicamentele nu sunt bioechivalente. Cu aceasta prezumtie de “vinovatie” este micsorat riscul pacientului. Daca studiul nu “dezvinovateste” medicamentul testt, acesta nu poate fi introdus in terapie. Putem sa nu acceptam ipoteza nula a inechivalentei daca:
1 21 2
( , 2)ˆ (1/ ) (1/ )
T P LL
d
Y YT tn n
θ ασ
− −
− −= >
+n n+ − si
1 21 2
( , 2)ˆ (1/ ) (1/ )
T P UU
d
Y YT tn n
θ ασ
− −
− −= < −
+n n+ −
Fie θ = T Pμ μ− si )(θφS puterea testului bilateral Schuirmann pentru unθ dat. In cazul bioechivalentei observam ca, in contextul in care se doreste minimalizarea riscului pacientului, avem particularitatea ca functioneaza intr-un fel prezumtia de „vinovatie”, in sensul ca este ipoteza ca medicamentele nu sunt bioechivalente iar puterea testului este probabilitatea de a accepta ipoteza bioechivalentei in cazul cand acestea sunt echivalente
0H
( ) ipacientulurisculataadeHHrespingeP == var00α
( )0 varaP accepta H H ade ata riscul producatoruluiβ = =
( )ataadeHHrespingeP a var1 0=− β In scopul calcularii puterii reformulam putin ipotezele in sensul ca vom lua
0HΔ== uL θθ
In acest context problema testului devine o problema de probabilitate de a detecta o diferenta Δ pe care o consideram ca semnificativa clinic; in cazul bioechivalentei aceasta diferenta este de 20%.
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
198
Ipoteza complexa Ipoteza simplificata
LRTH θμμ ⟨−:01
RTaH μμ =:1
uRTH θμμ ⟩−:02
RTaH μμ =:2
Δ−=− RTH μμ:01
RTaH μμ =:1 Δ=− RTH μμ:02
RTaH μμ =:2 Analizam in continuare cazul
Δ−=− RTH μμ:01 vs. 0:1 =− RTaH μμ
( )0 1 ,2
1 ,2 2
1 var2ˆ
2 2ˆ ˆ
a n
d
n T R
d d
xP respinge H H ade ata P tn
xP tn n
α
α
β μσ
μ μσ σ
− −
− −
⎛ ⎞+ Δ⎜ ⎟− = = ⟩ = =⎜ ⎟⎜ ⎟
⎝ ⎠⎛ ⎞
Δ⎜ ⎟= ⟩ − =⎜ ⎟⎜ ⎟⎝ ⎠
2 T Rμ
1 ,2 21 12 2ˆ ˆ
n T
d d
xP tn n
α Rβ μ μσ σ
− −
⎛ ⎞Δ⎜ ⎟− = − ⟨ − =⎜ ⎟⎜ ⎟
⎝ ⎠
,2 2 1 ,2 2 2n nd
t tn
β ασ
− − −Δ
= −
1 ,2 2 ,2 2 1 ,2 2 1 ,2 22ˆn n n
d
t t t tn
α β α βσ
− − − − − − −Δ
= − = + n
( )22
1 ,2 2 1 ,2 2 2
ˆ2 * d
n nn t tα βσ
− − − −= +Δ
In fapt noi am notat T RX X X= − si
2 2dσ σ= ,
dar dupa cum s-a arata anterior,
22
2e
d
σσ = , deci
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
199
( )2
2
1 ,2 2 1 ,2 2 2
1 *2
en nn t tα β
σ− − − −= +
Δ
Impartind termenii raportului cu 2μsi tinand cont ca
*100eCV σμ
=
se obtine pentru numarul de subiecti in fiecare secventa:
( )22
1 ,2 2 1 ,2 2 '2
1 *2 n n
CVn t tα β− − − −= +Δ ,
unde ' *100
μΔ
Δ =
Pentru cazul bioechivalentei si pentru intreg experimental, ' 0, 2Δ =
( )22
1 ,2 2 1 ,2 2 2*20n nCVn t tα β− − − −= +
Pornind de la grupul 2 de ipoteze se obtine
Δ=− RTH μμ:01 0:02 =− RTH μμ ( )ataadeHHrespingeP a var1 0=− β
2 2,
2 2,
1 0ˆ2
0ˆ ˆ2 2
n T R
n T R
XP t
n
XP t
n n
α
α
β μ μσ
μ μσ σ
−
−
⎛ ⎞⎜ ⎟− Δ⎜ ⎟− = ⟨ − = =⎜ ⎟⎜ ⎟⎝ ⎠
⎛ ⎞⎜ ⎟Δ⎜ ⎟= ⟨ + −⎜ ⎟⎜ ⎟⎝ ⎠
=
si asa mai departe.
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
200
Cazul cand exista o diferenta intre medicamente Consideram in continuare cazul cand diferenta intre cele doua medii nu mai este zero ci are o valoare data 0θ :
0T Rμ μ θ− = De regula pentru produsele bioechivalente 0θ este mai mic decat 7% din Rμ . Consideram din nou o ipoteza simplificata:
Δ=− RTH μμ:02 vs 2 :a T RH 0μ μ θ− = si notam
RT XXX −= si vom folosi statistica
02 2
( )1/ 1/ 2 /
T R T Rn
d d
XX XTn n n
θμ μσ σ−
−− − −= =
+
Calculam dupa acelasi procedeu ca mai sus numarul n de subiecti necesari pantru a asigura o putere data :
( ) ( )0
01 ,2 22
0 001 ,2 2
2
1 v
ˆ 2
ˆ ˆ2 2
a
T Rn
T Rn
P respinge H H ade ata
XP tn
XP tn n
α
α
β θ
μ μ θσ
θ θ μ μ θσ σ
− −
− −
− = Φ = =
⎛ ⎞−Δ= ⟩ − = =⎜ ⎟⎜ ⎟
⎝ ⎠⎛ ⎞− Δ −
= ⟩ + − =⎜ ⎟⎜ ⎟⎝ ⎠
ar
02 2 01 ,2 2
2ˆ 2n TnP T t
n αθ
Rβ μ μ θσ−
− −
⎛ ⎞Δ −= ≤ + − =⎜ ⎟⎜ ⎟
⎝ ⎠
Deci 0
,2 21 ,2 22ˆ 2 nn
t tn α β
θσ −
− −
Δ −+ =
de unde ( )
2 2
,2 2 2,2 22
ˆ2 *nn
n t tα βσθ
−−
⎛ ⎞= +⎜ ⎟
Δ −⎝ ⎠
Observam ca puterea depinde de θ , iar numarul de subiecti necesar pentru detectarea unei diferente semnificative clinic data este cu atat mai mare cu cat cele doua medicamente sunt mai apropiate.
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
201
2.15.8. Calculul comparativ al numarului de subiecti necesari in testarea bioechivalentei terapeutice a medicamentelor. 2.15.8.1. Calculul in testarea bioechivalentei
Medicamentele bioechivalente nu difera niciodata in ceea ce priveste concentratiile plasmatice cu mai mult de 20 % , diferenta fiind in medie mai mica de 7 % . Studiile de bioechivalenta au rostul de a verifica statistic faptul ca doua medicamente unul de referinta si unul testat difera in ceea ce priveste concentratiile in sange cu mai putin de 20 %, diferenta care este considerata nesemnficativa clinic. Aceasta valoare a dus insa si la multe confuzii si controverse. S-a considerat ca este posibil ca un medicament sa aiba concentratii 80 % din medicamentul de referinta iar altul sa aiba concentratii 120 % din medicamentul de referinta. In acest fel, pacientul care ar schimba intre ele cele doua medicamente de referinta ar avea la un moment dat o variatie de 40 % in nivelele plasmatice. Concluzia este falsa deoarece porneste de la o exprimare literar folclorica a definitiei matematice a bioechivalentei. Definitia exacta cere ca intervalul de incredere 90 % pentru diferenta intre nivelele plasmatice medii ale medicamentului testat si a celui de referinta sa sa fie mai mic decat 20 % :
9,025,18,0 ≥⎟⎟⎠
⎞⎜⎜⎝
⎛⟨⟨ R
AUC
TAUCP
μμ
şi 9,025,18,0max
max ≥⎟⎟⎠
⎞⎜⎜⎝
⎛⟨⟨ R
c
TcP
μμ
Intrucat lungimea intervalului de incredere este proportionala cu variabilitatea medicamentului, cu cat aceasta este mai mare, cu atat diferenta medie intre parametrii farmacocinetici trebuie sa fie mai mica. Practic se ajunge la aceea ca medicamentele bioechivalente difera in medie in ceea ce priveste concetratiile plasmatice, cu mai putin de 5-6 % ceea ce se si verifica efectiv in practica , dupa cum se poate vedea mai jos
Statistica pe 273 aplicaţii generice în 19971
Pentru 127 studii de bio-echivalenţă in vivo
AUC 0-t final (t-last) 3,47 ±2,84% AUC 0 – Infinit 3,25±2,97% C max 4,29±3,72% 1 Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu, Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995, 1999
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
202
De observat ca media diferenţei între generic şi inovator e mai mică
decât diferenţa minimă de 5% in uniformitatea conţinutului permis de USP.
2.15.8.2. Calculul in testarea echivalentei clinice Obiectiv de demonstrat:
Testarea bioechivalentei pornind de la nivelele concentratiilor plasmatice necesita zeci de subiecti in timp ce testarea echivalentei terapeutice necesita zeci de mii de subiecti .
Calculul numarului de subiecti necesari pentru demonstrarea unui efect de reducere a unui marker biologic pentru o afectiune data, in cazul in care acesta ia valori numerice continue si avem dovezi ca datele sunt distribuite normal se face in functie de diferenta semnificativa terapeutic in valorile markerului, de riscul asumat α si de puterea testului 1 β− .
Presupunem ca testam urmatoarele ipoteze:
00 : μμ =H vs. 0: μμ >aH
cu risculα cand dispersia este cunoscuta. Pentru ipoteza alternativa specifica, spunem
2σ
Δ+=0
: μμa
H unde >0 este o diferenta pe care o consideram semnificativa clinic. Δ
Numarul de subiecti necesari pentru testarea acestei ipoteze este
( ) 2
2
2
2
2
10
2
2
2
Δ
⎟⎠⎞⎜
⎝⎛ +
=−
⎟⎠⎞⎜
⎝⎛ +
=βαβα
σ
μμ
σ zzzzn
In cazul bioechivalentei se ia un risc de 10 % si o putere de 90 %. Diferenta Δ semnificativa clinic pe care vrem sa o depistam este de
20 %.
64,105,02 2
−=⇒= αα z ; 3,11,0 −=⇒= ββ z si 2,0=Δ
Pentru un medicament cu variabilitate moderata - 20 % ( dincolo de 30 % spunem ca medicamentul este cu variabilitate mare) , inlocuind in formula se obtine
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
203
92.0
)28.164.1(2.02
22
2
2
2
2
≈+
=Δ
⎟⎟⎠
⎞⎜⎜⎝
⎛+
=βασ zz
n
2.15.8.3. Cazul compararii efectelor clinice Când variabilele rezultate sunt cu două valori posibile (tratamentele
fie îmbunătăţesc, fie nu îmbunătăţesc starea pacientului) variabilele care ne interesează mai mult sunt proporţiile pacienţilor a căror stare s-a ameliorat şi nu media unor măsurători date.
Fie şi proporţia de succes (vindecare sau îmbunătăţire) în grupul în care s-a făcut tratamentul şi, respectiv în grupul de control. Mărimea eşantionului se poate determina similar cu cazul testului t bilateral.
1p 2p
Consideram ipotezele:
⎩⎨⎧
≠=
21
210
::
ppHppH
a
⇔⎩⎨⎧
≠−=−
0:0:
21
210
ppHppH
a
Pentru a calcula numarul de subiecti in functie si de puterea testului trebuie specificata diferenta semnificativa clinic in cazul parametrului masurat. In cele mai multe studii clinice obiectivul este demonstrarea eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt medicament. Indiferent de comparator, este important sa se specifice ce diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta diferenta o vom nota cu Δ . Aceasta diferenta defineste “grosismentul” microscopului definit de studiul clinic cu care comparam cele doua medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci va fi nevoie de un numar mic de subiecti.
Daca diferenta este relative mica, va fi nevoie de un grup de subiecti mai mare. Daca ∞→Δ , puterea tinde la 1, iar cand
avem0→Δ 01 →− β . Practic se determina numarul de subiecti necesari asigurarii unei
anumite puteri pentru un risc α dat sau, altfel spus selectarea unei probabilitati pentru eroarea de tip II acceptabila – in conditiile unui risc de eroare de tip I fixat.
Raportul dintre α si β este ca cel din selectia de incertitudine a lui Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea erorii de tip II.
Ipoteze ce urmeaza a fi testate vor fi:
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
204
⎩⎨⎧
Δ=−=−
21
210
:0:
ppHppH
a
Cunoscandu-se puterea testului βπ −= 1 vom determina marimea esantionului. Conform definitiei puterea testului este:
( ) ( )ataadeHHrespingePataadeHHacceptaP aa varvar11 00 =−=−= βπDeci,
=
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
Δ=−⟩
⎟⎟⎠
⎞⎜⎜⎝
⎛+
−=−
−21
21
21
21
11ˆˆ
ˆˆ1 ppz
nnqp
ppP αβ
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛Δ=−⎟⎟
⎠
⎞⎜⎜⎝
⎛+⟩−=
−21
212121
11ˆˆˆˆ ppnn
qpzppP α
Vom scadea din ambii membri ai inecuatiei precedente si vom obtine: Δ
=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛Δ=−Δ−⎟⎟
⎠
⎞⎜⎜⎝
⎛+⟩Δ−−=−
−21
212121
11ˆˆˆˆ1 ppnn
qpzppP αβ
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
Δ=−
+
Δ−
+
⎟⎟⎠
⎞⎜⎜⎝
⎛+
⟩
+
Δ−−=
−21
2
22
1
11
2
22
1
11
21
21
2
22
1
11
21
ˆˆˆˆˆˆˆˆ
11ˆˆ
ˆˆˆˆˆˆ
pp
nqp
nqp
nqp
nqp
nnqp
z
nqp
nqp
ppP α
Dar,
( 1,0ˆˆˆˆ
ˆˆ
2
22
1
11
21 N
nqp
nqp
ppZ ∈
+
Δ−−= ) si obtinem:
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
205
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
Δ=−
+
Δ−
+
⎟⎟⎠
⎞⎜⎜⎝
⎛+
⟩=−−
21
2
22
1
11
2
22
1
11
21
21 ˆˆˆˆˆˆˆˆ
11ˆˆ
1 pp
nqp
nqp
nqp
nqp
nnqp
zZP αβ
( ) ββα =−−=
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
Δ=−
+
Δ−
+
⎟⎟⎠
⎞⎜⎜⎝
⎛+
⟩−−
11ˆˆˆˆˆˆˆˆ
11ˆˆ
1 21
2
22
1
11
2
22
1
11
21
21
pp
nqp
nqp
nqp
nqp
nnqp
zZP
Deci,
=
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
Δ=−
+
Δ−
+
⎟⎟⎠
⎞⎜⎜⎝
⎛+
⟩−−
21
2
22
1
11
2
22
1
11
21
21 ˆˆˆˆˆˆˆˆ
11ˆˆ
1 pp
nqp
nqp
nqp
nqp
nnqp
zZP α
βα =
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
Δ=−
+
Δ−
+
⎟⎟⎠
⎞⎜⎜⎝
⎛+
−⟨= 21
2
22
1
11
2
22
1
11
21
2 ˆˆˆˆˆˆˆˆ
11ˆˆ
pp
nqp
nqp
nqp
nqp
nnqp
zZP
Dar,
( ) ββ =Δ=−⟨ 21 ppzZP , deci
2
22
1
11
2
22
1
11
21
2 ˆˆˆˆˆˆˆˆ
11ˆˆ
nqp
nqp
nqp
nqp
nnqp
zz+
Δ−
+
⎟⎟⎠
⎞⎜⎜⎝
⎛+
−= αβ
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
206
Aducand la acelasi numitor obtinem:
Δ−⎟⎟⎠
⎞⎜⎜⎝
⎛+−=+
2122
22
1
11 11ˆˆˆˆˆˆ
nnqpz
nqp
nqp
z αβ
Vom determina diferenta ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛++⎟⎟
⎠
⎞⎜⎜⎝
⎛+−=Δ
2
22
1
11
212
ˆˆˆˆ11ˆˆn
qpnqp
znn
qpz βα ⇒
( )⎟⎟⎠
⎞⎜⎜⎝
⎛ ++
+−=Δ
21
221112
21
21
2
ˆˆˆˆˆˆ
nnqpnqpn
znn
nnqpz βα
Ridicand la patrat obtinem:
( )
21
2
2211122122
ˆˆˆˆˆˆ
nn
qpnqpnznnqpz ⎟⎟⎠
⎞⎜⎜⎝
⎛+++
=Δβα
sau, altfel scris:
2
2
22
1
11
212
2 ˆˆˆˆ11ˆˆ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛++⎟⎟
⎠
⎞⎜⎜⎝
⎛+=Δ
nqp
nqpz
nnqpz βα
Considerand nn =1 si knknn == 12 vom obtine:
( )
2
2 1 1 2 2
2
2
1 1 2 2
2
ˆ ˆ ˆ ˆ1 1ˆ ˆ
1 ˆ ˆ ˆ ˆˆ ˆ
p q p qz pq zn kn n kn
k p q k p qz pq zkn kn
α β
α β
⎛ ⎞⎛ ⎞Δ = + + + =⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠
⎛ ⎞+ +⎜ ⎟= +⎜ ⎟⎝ ⎠
⇒
( )2
2
22112
ˆˆˆˆ1ˆˆ
Δ
⎟⎟⎠
⎞⎜⎜⎝
⎛+++
=
qpkqpzkqpzkn
βα
Deci, ( )
k
qpkqpzkqpzn 2
2
22112
ˆˆˆˆ1ˆˆ
Δ
⎟⎟⎠
⎞⎜⎜⎝
⎛+++
=βα
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
207
In cazul in care 121 =⇒= knn si 2
2
22112
ˆˆˆˆˆˆ2
Δ
⎟⎟⎠
⎞⎜⎜⎝
⎛++
=
qpqpzqpzn
βα
unde 2
21 ppp
+= .
2.15.8.4. Cazul aspirinei. Dintre pacientii cu infarct miocardic mor , intr-un interval de un an circa 10 % 2 , iar aspirina se pare ca reduce acest numar de decese cu 10 pana 30 % din riscul celor care nu iau aspirina.
Ne propunem in continuare sa calculam numarul de pacienti cu infarct miocardic ce trebuiesc urmariti pe un an de zile pentru a detecta o reducere cu 20% a riscului de mortalitate , deci de la de la 10% la 8%.
Ne alegem ricul 05,0=α si o putere a testului de 0.9 ( deci β=0,1) 10% 8% ⎯⎯→⎯ %20
10,01 =p , 08,02 =p si 09,0%92%18
2%8%10
=⇒==+
= pp
02,008,01,0 =−=Δ Δ este riscul evenimentului (infarct) în absenţa tratamentului minus
riscul evenimentului în prezenţa tratamentului sau procentulul riscului evenimentului la lotul martor minus procentul riscului evenimentului la lotul tratat.
300.402,0
92,0*08,09,0*1,028,191.0*09.0*296.12
≅⎟⎟⎠
⎞⎜⎜⎝
⎛ ++=n
Deci în studiile infarctului miocardic, aproximativ 10% dintre pacienţi mor în decursul unui an. Un test clinic ar avea nevoie de aproximativ 430 decese în grupul de control (adică, de aproximativ 4300 pacienţi în grupul de control şi 4300 în grupul de persoane tratate) pentru a obţine 90% putere de detectare, 20% reducerea mortalităţii la un nivel de 5% ( 05,0=α ).
În al doilea exemplu calculăm numărul de subiecţi pentru cazul în care avem o reducere cu 20% a riscului de mortalitate de la 30% la 24%.
2 Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II. Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor Modification, JAMA 260 (15), 2259-2263, 1988
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
208
α=0,05 si β=0,1 30% 24% ⎯⎯→⎯ %20
30,01 =p , 24,02 =p si 27,0%272%54
2%24%30
=⇒==+
= pp
06,024,030,0 =−=Δ
150.106,0
76,0*24.07,0*3,028,173.0*27.0*296.12
≅⎟⎟⎠
⎞⎜⎜⎝
⎛ ++=n
Rezultatul se înmulţeşte cu doi pentru că testul se efectuează pe două loturi identice.
Deci avem nevoie de 2300 subiecti impartiti in 2 loturi. Numarul de morti prin infarct este de 30% din cei ce nu iau medicamentul (lotul martor)
35010030*1150 ≅
Rezultatul calculelelor pentru alte combinatii de “rata evenimentului” si “reducerea riscului” sunt date in tabelul de mai jos.
Procentul de mortalitate % Reducerea riscului % 10 15 20 30 40
10% 1800 1700 1600 1400 1200 20% 430 400 390 350 300 30% 180 170 165 150 130 40% 100 90 87 80 70 50% 60 55 53 50 45
Test bilateral în care α=0,05; P=0,09. Avem la dispozitie doua exprimari, amandoua corecte in masura
explicarii clare privind modul de calcul al scaderii. Astfel daca mortalitatea scade de la 10% la 5% avem o scadere cu 2% in valoare absoluta si cu 20% relativ la valoarea de referinta.
Atunci cand calculam numarul de subiecti necesari pentru a fi inclusi in studiu noi evaluam doua ipoteze privind mediile populatiei:
00 : μμ =H si Δ+= 0: μμAH deci diferenta este una absoluta.
Daca insa plasam efectul intr-un cadru mai larg de comparare a diverselor efecte – in diverse boli, ideea ca orice tratament nu modifica un marker biologic cu mai mult de 30% din valoarea sa, este un rezultat mult mai general, global aplicabil multimii markerilor, este semnificativ pentru boala in sine care este caracterizata de o multime mare de parametri masurabili sau nu.
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
209
2.15.8.5. Calculul numarului de subiecti necesari demonstrarii echivalentei terapeutice a doua medicamente care sunt bioechivalente
Când compar aspirina 100% cu aspirina 80% presupun ca medicamentul care elibereaza numai 80 % din cantitatea de aspirina declarata are numai 80 % din actiunea celui care elibereaza intrega cantitate. Deci diferenta considerata mai sus intre aspirina si placebo ( 0.02) va scadea la 80 % , deci va fi de 0.016 .Diferenta intre testat si referinta care trebuie depistata pentru a respinge bioechivalenta cu ajutorul efectului de reducere a ratei de mortalitate a bolnavilor cu infarct intr-un interval de un an va fi
004,0016,0020,0 =−=Δ diferenta echivalentei terapeutice In cazul in care tratez cu aspirina 100% avem 10% 8%, iar
in cazul aspirinei 80% avem 10% 8,4% ⎯⎯ →⎯− %20
⎯⎯ →⎯− %16
08,0ˆ1 =p ⇒ 92,0ˆ1ˆ 11 =−= pq 084,0ˆ 2 =p ⇒ 916,0ˆ1ˆ 22 =−= pq
082,02
ˆˆˆ 21 =+
=ppp ⇒ 918,0ˆ1ˆ =−= pq
În acest caz 2
004,0916,0*084.092,0*08,028,1918.0*082.0*296.1
⎟⎟⎠
⎞⎜⎜⎝
⎛ ++≥n ⇒
87769≥n in fiecare grup, deci un total de circa 197552 de pacienti cu infarct, de urmarit un an.
Concluzii
Literatura medicala abunda de “folclor” privind cazuri in care doua medicamente bioechivalenta nu au fost echivalente clinic dar, studiile sistematice in acest sens lipsesc. Din modul de prezentare a problemei rezulta clar ca autorii nu au nici cea mai mica idee despre ce inseamna bioechivalenta si cu ata mai putin stiu care este numarul de subiecti necesari pentru a demonstra ceea ce in fapt nu se poate demonstra.
II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari
210
Reprezentativ un astfel de studiu in cazul amiodaronei3 se refera la un sondaj de opinie in randul medicilor de familie. Indiferent de numarul foarte mare al ignorantilor asupra subiectului – rezultatul nu poate fi considerat ca o concluzie stiintifica.
3 James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology, vol. 85, may 1, 2000
II. Statistica matematica si biostatistica Distributia binomiala
211
2.16. DISTRIBUTIA BINOMIALA 2.16.1. Compararea proportiilor cu testul exact Fisher
Consideram toate rezultatele posibile a doua incercari independente, in primul caz si in al doilea caz, toate cu aceeasi probabilitate de
succes P. Notam numarul succeselor cu si . 1n 2n
1k 2k
Tabelul nr. 27
1k 1 1n k− 1n
2k 2 2n k− 2n
1 2k k+ 1 2 1 2( )n n k k+ − + 1 2n n+
unde: -
1k si 2k numarul succeselor
- 1 1n k− si 2 2n k− numarul esecurilor - 1n , 2n numarul de incercari si 1 2k k+ fixate
Consideram rezultatele particulare 1 1x k= si 2 2x k= . Calculam
probabilitatea obtinerii acestor rezultate si , cand se dau marimile esantioanelor si si numarul total de succese obtinute ( ), cu presupunerea ca probabilitatea de succes P este aceeasi pentru fiecare din cele doua incercari.
1k 2k
1n 2n 1k k+ 2
Definim si ca fiind evenimentele (1E 2E 1 1x k= , 2 2x k= ) respectiv( 1 2x x+ = 1 2k k+ ).
Probabilitatea ca sa se obtina datele din tabel este:
{ } { } { }{ }
1 21 1 2 2 1 2 1 2 1 2
2
,P E E
P x k x k x x k k P E EP E
= = + = + = = (**)
unde ( reprezinta realizarea concomitenta a evenimentelor si . )1 2E E 1E 2EDaca se realizeaza , adica (1E 1 1x k= , 2 2x k= ), atunci automat se
intampla , deoarece nu putem avea 2E 1 1x k= si 2 2x k= fara a avea simultan ( 1 2x x+ ) = ( 1 2k k+ ).
II. Statistica matematica si biostatistica Distributia binomiala
212
De aceea probabilitatea evenimentului ( )1 2E E este aceeasi cu
probabilitatea evenimentului , adica 1E { }1 2P E E = { }1P E . Inlocuind in relatia (**) se obtine
{ } { }{ }
1 1 1 2 21 1 2 2 1 2 1 2
2 1 2 1
( ),( )
P E P x k x kP x k x k x x k kP E P x x k k
= ∩ == = + = + = =
+ = + 2
2
2 11
2
( )( )( )E
P E EP EP E
∩=
Din definitia distributiei binomiale si vor fi date de formulele:
1( )P E 2( )P E
111 1 2 2
1 21( ) (1 ) (1 )k n k k k nkn nP E C p p C p p 2 2k− −= − −
2 1 21 21 2 1
1 2
)2
(( ) (1 ) n kkk k n kkn nP E C p p+ ++
+−= − +
( ) ( )( )
1 2
1 2
2 1 2
1 2
1 2 1 2 1 21 21
1 2 1 1 2 2 1 2
! !! !( )! !( )!( )! !
k kn n
E k kn n
C C k k n n k kn nP Ek k n k n k n nC +
+
⎡ ⎤+ + − +⎣ ⎦= = ⋅− − +
De obicei in tabelele de contingenta se foloseste notatia din tabelul
de mai jos. Cu aceasta notatie probabilitatea rezultatelor devine Tabelul nr. 28
A a b a+b B c d c+d a+c b+d
( )2 1( )!( )!( )!( )!( ) ,
! ! ! !( )!( )!( )!( )!( )! 1 1
( )! ! ! ! ! ! !
Ea b c d a c b dP E P a c a c
c d a b a b c da b c d a c b d C
a b c d c d a b c d a b! !
+ + + += + = =
+ + ++ + + +
= ⋅+ + +
= ⋅
Regula de calcul se poate obtine mai usor daca observam ca la
numarator avem factorialele totalurilor marginale, iar la numitor numerele din tabel si totalul general.
II. Statistica matematica si biostatistica Distributia binomiala
213
Exemplu. Din studii anterioare se stia ca proportia de reactii adverse, in special
dureri de cap, la voluntarii sanatosi dupa administrarea isosorbit mononitrat (ISMN) este de circa 30%.
S-a testat o noua formulare T comparativ cu formularea de referinta in ceea ce priveste biodisponibilitatea. Protocolul experimentului clinic a cerut, pe langa compararea biodisponibilitatii, si inregistrarea efectelor adverse. Experimentul a fost de tip incrucisat, pe 24 voluntari din care, in prima perioada 12 au primit medicamentul de referinta (R) si 12 medicamentul testat (T). Doi voluntari dintre cei care au primit referinta au abandonat experimentul. In final numarul voluntarilor cu dureri de cap a fost de 3 pentru R si 5 pentru T. Deci punand datele in tabelul 2x2 se obtine:
Medicament Reactii adverse (RA) Total Da Nu R 3 9 12 T 5 5 10 Total 8 14 22
Proportia de RA la ISMN a fost gasita mai mare medicamentul testat:
5 310 12
> .
Se poate afirma ca acest lucru este adevarat cu probabiliatatea 90%. Verificam in acest scop ipotezele:
0 ::
T R
A T R
H P PH P P
=>
cu α = 0,10.
Aplicam testul Fisher. Sa calculam pentru inceput probabilitatea de a se obtine exact rezultatul obtinut in experiment.. Conform cu cele reprezentate mai sus, luand =12, =10 si 1n 2n 1k k2+ = 8
3 9 128!14!12!10!5 5 10 0,1733!5!5!9!22!
8 14 22P⎛ ⎞⎜ ⎟ = =⎜ ⎟⎜ ⎟⎝ ⎠
Mai departe trebuiau calculate si probabilitatile pentru combinatiile “mai putin probabile” decat combinatia obtinuta experimental si cu proportii mai mari pentru . Avem de exemplu: TP
II. Statistica matematica si biostatistica Distributia binomiala
214
2 10 128!14!12!10! 16 4 10 0,04
22! 2!6!4!10!8 14 22
P⎛ ⎞⎜ ⎟ = ⋅ =⎜ ⎟⎜ ⎟⎝ ⎠
1 11 12
17 3 10 0,00451!7!11!3!
8 14 22P c⎛ ⎞⎜ ⎟ = ⋅ =⎜ ⎟⎜ ⎟⎝ ⎠
si
0 12 12
18 2 10 00!8!12!2!
8 14 22P c⎛ ⎞⎜ ⎟ = ⋅ =⎜ ⎟⎜ ⎟⎝ ⎠
Deci ( )5 1,173 0,04 0,0041 0 0,1010
P p⎛ ⎞≥ = + + + >⎜ ⎟⎝ ⎠
. P = 0,213.
Deci, in ipoteza ca cele doua medicamente nu difera in ceea ce priveste probabilitatea aparitiei efectelor adverse in proportie mai mare de 5
10 este 0,213.
Ca urmare nu putem respinge ipoteza ca minimul de efecte adverse este mai mare in medicamentul testat decat in cel de referinta doar din intamplare.
Este de mentionat o restrictie importanta a testului Fisher si anume aceea ca numarul total de “cazuri” de un anumit tip este constant (in cazul nostru am ales in consecinta numai combinatiile pentru care numarul total de subiecti prezentand efecte adverse a fost egal cu 8 asa cum s-a obtinut in experiment ). De altfel, raportat la un experiment anterior acesta ar fi trebuit sa fie 6-7. Desi aceasta restrictie este bine cunoscuta ca incorecta, testul Fisher se aplica in toata lumea fara precautii in ceea ce priveste verosimilitatea asimilarii practic a tuturor sumelor marginale “constante”.
In continuare sa comparam rezultatul cu rezultatul obtinut din compararea proportiilor experimentale folosind aproximarea normala.
Pentru a verifica ipotezele 0 1 2
1 2
::A
H p p pH p p
= =>
cu α = 0,10, calculam
II. Statistica matematica si biostatistica Distributia binomiala
215
( )
1 21 2
1 2
1 12 2
1 1ˆ ˆ1
p pn n
Z
p pn n
⎛ ⎞− − +⎜ ⎟
⎝ ⎠=⎛ ⎞
− +⎜ ⎟⎝ ⎠
, unde 114
101253ˆ
21
21
21
2211 =++
=++
=++
=nnkk
nnpnpnp
5 3 1 110 12 20 24 0,77
4 7 1 111 11 10 12
Z
⎛ ⎞− − +⎜ ⎟⎝ ⎠= =⎛ ⎞⋅ +⎜ ⎟⎝ ⎠
( ) ( )0,77 0,77 0,22P Z⟩ = Φ − = ceea ce este foarte apropiat de rezultatul
obtinut cu metoda Fisher. Mai departe comparam cele doua proportii de RA folosind testul 2χ . Revenim la tabel
3 9 125 5 108 14 22
si calculam valorile “asteptate” – pornind de la estimarea “combinata” a probabilitatii:
1 2
1 2
3 5 4ˆ12 10 11
k kpn n+ +
= = =+ +
Valorile asteptate vor fi
1 1
2 2
4ˆ( ) 12 4,36114ˆ( ) 10 3,64
11
E k n p
E k n p
= ⋅ = ⋅ =
= ⋅ = ⋅ =
Iar celelalte valori se obtin prin scadere din si . Deci, dupa scrierea datelor asteptate, tabelul devine:
1n 2n
3 (4,36) 9 (7,64) 125 (3,64) 5 (6,36) 10
8 14 22si mai departe:
II. Statistica matematica si biostatistica Distributia binomiala
216
( ) ( ) ( ) ( ) ( )2 2 2 2 22 3 4,36 9 7,64 5 3,64 5 6,36
1,464,36 7,64 3,64 6,36
i i
i
O EE
χ− − − − −
= = + + +∑iO
=
= valorile observate
iE = valorile asteptate (expectation) Daca vom cauta in tabele, vom gasi ca valoarea de prag pentru
distributia 2χ cu un singur grad de libertate pentru aria de 0,90 este 2,71. Deoarece 1,46 este mai mic decat 2,71, se accepta ipoteza ca cele
doua proportii sunt egale sau, mai exact spus, nu se poate respinge ipoteza ca sunt egale.
Dupa cum s-a discutat la prezentarea testului 2χ aplicat in compararea proportiilor acesta este echivalent pentru un singur grad de libertate cu aplicarea distributiei normale. Valoarea obtinuta la aplicarea testului Z ridicata la patrat ar trebui sa dea valoarea obtinuta prin statistica
2χ , dar . 20,77 1,46≠ Daca insa, in calculul statisticii Z renuntam la aplicarea corectiei de
continuitate obtinem: 5 3 0
10 12 1, 214 7 1 1
11 11 10 12
Z− −
= =⎛ ⎞⋅ +⎜ ⎟⎝ ⎠
si . 46,121,1 2 ≈ Deci, testul 2χ este echivalent cu testul Z fara corectia de continuitate.
II. Statistica matematica si biostatistica Distributia binomiala
217
2.16.2. Tabele de contingenta R x C Un tip special de experimente clinice este acela in care mai multe grupuri de subiecti sunt comparate in ceea ce priveste un raspuns , numit si ”marker” ce nu iau valori numerice ci un numar finit de stari cum ar fi agravat, neschimbat, vindecat, ameliorat.
Se poate intampla adesea ca si atunci cand raspunsul reprezinta o variabila aleatoare continua, din punct de vedere clinic sa fim interesati in incadrarea acestor valori in anumite intervale. Daca spre exemplu masuram viteza de sedimentare a hematiilor ( VSH ), dat fiind nespecificitatea acestui parametru sa ne fie mai util sa catgorisim valoare obtinuta ca normala ( de exemplu intre 0 si 5 mm/h), crescuta moderat ( 5 – 40 mm/h ) sau foarte mare ( peste 40 mm/h).
Uneori procesul este invers, de cuantificare a unor stari prin asocierea unor numere pe o anumita scara, de exemplu o scara vizuala privind durerea sau o scara de apreciere a eficientei unui tratament antireumatic, cum este de exemplu indicele WOMAC, ce vine sa integreze o serie mai mare de semne clinice mai mult sau mai putin subiective, mai mult sau mai putin corelate intre ele.
In toate cazurile de mai sus putem fi interesati in frecventa diferitelor raspunsuri in cadrul unor grupuri constituite ad-hoc in raport cu obiectivele studiului , de exemplu barbati – emei, lot tratat – lot netratat etc. La modul general, experimente de tipul celor de mai sus duc la niste tabele pe care se numesc tabele R x C , unde R este numarul de grupuri ( “row” ) si C numarul de coloane. Cazul cel mai simplu si de altfel si cel mai frecvent este cazul tabelelelor 2 x 2 , de exeplu vindecat, nevindecat sau toxic, non – toxic etc. Aceste tabele se mai numesc si “tabele de contingenta”, termenul de contingenta fiind etimologic unul preluat din geometrie ( tangent, cotangent etc). De regula, in aceste tabele suntem interesati sa verificam ipoteze privind proportiile privind prevalenta unor simpome sau efecte in aumite grupe si, in acest caz problema se reduce la compararea unor frecvente, care subiect a fost tratat la capitolul verificarea ipotezelor statistice. O formulare echivalenta, in contextul aranjarii rezultatelor in tabele, cu ipotezele privind frecventele , se refera la relatiile intre linii si coloane. Consideram spre exemplu un tabel generic privind rezultatele comparative, pe loturi paralele, obtinute cu doua medicamente, unul de referinta R, si unul testat T (tabelul 29).
II. Statistica matematica si biostatistica Distributia binomiala
218
Tabel 29. Exemplu de tabel de contingenta 2x3
lipsa efect efect moderat vindecat R 20 30 40 T 15 30 50
Ipoteza nula ca tratamentele sunt echivalente se traduce in ipoteza
privind independenta liniilor, sau altfel spus, rezultatele nu implica diferente intre tratamente.
In fapt liniile nu depind de criteriile dupa care se face impartirea intre ele, nu depind de nivelele factorului dupa care se face clasificarea. In fond ele nu sunt independente intre ele ci, in ipoteza avem aceiasi linie indiferent de nivel.
0H
Relatiile intre liniile si coloanele tabelelor de contingenta pot fi testate cu ajutorul testului 2χ cu (R-1)(C-1) grade de libertate.
( )22
( 1)( 1)i i
R Ci
O EE
χ − −
−=∑
unde O sunt valorile observate iar E sunt valorile asteptate (“Expected”). Pentru calculul valorilor asteptate va trebui sa completam tabelul cu
totalul pe fiecare linie si coloana. Consideram pentru inceput un tabel 2x2 obtinut din tabelul29 prin considerarea numai a doua raspunsuri : “lipsa efect” si “vindecat” Tabel 30. Exemplu de tabel de contingenta 2x2
lipsa efect vindecat R 20 40 60 T 15 50 65 total 35 90 125
Rescriem tabelul sub o forma generica ( tabelul 31) Tabel 31. Tabel de contingenta 2x2 generic
lipsa efect vindecat R 1 1n k− 1k 1n T 2 2n k− 2k 2n total ( )1 2 1 2( )n n k k+ − + 1 2k k+ 1 2n n+
II. Statistica matematica si biostatistica Distributia binomiala
219
Problema compararii celor doua tratamente o putem reduce la
compararea celor doua frecvente de pacienti vindecati 1
1
kn
si 2
2
kn
.
In acest scop presupunem ca cele doua variabile si sunt distribuite binomial cu acelasi parametru
1k 2kp ( proportia celor care raspund la
tratament). Dupa cum s-a aratat la capitolul privind distributia binomiala mediile si dispersiile sunt date de formulele ( )1 1E k n p= ; ( )2 2E k n p= ; ( )1 1D k n p= q ; ( )2 2D k n p= q
Dar, atunci cand p este mic 2(1 )npq np p np p np= − = − ≈ si deci ( ) ( )i iD k E k≈
Mai departe, cand este suficient de mare variabila aleatoare
standardizată
in( )( )
k E k k np k np O Eznpq np ED k
− − −= = ≈ =
− se aproximează ca
fiind normal repartizată.
In aceste conditii ( )2i i
i
O EE−
∑ este prin definitie repartizata 2χ
iar o estimare naturală a lui p este 21
21
nnkkp
++
= si respectiv
( ) ( )1 2 1 2
1 2
n n k kp
n n+ − +
=+
In particular cu datele din tabelul 2 vom avea p = 90/125=0.72si 35 0.28125
=
E(k1)= 60x90/125=43.2 E(k2)= 65x90/125=46.8 E( )=60x35/125=16.8 E(1n k− 1 22n k− )= 65x35/125=18.2 Formam acum un tabel completat cu valorile asteptate ( tabelul 32) Tabelul 32 Valorile observate si valorile asteptate
lipsa efect vindecat R 20 (16.8) 40 (43.2) 60 T 15 (18.2) 50 (46.8) 65 total 35 90 125
si calculam valoarea testului
II. Statistica matematica si biostatistica Distributia binomiala
220
( ) ( ) ( ) ( )2 2 22
1
2
20 16.8 15 18.2 40 43.2 50 46.816.8 18.2 43.2 46.8
1 1 1 13.2 1.6216.8 18.2 43.2 46.8
χ− − − −
= + + +
⎛ ⎞+ + + =⎜ ⎟⎝ ⎠
2
=
Pentru o semnificatie de 95%, valoarea de prag a lui 21χ este 3.84 .
Deci putem spune ca liniile sunt independente si deci tratamentele sunt echivalente. Aplicatie:
Vom testa reactia diferitelor persoane la razele solare in functie de culoarea ochilor. Vom ordona 107 de subiecti in functie de culoarea ochilor (albastri, verzi si caprui). Fiecare subiect este expus razelor ultraviolete si sunt examinate reactiile adverse (jupuire, eritem, fara reactie) dupa 4 ore de expunere.
Valorile observate sunt prezentate in tabelul urmator: Reactii adverse Culoare ochilor Jupuire Eritem Non - reactie
Total
Albastri 25 28 6 59 Verzi 5 5 7 17 Caprui 6 10 15 31 Total 36 43 28 107
Valorile asteptate sunt prezentate in tabelul urmator: Reactii adverse Culoare ochilor
Jupuire Eritem Non - reactie Total
Albastri 85,19
10736*59 = 71,23
10743*59 = 44,15
10728*59 =
59
Verzi 72,5
10736*17 = 83,6
10743*17 = 45,4
10728*17 =
17
Caprui 43,10
10736*31 = 46,12
10743*31 = 11,8
10728*31 =
31
Total 36 43 28 107 Testul statistic este:
( )( )( ) ( ) ( ) ( ) 14,18
11,811,815...
71,2371,2328
85,1985,1925 2222
24
21313 =
−++
−+
−=
−== ∑−−
i
ii
EEO
χχ
Pentru un nivel de semnificatie 10,0=α avem si cum vom respinge ipoteza : reactia nu depinde de culoarea ochilor.
49,924 =χ
49,914,18 ⟩ 0H
II. Statistica matematica si biostatistica Distributia binomiala
221
2.16.3.Teste de independenta la clasificarea dupa doua criterii Problema tabelelor de contingenta este problema demonstrarii
faptului ca doua criterii de clasificare introduse pe aceiasi populatie sunt independente.
Doua criterii se pot considera independente daca distributia dupa un criteriu este aceiasi indiferent daca mai aplicam sau nu si al doilea criteriu de clasificare.
De exemplu daca rezultatele obtinute prin aplizarea a doua tratamente si gruparea dupa varsta sunt independente , ne asteptam sa avem aceleasi proportii de ameliorari si/sau vindecari in toate grupele de varsta cu cele doua medicamente. Ipoteza nula este aceea ca cele doua criteriide clasificare sunt independente. Verificarea acestei ipoteze se face folosind exact acelasi test ca mai sus
( )22
( 1)( 1)i i
R Ci
O EE
χ − −
−=∑
dar interpretarile calculelor sunt diferite. Consideram din nou tabelul 30 , unde cele doua criterii de clasificare
sunt medicamentul administrat si efectul obtinut.
Tabelul 33. Clasificarea pacientilor dupa tratament si efecte lipsa efect efect moderat vindecat total R 20 30 40 90 T 15 30 50 95 total 35 60 90 185
Sa estimam probabilitatile asteptate in fiecare celula in conditiile incare cele doua criterii sunt independente ( ceea ce semnifica in fapt echivalenta medicamentelor R si T).
Estimam la inceput probabilitatile marginale, pornind de la totalurile marginale.
Probabilitatea ca un pacient luat la intamplare din lotul selectat sa nu prezinte o ameliorare a starii sale este de 35/90=0.39 ; probabilitatea ca la un subiect oarecare efectul sa fie moderat este 60/90=0.67 si probabilitatea vindecarii este 90/185. Similar, probabilitatile caun subiect sa fi primit medicamentul de referinta este 90/185 si respectiv 95/185 ca sa fi primit medicamentul testat.
Una din definitiile independentei a doua evenimente A si B este aceea ca ( ) ( ) ( )P A B P A P B∩ =
II. Statistica matematica si biostatistica Distributia binomiala
222
In conditiile ipotezei nule ca cele doua siteme de clasificare ( efectul si medicamentul 0 sunt independente, pentru prima celula a tabelului rezulta:
( ) ( ) ( )
092.018590*
18535
*
==
==∩ RmedicamentPefectlipsaPRmedicamentefectlipsaP
Probabilitatea ca un subiect sa simta o ameliorare la administrarea
medicamentului R va fi 60 90185 185
si asa mai departe.
Valorile asteptate se obtin apoi prin inmultirea probabilitatii clasificarii intr-o celula data cu numarul total de subiecti deci , pentru prima celula avem 0.092*185=17 .
Observam ca aceasta valoare se poate calcula mai usor deoarece
18590*35185*
18590*
18535
= deci valoarea asteptata pentru o celula data se
poate obtine ca produsul intre totalurile marginale impartit la totalul general. Se observa ca am intrat deja in algoritmul prezentat anterior pentru
tabelele 2x2.
II. Statistica matematica si biostatistica Distributia binomiala
223
2.16.4. Tabelele 2x2 corelate
In experimentul anterior, in fapt am comparat numarul de reactii adverse la doua grupuri paralele de subiecti. In evaluarea rezultatelor si in concluziile obtinute desigur ca un rol important l-a avut si intervariabilitatea subiectilor, care este in general destul de mare. Nu am avut nici o informatie privitoare la omogenitatea celor doua loturi.
Dupa cum s-a prezentat de mai multe ori in paginile anterioare, in experimentul biologic se recurge ori de cate ori este posibil la experimentul incrucisat, in care fiecare subiect este propriul sau martor.
O evaluare mult mai relevanta in ceea ce priveste efectele adverse comparative pentru cele doua medicamente o obtinem daca vom compara frecventa acestora la acelasi lot, sa zicem lotul 1 (de 12 subiecti) care in perioada a 1a a primit R si in perioada a 2a a primit T. Observam ca R a avut ra la 3 voluntari, iar T la 5 voluntari.
De fapt, la o examinare mai amanuntita rezultatele sunt conform tabelelor urmatoare: 1 2 3 4 5 6 7 8 9 10 11 12 R ra - - - ra - - - - ra - - T - ra - ra - - ra - - ra - ra
R
ra N- ra Total ra 1 4 5 T N- ra 2 5 7
Total 3 9 12 Deci un subiect a avut RA la amandoua medicamentele si 5 nu au
avut la nici unul din cele doua medicamente, comportamentul lor nu ne da informatii despre diferentele intre medicamente, ci numai despre toxicitatea substantei active. Informatia despre o eventuala diferenta este cuprinsa in intregime in celelalte doua cifre (2 si 4).
Daca medicamentele ar fi complet echivalente ar fi de asteptat ca numarul celor care au avut reactii adverse la R si nu au avut la T sa fie aproximativ egal cu numarul celor care au avut reactii adverse la T si nu au avut la R. Deci cei 6 subiecti ar trebui sa fie impartiti in medie la fel. Deci avem in fapt de evaluat tabelul:
ra la R si n-ra la T 2 ra la T si n-ra la R 4 Total 6
ra = reactii adverse n-ra = non-reactii adeverse
II. Statistica matematica si biostatistica Distributia binomiala
224
Folosind direct distributia binomiala cu 12
p = si n = 6, obtinem:
( )2
0
2 k k n knP x C p q −≤ =∑ si deoarece p = q = 1
2
( ) ( )2
0 1 2 66
0
6 5 1 222 1 62 2 64
k nn n n nP X C p C C C p ⋅⎛ ⎞≤ = = + + ⋅ = + + = =⎜ ⎟
⎝ ⎠∑ 0,34
Sau folosind aproximarea normala:
( ) ( )0
1 12 3 0,52 22 01 1,564
x npP X
npq
⎛ ⎞⎛ ⎞+ − + −⎜ ⎟ ⎛ ⎞⎜ ⎟ −⎜ ⎟≤ = Φ = Φ = Φ = Φ − =⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎜ ⎟ ⋅⎜ ⎟⎝ ⎠ ⎝ ⎠
, 41 0,34
Deci acelasi rezultat. Concluzia este ca nu putem respinge ipoteza echivalentei celor 2
medicamente in ceea ce priveste reactiile adverse. Daca am fi aplicat un test de comparare tabelului aparent, de exemplu folosind aproximarea normala a datelor din tabel, am fi obtinut:
46,0143
314
121
121
121
121*
127*
124
241
241
123
125
≈==
⎟⎠⎞
⎜⎝⎛ +
−−−=Z ⇒ ( ) 32,046,0 =−θ
Concluzia este aceiasi ca nu se poate respinge ipoteza ca cele doua medicamente au avut proportii de substante active diferite doar din intamplare. In fapt, in esenta numarul de date este prea mic pentru a putea asuma, la un risc acceptabil, ca cele doua medicamente au toxicitate diferita.
II. Statistica matematica si biostatistica Distributia binomiala
225
2.16.5. Teste de omogenitate In unele situatii practice, numarul subiectilor pentru fiecare nivel al
unuia din criterii este fixat dinainte. De exemplu numarul de barbati si numarul de femei inrolati in studiu sau numarul de subiecti pe diferite categorii de varste. Daca vom testa nivelele efectului unui medicament clasificarea dupa acest criteriu va fi o variabila aleatoare.
Problema pe care ne-o punem in acest caz este aceea a omogenitatii: sunt esantioanele omogene in raport cu un criteriu dat?
Ipoteza nula in acest caz este aceea ca toate esantioanele provin dintr-o populatie omogena si deci frecventele in interiorul celor doua grupe nu difera semnificativ. Exemplu
Consideram o clasificare a fumatorilor in ceea ce priveste numarul de tigari fumate si varsta. Fixam in prealabil numarul de subiecti din grupele de varsta 20-30, 30-40, 40-50, peste 50 ani si stabilim nivelele de fumatori 0-10, 10-20, peste 20 tigari/zi. Presupunem ca am obtinut tabelul de mai jos: Nr. tigari Varsta (ani) 20-30 30-40 40-50 > 50 total 0-10 20 30 40 50 140 10-20 30 40 30 30 130 > 20 50 50 50 20 170 total 100 120 120 100 440 Deci vom considera ipotezele: H0: cele 4 categorii de varsta sunt omogene in ceea ce priveste consumul de tigari. HA: cele 4 categorii de varsta nu sunt omogene in ceea ce priveste consumul de tigari.
Calculam ca mai sus valorile “asteptate”: valoarea asteptata va fi produsul totalurilor marginale, impartit la numarul total de subiecti.
Exemplu: in prima celula 100 140 31,8440
etc⋅= .
Intr-adevar, daca populatiile sunt omogene sau echivalente si toate esantioanele provin din aceeasi populatie in ceea ce priveste consumul de
II. Statistica matematica si biostatistica Distributia binomiala
226
tigari, cea mai buna estimare a proportiei in totalul populatiei, a celor ce consuma mai putin de 10 tigari/zi este 100/440 acelasi pentru celelalte categorii de fumatori. Ne vom astepta in acest caz sa gasim de exemplu (100/440) ⋅140 fumatori 0-10 tigari in categoria de varsta 20-30 ani.
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
227
2.17. APLICATII IN EPIDEMIOLOGIE 2.17.1. Studii cohort
Studiile epidemiologice se ocupa de punerea in evidenta a unor factori (de exemplu fumatul) care cresc riscul de aparitie a unor boli – de exemplu cancerul pulmonar. O abordare corecta a acestor studii trebuie sa se bazeze pe urmarirea in timp a doua loturi – unul expus la factorul considerat de risc si un lot martor care nu este expus factorului de risc. Un astfel de studiu se numeste studiu Cohort. Radacina indo-europeana “ghort” inseamna in esenta loc ingradit. In latina avem “hortus” – gradina, in limbile slave “gorod” – oras, in romana gard, in engleza “yard” – curte, etc.
Deci un studiu cohort indica faptul ca subiectii studiului sunt separati intr-un fel, ingraditi si urmariti. Aceste studii prezinta dezavantajul ca necesita un timp indelungat pentru a fi efectuate, pentru ca trebuie asteptat uneori un numar mare de ani. In cazul bolilor rare numarul subiectilor ce ar trebui urmariti pentru a se ajunge la un numar de bolnavi care sa permita evaluari statistice demne de incredere ar trebui sa fie urias. 2.17.2. Studii case – report
In locul studiilor prospective, controlate, pe subiecti sanatosi, se poate recurge la alte studii, retrospective – pe bolnavi, studii “case – report”, pe baza rapoartelor de caz, a fiselor de observatii si a altor documente.
In astfel de studii retrospective se compara numarul bolnavilor care au fost expusi la un factor de risc cu numarul bolnavilor care nu au fost expusi. In contextul aceluiasi exemplu dat mai sus, se compara numarul bolnavilor de cancer pulmonar fumatori, cu numarul bolnavilor care nu sunt fumatori. Lucrurile sunt ceva mai complexe in cazul celor care au fumat o perioada de timp si apoi s-au lasat, sau cazul celor care nu au fumat dar au fost expusi sistematic fumului de tigara.
Aparent celor doua tipuri de studii ar fi echivalente, dar de fapt nu sunt. Consideram urmatorul exemplu fictiv: se impart bolnavele de cancer de col uterin care au murit in primul an de la depistarea bolii – in doua categorii:
• prima categorie cele cere au numele Maria sau Ileana • a doua categorie cele care au alte nume
Rezultatul obtinut este acela ca numele Maria si Ileana creste semnificativ riscul de cancer.
Rezultatul este evident fals. Greseala nu este de statistica ci apare din aceea ca loturile nu sunt omogene in ceea ce priveste provenienta din
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
228
mediul rural si din orase. Maria si Ileana sunt mai mult nume de la sate – acolo unde asistenta medicala este, din pacate, foarte precara. Depistarea bolii se face mai tarziu sau prea tarziu si tratamentul este si el “bolnav”.
Intr-un studiu prospectiv se poate urmari omogenitatea loturilor printr-o judicioasa stabilire a criteriilor de includere / excludere in / din studiu, ceea ce este mult mai dificil la un studiu preponderent “post – mortem”. 2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case - report) a riscului din cauza expunerii la un factor dat. Riscul expunerii.
Riscul expunerii se defineste prin formula ( )( )DPDPR
NE
E= se evalueaza
intr-un studiu prospectiv si este definit ca raportul dintre probabilitatea imbolnavirii celor expusi si probabilitatea imbolnavirii celor neexpusi
(E – expus, D – disease = boala) Dar, in case – study, noi nu expunem subiectii, ci consideram
bolnavi. Deci eveniment produs este boala, si obtinem: ( )•DP Pentru simplificare, ne situam in cazul bolilor rare ( ) 1=NDP Pentru probabilitatea de aparitie a bolii la cei expusi folosim formula
Bayes
( ) ( ) ( )( ) ( ) ( ) ( )
( ) ( )( ) ( ) ( )EPDPEP
DPEPNDPEPDPEP
DPEPDPNDD
D
NDD
DE +
≅+
=
si, similar, la cei neexpusi:
( ) ( ) ( )( ) ( ) ( ) ( )
( ) ( )( ) ( ) ( )NEPDPNEP
DPNEPNDPNEPDPNEP
DPNEPDP
NDD
D
NDD
DNE +
≅+
=
Inlocuind in raport se obtine
( ) ( ) ( ) ( ) ( )[ ]( ) ( ) ( )[ ] ( ) ( )DPNEPEPDPEP
NEPDPNEPDPEPR
DNDD
NDDD
++
=
si daca simplificam prin ( )DP , se obtine: ( ) ( ) ( ) ( )[ ]( ) ( ) ( )[ ] ( )NEPEPDPEP
NEPDPNEPEPR
DNDD
NDDD
++
=
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
229
Riscul retrospectiv (“odds ratio”)
Consideram raportul “defectelor - odds ratio” OR care se obtine intr-un studiu retrospectiv (case-study):
Rapoartele odds sunt rapoartele intre proportia celor expusi si proportia celor de neexpusi in populatia de bolnavi si respectiv acelasi raport in populatia de sanatosi. Spre exemplu se considera proportia factorilor intr-un lot de bolnavi de cancer pulmonar si proportia fumatorilor intr-un lot din intreaga populatia. Raportul acestor proportii, numit odds ratio, este o masura a riscului de imbolnavire al celor expusi.
)()()()(
)()()(
)(
EPNEPNEPEP
NEPEP
NEPEP
ORNDD
NDD
ND
ND
D
D
==
In exemplul nostru:
=ORsanatosidepopulatiainrfumatoriloproportia
avibodepopulatiainrfumatoriloproportia ln
In cazul bolilor rare ar trebui determinat numarul de imbolnaviri intr-un lot expus comparativ cu un lot neexpus pe perioade foarte lungi ceea ce este foarte scump si, in general, nu este fezabil datorita iesirii din studiu a foarte multi dintre subiecti. In aceasta situatie insa, daca aproximam ca probabilitatea imbolnavirii este aproximativ zero ( ( ) 0≅DP ) si probabilitatea de neimbolnavire este aproape 1( ( ) 1≅NDP ), riscul obtinum retrospectiv OR este o estimare a riscului din cauza expunerii – R. Intr-adevar,
( ) ( ) ( ) ( )[ ]( ) ( ) ( )[ ] ( )
( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )
( ) ( )( ) ( )NEPEP
NEPEPNEPEPNEPDPEPNEPEPDPNEPEP
NEPEPDPEPNEPDPNEPEP
RDND
NDD
DNDDD
NDDDD
DNDD
NDDD =++
=+
+=
Si comparand cele doua rezultate am obtinut ORR ≅
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
230
2.17.4. Intervalul de incredere pentru riscul relativ estimat retrospectiv (odds ratio) in studiile de control de caz Riscul relativ estimat retrospectiv (“odds ratio” - OR) este intotdeauna pozitiv si rareori trece de 10. Distributia sa de probabilitate nu este normala la marimile de esantioane obisnuite. Transformarea logaritmica ( )ORln este de obicei folosita pentru a duce la distributii aproximativ normale.
Daca vom considera un lot testat si unul de referinta avem, dupa definitie:
1T
TT
pOp
=−
; 1
CC
C
pOp
=−
unde C = control si T = testat
( )( )11
TT
C C T
p pOORO p p
−= =
−C si ln ln ln ln ln
1 1CT
T CT C
ppOR O Op p
= − = −− −
Observam ca daca riscul nu difera in cele doua loturi, , o estimare a lui se obtine din frecventa
experimentala: 1 TOR p p= ⇔ = C OR
( )( )1
1
T
C T
p pOR
p p
−=
−
C unde T
TT
xpn
= si CC
C
xpn
=
Deoarece nu este normal distribuit se foloseste in practica
ORlnOR
In vederea obtinerii unei estimari a dispersiei lui aplicam asa zisa “metoda
lnORδ “
Metoda δ de calcul aproximativ a dispersiei unei functii f de variabila aleatoare x, ( )( )D f x prin dezvoltarea lui f in jurul lui μ :
( ) ( ) ( )( )f x f f xμ μ μ′= + −
( )( ) ( ) ( )( )E f x f fμ μ μ μ′= + −
( )( ) ( ) ( ) ( )( )( ) ( )( ) ( )2 22D f x E f x f E f x x f x D xμ μ⎡ ⎤′ ′= − = − =⎡ ⎤⎣ ⎦ ⎣ ⎦
In cazul in care ( ) ln1
pf pp
=−
vom avea:
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
231
( )( ) ( ) ( )
( )( )
2
2
1ln ln *
1 1
11 1 1*1 1
p pp pD f p D pp p
p pp p n np p
⎡ ⎤′ ′ −⎛ ⎞ ⎛ ⎞⎢ ⎥= =⎜ ⎟ ⎜ ⎟⎢ ⎥− −⎝ ⎠ ⎝ ⎠⎣ ⎦
−⎛ ⎞= + =⎜ ⎟− −⎝ ⎠
n=
Aplicand regula in cazul nostrum se obtine formula lui Woolf:
( )( ) ( ) ( )1 1ln1 1
1 1 1 1 1 1 1 1 1 11 1
T T T C C C
T T T C C C
D ORn p p n p p
n p p n p p a b c d
= + =− −
⎛ ⎞⎛ ⎞= + + + = + +⎜ ⎟⎜ ⎟− −⎝ ⎠ ⎝ ⎠
+
Intervalul de incredere Intervalul de incredere de 95% este egal cu:
( )dcba
OR 111196,1ln +++±
Intervalul de incredere in scala originala de risc relativ estimat este prin urmare dat de [ ]UL OROR ; sau ( ) ( )[ ]UL OROR ee lnln ; unde si
sunt limitele inferioare si superioare ale lui ( )LORln
( UORln ) ( )ORln Observatie:
Intervalul [ ]UL OROR ; nu este simetric fata de media riscului relativ estimat. 2.17.5. Calcularea marimilor esantionului pentru estimarea unui risc relativ intr-un studiu case – report, cu o precizie data1
Se doreste o eroare mai mica de ε Se poate face o estimare a numarului de subiecti in ipotezele:
• Esantioanele sa fie egale nnn == 2 1
• Riscul relativ estimat este mai mare de 1.
ORW
OR
ORROLL
=−
=ˆ
ε
1 Woolf B. On estimating the relationship between blood group and disease, Human Genet., 19, 251-3, 1955
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
232
( ) ( )
( )( ) ( )[ ] ( )[ ]
⎥⎥⎦
⎤
⎢⎢⎣
⎡−
⎪⎭
⎪⎬⎫
⎪⎩
⎪⎨⎧
−−−
−=−=
=−==−=⇒
ORSEzORSEzOROR
ORORLL
eORORee
eeWROOROR L
ln*ln*lnln
lnln
21
21
*
ˆ*
αα
ε
( ) ( )[ ] ( ) ( ) ⎭⎬⎫
⎩⎨⎧
⎥⎦
⎤⎢⎣
⎡−
+−
−=−=−−−
221121
21 1
1111*ln*1ln
PPPPnzORSEz ααε
Rezolvand obtinem:
( ) ( )( )[ ]2
2211
2
21
1ln11
11
ε
α
−
⎥⎦
⎤⎢⎣
⎡−
+−
=− PPPP
zn
2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor privind riscul relativ estimat retrospectiv (OR)
Ipoteza nula este de obicei 1:0 =ORH Aceasta este echivalenta cu si ipoteza alternativa este 210 : PPH = 21: PPH A ≠
Prin urmare, pentru a calcula marimea esantioanelor necesare pentru testarea ipotezelor privind riscul relativ estimat retrospectiv, se poate folosi aceeasi abordare ca cea folosita la testarea ipotezei vs 210 : PPH =
Δ=− 21: PPH A Formula corespunzatoare este:
( )[ ] ( ) ( )[ ]
( )221
2
221112
11112
PP
PPPPzPPzn
−⎭⎬⎫
⎩⎨⎧
−+−+−
=−
−βα
, unde 2
21 PPP +=
In studiile de control a cazului, - rata de expunere de control este de obicei cunoscuta cu o precizie mare. In acest caz este folosita expresia modificata.
2P
( )[ ] ( ) ( )[ ]
( )221
2
22111222
11112
PP
PPPPzPPzn
−⎭⎬⎫
⎩⎨⎧
−+−+−
=−
−βα
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
233
2.17.7. Originea conceptului OR (Odds Ratio) propusă de către Woolf. Woolf a ajuns la conceptul de odds ratio pornind de la studiul
datelor din literatură medicală referitoare la predispoziţia către anumite boli existentă la anumite grupe sanguine.
Mai mulţi cercetători au evidenţiat2 că există o predispoziţie către cancerul gastric la subiecţii cu grupa sangvină A şi o predispoziţie către ulcerul peptic la cei cu grupa sangvina 0 . Pentru cancer frecventele sunt de 2% si respectiv 1% si deci, pentru un lot de 5000 subiecti cu grupa A si 5000 de subiecti cu grupa 0 s-ar obtine rezultatele:
B+
(bolnavi cu cancer gastric) B- (control)
p (Procent de boala in grupa)
Grupa sangvina A 100 (a) 5000 (b) 2% Grupa sangvina 0 50 (c) 5000 (d) 1% Total 150 10.000 Consideram in continuare un studiu “retrospective” si calculam: • 1p proporţia celor cu grupa A în lotul de bolnavi:
1100 2150 3
p = =
• 2p proporţia celor cu grupa A în lotul control:
25000 1
10000 2p = =
Avem:
1 22 1 0,16673 2
p p− = − =
Consideram ca proportiile de 1% si 2% sunt adevarate si in cazul in care lotul de control include cele doua grupuri de sange in alt raport decat 1:1, de exemplu 9:1
B+
(bolnavi cu cancer gastric) B- (control)
Grupa sangvina A 180 (a) 9000 (b) Grupa sangvina O 10 (c) 1000 (d) 190 10.000
2 Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the ABO blood groups, Brit Med J, 1, 799, 1953
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
234
In acest caz :
1 2180 9000 0,047190 10000
p p− = − =
Intuitiv, dacă n-ar exista o predispoziţie pentru cancer de stomac la cei cu grupa A, cele două proporţii ar trebui să fie egale. Şi totuşi, după cum se poate observa, cele două proporţii din exemplul de mai sus diferă semnificativ. Acesta este un exemplu în care intuiţia sau logica convenţională ne poate induce în eroare şi în care metodele statistice ne pot veni în ajutor.
Woolf a observat deci că diferenţa între cele două proporţii depinde de numărul de subiecţi cu grupa A şi cu grupa 0 din lotul de control, deci diferă de la un studiu clinic la altul, chiar dacă rata specifică de atac în interiorul unui grup sangvin dat rămane constantă.
El a arătat deci, că dacă de exemplu în lotul de control avem 5000 de subiecţi cu grupa A, si 5000 de subiecţi cu grupa 0 se obţine un rezultat, şi în cazul în care există 9000 de subiecţi cu grupa A si respectiv 1000 de subiecţi cu grupa 0 se obtine un rezultat mult diferit de primul caz.. Rezultatele sunt foarte diferite în condiţiile în care proporţia de bolnavi în cele două grupe rămân constante 2% şi 1%.
În aceste condiţii el a propus înlocuirea testului de comparare a celor două proporţii aşa cum s-a enuţtat, cu compararea raportului ratelor de incidenţă 100/5000 şi 50/5000.
Ratele de incidenţă reprezintă proporţiile de bolnavi în cadrul grupei sangvine A (a/b) şi proporţia de bolnavi din cadrul grupei sangvine 0 (c/d):
a adcOR b bcd= =
Pentru compararea ratelor de incidenta, se testează ipotezele: vs 0 : 1H OR = 1 : 1H OR ≠
În studiile case-control (caz martor) OR (Odds Ratio) măsoară asocierea dintre o expunere şi riscul de dezvoltare a unei boli. În cazul bolilor rare, dupa cum s-a aratat mai sus, OR redă o estimare destul de precisă a riscului relativ (RR).
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
235
2.17.8. Metoda Mantel-Haenszel de calcularea OR in studii case-control stratificate3
Cand avem mai multe studii clinice epidemiologice, de exemplu unul pe femei si unul pe barbati, in ipoteza ca nu exista diferente semnificative intre cele doua sexe in ceea ce priveste riscul unei anumite boli induse de un factor de risc dat, este natural sa reunim loturile si sa facem calculele pentru populatia reunita. Daca insa nu putem presupune acest lucru, o metoda alternativa de calcul este metoda Mantel-Haenszel .Metoda Mantel-Haenszel este folosită pentru a estima „pooled odds ratio” din mai multe straturi sau mai multe studii similare:
1
1
ki i
i iMH
ki i
i i
a dn
ORb cn
=
=
⎛ ⎞⎜ ⎟⎝=⎛ ⎞⎜ ⎟⎝ ⎠
∑
∑⎠ n a b c d, unde ii i i i+ + + =
Strat / Studii Cazuri Control Total Expusi
1a 1b 11n Neexpusi
1c 1d 01n
1
Total 11m 01m 1n
......... ........................ ............ ............ ............. Expusi
ja jb 1 jn
Neexpusi jc jd 0 jn
j
Total 1 jm 0 jm jn
......... ........................ ............ ............ ............. Expusi
Ka Kb 1Kn Neexpusi
Kc Kd 0Kn
K
Total 1Km 0Km Kn
Notam ORi i= Ψ . Deoarece i ii
i i
a db c i i i i ia d b cΨ = si deci = Ψ
, avem:
3 Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective studies of disease, JNCI 1959, 22:719-748
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
236
i i i i i ii i
i i iMH i
i i i i j j
i i j j
a d b c b cn n nOR wb c b c b cn n n
Ψ Ψ= Ψ = = = = Ψ
∑ ∑∑ ∑
∑ ∑ ∑i ,
unde
i i
ii
j j
j
b cnw b c
n
=
∑ poate fi interpretata ca ponderea componentei in
suma.
iΨ
Facem observatia ca ponderile sunt in fapt estimari ale inversului dispersiilor componentelor
iw
iΨ . In anumite conditii restrictive, aplicand metoda verosimilitatii
maxime se poate arata ca4 dispersia lui MHOR se calculează conform ecuaţiei:
( )( ) 112
1 11
12
1
* **ln
22
*
2
KKj j j j j j j jj j j j
j j j j jj j jMH
K KK j j j jj j
j jj jj j
Kj j j j
j j j
Kj j
j j
b c a d b c a da d a dn n n nn n
D ORa d b ca dn nn
b c b cn n
b cn
==
= ==
=
=
⎛ ⎞+ +++⎜ ⎟⎜ ⎟
⎝ ⎠= + +⎛ ⎞⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠⎝ ⎠
+
+⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠
∑∑
∑ ∑∑
∑
∑
Intervalul de încredere se poate obţine folosind ecuaţia:
( )( )2
exp logMH MHOR z D ORα
⎛ ⎞±⎜ ⎟⎝ ⎠
4 P.Silocks, An easy approad to the Robins – Breslow. Greendland variance estimation, Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110)
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
237
Exemplu . Consideram rezultate dintr-un studiu privind incidenta cancerelor de gura efectuat in Olanda
Femei Fumătoare Nefumătoare Total Paciente cu Leucoplakie localizare mucoasă obraji
6 5 11
Control (femei populaţie Olanda) 30.3 69.7 100 Total 36.3 74.7 111 Bărbaţi Fumători Nefumători Total Pacienţi cu Leucoplakie localizare mucoasă obraji
11 1 11
Control (bărbaţi populaţie Olanda) 36.7 63.3 100 Total 47.7 64.3 112
Vom aplica relatia 1
1
ki i
i iMH
ki i
i i
a dn
ORb cn
=
=
⎛ ⎞⎜ ⎟⎝=⎛ ⎞⎜ ⎟⎝ ⎠
∑
∑⎠ in care avem:
1 6a = 2 11a =
1 5b = 2 1b =
1 30,3c = 2 36,7c =
1 69,7d = 2 63,3d =
1 111n = 2 112n = In cazul nostru obtinem:
1 1 2 2
1 2
1 1 2 2
1 2
6*69.7 11*63.3111 112 5.95*30.3 1*36.7111 112
MH
a d a dn nOR b c b cn n
+ += =
++=
deci riscul la nivelul intregii populatii este de circa 6 ori mai mare in cazul fumatorilor decat in cazul nefumatorior .
TABELE STATISTICE
239
Tabele pentru z
z 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0754 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2258 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2518 0,2549 0,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2996 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4639 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
TABELE STATISTICE
240
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997 3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998 3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
TABELE STATISTICE
241
Tabele pentru t
ν
55,0t 60,0t 70,0t 75,0t 80,0t 90,0t 95,0t 975,0t 99,0t 995,0t
1 0,158 0,325 0,727 1,000 1,376 3,08 6,31 12,71 31,82 63,66 2 0,142 0,289 0,617 0,816 1,061 1,89 2,92 4,30 6,96 9,92 3 0,137 0,277 0,584 0,765 0,978 1,64 2,35 3,18 4,54 5,84 4 0,134 0,271 0,569 0,741 0,941 1,53 2,13 2,78 3,75 4,60 5 0,132 0,267 0,559 0,727 0,920 1,48 2,02 2,57 3,36 4,03 6 0,131 0,265 0,553 0,718 0,906 1,44 1,94 2,45 3,14 3,71 7 0,130 0,263 0,549 0,711 0,896 1,42 1,90 2,36 3,00 3,50 8 0,130 0,262 0,546 0,706 0,889 1,40 1,86 2,31 2,90 3,36 9 0,129 0,261 0,543 0,703 0,883 1,38 1,83 2,26 2,82 3,25 10 0,129 0,260 0,542 0,700 0,879 1,37 1,81 2,23 2,76 3,17 11 0,129 0,260 0,540 0,697 0,876 1,36 1,80 2,20 2,72 3,11 12 0,128 0,259 0,539 0,695 0,873 1,36 1,78 2,18 2,68 3,06 13 0,128 0,259 0,538 0,694 0,870 1,35 1,77 2,16 2,65 3,01 14 0,128 0,258 0,537 0,692 0,868 1,34 1,76 2,14 2,62 2,98 15 0,128 0,258 0,536 0,691 0,866 1,34 1,75 2,13 2,60 2,95 16 0,128 0,258 0,535 0,690 0,865 1,34 1,75 2,12 2,58 2,92 17 0,128 0,257 0,534 0,689 0,863 1,33 1,74 2,11 2,57 2,90 18 0,127 0,257 0,534 0,688 0,862 1,33 1,73 2,10 2,55 2,88 19 0,127 0,257 0,533 0,688 0,861 1,33 1,73 2,09 2,54 2,86 20 0,127 0,257 0,533 0,687 0,860 1,32 1,72 2,09 2,53 2,84 21 0,127 0,257 0,532 0,686 0,859 1,32 1,72 2,08 2,52 2,83 22 0,127 0,256 0,532 0,686 0,858 1,32 1,72 2,07 2,51 2,82 23 0,127 0,256 0,532 0,685 0,858 1,32 1,71 2,07 2,50 2,81 24 0,127 0,256 0,531 0,685 0,857 1,32 1,71 2,06 2,49 2,80 25 0,127 0,256 0,531 0,684 0,856 1,32 1,71 2,06 2,48 2,79 26 0,127 0,256 0,531 0,684 0,856 1,32 1,71 2,06 2,48 2,78 27 0,127 0,256 0,531 0,684 0,855 1,31 1,70 2,05 2,47 2,77 28 0,127 0,256 0,530 0,683 0,855 1,31 1,70 2,05 2,47 2,76 29 0,127 0,256 0,530 0,683 0,854 1,31 1,70 2,04 2,46 2,76 30 0,127 0,256 0,530 0,683 0,854 1,31 1,70 2,04 2,46 2,75 40 0,126 0,255 0,529 0,681 0,851 1,30 1,68 2,02 2,42 2,70 60 0,126 0,254 0,527 0,679 0,848 1,30 1,67 2,00 2,39 2,66 120 0,126 0,254 0,526 0,677 0,845 1,29 1,66 1,98 2,36 2,62 ∞ 0,126 0,253 0,524 0,674 0,842 1,28 1,645 1,96 2,33 2,58
TABELE STATISTICE
243
Tabele pentru 95,0F
2
1ν
ν
1 2 3 4 5 6 7 8 9 10
1 161 200 216 225 230 234 237 239 241 242 2 18,5 19,0 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4 3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 28 4,20 3,43 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 ∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83
TABELE STATISTICE
244
2
1ν
ν
12 15 20 24 30 40 60 120 ∞
1 244 246 248 249 250 251 252 253 254 2 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5 19,5 3 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,53 4 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,63 5 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,40 4,37 6 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,70 3,67 7 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,23 8 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,93 9 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,75 2,71
10 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,58 2,54 11 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,45 2,40 12 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,34 2,30 13 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,25 2,21 14 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,18 2,13 15 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,11 2,07 16 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,06 2,01 17 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,01 1,96 18 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,97 1,92 19 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,93 1,88 20 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,90 1,84 21 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,87 1,81 22 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,84 1,78 23 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,81 1,76 24 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,79 1,73 25 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,77 1,71 26 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,75 1,69 27 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,73 1,67 28 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,71 1,65 29 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,70 1,64 30 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,68 1,62 40 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58 1,51 60 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47 1,39 120 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35 1,25 ∞ 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,22 1,00
TABELE STATISTICE
245
Tabele 2χ
Aria Numar grade de libertate 0,025 0,950 0,975 0,990 1 0 3,842 5,024 6,635 2 0,0501 5,992 7,378 9,210 3 0,216 7,815 9,348 11,345 4 0,484 9,488 11,143 13,277 5 0,831 11,071 12,833 15,086 6 1,237 12,592 14,449 16,812 7 1,690 14,067 16,013 18,475 8 2,180 15,507 17,535 20,090 9 2,700 16,919 19,023 21,666 10 3.247 18,307 20,483 23,209 11 3,816 19,675 21,920 24,725 12 4,404 21,026 23,337 26,217 13 5,009 22,362 24,736 27,688 14 5,629 23,685 26,119 29,141 15 6,262 24,996 27,488 30,578 16 6,908 26,296 28,845 32,000 17 7,564 27,587 30,191 33,409 18 8,231 28,869 31,526 34,805 19 8,907 30,144 32,852 36,191 20 9,591 31,410 34,170 37,566 21 10,283 32,671 35,479 38,932 22 10,982 33,924 36,781 40,289 23 11,689 35,173 38,076 41,638 24 12,401 36,415 39,364 42,980 25 13,120 37,653 40,647 44,314 26 13,844 38,885 41,923 45,642 27 14,573 40,113 43,195 46,963 28 15,308 41,337 44,461 48,278 29 16,047 42,557 45,722 49,588 30 16,791 43,773 46,979 50,892
BIBLIOGRAFIE
247
1. W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 – 1, 1972. 2. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947 3. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952 4. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973 5. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973 6. Chow, S.C. & Liu, J.P. (1992) Design and analysis of bioavailability and bioequivalence studies. New York, Marcel Dekker (cap. 3) [1]. 7. Saporta, C. (1990) Probabilité, Analyse des données et statistique. Paris, Ed. Technip (cap. 15) [2]. 8. Vaduva, I. (1970) Analiză dispersională. Bucureşti, Ed. Tehnică (cap. 4) [3]. 9. K.A.Brownlee, Statistical Theory and metodology in Science and Engineering, J. Wiley, New – York, 1960 10. D. Ceausescu, Tratarea statstica a datelor chimico – analitice, Ed. Tehnica, Bucuresti, 1973 11. M. Tiron, teoria erorilor de masurare si metoda celor mai mici patrate, Ed. Tehnica, Bucuresti, 1972 12. F. Gremy, D. Salmon, Bases statistiques pur la recherchemedicale et biologique, Dunod, Paris, 1969 13. M. R. Spiegel, Probability and statistique, McGraw – Hill, New – York, 1980 14. D. Ceausescu, Utilizarea statisticii matematice in chimia analitica, Ed. Tehnica, Bucuresti, 1980 15. M. Iosifescu, T. Postelnicu, Curs de biomatematica, Univ. Ecologica, Bucuresti, 1990 16. M. Iosifescu, Gh. Mihoc, R. Teodorescu, Teoria probabilitatilor si statistica matematica, Ed. Tehnica, Bucuresti, 1966 17. S. Bolton, Statistics, in Remington: The Science and Practice of Pharmacy, 9 – th ed., Mark publ., Easton, Pennsylvania, 1995 18. United States Pharmacopoeia, ed. XXIII, cap. Statistical Procedures for Bioequivalence Studies Using a Standard Two – treatment Crossover design, 1995 19. P. G. Welling, F.L.S. tse, S. Dighe, Pharmaceutical Bioequivalence, cap. 3, C.M. Metzler: Statistical criteria, M. Dekker, New – York, 1991
BIBLIOGRAFIE
248
20. V.W.Steinijans, D. Hauschke, Update on the statistical analysis of bioequivalence studies, Int. J.Clin.Pharmacol. Ther. Toxicol,. 28(3), 105 – 110, 1990 21. M. Rowland (ed), Variability and Drug Therapy: Description, Estimation and Control, Raven Press, New York, 1985 22. S.C. Chow, J.P.Liu, Design and Analysis of Biovailability and Bioequivalence Studies, M. Dekker, London, New York, 1992 23. A. Rescigno. A. Marzo, U. Thyroff – Friesinger, A new measure of bioequivalence, 1 –st European Congress of Pharmacology, Milano, june 1995, poster nr. 19 24. A Marzo, Open questions in bioequivalence, 1 –st European Congress of Pharmacology, Milano, june 1995, poster nr. 18 25. E. Beyssac, C. Lauro. Marty, H-l Chabard, J-M Aiache, Study of bioequivalence metrics, 6-th European Biopharmaceutics and Pharmacokinetics, Atena, aprilie 1997 26. C. Mircioiu, V. Voicu: Degenerated, solutions of pharmacokinetics models for some lipophilic drugs, Canad. J. Physiol, Pharmacol. 72 (suppl.1), 305, 1994 27. C. Mircioiu, V. Voicu, M. Jiquidi: Mathematical algoritms and computer programs as source of variability in population drugs, 1-st Congress of the European Association for Clinical Pharmacology and Therapeutics, September, 27-30, 1995, Paris 28. C. Mircioiu: „Mathematical variability” in pharmacokinetics, 6-th Europ. Congress of Biopharmaceutics and Pharmacokinetics, Atena, 22-24 April 1996, Europ. J. Drug Metab. Pharmacokin. (special issue), abstract 371 29. Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials, Statistics in Medicine, 27 (2008), 4874 – 4894 30. Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST) 31. W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 – 1, 1972 32. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947 33. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952 34. W.H.Kruskal, W.A.Wallis; Use of ranks in the one – criterion analysis of variance, J.Am.Stat.Assoc.,47,583-621,1952 35. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973
BIBLIOGRAFIE
249
36. R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York, 1958 37. C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites, Biointernational 2005, Octomber 24th-26th, London 38. J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21, 467-480, 1965 39. C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974 40. Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu, Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995, 1999 41. Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II. Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor Modification, JAMA 260 (15), 2259-2263, 1988 42. James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology, vol. 85, may 1, 2000 43. Woolf B. On estimating the relationship between blood group and disease, Human Genet., 19, 251-3, 1955 44. Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the ABO blood groups, Brit Med J, 1, 799, 1953 45. Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective studies of disease, JNCI 1959, 22:719-748 46. P.Silocks, An easy approad to the Robins – Breslow. Greendland variance estimation, Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110) 47. C.Mircioiu, Statistica aplicata in farmacie si studii clinice, Ed. Universitara Carol Davila, Bucuresti, 2007
CUPRINS
I. ELEMENTE DE TEORIA PROBABILITATILOR 1.1. Campuri de probabilitate 1 1.1.1. Corp borelian 2 1.1.2. Spatii masurabile 3 1.1.3. Probabilitate 5 1.1.4. Probabilitate conditionata 7 1.1.5. Formula probabilitatii cauzelor (Bayes) 7 1.2. Variabile aleatoare 11 1.2.1. Definitie 11 1.2.2. Operatii cu variabile aleatoare 11 1.2.3. Functia de repartitie 12 1.2.4. Densitatea de repartitie 13 1.2.5. Valoarea medie 14 1.2.6. Dispersia 16 1.2.7. Inegalitatea lui Cebasev 18 1.2.8. Teorema lui Bernoulli (legea numerelor mari) 19 1.3. Distributii de probabilitate 21 1.3.1. Distributia normala 21 1.3.2. Distributia binomiala 23 1.3.3. Distributia Poisson 24 1.3.4. Aproximarea normala a distributiei binomiale 25 1.3.5. Repartitia χ2 Helmert - Pearson 25 1.3.6. Repartitia STUDENT 27 1.3.7. Repartiţia F (Behrens - Fisher – Snedecor) sau distribuţia
raportului a două dispersii 28
II. STATISTICA MATEMATICA SI BIOSTATISTICA 2.1. Teorema limita centrala (A.M.Leapunov) 29 2.2. Teorema lui Cebâşev 29 2.3. Metoda verosimilitatii maxime 30 2.4. Teoria selectiei 31 2.4.1. Populatii si selectii. Inferenta statistica 36 2.4.2. Media de selectie 38 2.4.3. Dispersia de selectie 39 2.4.4. Covarianta de selectie 39 2.4.5. Coeficientul de corelatie de selectie 40 2.4.6. Proprietati ale caracteristicilor de selectie 41
251
CUPRINS
2.5. Estimatii 44 2.5.1. Estimarea intervalului de incredere pentru medii 45 2.5.2. Estimarea intervalului de încredere α−1 pentru diferenţei a
două medii 47
2.5.3. Estimarea intervalelor de încredere pentru dispersie 50 2.5.4. Estimarea intervalului de încredere raportul a două dispersii 50 2.5.5. Utilizarea intervalelor de încredere în studiile de comparare
a biodisponibilităţii medicamentelor 51
2.6. Verificarea ipotezelor statistice 53 2.6.1. Ipoteze asupra mediei 54 2.6.2. Ipoteze asupra diferenţelor a două medii 56 2.6.3. Estimarea dispersiei 58 2.6.3.1 Estimarea raportului a doua dispersii 58 2.6.3.2 Compararea mai multor dispersii: testul Bartlett, testul rapid
Cochran, testul Hartley 59
2.6.3.3 Utilizarea testului t in analiza comparativa a medicamentelor 60 2.7. Teste neparametrice 63 2.7.1. Media si dispersia unui esantion dintr-o populatie finita 64 2.7.2. Testul de rang Wilcoxon 67 2.7.3. Ajustarea pentru valori egale in testul Wilcoxon 70 2.7.4. Teste referitoare la perechi de observatii 71 2.7.4.1 Testul semnelor 71 2.7.4.2 Testul Wilcoxon pentru observatii perechi 73 2.7.4.3 Testul H 74 2.7.5. Alegerea intre testele laplaciene si testele neparametrice 76 2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul
Friedman 77
2.8. Regresia liniara 79 2.8.1. Estimatii si ipoteze asupra coeficientului b 79 2.8.2. Estimarea dispersiei punctelor dreptei de regresie 84 2.8.3. Calculul intervalelor de încredere pentru dreapta de regresie
în cazul stabilităţii formelor farmaceutice 86
2.8.4. Studiul stabilităţii medicamentelor 88 2.8.5. Regresia ponderata 89 2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia 95 2.8.7. Stabilirea dreptei de regresie in bioanalitica 100
252
CUPRINS
2.9. Metode statistice de analiza factorilor de variabilitate in
experimentul biologic (ANOVA) 105
2.9.1. Analiza functionala unifactoriala 106 2.9.1.1 Aplicarea ANOVA in testarea ipotezei privind depdendenta
liniara a datelor 109
2.9.1.2 Compararea parametrilor farmacocinetici ai unui medicament dupa administrarea pe mai multe cai
110
2.9.1.3 Conditii necesare pentru aplicarea analizei dispersionale 112 2.9.2. Analiza dispersionala multifactoriala 114 2.9.2.1 Modelul variabilei aleatoare 116 2.9.2.2 Scindarea sumei patratelor abaterilor 117 2.9.2.3 Variatia unui parametru farmacocinetic atat in functie de calea
de administrare cat si in functie de numarul de administrari 118
2.9.2.4 Compararea biodisponibilitatii unei substante active administrate in preparate diferite si in perioade diferite de tratament
120
2.10. Estimarea efectelor intr-un experiment standard cross – over
– prin teste t 121
2.10.1. Modelul statistic 121 2.10.2. Testarea efectului secventei de administrare 122 2.10.3. Efectul direct al medicamentului 125 2.10.4. Efectul perioadei 129 2.11. Estimarea efectelor prin ANOVA 131 2.11.1. Modelul statistic general 131 2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua
medicamente, incrucisat, cu 2 perioade si 2 secvente 134
2.11.3. Calculul variabilitatii interindividuale 137 2.11.4. Calculul efectelor de secventa 138 2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor 139 2.12. Legatura intre ANOVA si testul t in compararea efectelor 143 2.12.1. Compararea intre modelul statistic general si modelul
statistic specific „cross – over” 143
2.12.2. Testarea efectului secventei de administrare folosind metoda ANOVA
143
2.12.3. Testarea efectului perioadei folosind ANOVA 144
253
CUPRINS
2.13. Estimarea bioechivalentei 147 2.13.1. Metode parametrice de estimare a bioechivalentei 147 2.13.1.1 Metoda intervalului de incredere 147 2.13.1.2 Metoda celor „doua testari unilaterale” Schuirmann 147 2.13.1.3 Transformarea logaritmica a datelor 148 2.13.2. Metode non-parametrice de estimare a bioechivalentei 149 2.13.3. Compararea rezultatelor metodelor parametrice si non –
parametrice in estimarea bioechivalentei unor forme farmaceutice cu meloxicam
151
2.13.3.1 Estimarea egalitatii mediilor plasmatice folosind testul “non – parametric” Wilcoxon
153
2.13.3.2 Estimarea bioechivalentei prin calculul “non – parametric” al intervalelor de incredere
156
2.13.3.3 Estimarea bioechivalentei folosind testul non – parametric Wilcoxon, pornind de la un model care ia in considerare si efectele de perioada
159
2.13.3.4 Calculul parametric 163 2.13.4. Compararea rezultatelor 165 2.14. Teste statistice de discordanta 167 2.14.1. Constructia testelor de discordanta 168 2.14.2. Criteriul Dixon de respingere a outliers 175 2.14.3. Valori discordante fata de corelatia liniara 176 2.14.3.1 Drepte si puncte discordante 179 2.14.3.2 Voluntari discordanti in studii de bioechivalenta 180 2.15. Puterea testului. Calculul numarului de voluntari 185 2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru
obtinerea unei estimari a mediei cu o precizie fixata 185
2.15.2. Testarea ipotezelor. Calculul numarului de voluntari in functie de probabilitatile erorilor de tipul I si tipul II fixate in prealabil
186
2.15.3. Testarea ipotezei privind media unui lot 187 2.15.4. Testarea pentru compararea mediilor a doua populatii 190 2.15.5. Compararea a doua proportii 194 2.15.6. Marimea esantionului pentru comparari de mai multe medii
prin analiza dispersionala (ANOVA) 194
2.15.7. Modelul cross – over. Ipoteze punctuale privind egalitati 195 2.15.8. Calculul comparativ al numarului de subiecti necesari in
testarea bioechivalentei terapeutice a medicamentelor 201
2.15.8.1 Calculul in testarea bioechivalentei 201 254
CUPRINS
2.15.8.2 Calculul in testarea echivalentei clinice 202 2.15.8.3 Cazul compararii efectelor clinice 203 2.15.8.4 Cazul aspirinei. 207 2.15.8.5 Calculul numarului de subiecti necesari demonstrarii
echivalentei terapeutice a doua medicamente care sunt bioechivalente
209
2.16. Distributia binomiala 211 2.16.1. Compararea proportiilor cu testul exact Fisher 211 2.16.2. Tabele de contingenta R x C 217 2.16.3. Teste de independenta la clasificarea dupa doua criterii 221 2.16.4. Tabelele 2x2 corelate 223 2.16.5. Teste de omogenitate 225 2.17. Aplicatii in epidemiologie 227 2.17.1. Studii cohort 227 2.17.2. Studii case – report 227 2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case -
report) a riscului din cauza expunerii la un factor dat 228
2.17.4. Intervalul de incredere pentru riscul relativ estimat retrospectiv (odds ratio) in studiile de control de caz
230
2.17.5. Calcularea marimilor esantionului pentru estimarea unui risc relativ estimat intr-un studiu case – report, cu o precizie data
231
2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor privind riscul relativ estimat retrospectiv (OR)
232
2.17.7. Originea conceptului OR (Odds Ratio) propusă de către Woolf
233
2.17.8. Metoda Mantel-Haenszel de calcularea OR prin combinarea mai multor experimente clinice
235
Anexe Tabele statistice pentru z 239 Tabele statistice pentru t 241 Tabele statistice pentru Fischer 243 Tabele statistice pentru 2χ 245 Bibliografie 247 Cuprins 251
255