curs 3 cercetare

Upload: anda-madalina-zaharia

Post on 04-Apr-2018

242 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/30/2019 Curs 3 Cercetare

    1/51

    CURS 3

  • 7/30/2019 Curs 3 Cercetare

    2/51

    Prepararea, Analiza si Interpretarea Datelor

    in majoritatea studiilor stiintifice, pasii parcursi pana la obtinerea datelor au fost:

    formularea unei intrebari care sta la baza studiului (ce vrem sa

    demonstram)

    selectarea unui tip adecvat de cercetare pentru acest caz

    stabilirea participantilor la studiu (cohorta adecvata, grup, etc)

    selectarea unor metode de masurare exacte si valide

    in urma acestor pasi, se obtin rezultate (date) care trebuie prelucrate (preparate),analizate si interpretate

  • 7/30/2019 Curs 3 Cercetare

    3/51

    Prepararea, Analiza si Interpretarea Datelor

    Prepararea datelor

    Datele furnizeaza informatii, care in cele din urma fie:

    descriu fenomene

    prezic evenimente

    identifica si cuantifica diferentele dintre conditii

    stabilesc eficacitatea unor interventii

    In cele din urma se organizeaza o baza de date care faciliteaza acuratetea si eficientaanalizelor statistice

  • 7/30/2019 Curs 3 Cercetare

    4/51

    Prepararea, Analiza si Interpretarea Datelor

    Modul de organizare a datelor

    A. Aranjarea logica a datelor

    B. Screening de date

    C. Construirea unei baze de date

    D. Introducerea datelor

    E. Prelucrarea datelor prin:

    identificarea si codarea valorilor omise

    compunerea de variabile totale sau de noi variabile

    folosirea scalei inversate

    recodarea variabilelor pe categorii

  • 7/30/2019 Curs 3 Cercetare

    5/51

    A. Aranjarea Logica a Datelor

    datele pentru cercetare pot proveni de la un numar mare de surse (exemplu: din interviul

    participantilor, din observatie, raportari de date de laborator, etc), putand usor devenidezorganizate sau neinterpretabile

    desi nu exista o regula stricta, cele mai multe studii folosesc computerul la care existaprograme specifice (Microsoft Access, Microsoft Excel. Claris FileMaker, etc)

    un element de maxima importanta il reprezinta recrutarea logica, adica inregistrarea logica,cu inteles a tuturor indivizilor / elementelor ce participa la studiu

    De exemplu:

    cand (data) au fost abordati participantii la studiu

    daca indeplinesc criterii de eligibilitate

    daca isi dau consimtamantul sa participe la studiu

    in urma acestei ordonari, se poate determina cat este de reprezentativa cohorta de participanti

    la studiu fata de populatia la care se adreseaza cercetarea

  • 7/30/2019 Curs 3 Cercetare

    6/51

    B. Screening-ul de Date

    imediat dupa colectarea datelor, dar inainte de a fi introduse, cercetatorul trebuie sa se asigure

    de acuratetea datelor, folosind o metoda de screening (to screen = a cerne)

    Rapiditatea este obligatorie, pentru a se putea recontacta participantii la studiu daca dateleobtinute / raspunsurile au avut omisiuni, erori, inexactitati

    in unele cazuri, vina pentru erori apartine exclusiv cercetatorilor, care au facut greseli ininregistrarea informatiilor. Ei vor fi raspunzatori cu corectarea acestor greseli (in cazuri

    posibile), nemaifiind necesar recontactarea participantilor

    pentru a simplifica procesul descreening al datelor, se foloseste computerul:Programele de pe computer pot fi astfel concepute incat sa accepte doar

    raspunsuri intre anumite valori

    - sa controleze raspunsurile lipsa

    - sa efectueze chiar teste de control in cadrul raspunsurilor inregistrate, pentru a

    identifica potentiale inadervente cat mai precoce

    Alt avantaj este acela ca prin aceste programe se pot transfera electronic

    datele intr-o baza permanenta de date, si automat pot fi apoi prelucrate

  • 7/30/2019 Curs 3 Cercetare

    7/51

    C. Construirea unei Baze de Date

    dupa realizarea screening-ului si dupa ce corectiile au fost facute, toate datele ar trebui saintre intr-o baza de date

    alcatuirea unei baze de date, modul cum va fi alcatuita si ce va contine, presupune de obiceica cercetatorul sa gandeasca retrospectiv la ce studiaza tema de cercetare si modul cum

    datele vor fi analizate

    Astfel, cercetatorul stabileste mai clar ce variabile sunt necesare in baza de date, cum se vor

    ordona ele si ce format vor avea

    este util uneori, sa se creeze coduri de date (data codebook) care reprezinta o lista scrisa(computerizata) ce furnizeaza o descriere clara, inteligibila a variabilelor ce vor intra in bazade date

    Codarea acestor elemente din baza de date, permite ca la o noua reanalizare a

    datelor sa nu existe dubii asupra a ceea ce reprezinta variabilele

    Contine (minim):

    numele variabilei descrierea variabilei

    formatul variabilei (numar, data, text)

    instrument sau metoda de colectare

    localizare in data de baze

  • 7/30/2019 Curs 3 Cercetare

    8/51

    D. Introducerea Datelor

    dupa ce datele au fost supuse unui screening care le-a testat gradul de acuratete si cat decomplete sunt ele, s-a alcatuit o baza de date (inclusiv coduri pentru date) urmandintroducerea datelor

    reprezinta o etapa care cere multa atentie si antrenament

    pentru eliminarea erorilor se foloseste frecvent procedeul dublei intrari, adica datele suntintroduse in baza de date de doua ori, observandu-se discrepantele

    ca alternativa pentru metoda dublei intrari, cercetatorul poate crea o metoda de detectare ainadvertentelor datelor (de exemplu: detectarea unor valori prea mari / prea mici, a lipsei unei

    valori, a unui format incorect)

    multe programe de baze de date (Microsoft Excel, Microsoft Access) permit cercetatorului sadefineasca intervale sau formate sau tipuri de date care sa fie acceptate. Aceste baze de date

    nu permit automat sa intre informatii care nu indeplinesc anumite criterii presetate

  • 7/30/2019 Curs 3 Cercetare

    9/51

    E. Prelucrarea Datelor

    reprezinta urmatoarea etapa, inainte de a se face analiza datelor

    Aceste prelucrari constau in:

    1. Identificarea si codarea valorilor omise

    2. Calcularea de variabile noi sau variabile totale

    3. Folosirea metodei scalei inversate

    4. Recodarea variabilelor

  • 7/30/2019 Curs 3 Cercetare

    10/51

    1. Identificarea si Codarea Valorilor Omise

    inevitabil, orice baza de date va avea un numar de valori omise, din diverse cauze:

    fie participantii nu raspund la anumite intrebari fie sunt omise unele observatii

    fie exista date inexacte care sunt rejectate de catre baza de date

    frecvent, cercetatorii nu vor sa inlcuda in studiu asemenea cazuri cu valori omise, deoareceexista riscul de a altera rezultatul

    cele mai multe programe statistice (SPSS, SAS) au incluse ca optiune: fie ignorarea cazurilor cu valori omise

    fie trateaza automat valorile lipsa ca valoare nula

    exista si cateva tehnici de calcul pentru a rezolva problema valorilor omise: prin identificare de participanti ce furnizeaza variabile asemanatoare cu valorile

    omise

    se face media predictiva a omisiunii prin procedee statistice (de exemplu: prin

    regresie liniara pentru date continue) valorile omise sunt inlocuite cu valoare mediei variabilelor dintr-un grup (sau mod,

    in caz de date categoriale)

  • 7/30/2019 Curs 3 Cercetare

    11/51

    2. Calcularea de Noi Variabile sau Variabile Totale

    sunt cazuri in care cercetatorul vrea sa creeze noi variabile, bazate pe valorile altor variabileExemplu simplu: - sunt date (variabile) asupra internarilor saptamanale intr-o

    sectie de spital. Se poate crea o noua variabila: numarul

    total de internari intr-o luna (4 saptamani)

    se fac asemenea calculari (noi variabile) si in cazuri cand variabilele nu sunt normal distribuiteDistributie normala (Gauss): atunci cand la schitarea valorilor unor variabile

    se obtine o curba simetrica, in clopot, care

    creste usor de la un numar mic de cazuri la

    fiecare extrema, pana la un numar mare decazuri, la mijloc

    Cand variabilele nu sunt normal distribuite, poate apare fie:

    supraestimare (eroare tip I)

    subestimare (eroare tip II)

    Din pacate, multe variabile din stiintele sociale sau in cadrul unor categorii

    sociale sunt inegal distribuite (curbe deviate) si pentru calcule statistice sefolosesc noi variabile provenite din prelucrarea variabilelor, folosind:

    radacina patrata (radical) din fiecare valoare a variabilelor

    logaritm

    inversare (3 devine 1/3, 4 devine )

  • 7/30/2019 Curs 3 Cercetare

    12/51

    3. Folosirea Metodei Scalei Inversate

    scop: pentru a impiedica participantii sa cada in monotonie de raspunsuri (raspuns standard)

    exemplu: se inverseaza in test raspunsul pozitiv cu cel negativ pe o scala

    valorica

    Cat de multumiti sunteti de tratament:

    1 - foarte multumit

    5 - deloc

    La un moment dat:1 - reprezinta deloc

    5 - reprezinta foarte mult

    Astfel, practic se capteaza interesul participantilor

    La sfarsit, inainte de a se introduce datele, cercetatorul trebui sa recodeze

    raspunsurile, pentru a le alinia in aceeasi directie

  • 7/30/2019 Curs 3 Cercetare

    13/51

    4. Recodarea Variabilelor

    unele variabile pot fi mai usor analizate daca sunt recodate in categorii

    exemplu: un cercetator care stie numarul de internari intr-o zi,

    precum si varsta pacientilor, estimeaza nr de internari pe

    decade de varsta a pacientilor

    Practic, schimba variabilele continue (orice varsta) in

    variabile categoriale (intrevale de varsta)

    exemplu: uneori, se combina variabile categoriale (exemplu: decade

    de varsta) in categorii mai putine (varsta 10-50 ani)

    Se aplica daca exista extreme (categorii cu putina

    populatie) ce pot altera analiza statistica

  • 7/30/2019 Curs 3 Cercetare

    14/51

    Analiza Datelor

    datele sunt ceea ca am obtinut dupa ce am efectuat o cercetare,ele ne permit sa raspundemla intrebarile ridicate de cercetare

    analiza datelor se face dupa proceduri statistice care permit: sa descrie grupuri de indivizi sau evenimente

    sa masoare diferentele dintre grupuri si conditii

    sa rezulte raspunsuri pentru un grup, care sa fie valabile pentru populatia din care

    s-a selectionat acel grup

    Procedurile statistice se impart in 2 categorii:1. statistica descriptiva prin care cercetatorul descrie date, rezultate din

    cercetare si examineaza relatiile dintre variabile

    2. statistica analitica examineaza cauzalitatea, relatiile dintre eveniminte

    Practic, statistica descriptiva se ocupa cu reprezentarea masuratorilor datelor

    la un esantion de populatie

    Statistica analitica se ocupa cu folosirea datelor de la un esantion de populatie

    pentru a le extrapola si a face deductii asupra populatiei

  • 7/30/2019 Curs 3 Cercetare

    15/51

    Statistica Descriptiva (1)

    Metoda folosita pentru a descrie datele obtinute din cercetare si pentru acaracteriza cat mai exact variabilele dintr-un esantion specific

    Aceasta metoda este frecvent uzitata pentru a rezuma o cercetare inainte de aformula ipoteza primara a acesteia.

    Prin statistica descriptiva se iau in discutie parametrii reprezentativi si se creazapremisele ca aceasta cercetare si se creaza premisele ca aceasta cercetare sa

    poate fi reluata (replicata)

    Obiectivul principal al statisticii descriptive este de a descrie cu acuratetedistributia unor variabile in cadrul unui set determinat de date

  • 7/30/2019 Curs 3 Cercetare

    16/51

    Statistica Descriptiva (2)

    Examinarea distributiei variabilelor se realizeaza cel mai frecvent prin asa numita distributiede frecventa, exemplificata prin tabla de frecventa.

    Aceasta este o lista completa a tuturor valorilor (scorurilor) unei variabile si care cuprinde

    alaturat numarul de ori (frecventa) cu care fiecare valoare (scor) apare

    De obicei se aranjeaza in ordine crescanda / descrescanda

    Valoare Frecventa de aparitie

    72 2

    75 3

    76 179 2

    85 3

    102 3

    etc

    Exista moduri mai precise de determinare a distributiei unor valori ale variabilelor si anume

    prin:A. Masurarea tendintei centrale

    B. Masurarea dispersiei

    C. Prezentarea grafica sau pictoriala

  • 7/30/2019 Curs 3 Cercetare

    17/51

    Statistica Descriptiva (3)

    A. Masurarea tendintei centrale la un esantion de populatie arata o valoare medie a unui parametru masurat la

    acea populatie.

    Se face prin mai multe metode:

    1. Media Aritmetica2. Mediana

    3. Modul

    B. Masurarea dispersiei (distributiei) descrie intinderea / variatia unor valori dintr-un esantion sau populatie

    Metode de masurare:

    1. Range / Interval2. Variatia

    3. Deviatia standard

    4. Coeficientul de variatie

    C. Prezentare grafica sau pictoriala utila in prezentarea datelor; prezentare simplificata

    1. Grafic circular

    2. Diagrama VENN

    3. Diagrama cu bare

    4. Histograma

    5. Curbe epidemice

    6. Poligon de frecventa

    7. Grafic de frecventa cumulativa

    8. Harta cu simboluri grafice

  • 7/30/2019 Curs 3 Cercetare

    18/51

    Reprezentarea Grafica (Pictoriala)

    Simplifica prezentarea si mareste gradul de intelegere a datelor

    Trebuie sa aiba obligatoriu: Titlu cu ce reprezinta

    Axe de coordonate cand este cazul

    Unitati de masura

  • 7/30/2019 Curs 3 Cercetare

    19/51

    Tipuri de Reprezentare Grafica (1)

    Grafic Circular

    este o reprezentare proportionala (in sectoare de cerc) a unor diviziuni de element(exemplu: de populatie)

  • 7/30/2019 Curs 3 Cercetare

    20/51

    Tipuri de Reprezentare Grafica (2)

    Diagrama VENN

    arata gradul de depasire / suprapunere pentru 2 sau mai multi factori din cadrul unor esantioanede populatie (in care fiecare caracteristica este reprezentata de un cerc intreg sau alt simbol)

  • 7/30/2019 Curs 3 Cercetare

    21/51

    Tipuri de Reprezentare Grafica (3)

    Diagrama cu Bare

    modalitate de a compara categorii de date. Diferitele categorii sunt indicate pe o axa, frecventafiecarei categorii fiind indicata de cealalta axa, iar categoriile fiind comparate prin lungimea barelor

  • 7/30/2019 Curs 3 Cercetare

    22/51

    Tipuri de Reprezentare Grafica (4)

    Histograma

    O forma speciala de diagrama cu bare care reprezinta categoriile de date in mod ordonat sicontinuu. Aceste bare sunt alaturate pe axa X (abcisa), si in general fara spatii libere, iar frecventa

    fiecarei date este reprezentata pe ordonata ( axa Y)

  • 7/30/2019 Curs 3 Cercetare

    23/51

    Tipuri de Reprezentare Grafica (5)

    Curba epidemica

    este o histograma care ilustreaza evolutia unei boli, anomalii sau conditie intr-o populatie definita,intr-o locatie specifica si pe un anume interval de timp

    Intervalele - pe axa X

    Nr de cazuri din timpul fiecarui interval pe axa Yaceasta curba evidentiaza peak-ul unei boli (mod) sau o posibila perioada de incubatie saulatenta sau in ce fel progreseaza boala

  • 7/30/2019 Curs 3 Cercetare

    24/51

    Tipuri de Reprezentare Grafica (6)

    Poligon de frecventa

    este reprezentarea unei distributii de categorii de date continue si ordonate (asemanator cuhistograma)

    axa X categoriile de date axa Y frecventa datelor din fiecare categorie

    frecventa (reprezentata prin puncte) este desenata print-o linie ce trece prin aceste puncte poate contine (fata de histograma) mai multe grafice (linii) de frecventa ( exemplu: la femei, labarbati)

  • 7/30/2019 Curs 3 Cercetare

    25/51

    Tipuri de Reprezentare Grafica (7)

    Grafic de frecventa cumulativa

    reprezinta de asemenea o reprezentare a distributiei datelor (exemplu: cazurilor) in mod continuusi ordonat

    valoarea frecventei datelor in aceasta situatie reprezinta suma datelor axa X categoriile de date Axa y frecventa cumulativa de date, uneori reprezentata ca procent ce variaza

    intre 0% si 100%

    acest tip de grafic este folosit in calcularea distributiei in procente, inclusiv calcularea medianei

    (care apare la 50%)

  • 7/30/2019 Curs 3 Cercetare

    26/51

    Tipuri de Reprezentare Grafica (8)

    Harta cu date pozitionate (harta cu coordonate geografice)

    este o harta a unei regiuni cu localizarea fiecarui caz de boala, anomalie sau conditie masurata

  • 7/30/2019 Curs 3 Cercetare

    27/51

    Statistica Descriptiva (1)

    A. Masurarea tendintei centrale

    Media aritmetica = suma tuturor valorilor dintr-o serie (sir de valori) impartitala nr de valori din acea serie

    Valoarea ei depinde de valorile extreme din serie

    Calcul: media aritmetica

    X = xi / n unde = suma dexi = fiecare valoare din serie

    n = numarul de valori din serie

    Daca se aplica unei intregi populatii, simbolul pentru medie este , iar nr populatieieste N

    Exemplu: varsta (in ani) a unor copii aflati intr-un salon de pediatrie

    este: 1,1,1,2,4,6,6

    = 1+1+1+2+4+6+6 = 21 anin = 7

    X = 21/7 = 3 ani

  • 7/30/2019 Curs 3 Cercetare

    28/51

    Statistica Descriptiva (2)

    A. Masurarea tendintei centrale

    2. Mediana

    Reprezinta valoarea care divide seria in 2 grupuri egale, astfel incat jumatate din valorisunt mai mari si jumatate din valori sunt mai mici ca mediana

    Valoarea ei nu depinde de valorile extreme dintr-o serie, de aceea este o metoda mai

    fidela pentru masurarea tendintei centrale decat media aritmetica

    Calcul: In caz de numar impar de valori, valorile se aranjeaza de la cea mai mica la

    cea mai mare, iar valoare care imparte seria in jumatate este mediana

    In caz de numar par si 2 valori se afla la mijloc, se face suma lor aritmetica =

    mediana

    Exemplu: la copii mediana este 2

  • 7/30/2019 Curs 3 Cercetare

    29/51

    Statistica Descriptiva (3)

    A. Masurarea tendintei centrale

    3. Modul sau (mod)

    reprezinta valoarea care apare cel mai frecvent intr-un sir. O serie poatesa nu aiba mod (nici o valoare nu apare mai mult de o data) sau poate

    avea mai multe moduri

    Folosit practic in epidemiologiedeterminarea peak-ului (varfului) deaparitie a unei boli

    Calcul se determina ce valoare / valori apare / apar maifrecvent intr-o serie

    Exemplu: copii de 1,1,1,2,4,6,6 aniModul de varsta este 1

  • 7/30/2019 Curs 3 Cercetare

    30/51

    Statistica Descriptiva (4)

    B. Masurarea Dispersiei

    Masurarea tendintei centrale (de exemplu prin medie) desemneaza valoarea aproximativ demijloc dintr-un sir de valori, dar nu spune nimic despre cat de mult variaza valorile (cat de

    dispersate sunt)

    Dispersia unei distributii (sir) reflecta cat de strans sunt grupate valorile in jurul unui centru aldistributiei (adica in jurul mediei, medianei si / sau modului)

    Cele mai frecvente metode pentru reflectarea dispersiei sunt:

    1. Domeniu (range)

    2. Variatia

    3. Deviatia standard

  • 7/30/2019 Curs 3 Cercetare

    31/51

    Statistica Descriptiva (5)

    B. Masurarea Dispersiei

    1. Domeniu

    domeniul unei distributii reprezinta cel mai mic interval posibil in care se afla valorile

    calculare: diferenta intre cea mai mare si cea mai mica valoare dintr-o distributie

    Exemplu: grup cu urmatoarele valori (de exemplu: varsta in ani)

    23, 23,23,26,27,27,28,32,34,41Domeniu 41-23 = 18

    deoarece depinde doar de 2 valori extreme din distributie, domeniul arata in destul de micamasura gradul de dispersie, cu exceptia cazurilor in care esantioanele (sirurile) sunt mari

  • 7/30/2019 Curs 3 Cercetare

    32/51

    Statistica Descriptiva (6)

    B. Masurarea Dispersiei

    2. Variatia

    Reflecta intr-o masura mai mare dispersia

    Arata cat de concentrate sunt valorile in jurul unei valori medii

    Calculare: Exemplu: grup de valori: 23,23,23,26,27,28,32,34,41 (10 valori)

    Se face media aritmetica:

    (23+23+23+26+27+28+32+34+41) / 10 = 28.4Se scade media de distributie din fiecare valoare

    Se ridica la patrat fiecare rezultat

    Se aduna toate aceste valori la patrat

    Se imparte rezultatul la numarul de valori minus 1

    Variatia = [(23-28.4)+(23-28.4)+(23-28.4)+(26-28.4)+(27-

    28.4)+(27-28.4)+(28-28.4)+(32-28.4)+(34-28.4)+(41-28.4)] : (10-1) = 33.37

    Variatia unei distributii reflecta cat de mult, in valori la patrat, sunt de distantate valorile fata demedie, deci cat de concentrate sunt aceste valori intr-o distributie

    Variatia se calculeaza in special pentru a putea ulterior afla deviatia standard

  • 7/30/2019 Curs 3 Cercetare

    33/51

    Statistica Descriptiva (7)

    B. Masurarea Dispersiei3. Deviatia Standard (Standard Deviation SD)

    reprezinta radacina patrata din variatie

    de exemplu: 33.37 = 5.78 (exemplul precedent),deci 5.78 (ani) reprezinta deviatia standard a grupului de 10 persoane

    este o notiune larg folosita in statistica, in caz de distributie normala a valorilor (distributiegausiana)

    Se considera:

    a) aproximativ 68% din valori cad in intervalul de 1 deviatie stantard (+1-1) fata

    de medie

    b) aproximativ 95% din valori cad in intervalul de 2 deviatii standard (-2+2) fata

    de medie

    c) aproximativ 99% din valori cad in intervalul de 3 deviatii standard (-3+3) fata

    de medie

  • 7/30/2019 Curs 3 Cercetare

    34/51

    Statistica Descriptiva (8)

    B. Masurarea Dispersiei

    Exemplu: acelasi sir de 10 valori: 23,23,23,26,27,27,28,32,34 Media este 28.4 Deviatia standard este 5.78

    Daca distributia este normala, rezulta ca:

    - aproximativ 68% din participanti au 5.78 ani (o deviatie

    standard) fata de media de 28.4 ani

    - aproximativ 95% din participanti au 11.56 ani (2 deviatii

    standard) fata de media de 28.4 ani

    Acest calcul are multe specificatii permite cercetatorului sa descrie in general caracteristicile unui grup (sir de valori)

    Permite cercetatorului sa compare participanti individuali cu o variabila data (de

    exemplu: varsta)

    Permite cercetatorului sa compare o performanta individuala a unui participant(exemplu: scor Qi) cu o performanta in alt domeniu (exemplu: nivel academic),

    chiar daca variabilele (scor Qi, nivel academic) sunt masurate pe scari complet

    diferite

  • 7/30/2019 Curs 3 Cercetare

    35/51

  • 7/30/2019 Curs 3 Cercetare

    36/51

    Coeficientii de corelatie (cc) se intind de la -1 la +1. Semnul cc reprezinta directia relatiei: De exemplu: - un cc de 0.78 indica o corelatie pozitiva (directa)

    - un cc de0.78 indica o corelatie negativa (inversa)- valoarea cc indica puterea relatiei: cu cat este mai aproape de valoarea

    1, indiferent daca este + sau, cu atat este mai puternica relatia- corelatii intre: - 0.01 si 0.3 sunt considerate mici

    - 0.3 si 0.7 sunt considerate moderate

    - 0.7 si 0.9 sunt considerate mari

    - 0.9 si 1 sunt considerate foarte mari

    In plus, coeficientul de corelatie (cc) poate fi folosit pentru a calcula coeficientul dedeterminare. Acesta reprezinta proportia de variatie asociata (datorata) corelatiei. Se

    calculeaza ridicand la patrat cc

    Exemplu: daca exista o corelatie (cc) de 0.7 intre fumat si consumul de cocaina, coeficientulde variatie este (0.7) = 0.49

    Apoi, coeficientul de corelatie se transforma in procent (49%). Deci, un cc de 0.7 exprima 49%din variatie

    Din contra, o corelatie de 0.2 reprezinta un coeficient de determinare de 0.4, indicand faptul casunt implicate si alte variabile

    Corelatia nu inseamna cauzalitate !

    Corelatia (Asocierea) (2)

  • 7/30/2019 Curs 3 Cercetare

    37/51

    Eroare Standard si Limite de Siguranta ale Mediei (1)

    A. Eroarea standard a mediei (SEM)

    eroarea standard a unei masuri este bazata pe un esantion de populatie si este estimareadeviatiei standard a masurii pentru populatie

    eroarea standard a mediei (standard error of the mean = SEM) reprezinta o masura aacuratetii mediei unui esantion, medie care ar avea rol estimativ pentru populatie.

    Prin comparatie, deviatia standard (standard deviation, SD) reprezinta o masura a variabilitatii

    unei observatii

    valorile SEM sunt o estimare pentru SD

    SEM se foloseste in stabilirea limitelor de confidenta din jurul mediei

    SEM se foloseste in Students test si este o masura a fluctuatiei esantionului

    calculare: SEM = SD/n

    unde SD = deviatia standardn = numarul de observatii in esantion

    exemplu: greutatea medie a 100 studenti este 70 kg, cu o deviatie standard (SD)de 2 kg

    SEM = 2/100 = 2/10 = 0.2 kg, adica 0.2 kg este si deviatia standard apopulatiei

  • 7/30/2019 Curs 3 Cercetare

    38/51

    Eroare Standard si Limite de Siguranta ale Mediei (2)

    B. Limite de siguranta ale mediei

    cele 2 limite (superioara si inferioara) definesc un camp de probabilitati, adica un interval desiguranta pentru o masura (variabila) a populatiei, bazandu-se pe masurarea unui esantion sia erorii standard a mediei (SEM)

    intervalele de confidenta (siguranta) se exprima in termenii de probabilitate, bazate pe eroarea (eroare tip I)

    un interval de siguranta (1-) indica faptul ca exista o probabilitate de (1-) ca mediapopulatiei sa cada intre limitele superioare si inferioare ale intervalului si ca exista oprobabilitate ca sa cada in afara limitelor

    limitele de siguranta ale mediei definesc acel interval de siguranta pentru media populatiei,bazat pe media unui esantion

    pentru esantioane mari, limitele de siguranta se bazeaza in scorul Z ( numarul de

    deviatii standard de care o valoare se indeparteaza de medie, la o populatie cu

    distributie normala gaussiana).Pentru un interval de siguranta de 95%, valoare estimata a erorii este inmultita cu

    1.96, sansele fiind de 95%(19 din 20) ca intervalul sa includa rezultatele

    pentru esantioane mici (mai mici de 30) limitele de siguranta sunt bazate pe

    valoarea t pentru numarul de grade de libertate

  • 7/30/2019 Curs 3 Cercetare

    39/51

    Eroare Standard si Limite de Siguranta ale Mediei (3)

    Cele mai des folosite limite de siguranta sunt cele de 95%, care arata ca exista o probabilitatede 95% ca media populatiei sa cada intre limita superioara si inferioara a intervalului

    Este o probabilitate de doar 5% ca media sa cada in afara intervalului (=0.05)

    Alte intervale mai des folosite sunt 90% (=0.10) si 99% interval de siguranta (=0.01)

    Datele (valorile, cifrele) incluse in intervale de siguranta furnizeaza o masura cantitativa aefectului si dau indicati asupra marimii valorii adevarate, informatie care nu este posibila in

    cazul in care comparam date bazate pe simpla semnificatie statistica (p

  • 7/30/2019 Curs 3 Cercetare

    40/51

    Eroare Standard si Limite de Siguranta ale Mediei (4)

    Exista o larga paleta de corelatii, determinate in special de tipul de scala (nominala, ordinala,

    interval, de proportie)

    Exemplu: Pearson product moment correlation (Pearson r) - examineaza asocierea dintre 2

    variabile care sunt masurate pe scale de proportie sau scale de interval (corelatia intre

    zilele de exercitii si nr de kg pierdute)

    Point-biserial (rbi) - examineaza asocierea dintre o variabila masurata pe o scala

    nominala dichotomica si o variabila masurata pe scala de interval sau de proportieExemplu: corelatia intre sex (M, F) si pregatirea universitara

    Spearmint rank-order (rs) - examineaza relatia intre 2 variabile masurate pe o scala

    ordinala (exemplu: corelatia intre rangul social si statusul socio-economic)

    Phi(0) - examineaza relatii intre 2 variabile natural dichotomice (nominale), (exemplu:

    corelatia intre sx - dichotomic si status marital)

    Gamma () examineaza relatia intre o variabila nominala si o variabila masurata pe oscala ordinala (exemplu: corelatia intre grupa etnica-nominal si statusul socio-economic-

    ordinal)

  • 7/30/2019 Curs 3 Cercetare

    41/51

    Statistica Analitica (1)

    Deoarece nu este posibil a se colecta date de la intreaga populatie, cercetatorii folosecesantioane reprezentative in incercarea de a face deductii asupra populatiei din randul careia

    provin esantioanele. Aceste analize se numesc statistica analitica

    De exemplu:

    prin statistica analitica, folosind date de la un esantion de angajati, se pot trage

    concluzii asupra intregului colectiv

    Se analizeaza date privind 2 esantioane diferite, se deduc rezultate pentru

    populatie (efectul unui medicament asupra a 2 grupuri de pacienti, se extrapoleaza

    rezultatul asupra populatiei)

    Exista totusi un grad de incertitudine sau eroare ce trebuie luata in consideratie. Statisticaanalitica este in masura sa specifice gradul de eroare

    Se aleg esantioane intamplatoare, nu reprezentative (adica din indivizi selectati ce intrunesccel mai mult anumite caracteristici). Rezultatele prin esantioane intamplatoare sunt mai

    concludente pentru populatie

    Studiul de statistica analitica incepe prin formularea unor ipoteze specifice a ceea ce ne-amastepta sa gasim (sa fie adevarat) la acea populatie. Aceste ipoteze nu le putem dovedi cu

    certitudine. Si astfel trebuie sa testam ipoteza nula si sa vedem daca o acceptam sau

    rejectam

  • 7/30/2019 Curs 3 Cercetare

    42/51

    Statistica Analitica (2)

    Terminologie

    Probabilitatea

    Probabilitatea unui eveniment este fractia sau proportia care arata in ce masura neasteptam ca acel eveniment sa se produca

    Nu poate niciodata fi mai mare de 1 (100%) sau mai mic de 0 (0%) De obicei, valorile care indica probabilitatea sunt distribuite in maniere care permit

    analizarea populatiei. Distributia acelor probabilitati include:

    a) distributie binomiala (binomica)

    b) distributie normalac) distributie td) distributie hi

    Daca valorile de probabilitate nu urmeaza o anumita distributie (exemplu: a-d), ele sepot analiza folosind metode non-parametrice

    Calcularea probabilitatii:P(A) = A/N

    unde P(A) = probabilitatea ca evenimentul A sa apara

    A = de cate ori apare efectiv evenimentul AN = nr total de evenimente in cadrul carora apare evenimentul

    De exemplu: un fotbalist incearca sa bage gol in poarta de 100 ori, si reuseste din prima

    incercare de 30 ori. Probabilitatea ca data viitoare cand incearca din nou sa

    bage gol din prima incercare este de 30 / 100 =30%

  • 7/30/2019 Curs 3 Cercetare

    43/51

    Statistica Analitica (3)

    2. Ipoteza Nula (Ho)

    Ipoteza prin care se considera ca esantioanele studiate intr-un experiment sunt similare (nuexista diferente intre ele). Orice diferenta care apare este considerata intamplatoare si nu se

    datoreaza unui factor ce poate fi masurat

    Ho este initial acceptata si considerata adevarata pentru toate comparatiile analitice

    Ipoteza care trebuie testata (ipoteza alternativa) trebuie formulata inainte de incepereastudiului, astfel incat Ho sa poata fi testata prin tehnici statistice

    Ho este folosita pentru a defini diferenta statistica = semnificatie statistica. Aceasta inseamnaca diferentele dintre esantioane sunt datorate unor factori si nu intamplarii. Cu alte cuvinte

    diferenta (semnificatia) statistica apare cand Ho este rejectata

    Conlcuzii: Cand Ho este rejectata (exista diferente intre esantioane), cel putin o ipoteza

    alternativa este acceptata, deci exista factori care dau diferenta intre esantioane

    altii decat cei intamplatori

    Cand nu se evidentiaza semnificatie statistica intre esantioane, acestea pot fi

    totusi diferite, adica acceptarea Ho nu inseamna neaparat ca populatiile sunt

    identice

    Nivelul de siguranta pentru a rejecta ipoteza nula este arbitrar. O valoare

    conventionala limita pentru a defini diferenta semnificativa este 5%

    Daca probabilitatea ca diferentele intamplatoare este 5% sau mai putin (deci,

    exista diferente reale), atunci Ho este rejectata si se accepta ipoteza alternativa

    Statistica Analitica (4)

  • 7/30/2019 Curs 3 Cercetare

    44/51

    ( )

    3. Erori Intamplatoare

    In analizarea Ho se refera la 2 categorii:1. Tip I (eroare de prim rang) sau eroare , reprezinta rejectarea unei ipoteze nule,

    cand in mod real ea ar trebui acceptata (adica declari ca exista diferente

    intre 2 grupuri cand de fapt nu exista) Comparatiile si testarile multiple cresc riscul de a face eroare tip I

    Cand ipoteza nula este adevarata (nu exista diferente) se fac n testestatistice independente, probabilitatea ca cel putin un test sa apara

    statistic semnificativ (p

  • 7/30/2019 Curs 3 Cercetare

    45/51

    Statistica Analitica (5)

    3. Erori Intamplatoare

    Exista multe forme de statistica analitica care se aplica studiilor in functie de natura intrebarilorformulate sau a tipurilor de variabile analizate.

    Intre cele mai folosite tehnici de calcul sunt (carti de statistica): T test Testul hi (chi-square)

    Analiza variatiei (Anova)

    Ttest (Students t test)

    Folosit pentru a testa diferente medie intre 2 grupuri

    In general, implica o singura variabila dichotomica independenta (exemplu: un grupexperimental si un grup de control) si o singura dependenta continua

    Se bazeaza pe o distributie t care reflecta o mai mare variatie datorata intamplarii decat indistributia normala. Distributia t este o distributie simetrica continua, unimodala, in forma declopot (ca cea gaussiana) dar mai intinsa

  • 7/30/2019 Curs 3 Cercetare

    46/51

    Statistica Analitica (6)

    1. Testul t pentru un singur esantion mic

    Compara un singur esantion mic cu populatia

    Evalueaza ipoteza nula (Ho) pentru variabile continue in esantioane ce contin < 30 elemente,la care deviatia standard se substituie (tine loc) deviatiei standard a populatiei

    Exemplu: valoarea medie a glicemiei la un grup de 12 persoane este de 79.3 mg%, iardeviatia standard calculata este 5mg. Se poate calcula valoarea medie a glicemiei

    pentru toata populatia luata in discutie

    Se calculeaza valoarea t la grade de libertate (exista tabele analitice)

    Probabilitatea se ia din tabelele analitice. Daca este

  • 7/30/2019 Curs 3 Cercetare

    47/51

    Statistica Analitica (7)

    2. Testul t pentru esantioane independente

    Compara mediile a 2 mici esantioane

    Ambele esantioane sunt sub 30

    Exemplu: valoare Na din ser se masoara la 2 grupe de pacientiUn grup de 6 pacienti are valori: 142, 147, 148, 149, 153, 153 cu o medie de 149 mg%

    Alt grup de 5 pacienti are valori: 138, 139, 142, 143, 144 cu o medie de 141.2 mg%

    Diferenta dintre medii: 8 mg%. Pentru a vedea daca aceasta diferenta se datoreaza intamplarii,se determina valoarea t (formula in carti)

    T (df) = (x-y) / SDp (1/nx+1/ny)X = 149, y = 141,2

    nx = 6, ny = 5

    SDp = 3.35

    Valoarea t in functie de gradele de libertate (exista tabele analitice) la 9 grade este egala cu ceala 8, si probabilitatea ca diferenta sa fie intamplatoare (conform unor tabele analitice) este mai

    mica de 0.01, deci Ho este rejectata si diferenta nu este intamplatoare

  • 7/30/2019 Curs 3 Cercetare

    48/51

    Statistica Analitica (8)

    Testul chi

    arata masura in care un singur sir de proportii difera de o distributie de proportii teoretica

    sau

    arata masura in care 2 sau mai multe serii, proportii sau frecvente difera unele de altele,bazandu-se pe o distributie chi

    distributia chi este o distributie de probabilitati continua, asimetrica, bazata pe o aproximatie aunei distributii binominale

    in urma testului, dupa formule (exista in carti) si tabele chi, se determina probabilitatea si sevede daca este intamplatoare. Se rejecteaza sau nu ipoteza nula luand ca valoare limita de

    semnificatie statistica valoarea de 0.05

    Variante chi 2 x 2 chi

    Testul Mc Nemar

  • 7/30/2019 Curs 3 Cercetare

    49/51

    Statistica Analitica (9)

    A se tine seama de urmatoarele concepte (si intrebari):

    Are studiul suficienta putere statistica ?

    Concept destul de nou introdus in cercetare

    Putere statistica probabilitatea de a gasi rezultate semnificative cand ele chiar exista (deciprobabilitatea ca un test statistic sa rejecteze o falsa nula ipoteza)

    Cu cat puterea statistica a unui test este mai mare, cu atat mai mult gasim semnificatii

    statistice daca ipoteza nula este falsa (adica exista un efect)

    Cercetarile trebuie sa aiba o putere statistica de peste 0.8 pentru a evita eroarea de gradul II

    Puterea statistica este determinata de cel putin 3 factori Nivelul (valoarea limita) a semnificatiei (exemplu: 0.05 sau 0.01)

    Cat de mare este diferenta (magnitudinea diferentei) intre mediile esantioanelor

    Marimea esantioanelor

    Cercetatorii ar trebui sa-si calcueze puterea statistica inainte de a incepe propriu ziscercetarea pentru a-si determina marimea esantionului in vederea obtinerii unei suficiente

    puteri statistice (>=0.8)

  • 7/30/2019 Curs 3 Cercetare

    50/51

    Statistica Analitica (10)

    Care este distributia (caracteristici) ?

    Exista anumite tipuri de distributie care permit calcularea unor teste parametrice (exemplu: ttest, chi, etc)

    O alta problema o reprezinta valorile extreme, care la o distributie pot substantial devia formadistributiei si altera valoarea medie. Dupa identificarea valorilor extreme, acestea se pot

    inlocui (vezi curs trecut)

    O alta problema: cat de mare este limita dintre valori. Deseori, in cercetare nu se obtinrezultate deoarece este o variatie mica (domeniu restrans) a variabilelor dependente(exemplu: esantionul contine date-valori ale glicemiei intre 69 si 70)

    Apar erori din prea multe testari ?

    Se refera la faptul de a comite eroarea tip I facand multe teste statistice la acelasi experiment

    Cand se fac multe comparatii referitoare la aceleasi date, probabilitatea ca una din comparatiisa fie semnificativa statistic creste. Creste riscul de eroare tip I si interpretare gresita a datelor

    Statistica Analitica (11)

  • 7/30/2019 Curs 3 Cercetare

    51/51

    Statistica Analitica (11)

    Cat sunt de exacte si valide masuratorile ?

    Greseala frecventa in cercetare a considera metodele de masurare corecte

    In special cand se folosesc masuratori nestandardizate ce pot varia destul de mult sau candse folosesc tehnici de masurare a caror acuratete si validitate nu au fost testate

    Semnificatie statistica versus semnificatie clinica

    Din cauza complexitatii tehnice de calcul si a detaliilor, se poate acorda mai mare importanta

    semnificatiei statistice, ceea ce este fals

    Adevarata valoare a cercetarii este data de semnificatia clinica

    Desigur ca semnificatia statistica este si ea relevanta, deoarece arata cat de corect este unrezultat sau cat de mult tine de intamplare

    Uneori studiile pot avea semnificatie statistica mare, dar sa fie irelevante clinic

    Corelatie nu inseamna cauzalitate

    Simpla masurare de corelatie (de asociere) a unor elemente, chiar daca exista un grad marede corelare, nu inseamna relatie de cauzalitate

    Exemplu: nu temperaturile scazute determina virozele respiratorii