kęstutis Žilinskas Šiaulių universitetas, 2013
DESCRIPTION
DUOMENŲ GAVYBA. Paskaita 2 . Duomenys ( Duomenų , objekt ų ir atributų, imčių, duomenų priklausomumo sąvokos. Duomenų skalės, rinkinių tipai, duomenų bazės). Kęstutis Žilinskas Šiaulių universitetas, 2013. Duomen ų samprata. Plačiaja prasme duomenys tai: Faktai; Tekstas; Grafikai; - PowerPoint PPT PresentationTRANSCRIPT
Paskaita 2. Duomenys(Duomenų, objektų ir atributų, imčių, duomenų priklausomumo sąvokos. Duomenų skalės, rinkinių tipai, duomenų bazės)
Kęstutis ŽilinskasŠiaulių universitetas, 2013
DUOMENŲ GAVYBA
Duomenų samprata
Plačiaja prasme duomenys tai: Faktai; Tekstas; Grafikai; Paveikslėliai; Garsai; Analoginiai ar skaitmeniniai video
segmentai.
Duomenys gali būti gaunami: Matuojant; Atliekant eksperimentus; Atliekant aritmetinius veiksmus; Atliekant loginius veiksmus.
Duomenys turi būti pateikti forma, tinkama saugoti, perduoti ir apdoroti (pertvarkyti).
Duomenys
Duomenys – būtina duomenų gavybos prielaida.
Duomenis pateikia užsakovas arba saugyklos administratorius.
Duomenis naudoja vartotojas. Duomenių pagalba gali būti formuojama nauja informacija.
Duomenų rinkiniai
Lentelė 1. Objektai - atributai
Atributai
Objektai
Kliento kodas Amžius Šeimyninė padėtis Pajamos Klasė
1 18 Single 125 1
2 22 Married 100 1
3 30 Single 70 1
4 32 Married 120 1
5 24 Divorced 95 2
6 25 Married 60 1
7 32 Divorced 220 1
8 19 Single 85 2
9 22 Married 75 1
10 40 Single 90 2
Objektai ir atributai
Objektas aprašomas atributų rinkiniu.
Objektas gali būti vadinamas: Užrašu; Įrašu, Atveju; Pavyzdžiu; Lentelės eilute ir pan.
Objektai ir atributai
Atributas – objektą apibūdinanti savybė (pavyzdžiui): Žmogaus akių spalva; Vandens temperatūra ir pan.
Atributas gali būti vadinamas: Kintamuoju; Lentelės lauku; Matmeniu (išmatavimu); Charakteristika; Požymiu.
Kintamasis
Kintamasis – bendra visiems nagrinėjamiems objektams savybė arba charakteristika, kuri reiškiasi skirtingai pereinant nuo vieno objekto prie kito.
Kintamojo reikšmė – požymio kokybinė arba kiekybinė išraiška.
Imtis
Analizuojant duomenis dažniausiai negalima nagrinėti visos objektų aibės (generalinės aibės).
Užtenka nagrinėti šios aibės dalį – imtį.
Imties dydis (ilgis, tūris) turi priklausyti nuo objektų įvairovės bei apimti skirtingus objektų aibės elementus ir jų kompinacijas.
Imtis
Generalinė aibė (population) – visa nagrinėjamų, tyrėją dominačių objektų aibė.
Imtis (sample) – specialiu būdu atrinkta generalinės aibės dalis, leidžianti daryti išvadas apie generalinės aibės savybes ir charakteristikas.
Imtis
Parametrai – skaitinės generalinės aibės charakteristikos.
Statistikos – skaitinės imties charakteristikos.
Hipotezės
Dažnai tyrimas remiasi hipotezėmis, kurios tikrinamos duomenų pagalba.
Hipotezė – prielaida apie objektų aibės parametrus, kuri gali būti patikrinta aibės daliai.
Hipotezė – dalinai pagrįstas žinių dėsningumas arba nurodantis ryšius tarp empirinių faktų, arba paaiškinantis faktus ar jų grupes.
Hipotezės pavyzdys:
yra ryšys tarp gyvenimo trukmės ir maitinimosi kokybės rodiklių.
Tyrimo tikslas: konkretaus kintamojo (gyvenimo trukmės) kitimo paaiškinimas.
Hipotezės patikslinimas:
Priklausomas kintamasis (gyvenimo trukmė) keičiasi priklausomai nuo keleto priežasčių (maitinimosi kokybės, gyvenimo būdo, gyvenamosios vietos ir pan.), t.y. nuo nepriklausomų kintamųjų.
Kintamasis iš pradžių nėra nei priklausomas, nei nepriklausomas.
Priklausomumą nusako tik hipotezė.
Matavimai
Matavimas – skaičių priskyrimas nagrinėjamo objekto charakteristikoms pagal tam tikrą taisyklę.
Duomenų paruošimo procese matuojamas ne pats objektas, bet jo charakteristikos.
Skalės
Skalė – taisyklė, pagal kurią objektų charakteristikoms priskiriami skaičiai.
Duomenų gavyboje svarbu kintamojo skalė arba kintamųjų duomenų tipas.
Kintamieji būna skaitiniai arba simboliniai.
Skaitiniai duomenys būna diskretieji arba tolydieji.
Skalės
Duomenų gavyboje nagrinėjamos penkios matavimų skalės: Nominalioji; Sutvarkyta; Intervalinė; Santykinė; Dichotominė.
Nominalinė skalė (nominal scale)
Skalę sudaro tik kategorijos. Duomenų negalima surikiuoti. Su duomenimis negalima atlikti
aritmetinių veiksmų. Nominalinė skalę nusako pavadinimai,
vardai, skirti klasifikavimui ir grupavimui. Pvz.: profesijos, miestai, šeimyninė padėtis.
Galimos operacijos: lygu(=), nelygu(≠).
Sutvarkyta skalė (ordinal scale)
Objektams priskiriami skaičiai, nurodantis objektų santykinę padėtį, bet ne jų skirtumus.
Leidžia sutvarkyti objektus, suteikti jiems rangus, bet neleidžia nustatyti, kiek vienas dydis didesnis už kitą.
Sutvarkyta skalė (ordinal scale
Pvz.: komandos vieta čempionate, mokinio vieta valstybinio egzamino reitinge (neaišku, kiek kiekvienas mokinys žino daugiau už kitą).
Galimos operacijos: lygu(=), nelygu(≠), daugiau(>), mažiau(<).
Intervalinė skalė (interval scale)
Skalė, kurios reikšmių skirtumus galima apskaičiuoti, bet reikšmių santykiai neturi prasmės.
Intervalinė skalė leidžia rasti dydžių skirtumus, turi nominaliosios ir sutvarkytos skalės savybes.
Skalė leidžia nusakyti požymio kiekybinius pokyčius.
Intervalinė skalė (interval scale)
Pvz.: vandens temperatūra jūroje: 190C – ryte ir 240C – vakare, t.y. vakare
5 laipsniais šilčiau, bet 1,26 karto šilčiau.
Intervalinė skalė – tolydžioji. Galimos operacijos: lygu(=),
nelygu(≠), daugiau(>), mažiau(<), sudėtis(+), atimtis(-).
Santykinė skalė
Skalė, kurioje nusakyta atskaitos pradžia ir galimi skalės reikšmių santykiai. Pvz.: bulvių kaina prekybos centre 1,2
karto didesnė nei turguje.
Galimos operacijos: lygu(=), nelygu(≠), daugiau(>), mažiau(<), sudėtis(+), atimtis(-), dalyba(/).
Dichotominė skalė (dichotomous)
Skalė, turinti tik dvi kategorijas. Pvz.: lytis (vyriška, moteriška).
Galimos operacijos: lygu(=), nelygu(≠).
Savybių lentelės
Lentelė 2. Skirtingų objektų savybėsObjekto numeris Profesija (? skalė) Vidutinis balas (? skalė) Išsilavinimas (? skalė)
1 tekintojas 22 среднее2 mokslininkas 55 высшее3 mokytojas 47 высшее
Lentelė 3. Vienos objektų sistemos savybėsMatavimo data Debesuotumas(? skalė) Temperatūra 8 val. ryto (?
skalė)Vėjo stiprumas(? skalė)
1 сентября didelis 220С silpnas2 сентября apsiniaukę 170С stiprus3 сентября giedra 230С Labai stiprus
Duomenų rinkinių tipai
Dažniausiai naudojami duomenys, pateikti įrašų forma.
Duomenų rinkinių pavyzdžiai: Lentelės; Matricos; Dokumentai; Transakcijų duomenys; Operacijų duomenys.
Duomenų saugojimo formatai
Šiuolaikiniame pasaulyje duomenų labai daug.
Pagrindiniai veiksmai su jais: Duomenų pateikimas; Duomenų apskaičiavimas; Manipuliavimas duomenimis; duomenų
apdorojimas (surinkimas, perdavimas ir kt.).
Paprastai duomenys laikomi failuose ir duomenų bazėse.