krvv]~ olvwimiwcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq...

33
Ebben a részben megadjuk a legújabb SPSS verziókhoz adott adatmátrixok egy hosszú listáját rövid leírásukkal. Ezeket az állományokat az olvasó önállóan kielemezheti a könyvben tanult módszertani útmutatások alapján. Nagy részük képzeletbeli adatfájl, azaz konkréten nincs megnevezve a forrás, kisebb részük kutatók által publikált adatmátrix. Az adatvédelmi törvények miatt az SPSS szakemberei a ténylegesen alkalmazásból származó adatokat esetleg megváltoztatták, átkódolták, de a statisztikai jellemzők, sajátosságok megmaradtak. Ezeket az állományokat k.a.= képzeletbeli adatmátrix rövidítéssel megjelöltük. Elhelyeztük az alkalmazási terület kódját is, ahonnan az adatfájl származik. Ezek a fájlok megtalálhatók a könyv weboldalán is. (http://www.szit.bme.hu/~kela/SPSSkönyv/példafájlok ). bank banki, pénzügyi biz. biztosítás élelm. élelmiszeripar erg. ergonómiai ideg. idegenforgalom, turisztika inf. informatika ing. ingatlanértékesítés ipar ipari, műszaki közg. közgazdasági, üzleti, kereskedelmi, reklám közv. közvéleménykutatás krim. kriminológia média média, kommunikáció meo minőségbiztosítás/ellenőrzés met. meteorológia mezőg. mezőgazdaság okt. oktatás orv. orvosi, egészségügyi pol. politológia rekl. reklám hatékonyság sport sport, sportorvosi szoc. szociológia tel. telekommunikáció Accidents.sav (k.a., biz.) Ez egy képzeletbeli adatfájl (rövidítve: k.a.) Egy biztosítási társaság adott régióhoz tartozó gépkocsi balesetek adatait tartalmazza kor és nem szerint összesítve. Segítségével a balesetek kor és nem szerinti baleseti rizikóit lehet elemezni. Változók: agecat korkategória 1 „21 év alatti 2 „21-25” 3 „26-30” gender az kártokozó neme 0 férfi 1 accid a balesetek összes száma az adott kor-nem kategóriában pop a kockázati nem-kor kategória populációjának mérete adl.sav (k.a., orv.)

Upload: others

Post on 23-Apr-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

Ebben a részben megadjuk a legújabb SPSS verziókhoz adott adatmátrixok egy hosszú listáját rövid leírásukkal. Ezeket az állományokat az olvasó önállóan kielemezheti a könyvben tanult módszertani útmutatások alapján. Nagy részük képzeletbeli adatfájl, azaz konkréten nincs megnevezve a forrás, kisebb részük kutatók által publikált adatmátrix. Az adatvédelmi törvények miatt az SPSS szakemberei a ténylegesen alkalmazásból származó adatokat esetleg megváltoztatták, átkódolták, de a statisztikai jellemzők, sajátosságok megmaradtak. Ezeket az állományokat k.a.= képzeletbeli adatmátrix rövidítéssel megjelöltük. Elhelyeztük az alkalmazási terület kódját is, ahonnan az adatfájl származik. Ezek a fájlok megtalálhatók a könyv weboldalán is. (http://www.szit.bme.hu/~kela/SPSSkönyv/példafájlok). bank banki, pénzügyi biz. biztosítás élelm. élelmiszeripar erg. ergonómiai ideg. idegenforgalom, turisztika inf. informatika ing. ingatlanértékesítés ipar ipari, műszaki közg. közgazdasági, üzleti, kereskedelmi, reklám közv. közvéleménykutatás krim. kriminológia média média, kommunikáció meo minőségbiztosítás/ellenőrzés met. meteorológia mezőg. mezőgazdaság okt. oktatás orv. orvosi, egészségügyi pol. politológia rekl. reklám hatékonyság sport sport, sportorvosi szoc. szociológia tel. telekommunikáció Accidents.sav (k.a., biz.) Ez egy képzeletbeli adatfájl (rövidítve: k.a.) Egy biztosítási társaság adott régióhoz tartozó gépkocsi balesetek adatait tartalmazza kor és nem szerint összesítve. Segítségével a balesetek kor és nem szerinti baleseti rizikóit lehet elemezni. Változók: agecat korkategória

1 „21 év alatti 2 „21-25” 3 „26-30”

gender az kártokozó neme 0 férfi 1 nő

accid a balesetek összes száma az adott kor-nem kategóriában pop a kockázati nem-kor kategória populációjának mérete adl.sav (k.a., orv.)

Page 2: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

Agyvérzést kapott női betegekre kidolgozott új terápiát tesztelnek. Az orvosok a betegeket véletlenszerűen két csoportba osztják. Az egyik csoport (kontroll csoport) a hagyományos rehabilitációs kezelést kapta, míg a második csoportot (kezelt csoport) egy új terápia alá vetettek, ami a hagyományos mellett kiegészítő érzelmi (pszichológiai) kezelést jelent. A kezelést követő három hónap után a páciensek hétköznapi tevékenységeit pontozták egy ordinális szintű változóban. Változók: id a páciens azonosítója group a kezelési csoport (0 kontroll, 1 kezelt) gender a páciens neme age a páciens kora los a kórház azonosítója diabetic cukros-e? hypertus van-e magas vérnyomás? afib van-e szívpitvar fibriláció? priorstr volt-e korábban agyvérzése? smoker dohányzik? psd fellépett-e depresszió? travel milyen a mozgékonysága?

0 olyan mint a betegség előtt 1 segítséggel mozgásképes 2 tolószékkel mozgásképes 3 otthonhoz/kórházhoz kötött 4 ágyhoz kötött

cooking főzőképesség 0 bevásárol és főz 1 kevesebbet főz, mint korábban 2 meg tudja melegíteni az ételt 3 nem főz 4 sose főzőtt

housekpg háztartási munkaképesség 0 úgy, mint korábban 1 legalább a felét képes elvégezni a korábbinak 2 kisebb munkát képes önállóan 3 nem képes 4 sose csinált ilyet

advert.sav (k.a., közg.) Az adatmátrixszal a kiskereskedők hirdetésekre fordított összegének és az üzleti eredmények közötti kapcsolatot lehet elemezni. Az eladott árú és a kapcsolatos hirdetési költség olvasható ki a mátrixból. Változók: advert hirdetési költség sales eladott árumennyiség aflatoxin.sav (k.a., élelm.) A kukoricában található aflatoxin méreg tartalmát mutatja. A mértékegység PPB (az egybillió szem közt talált mérgezett szemek száma). A vizsgálathoz 16 elemű mintát használtak fel nyolc különböző termelőtől. Változók:

Page 3: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

toxin aflatoxin tartalom PPB-ben yield a kukorica termelőhelye aflatoxin20.sav (k.a., élelm.) Az előző adatsor 4. és 8. termelőhelyeinek adatait tartalmazza. anorectic.sav (Van der Ham, Meulman, Van Stiren, Van Engeland, 1997, orv.) Abból a célból, hogy a táplálkozási rendellenességek (anorexia/bulémia) standard jellegzetességeit feltárják, a kutatók összesen 55 étkezési rendellenességet mutató fiatalkorú egyént vizsgáltak meg. Mindegyik pácienst négy éven keresztül, évente négy alkalommal megfigyeltek. Így elvileg 220 adat keletkezne, de néhány mérés elmaradt, hiányzik. A 71-es és 76-os páciensek egyik 2. évbeli, a 47-es páciensnek pedig egyik 3. évbeli megfigyelése maradt el, azaz 217 értékes adat van. Minden megfigyeléskor 16 szimptómát figyeltek meg, ezek az állomány változói. Változók: weight testsúly mens menstruáció fast ételbevitel megtagadása binge nagyevések száma vomit hányás purge hasmenés hyper hiperaktivitás fami családi kapcsolat (kötöttség) eman családtól való felszabadulás frie barátok school iskola/alkalmazás satt szexuális attitüd sbeh szexuális szokás mood hangulat preo étkezésbe felejtkezés body test érzékelés time az interjú időpontja diag a páciens diagnózisa

1 krónikus anorexia 2 anorexia krónikus bulémiával 3 anorexia utáni krónikus bulémia 4 nemtipikus étkezési rendellenesség

tidi idő/diagnózis interakció number a páciens azonosítója diag2 a diagnózis sorszáma tim2 az 1 éven belüli vizsgálat sorszáma autoaccidents.sav (k.a., biz.) Egy biztosító társaság ki akarja alakítani a sofőrök (biztosítottak) rizikó osztályait. A sofőrök utolsó öt évben okozott baleseteinek száma mellett a kor és a nem is rendelkezésre áll. Összesen 500 esetet tartalmaz a mátrix. Változók: gender a biztosított neme (1 férfi, 2 nő) age a biztosított kora években accident az utolsó öt évben hány balesete volt

Page 4: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

band.sav (k.a., közg.) Egy zenekar CD-jének eladási statisztikáit tartalmazza 52 héten keresztül. Változók: sales az adott héten a CD eladásból származó bevétel performances az adott héten a fellépések száma web az adott héten hányan klikkeltek a weben az oldalra, ahol a mintadalok vannak flyers az adott héten elküldött szórólapok száma bankloan.sav (k.a., közg) Banki hitelek problémás visszafizetéseinek arányát próbálják visszaszorítani egy banknál. Az adatmátrix 850 múltbeli és potenciális jövőbeli ügyfélről tartalmaz pénzügyi és demografikus adatokat. Az első 700 esetben található ügyfélnél a bank korábban hitelezett.az utolsó 150 ügyfélt a bank szeretné osztályba sorolni aszerint, hogy jó vagy rossz hitelező osztályba tartozik-e. Változók: age az ügyfél kora években ed képzési szint

1 nincs érettségije 2 érettségi 3 néhány év főiskola 4 BsC 5 MsC vagy magasabb

employ a jelen munkahelyén mennyi ideje dolgozik adress a jelen címén mennyi ideje tartózkodik income a családi összkereset tízezrekben debtinc tartozás, jövedelem arány százszorosa creddebt hitelkártyatartozás tízezrekben othdebt egyéb tartozás tízezrekben default volt tartozása a bank felé (0 nem, 1 igen) preddef1 előrejelzett tartozás az 1. modellben preddef2 előrejelzett tartozás a 2. modellben preddef3 előrejelzett tartozás a 3. modellben bankloan_binning.sav (k.a., közg.) Financionális és demográfiai adatokat tartalmaz egy bank 5000 volt ügyfeléről. Az állomány változói megegyeznek a bankloan.sav első kilenc változójával. behavior.sav (Price, Bouffard, 1974, szoc.) Összesen 52 diákot interjúvoltak meg arról, hogy különböző helyszíneken (szituációban) különböző viselkedési formák mennyire számítanak extrémálisnak. Összesen 15 helyszínt és 15 viselkedést/cselekvést soroltak fel. A diákoknak egy tízfokozatú skálán kellett értékelniük a helyzet-cselekvés párokat. A 0 a teljesen helyénvaló, 9 a szélsőségesen elütő értékszám volt. Az 15x16-ös méretű adatmátrix első változója (ROWID) a helyszíneket azonosítja, a többi 15 változó a cselekvésekhez tartozik. A helyzet-cselekvés pozíciókban az 52 diák értékpontszámainak átlaga áll. Egy rekeszben tehát akkor van nagy érték, ha abban a szituációban az adott cselekvést nem helyénvalónak tartják. Változók: rowid (sorok azonosítója, a helyszínek/szituációk) 1 osztály 6 templom 11 lift

Page 5: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

2 randi 7 interjú 12 hálószoba 3 busz 8 járda 13 szoba 4 vacsora 9 mozi 14 társalgó 5 park 10 bár 15 játék run futás talk beszélgetés kiss csókolózás write írás eat evés sleep alvás mumble motyogás read olvasás fight verekedés belch böfögés argue vitatkozás jump ugrálás cry sírás laugh nevetés shout ordibálás behavior_ini.sav (Price, Bouffard, 1974, szoc.) Az előzővel összefüggő adatmátrix. A dim1 és dim2 változó az 1-15 számok egy egy permutációját jelentik. Segítségével ellenőrizni lehet, hogy az adatok sorrendje mennyire befolyásolja a végeredményt. brakes.sav (k.a., ipar) Egy képzeletbeli autógyár féktárcsáinak minőségbiztosításához szükséges adatokat tárol. Nyolc különböző gépjármű 16 féktárcsájának átmérőjét tartalmazza, amit a minőségellenőrök megmértek. Az előírt tárcsaátmérő 322 milliméter. Változók: machine a gépjármű tipusának azonosítója brake féktárcsa átmérője mm-ben breakfast.sav (Green, Rao, 1972, szoc.) 21 Wharton Scholl-i MBA-s hallgatót és barátját/barátnőjét arra kérték, hogy 15 reggeli étel elemet rangsoroljanak. Az 1-es szint a leginkább preferált, a 15-ös szint a legkevésbé kedvelt ételé volt. A preferencia besorolást hat különböző beállításnál kellett megtenni. Hatféleképpen előírták, hogy milyen menü adott, és ahhoz képest mit választanának még. A leírásban alapreggelin pirítós, vaj és lekvár és üdítő értendő Változók: srcid a kötelező menü, amihez választanak

1 nincs megkötés, „svédasztalos” választás 2 alapreggeli+dzsúsz, sonka, tojás 3 alapreggeli+dzsúsz, müzli, üdítő 4 alapreggeli+dzsúsz, palacsinta, kolbász 5 alapreggeli 6 snack és üdítő

gender a megkérdezett neme TP pirítóskenyér BT vajas pirítós

Page 6: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

EMM angol muffin margarinnal JP zselés fánk CT fahéjas pirítós BMM áfonya muffin és margarin HRB kemény zsemle és vaj TMd pirítós lekvárral BTj vajas pirítós zsemlével TMn pirítós margarinnal CB fahéjas csiga DP töltött táska GD cukormázas fánk CC kávétorta CMB kukoricás muffin és vaj Breakfast_overall.sav (Green, Rao, 1972, szoc.) Az előzővel összefüggő állomány, csak a scrid=1 eseteket tartalmazza. Broadband1.sav, broadband2.sav (k.a., közg.) Idősorok. Öt éven keresztül havonta mérték, hogy 85 régióban hogyan alakultak a nemzeti szélessávú adás előfizetőinek száma. A második adatmátrix három további havi adattal bővebb. Változók: market_i az i-edik régió idősora total az összelőfizetés year az előfizetés éve month az előfizetés hónapja date az előfizetés dátuma car_insurance_claims.sav (McCullagh, Nelder, 1989, biz.) Autós kárigényeket tartalmazó adatmátrix. Az átlagos követelés összegét gamma eloszlással közelítik, ahol felhasználnak egy inverz szerkezeti függvényt, amely kapcsolatot teremt a függő változó várható értéke és a biztosított kora, a jármű tipusa és a jármű kora egy lineáris kombinációjával. A bejegyzett követelések számát használhatjuk skálasúlynak. Változók: holderage a biztosított korkategóriája

1 20 alatti 2 21-24 3 25-29 4 30-34 5 35-39 6 40-49 7 50-59 8 60 feletti

vehiclegroup járműcsoport, négy kategóriája van (A-D) vehicleage a jármű kora

1 0-3 2 4-7 3 8-9 4 10 felett

claimamt a kárigények átlagértéke

Page 7: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

nclaims a kárigények száma car_sales_sav (edmunds.com, közg.) Járművek becsült eladási árait és listaárait tartalmazza. Az árakat és a fizikai jellemzőket egyrészt az edmunds.com oldalról, másrészt gyári oldalakról szedték le. Összesen 157 autó adatai szerepelnek, melyből az utolsó ötnek hiányzik újraeladások száma az utolsó 4 évben adata. A változók száma 26. Változók: manufact a jármű gyártója model a jármű modellje sales eladások száma 10000-ben resale újraeladások száma 10000-ben type a jármű tipusa (0 autó, 1 kisteherautó) price az ár 10000-ben engine_s motorkapacitás horsepow teljesítmény (lóerő) wheelbas kerékméret width szélesség length hosszúság curb_wgt önsúly fuel_cap üzemanyagtartály mérete mpg fogyasztás (hány mérföldet tesz meg egy gallon üzemanyaggal) lnsales az ár logaritmusa A fenti változók standardizáltjai: zresale , ztype, zprice, zengine_, zhorsepo, zwheelba, zwidth, zlength, zcurb_wg, zfuel_ca, zmpg car_sales_unprepared.sav (k.a., közg.) Az előző fájl redukált változata, amelyben a transzformált változók nem szerepelnek. carpet.sav (Green, Wind, 1973, közg.) Egy porszívógyártó vállalat új terméke megtervezéséhez öt szempontból megszondáztatta a vásárlóközönséget. Az öt faktor, vagy szempont a következő volt:

1 a porszívó borításának formaterve 2 a márka neve 3 a termék ára 4 a kiváló áru védjegy megléte 5 árvisszatérítési garancia megléte

A borítás formatervének három változatát vizsgálták, lényegében abban különböznek, hogy hol helyezkedik el a szívókefe. Három márkanévvel számoltak: 1-K2R, 2-Glory és 3-Bissel. Az árnak szintén három szintje van: 1-1.19$, 2-1.39$ és 3-1.59$. Az utolsó két faktor kétszintű: 1-nincs, 2-van. Összesen 22 profilt alakítottak ki az elvileg lehetséges 4x27=108 faktor kombinációból. Tíz vásárlót felkértek, hogy rangsorolják ezt a 22 profilt, majd a preferencia sorszámokat profilonként átlagolták és az átlagértékeket növekvő sorba rendezték. Az adatmátrix mindegyik esete egy-egy profilnak felel meg. A pref változó legkisebb értéke mutatja a legpreferáltabb profilt. Változók: package a borító formaterve brand a márka neve price a termék ára

Page 8: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

seal van- kiváló áru védjegye? money van-e árvisszatérítés? pref a tíz vásárló preferencia rangszáma carpet_plan.sav(Green, Wind, 1973, közg.) A carpet.sav állományhoz tartozó profilterv. Az ott ismertetett 22 profil mellé két újabb profilt is felvettek. carpet_pref.sav (Green, Wind, 1973, közg.) A carpet.sav adattal összefüggő állomány, ami a 10 megkérdezett fogyasztó rangszámait tartalmazza, amit a 22 porszívó profillal kapcsolatban megadtak. Az 1-es a legkedveltebb, a 22-es a legkevésbé kedvelt profil. (Ebből számolható a pref változó.) Minden fogyasztó PREFi változója tartalmazza az i-edik profil rangszámát. A 22 profil definícióját a carpet.sav állományban találjuk. Az ID változó azonosítja a fogyasztót. catalog.sav (k.a., közg.) Három katalógusban felkínált termék havi eladási adatait tartalmazza. A mátrix öt prediktor változót is tartalmaz. Változók: date dátum men a férfi ruhatermék eladása women a női ruhatermék eladása jewel az ékszer eladása mail a postázott katalógusok száma page a katalógus oldalszáma phone az üzletkötésbe bevont telefonvonalak száma print az elküldött szórólapok száma service ügyfélszolgálatok száma catalog_seasfac.sav (k.a., közg.) A catalog.sav tartalmával megegyezik, de a férfi ruházat termékre vonatkozó szezonális, trend és más faktorokat is tartalmaz, melyet a dátumadatokból a szezonális felbontás eljárásával nyertek ki. Összesen 7 új változó van benne. cellurar.sav (k.a., közg.) Egy telefonhálózatot üzemeltető társaság csökkenteni szeretné az ügyfelei lemorzsolódását. A fogyasztókat (összesen 250-et) aszerint pontozzák 0-tól 100-ig, hogy mennyire hajlamosak a lemorzsolódásra. A legalább 50 pontot elért ügyfelek a leginkább gyanúsak arra, hogy szolgáltatót váltsanak. Változók: minutes havi átlagos lebeszélt perc bill a havi számlák átlaga business az üzleti beszélgetések százalékos aránya los hány éve vesz igénybe a szolgáltatást? income az ügyfél jövedelme (1998) score lemorzsolódásai hajlandóság pontszáma ceramics.sav (k.a., ipar)

Page 9: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

Egy kerámiagyár arra keresi a választ, hogy egy új kerámia ötvözet hőtűrő képessége jobb-e a hagyományos ötvözeténél, vagy sem. Mind a 480 eset egy mintapéldány hőtűrési mérési adatát tartalmazza. A mintadarabok az új és a régi ötvözetből egyaránt készültek. Változók: id a mintadarab azonosítója lab a gyártó laboratórium a 8 közül batch az ötvözet (1-új, 2-hagyományos) temp a hőtűrés határa labrunid a mérést végző azonosítója cereal.sav (k.a., szoc.) Összesen 880 embert kérdeztek a reggeliző szokásairól. A válaszolók kora, neme, családi állapota szintén része az adatbázisnak. Rákérdeztek az életstílusra is, mennyire aktív a válaszoló, kirándul-e legalább kétszer hetente. Változók: agecat korkategória

1 31 év alatti 2 31-45 3 46-60 4 60 feletti

gender a kérdezett neme (0-férfi, 1-nő) marital családi állapot (0-nem házas, 1-házas) active aktivitás (0-nem aktív, 1-aktív) bfast a kedvelt reggeli

1 müzliszelet 2 zabpehely 3 müzli

clothing_defects.sav (k.a., meo) Egy ruhagyárban ellenőrzik a gyártmányok minőségét. Összesen 30 széria-vizsgálat eredményét tartalmazza az adatállomány. A széria sorszáma (lot) mellett a véletlenszerűen kiválasztott mintaméretet (sample) és a selejtesnek minősített termékek számát (defects) tartalmazza. coffee.sav (Kennedy, Riquier, Sharp, 1996, szoc.) Hat jegeskávé márkát teszteltek a kutatók. Mindegyik márkához ugyanazt a 23 jellemzőt kapcsolták, és megkérdeztek fogyasztókat, hogy szerintük melyik márkához melyik jellemző illik. Így összesen 6x23=138 eset van az állományban. A jegeskávé márkák neveit tikosították, azaz a publikáláskor átkódolták. Változók: image jegeskávé jellegzetesség

1-hízlal 9-vonzó 17-népszerűtlen 2-férfias 10-erős 18-rossz 3-délausztrál 11-népszerű 19-frissít 4-hagyományos 12-gyógyhatású 20-fiatalos 5-kiváló 13-zsírszegény 21-tápláló 6-egészséges 14-gyerekital 22-női 7-coffeines 15-munkahelyi 23-jelentéktelen 8-új 16-édes

brand márkakód

Page 10: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

1 AA 2 BB 3 CC 4 DD 5 EE 6 FF

freq hányan jelölték be ezt a jellegzetességet contacts.sav (k.a., közg.) Egy számítógépes cég 70 ügyfelének listája. Az ügyfeleket aszerint jellemzik, hogy milyen területről jöttek és milyen fontos beosztásuk van. Feljegyezték a vásárlás összértékét és a legutolsó vásárlás óta eltelt időt, valamint a cég méretét, ahonnan a vásárló érkezett. Változók: dept a terület, ahonnan a vásárló érkezett

1 fejlesztés 2 számítógépes szolgáltatás 3 pénzügy 4 egyéb 5 nem tudni

rank a vásárló beosztása 1 beosztott 2 fiatal menedzser 3 tapasztalt menedzser 4 vezető 5 magas vezető 6 nem tudni

sale a legutolsó vásárlás értéke time a legutolsó vásárlás óta eltelt idő size a vállalat összalkalmazottja, ahonnan a vásárló érkezett

1 nagyon kicsi (30-nál kisebb) 2 kicsi (30-100) 3 közepes (101-500) 4 nagy (500 felett)

credit_card.sav (k.a., közg.) A vásárlók hitelkártya használatát vizsgálják. Összesen 26280 kártyatranzakció adatait tartalmazza a mátrix. A tulajdonos azonosító kódja mellett a születési dátum, a nem, a kártya típusa, a kártya kibocsátásának dátuma, a tranzakció dátuma, a tranzakciós vásárlás területe, a vásárolt tételek száma és a végösszege szerepel a változók között. creditpromo.sav (k.a., közg.) Egy vállalat felméri egy új hitelkártyája hirdetésének sikerességét. Ebből a célból véletlenszerűen kiválasztottak 500 hitelkártya tulajdonost. Ezek felének a következő három hónapban a kártyahasználat függvényében kedvezményeket ígértek. A társaság másik fele szokásos szezonális kedvezményt kapott. Mindegyik vásárlónál megnéztek, hogy a három hónap alatt mennyit vásárolt. Változók: id a vásárló azonosító kód insert csoportazonosító (0-hagyományos reklám, 1-új reklám ajánlat) dollar elköltött pénz dollárban

Page 11: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

costumer_dbase.sav (k.a., közg.) Egy raktáráruház szeretne egy listát azokról a vásárlókról, akik speciális vásárlási ajánlatra leginkább reagálni fognak. A vásárlói listából egy 5000 fős részhalmazt véletlenszerűen kiválasztottak és elküldték számukra a speciális ajánlatot, majd a visszajelzéseket feljegyezték. Összesen 128 jellemzővel van mindegyik vásárló jellemezve. Ilyenek a körzet, város, kor, képzettség, nem, a folyamatos alkalmazásának időtartama, nyugdíjas-e, stb. egészen addig, hogy hány háziállata van. costumer_information.sav (k.a., közg.) 995 vásárló nevét, nemét, korkategóriáját és címét tartalmazó adatmátrix. A személyes adatok (név, cím) nincs kitöltve az állományban. costumer_model.sav (k.a., közg.) Összesen 5990 vásárló demográfiai adatait tartalmazó adatmátrix. Olyan személyek vannak a listában, akiket egy üzleti ajánlattal korábban megcéloztak. A demográfiai adatok mellett a vásárlások előtörténeteit is tartalmazza. Végül feljegyezték azt is, hogy reagált-e az illető az ajánlatra, vagy sem. costumer_new.sav (k.a., közg.) Az előzővel megegyező szerkezetű adatállomány. Összesen 24067 vásárló demográfiai adatát tartalmazza, akik közül a reagálásra esélyeseket ki lehet választani egy üzleti kampányhoz. debate.sav (k.a., pol.) A választásokat értékelő adatrendszer. 1296 választót kérdeztek meg az elnökválasztás előtt és közvetlen a választás után, hogy kire szavaztak a négy elnökjelölt közül. Az adatmátrix esetei tehát a választók korkategóriáját, nemét és két elnök nevet tartalmaz. Változók: agecat a választó korkategóriája

1 31 alatti 2 31-45 3 46-60 4 60 feletti

gender a választó neme: 0-férfi, 1-nő pref1 ki volt a jelöltje a választások előtt pref2 kire szavazott debate_aggregate.sav (k.a., pol.) Az előző állomány lehetséges keresztválaszai alapján gyakoriság táblázat néhány pozícionálást segítő változóval. demo.sav (k.a., közg.) Összesen 6400 vásárló demográfiai adatait tartalmazó adatbázis. Havonta üzleti ajánlatokat küldtek számukra és feljegyezték, hogy jött-e viszontválasz. A változók száma összesen 29. A vásárló korán, nemén, jövedelmén, képzettségi szintjén kívül többek között azt is számon tartják, hogy hányan laknak egy háztartásban és pl.van-e TV-je, DVD-lejátszója, faxa vagy számítógépe. demo_cs.sav (k.a., közg.)

Page 12: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

A kérdőíves felmérés teljes adatbázisa. Az esetek tartalmazzák a megkérdezett személy demográfiai adatai mellett a háztartásának adatait és a mintavételezési adatokat is. Összesen 42 változót tartalmaz. demo_cs_1.sav (k.a., közg.) A demo.sav állományból a feldolgozás első lépésében kinyert összegző adatokat tartalmazó állomány. Mindegyik eset különböző városokat, régiókat, tartományokat, kerületeket és városrészeket tartalmaz. demo_cs_2.sav (k.a., közg.) A demo.sav állományból a feldolgozás második lépésében kinyert adatokat is tartalmazza. Mindegyik eset az egyes városrészek háztartási egységeit tartalmazza, melyekből összegzéssel visszakapjuk a kerületek, tartományok, régiók, városok háztartásának adatait. dmdata.sav, dmdata1.sav, dmadata2.sav (k.a., közg.) Vásárlók demográfiai és vásárlási szokásokkal kapcsolatos adatokat tartalmaznak egy direkt marketing tevékenységet végző társaság számára. dietstudy.sav (Rickman, Mitchell,Dingman, Dalen, 1974, orv.) A Stillman-diéta sikerességét vizsgálták. Az esetek 16 kisérleti személyhez tartoznak, a diéta előtti és utáni súlyokat tartalmazzák fontban kifejezve, valamint vér triglicerin (zsír) szintjét mg/100 ml-ben. Változók: patid a páciens azonosítója age a páciens kora gender a páciens neme (0-férfi, 1-nő) tg0 a vérben mért triglicerin szint kezdetben tg1 vérben mért triglicerin szint az 1. méréskor tg2 vérben mért triglicerin szint a 2. méréskor tg3 vérben mért triglicerin szint a 3. méréskor tg4 vérben mért triglicerin szint a 4. méréskor wgt0 a páciens súlya kezdetben (font) wgt1 a páciens súlya az 1. méréskor (font) wgt2 a páciens súlya a 2. méréskor (font) wgt3 a páciens súlya a 3. méréskor (font) wgt4 a páciens súlya a 4. méréskor (font) dischargedata.sav (Menec, Roos, Nowicki, McWilliam, Finlaysen, Black, 1999, orv.) A winnipegi kórházból származó egyszerű adatfájl. A heti átlagos kórházi elbocsátásokat és felvételeket tartalmazza. Változók: dow a hét napja day a nap neve discharg az átlagos elbocsátások admit az átlagos felvételek dvdplayer.sav (k.a., közg.) Egy új dvd lejátszó fejlesztését tervezik. Kérdőíves felmérést végeztek, hogy a tervezés fő irányait meghatározhassák a fogyasztói elvárások alapján. Egy marketing szakemberekből álló csoport megállapította a termék öt legfontosabb szempontját, amire a tervezéskor

Page 13: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

fókuszálni kell. A fogyasztók egy 68 elemű mintáját véleményeztették a szempontok fontosságáról egy kérdőíves felmérésben. Az adatmátrix esetei egy-egy kérdőíves felmérés válaszaihoz kapcsolódik. A válaszadókat 6 csoportba sorolták aszerint, hogy milyen vásárlói réteget reprezentálnak. Változók: age a kérdezett kora sex a kérdezett neme (1-férfi, 2-nő) focusgrp a fókuszcsoport, összesen 6 van price ár fontossága (1-legkevésbé fontos,…,10-nagyon fontos) ease könnyen kezelhetőség (1-legkevésbé fontos,…,10-nagyon fontos) look kinézet (1-legkevésbé fontos,…,10-nagyon fontos) support szervizeltség (1-legkevésbé fontos,…,10-nagyon fontos) func funkcionalitás (1-legkevésbé fontos,…,10-nagyon fontos) dvdscore az előző öt érték összege (total) agegroup korcsoport 1-„18-24”

2-„25-31” 3-„32-38” 4-„39-45” 5-„46-52” 6-„53-59”

flying.sav (k.a., ideg.) amerikai város légvonalban vett távolságát tartalmazza mérföldben kifejezve. A távolságmátrix sorainak és oszlopainak jelentését külön változó definiálja. Változók: row a város a távolságmátrix sorában col a város a távolságmátrix oszlopában dist a row, col városok távolsága mérföldben cityname a 10 város teljes neve german_credit.sav (Blake, Merz, 1998, közg.) Gépi tanulási adattárházból származó adatmátrix, ami német hitelkártyák adatait tartalmazza. Változók: duration Hány hónapja használja a hitelkártyát camt A hitel összege instrate Részletfizetési ráta residlen Mennyi ideje tartózkodik jelenlegi lakóhelyén age A kártyatulajdonos kora években numcred Működő hitelkártyáinak száma numliab A kártyahasználók száma chks Hitellimit 1 nincs hitelkeret 2 0 - 200DM 3 >200 DM 4 nincs limit chist számla státusa 1 Nem volt soha tartozása 2 Jelenleg nem tartozik 3 Befizetés folyamatban

Page 14: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

4 Befizetés elhalasztva 5 Kritikus számla reason a kölcsön oka 1 új autó 2 valutás autó 3 bútorvásárlás 4 új TV/rádió vétel 5 háztartási gép 6 lakásfelújítás 7 tandíj 8 nyaralás 9 továbbképzés 10 üzleti hitel 33 egyéb savngs Bónuszpontok 1 100 márka alattLT 100DM 2 100 – 500 márka között 3 500-márka felett 4 több mint 1000 márka 5 nem ismert/nincs adat lenemp Kártyaérvényesség 1 legfeljebb 1 év 2 1-4 év 3 4-7 év 4 több mint 7 év 5 érvénytelen perstat személyes státusz 1 elvált férfi 2 elvált/házas nő F 3 szingli férfi 4 házas férfi 5 szingli nő othdebt van-e adóstárs 1 nincs 2 társadós 3 kezes prpownr Mennyire vagyonos 1 ingatlantulajdonos 2 lakástulajdonos 3 gépkocsitulajdonos 4 nem ismert/nincs othnstal Egyéb részletfizetése van-e? 1 banki 2 áruvásárlási 3 nincs housng Lakáshelyzet 1 bérlő 2 tulajdonos 3 albérlő emptype Milyen alkalmazott?

Page 15: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

1 nincs alkalmazása/képzetlen 2 betanított munkás 3 szakmunkás/hivatalnok 4 diplomás/vállalkozó telephne Van telefonos összeköttetése a kártyának? (0-nincs, 1-van) forworkr vendégmunkás? (0-nem, 1-igen) grocery_1month.sav (k.a., közg.) A 351 eset vásárlókat reprezentál, a változók az egy hónapon keresztül megfigyelt élelmiszervásárlással kapcsolatosak. Változók: storeid az üzletazonosító hlthfood vásáról egészséges élelmiszert (0-nem, 1-igen) size az üzlet mérete (1-kicsi, 2-közepes, 3-nagy) org az élelmiszerüzlet árukészlete

1 bőséges választék mindenből 2 bőséges választék fűszerekből 3 bőséges választék péktermékekből 4 alapválaszték

custid vásárlóazonosító gender nem (0-férfi, 1-nő) shopfor ki vásárol? 1-egyedül 2- a párjával 3- a teljes család veg vegetáriánus? (0-nem, 1-igen) style vásárlási stílus

1 kéthetente, nagy mennyiséget 2 hetente ugyanaz a lista szerint 3 gyakran, mindig ami kell

usecoup kuponhasználat 1 nincs 2 újságból vág ki 3 szórólapból vág ki 4 újságból és szórólapból is felhasznál

amtspent vásárolt összeg pre_1 becsült kártyás vásárlás qcl_1 vásárlói klaszter sorszám filter_$ qcl_1 = 3 (szűrő) (csak a 3-as klaszter elemei grocery_coupons.sav (k.a., közg.) Ugyanazokat az adatokat tartalmazza, mint a grocery_1month.sav állomány, de a vásárlásokat heti bontásban jegyezték fel. A hetek sorrendjét véletlenszerűen összekeverték,

Page 16: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

hogy a szezonális hatást kiküszöböljék. Figyelték azt is, hogy a vásárlói kuponokat miképpen használták fel. Itt most csak az előző állományhoz képest új változók jelentését adjuk meg. Új változók: week a vásárlás hete a hónapon belül seq a hetek véletlen sorrendje carry átvitel a következő vásárlásra 0 új periódus kezdődik 1 nincs kupon 2 5%-os kupon 3 15%-os kupon 4 25%-os kupon coupval a kupon értéke 1 nincs érték 2 5%-os kedvezmény 3 15%-os kedvezmény 4 25%-os kedvezmény guttmann.sav (Bell, Guttman, 1961, szoc.) A lehetséges társadalmi csoportok bemutatására alkalmas 7x6-os adatmátrix. Az esetek hét lehetséges társadalmi közösségekhez tartoznak: tömeg (pl. focimeccs nézői), hallgatóság (pl. egy koncert hallgatói), társadalom, csőcselék (pl. spontán tüntetésen), elsődleges csoport (pl. család), másodlagos csoport (pl. munkahelyi kollektíva, egy parti résztvevői), modern kollektíva (baráti társaság, klubtagok). Mindegyik közösségi típust öt tulajdonsággal jellemez: kapcsolaterősség, kapcsolattartás gyakorisága, az összetartozás érzés erőssége, fizikai távolság, a kapcsolat formalizmusának erőssége. healthplans.sav (k.a., biz.) Egy biztosítótársaság kisalkalmazottak számára elkészített 4 egészségmegőrző tervet. 12 alkalmazottat megkértek, hogy egy négyfokozatú skálán értékeljék egyenként a programokat: a 1-es volt a legjobb, 4-es volt a legrosszabb osztályzat. health_fundig.sav (k.a., szoc.) Összesen 50 város társadalombiztosítási adatait tartalmazza. Változók: funding 10 lakosra jutó egészségbiztosítottak száma disease jelentett megbetegedések 10000 lakosonként visits egészségvédő látogatások száma 10000 lakosonként citycode a város kódja hivassay.sav (k.a., orv.) Egy gyógyszerész laboratóriumban egy a HIV vírus kimutatására alkalmas gyorstesztet készítettek el. A teszt a piros színnek nyolc árnyalatát szolgáltatja egy vizsgálat során. A

Page 17: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

sötétebb árnyalatok valószínűsítik a krónikus jelenlétet. Kétezer mintán elvégezték a tesztet, melynek fele tiszta, fele fertőzött páciens volt. Változók: actual fertőzött-e a páciens? (0-nem, 1-igen) assay a teszt vörösárnyalata hourlywaydata.sav (k.a., szoc.) Összesen 3000 ápolónő óradíjait lehet összehasonlítani. Az ápolónők kórházi beosztása, gyakorlati tapasztalata és korkategóriája is az adatok közt szerepel. Változók: position beosztás (0-kórházi, 1-hivatali) agerange korkategória (1-„18-30”, 2-„31-45”, 3-„46-65”) yrsscale munkatapasztalat 1 5 év vagy kevesebb 2 6-10 év 3 11-15 év 4 16-20 év 5 21-35 év 6 36 év vagy több hourvage óradíj insurance_claims.sav (k.a., bizt.) Egy biztosító társaság egy olyan matematikai modellt szeretne kidolgozni, amiben nagy biztonsággal kijelölhetőek a hamis, csalásra utaló kárigények. 4415 kárbejelentést tartalmaz az állomány, a változók száma 21. Rögzítették a kárbejelentés dátumát, típusát, a kárigény értékét, a bejelentő demográfiai adatait, a rendőrségi jelenlétet és más a kárigénnyel kapcsolatos adatokat. insure.sav (k.a., bizt.) Egy biztosítótársaság az ügyfeleinél rizikófaktort akar képezni, ami jelzi, hogy a szerződéskötést követő tíz évben mennyire esélyes egy kárigény majdani bejelentése a partnernél. Mind a 70 eset egy-egy partnerhez kapcsolódik, aki jelentkezett az első kárigénnyel. Néhány adatot felvettek a kárigény felvételekor és hozzátették ugyanazt az adatot a biztosítási szerződéskor rögzítetthez. Az ügyfél neme és korán kívül rögzítették a magasságát cm-ben, a súlyát kg-ban, dohányzik-e, van-e a családban szív- és érrendszeri betegség, illetve, hogy veszélyes munkakörben dolgozik-e. judges.sav (k.a., sport) A NOB igazolni akarja, hogy az általa foglalkoztatott pontozóbírák korrektül látják el feladatukat. Ezért 300 tornagyakorlatra adott 7 különböző országból származó bírójuk pontszámait rögzítették egy adatbázisban, amely mellé egy sportkedvelő amatőr által adott pontszámokat is mellékelték. Egy tornagyakorlatot 0 és 10 között lehet pontozni.

Page 18: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

kinship_dat.sav (Rosenberg, Kim, 1975, szoc.) 15 rokoni kapcsolatot vettek, nevezetesen: nagynéni, báty, unokanővér, nővér, apa, nagynéni, nagyapa, nagyanya, anya, lány, fiú, nagybácsi, unoka, sógor, unokahúg. Egyetemi hallgatók összesen négy csoportját (ebből 2-2 fiú és lány csoport volt), megkérték, hogy rendezzék be a rokoni kapcsolatokat hasonlatosság alapján. Két csoport (egy fiú és egy lánycsoport) kétszer is elvégezte a rendezést, de a rendezés szempontjai máshogy voltak megfogalmazva. Így összesen 6 15x15-ös méretű mátrix keletkezett. Az egyes mátrixban a komponensek jelentése: a vizsgálatba bevont személyek száma, mínusz azon esetek száma, akik a rokonsági kapcsolat párt azonosnak gondolták. kinship_ini.sav (Rosenberg, Kim, 1975, szoc.) A kutatók által többdimenziós skálázással kapott rokonsági háromdimenziós pontreprezentáció. kinship_var.sav (Rosenberg, Kim, 1975, szoc.) Az előző adatmátrixhoz csatolható adatrendszer, ami a rokoni fokozatok nemét, generációs szintjét és közelségi fokát mutatják. Ha pl. merge paranccsal összemásoljuk az adatokat a kinship_ini.sav állományba, akkor a háromdimenziós ábra pontjait különbözőképpen fel tudjuk címkézni. mailresponse.sav (k.a., közg.) Egy ruhagyár megvizsgálja, hogy a direkt marketing akcióknál a expressz postai feladás gyorsabb válaszokat is eredményez-e a hagyományos csomagküldéshez képest. Regisztrálják minden ügyfél esetén, hogy hány hét telik el az ajánlat elküldése és a viszontválasz között. Összesen 12 vásárlónál mérték a viszontválasz idejét, egyszer egy expressz feladáshoz, egyszer pedig egy hagyományos feladáshoz. marketvalues.sav (közg.) Alqonquin városban (Illinois állam) egy porszívóügynök által 1999 és 2000 között realizált eladásokat tartalmazza az adatmátrix. Az ügynök kipróbálásra otthagyta a gépet, majd időről időre érdeklődött, hogy megköthető-e rá az üzlet. Az állomány tartalmazza a 94 vevő címét, a vételi árat, az üzletkötéshez szükséges időt és a vevő lakásának alapterületét. Változók: address a vevő teljes címe value az ár, amiért megvette a gépet housenum a házszám street az utcanév selldate a vétel dátuma marktime a megvételhez szükséges „gondolkodási idő” napokban sqft a vevő lakásának alapterülete négyzetlábban kifejezve mutualfund.sav (k.a., közg.)

Page 19: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

Egy számítógépes raktáráruház feljegyezte, hogy 13 gyártójától származó eladásai hogyan alakulnak. Feljegyzik a 2000 és 2001 évek nyitónapi és legjobb és a legrosszabb napi bevételeit és eladott darabszámait az adott gyártótól. nhis2000_subset.sav (2003, szoc.) Egy 2000-ben elvégzett felmérésből kimásolt adatmátrix. Összesen 32 334 kérdőíves választ tartalmaz, amit az NHIS szervezett végzett el egy reprezentatív mintán. A megkérdezettek demográfiai adatain kívül a háztartásviselés és egészségügyi szokásokra vonatkozó összesen 11 kérdésekhez jegyezték fel a válaszokat. (ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/) ozone.sav (Brieman, Friedman, 1985, Hastie, Tibshirani, 1990, met.) Hat meteorológiai változóról készült 330 megfigyelési adat abból a célból, hogy megbecsülhessék a levegő ózontartalmát. A kutatók nemlinearitást igazoltak ezen változók között, ami kizárja a hagyományos lineáris regressziós megközelítéseket. Változók: vh a mérés magassága ozon napi ózon szint ibh inverzió alapú magasság dpg nyomásgradiens (mm Hg) vis láthatóság (mérföld) temp hőmérséklet ( Fahrenheit fok) doy az év napja pain_medication.sav (k.a., orv.) Egy klinikai kísérletben megpróbálják csökkenteni a krónikus ártériás fájdalmat gyulladás elleni gyógyszeres kezeléssel. Feljegyzik a hatásosság idejét, összehasonlítva egy hagyományos gyógyszerrel. Összesen 200 betegen véguik el a méréseket. Változók: age páciens kora években gender nem (0-férfi, 1-nő) health általános egészség (1-gyenge, 2-tűrhető, 3-jó) treatment kezelés (0-új gyógyszr, 1-hagyományos gyógyszer) dosage adagolás (0-kisadag, 1-nagyadag) status a hatás státusza (0-cenzorált, 1-a hatás fellépett) time a hatáskifejtés ideje patient_los.sav (k.a., orv.) Összesen 10000 szívrohammal kórházba szállított páciens adatait tartalmazza. Feljegyezték a demográfiai adatokon kívül, hogy milyen kezeléseket kapott a páciens a kórházban tartózkodás során. Összesen 30 változóval jellemeztek minden beteget. Többek között a vérnyomás, koleszterinszint, EKG adatok, a kórházi tartózkodás időtartamát és más fontos adatot rögzítettek

Page 20: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

patlos_sample (k.a., orv.) Olyan szívrohammal kórházba került betegek adatait tartalmazza, akik trombózist kaptak. Az esetek száma 1481, a változók száma 35 és részben megegyezik a patient_los.sav állomány változóival. polishing.sav (Nambe Mills, Santa Fe, ipar) Egy edénygyár gyártásütemezésének megtervezéséhez szükséges adatmátrix. Mind az 59 termékhez olyan adatokat rögzítettek (összesen 9-et), mint pl. az edény átmérője, fényezéséhez szükséges idő, az ár, a terméktípusa. poll_cs.sav (k.a., pol.) Közvélemény kutatók akarják felmérni egy készülő törvény társadalmi támogatottságát. Az esetekhez regisztrált szavazók tartoznak, összesen 118186. Rögzítették a szavazó megyéjét, szavazó körzetét is. Az állomány a szavazók adatait tartalmazza. Változók: voteid a választó azonosítója nbrhood közelség (milyen messze él az országtól a szavazó) town a lakóváros mérete county Megye 1 keleti 2 központi 3 nyugati 4 északi 5 déli poll_cs_sample.sav (k.a., pol.) Az előző fájl szavazóbázisából képzett 9449 elemszámú minta. Az esetekhez a csoporthoz tartozás valószínűségei és mintasúlyok is tartoznak, hogy a minta reprezentativitását tartani lehessen. A szavazók demográfiai adatai mellett a tervezett törvényről alkotott véleményt is rögzítették. Új változók: agecat korkategória 1 18-30 2 31-45 3 46-60 4 >60 9 nincs válasz gender nem (0-férfi, 1-nő) votelast Szavazott legutóbb? (0-nem, 1-igen) drivefreq Milyen gyakran vezet? 1 nincs autója 2 <10,000 mérföld/év

Page 21: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

3 10-14,999 mérföld/év 4 15-19,999 mérföld/év 5 20-29,999 mérföld/év 6 >=30,000 mérföld/év 9 nincs válasz opinion_gastax a törvényhozás bevezeti a gázadót 1 mélyen egyetért 2 egyetért 3 nem ért egyet 4 ellenzi 9 nincs válasz InclusionProbability_1_ az első fázis csoportvalószínűsége SampleWeightCumulative_1_ az első fázis mintasúlya InclusionProbability_2_ a második fázis csoportvalószínűsége SampleWeightCumulative_2_ a második fázis mintasúlya SampleWeight_Final_ végső mintasúly property_assas.sav (k.a., ing.) Egy megyében 1000 házingatlanról listát készítettek. Az állomány tartalmazza az eladási árat, az adóhivatal értékbecslőjének legutolsó ármegállapítását és, hogy mennyi idő telt el a legutóbbi felmérés óta. Változók: propid ingatlan tulajdonos azonosító town a város a megye mely részén található?

1 keleti 2 középső részbeli 3 déli 4 északi 5 nyugati

assessor az értékbecslő kódja saleval a ház eladási ára lastval a legutolsó értékbecslés ára time hány év telt el az utolsó értékbecslés óta property_asses_cs.sav (k.a., ing.) Egy megye házingatlanainak az adóhivatal értékbecslői által elkészített listája. Összesen 11128 ház elhelyezkedéséről és a legutóbbi értékbecslésnél megállapított áráról tartalmaz adatokat. Változók: propid ingatlan tulajdonos azonosító nbrhood a város kerülete town a város kódja assessor értékbecslő

Page 22: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

county a megye mely részén található? 1 keleti

2 középső részbeli 3 déli 4 északi 5 nyugati

time hány év telt el az utolsó értékbecslés óta lastval a legutolsó értékbecslés ára property_assaes_cs_sample.sav (k.a., ing.) Az előző állományból képzett 974 elemű reprezentatív minta. A minta tartalmazza a jelenlegi ár mellett a mintaképzés során keletkezett változókat is. Új változók: currval jelenlegi érték InclusionProbability_1_ az első lépésben a bevonási valószínűség SampleWeightCumulative_1_ a minta súly az első lépés után InclusionProbability_2_ a második lépésben a bevonási valószínűség SampleWeightCumulative_2_ a minta súly a második lépésben SampleWeight_Final_ végleges mintasúly recidivism.sav (k.a., krim.) A kormány vizsgálja a visszaeső bűnözési rátát, hogy törvényileg majd hatásosan tudjon fellépni a visszaesőkkel szemben. Az ismétlő bűnelkövetők listájáról van szó, ahol rögzítik az előző cselekmény óta eltelt időt, az elkövető demográfiai adatait, az első bűntettük néhány jellemzőjét. A listában szereplő személyek két éven belül többször is megszegték a törvényt. Feljegyezték a korukat, nemüket, családi állapotukat, társadalmi osztályukat, az első és a jelenlegi elkövetés típusát, rehabilitálták-e stb. Recidivism_cs_sample.sav (k.a., krim.) Az előző állományból képzett 5687 elemű reprezentatív minta. Az állomány tartalmazza a mintaképzéskor keletkezett mintasúlyokat is. rfm_transactions.sav (k.a., közg.) Összesen 4905 vásárlási tranzakciót tartalmazó lista öt termékkel kapcsolatban. A vásárló azonosítója mellett a vásárlás dátuma, mennyisége ia szerepel az állományban. salesperformance.sav (k.a., okt.) Összehasonlítanak két új üzletkötőket betanító oktatási programot. 60 jelentkezőt három csoportba osztanak. Mind a hatvanan megkaptak egy alapozó képzést, de a 2. csoport ezen kívül technikai képzést, a 3. csoport pedig ettől eltérő gyakorlati kiegészítő képzést kapott. Ezután mind a 60-an levizsgáztak és a teljesítményüket lepontozták. Az esetek a jelentkezők csoportszámát és vizsgapontjait tartalmazzák.

Page 23: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

satisf.sav (k.a., közg.) Egy kiskereskedelmi vállalat 4 üzletével kapcsolatos elégedettséget mérik fel. Összesen 582 vásárlóval egy-egy kérdőívet kitöltettek, amelyen az üzletekkel kapcsolatos elégedettséget kérdezték. Változók: gender a vásárló neme (0-férfi, 1-nő) agecat a vásárló korkategóriája 1 18-24 2 25-34 3 35-49 4 50-64 5 64+ regular vásárlási gyakorisága 0 először van itt 1 kevesebb mint havonta egyszer 2 egyszer egy hónapban 3 hetente egyszer 4 hetente többször reason1 miért tért be első ízben az üzletbe? 1 más mint a többi üzlet 2 hírdetésre figyelt fel 3 barát/rokon ajánlotta 4 egyéb okból reason2 miért jár ide jelenleg? 1 az árak miatt 2 így kényelmes 3 a szolgáltatások miatt 4 egyéb okból dept melyik osztályt kedveli? 1 autóalkatrészek 2 sportszerek 3 ruházat 4 szerelvények, alkatrészek 5 elektronika 6 szerszámok, barkács eszközök 7 egyéb purchase vásárolt? (0-nem, 1-igen) payment a fizetés módja 1 készpénz 2 csekk 3 kártya 4 hitelkártya 5 vásárlói kártya

Page 24: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

followup kapcsolattartás 1 posta 2 telefon 3 e-mail 4 az üzletben 5 sehogy distance otthontól való távolság 1 1 mérföldön belül 2 1-5 mérföld 3 5-10 mérföld 4 10-30 mérföld 5 több mint 30 mérföld store az üzlet azonosítója (négy üzlet közül) contact Van-e a kapcsolat az alkalmazottakkal? (0-nincs, 1-van) price milyen a véleménye az árakról? 1 erősen negatív 2 inkább negatív 3 hullámzó 4 inkább pozitív 5 erősen pozitív numitems milyen a választék? (ugyanaz, mint fent) org milyen a szervezettség? (ugyanaz, mint fent) service milyen a szolgáltatás? (ugyanaz, mint fent) quality milyen a termékek minősége? (ugyanaz, mint fent) overall általános elégedettség (ugyanaz, mint fent) screws.sav (Hartigan, 1975, ipar) Az adatfájl különböző kötőelemek (csapszegek, csavarok, szegecsek, szegek) tulajdonságait tartalmazza. Változók: thread csavarmenet (1-nincs, 2-van) head fejforma 1 lapos 2 kúpos 3 gömbölyű 4 domború 5 hengeres indhead a fej bemetszése

Page 25: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

1 minuszos (-) 2 nincs 3 plusszos (+, csillag) bottom a vég alakja (1-lapos, 2-éles) brass rézbevonat (1-nincs, 2-van) length az elem hossza incsben 1 1/2_incs 2 1_incs 3 1_1/2_incs 4 2_incs 5 2_1/2_incs object a kötőelem azonosítója schampoo_ph.sav (k.a., meo) Hajkozmetikumokat gyártó cég minőségbiztosítási adatait tartalmazza. Ellenőrzik a gyártási folyamatot. Szabályos időintervallumokban, összesen negyvenszer 6 elemű mintát vizsgáltak meg és megmérték a Ph-értékét. A céltartomány: 1.5-5.5 volt. Változók: time a mérés időpontja batch a hatelemű minta sorszáma shift műszak

1 éjszakai műszak 2 délelőtti műszak 3 délutáni műszak

ph ph szint ships.sav (McCullagh, Nelder, 1989, biz.) Teherszállító hajókon a hullámok okozta károsodásokat vizsgálják. Az incidensek számát Poisson eloszlással modellezik, melynek paramétere függ a hajó típusától, a gyártás idejétől és a szervizelési periódustól. Változók: type a hajó típusa (A, B, C, D, E) construction a gyártás éve 60 1960-64 65 1965-69 70 1970-74 75 1975-79 operation működési periódus 60 1960-74 75 1975-79 months_service szervizben eltöltött hónapok száma log_months_service a szervizes hónapok számának logaritmusa damage_incidents károsadások száma

Page 26: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

site.sav (k.a., ing.) Egy társaság új telephelyeket akar beépíteni az üzleti vállalkozásának kiterjesztéséhez. Két szakértőt megbíznak egymástól függetlenül, hogy a szóbajöhető 20 telephelyet nézzék meg és minősítsék alkalmasság szempontjából. Mindkét szakértő a telephelyekre az 1-nem igazán alkalmas, 2-megfelelő lehet és 3-nagyon jó minősítéseket alkalmazta. siteratings.sav (k.a., erg.) Egy internetes kereskedéssel foglalkozó vállalat új weboldalait akarja béta teszttel minősíteni. Ennek érdekében 32 vásárlója minősíti az oldalakat a 0-20 skálán. Változók: sitetime a vizsgálat időpontja rating értékpont subject a vásárló azonosítója gender a vásárló neme (M-férfi, F-nő) prioruse vásárolt korábban? (Y-igen, N-nem) smokers.sav (Amerikai háztartások felmérése a drog elleni kampányhoz, 1998, szoc.) Egy 5424 elemszámú mintán az állampolgároknak két kérdésre kellett válaszolni. Mikor gyújtottak rá először, és hány cigerettát szívtak el az előző 30 napban összesen. Az állományban minden megkérdezetthez egy súlytényező is megtalálható, ami a társadalmi reprezentációval arányos. Változók: personwt a megkérdezett mintasúlya cigtry hány éves korában gyújtott rá először? 981 sohasem dohányzott (logikailag téves válasz) 985 hibás adat (logikailag hibás adat) 991 sohasem dohányzott, jelenleg sem 994 nem tudja 995 hibás adat 997 visszautasítja a választ 998 nincs válasz avcig hány cigerettát szívott el az előző 30 napban? 1 Csak néhány slukk volt, de nem szívott egyet sem végig 2 1-5 között naponta 3 6-15 (féldoboz) 4 16-25 (kb. egy doboz) 5 26-35 (kb. másfél doboz) 6 35 vagy több cigeretta (kb. két doboz) 81 soha semmit sem szívott (logikailag hibás) 83 az elmúlt 30 napban semmit (logikailag hibás) 85 rossz adat (logikailag hibás adat) 91 soha sem dohányzott

Page 27: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

93 az elmúlt 30 napban semmit 94 nem tudja 98 nincs válasz smoking.sav (Greenacre, 1984, szoc.) A dohányzási szokások és munkaköri beosztások kereszttáblázatának adatait tartalmazza. Összesen 5 munkaköri beosztást tekintettek: vezető menedzser, fiatal (beosztott) menedzser, vezető alkalmazott, beosztott alkalmazott és titkár (titkárnő). Hatodikként bevették a „nemzeti átlagot” reprezentáló kategóriát is. A dohányzási szokásoknak négy szintje volt: 1-nemdohányzó, 2-kisdohányos, 3-közepes dohányos, 4-erős dohányos. Kiegészítésül mindegyik megkérdezet esetében feljegyezték azt is, hogy 5-nem iszik alkoholt, 6-iszik alkoholt. A lehetséges beosztás, dohányzási szokás párokhoz tartozó gyakoriságot tartalmazza a count nevű változó. Ez összesen 6x4=24 esetet magyaráz a táblázatban. Ehhez még az alkoholra vonatkozó 5x2=10 eset hozzájön. (A nemzeti átlagra vonatkozó alkoholos gyakoriságok hiányoznak.) storebrand.sav (k.a., közg.) Egy üzletben egy tisztítószer piaci részesedését szeretnék reklámmal növelni. Az üzletben reklámpultot helyeztek el, ahol a vásárlók kipróbálhatták a tisztítószert. Ezután a vásárlói kártyák alapján kiválasztottak 194 vásárlót, aki vásárolt tisztítószert az üzletben a reklámkampány előtt is, és után is és feljegyezték, hogy a reklámozott terméket, vagy más márkájú tisztítószert vásárolt-e. stores.sav (k.a., közg.) Két óriási képzeletbeli konkurens élelmiszerlánc (Nortons és EdMart) együttes piaci részesedése majdnem eléri a 90%-ot. 96 hónapon feljegyezték a forgalom alapján a havi részesedéseket mindkét lánc esetében. stroke_clean.sav (k.a., orv.) Összesen 1048 kórházban infarktussal kezelt beteg adatait tartalmazza. Adattisztító eljárással előállított állomány. A páciensek demográfiai adatain kívül a kórházi kezelés során keletkezett adatokat is tárolják (többek között a kezelés időtartamát és költségét is) összesen 42 változóban. stroke_invalid.sav (k.a., orv.) Megegyezik az stroke_clean.sav állomány szerkezetével, de ebben az állományban sok hibás rekord is van, amit adattisztító eljárással kell eltávolítani. stroke_survival.sav (k.a., orv.) Cenzorált adatokat tartalmazó adatbázis. A változók jelentése megegyezik az előző két állományban találhatóval. Azokat a túlélési időket mutatja, melyek agyvérzéssel kezelt és rehabilitált páciensekhez tartoznak. A halál pontos oka is rögzítve van, ha a beteg már exitált.

Page 28: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

stroke_valid.sav (k.a., orv.) Teljes kórházi adatbázis, aminek változói az előző hasonló nevű állományok változóival megegyezik. Az adatrendszer az adatérvényesítés utáni állapotot mutatja, azaz lehetnek még benne abnormális esetek. survey_sample.sav (k.a., közv.) Egy közvéleménykutatás során beszerzett adatok. Összesen 2832 emberrel töltették ki a kérdőívet. A kérdéseken kívül a válaszadók demográfiai és magatartási mérőszámait tartalmaz összesen 42 változóban. tastetest.sav (k.a., mezőg.) Gyümölcsök ízét tesztelik különböző színű fólia talajtakarások mellett (1-piros, 2-kék, 3-fekete). Az ízeket az 1-5 skálán jellemzik (1-messze az átlag alatti íz, …,5-messze az átlag feletti íz.) Az állomány minden esete egy-egy íz-tesztelő szakemberhez tartozik. telco.sav (k.a., tel.) Egy telefontársaság szeretné lecsökkenteni az előfizetői leforgácsolódását. 1000 előfizetőjük 42 adatát tárolják ebben az állományban. Az adatok az ügyfél demográfiai adatain (kor, nem, családi állapot, képzettségi szint stb.) a szolgáltatás igénybevételével kapcsolatos adatokat (távolsági hívások száma, vezetékes számokkal beszélgetés ideje, stb.) is tartalmaz. telco_extra.sav (k.a., tel.) Az előzővel csaknem megegyező állomány, de az „alvó” vagy használaton kívüli számok felhasználói nincsenek benne, és a felhasználók beszélgetési ideje logaritmusának adatát standardizált logaritmikus beszélgetési idővel cserélték fel. telco_missing.sav (k.a., tel.) Szinte megegyezik a telco.sav állománnyal, de a demográfiai adatok között néhányat hiányzó adatra cseréltek. testmarket.sav (k.a., rekl.) Egy gyorsétkeztetési lánc elhatározza, hogy új terméket (menüt) vezet be. Három különböző reklám-kampánnyal népszerűsíti az új menüt. Az 133 üzlete mindegyikében reklámozzák az új menüt a három reklámtechnika valamelyikével, de egy helyszínen csak egyet alkalmaznak. A termék bevezetését követő 4 héten keresztül figyelik az új menü fogyasztását. Mindegyik eset valamelyik üzlet valamelyik héten történt forgalmazásához kapcsolódik. Változók: marketid az üzlet azonosítója mktsize az üzlet mérete (1-kicsi, 2-közepes, 3-nagy) locid a hely azonosítója ageloc hány éve nyitott ki? promo Melyik reklámot alkalmazták week a hét azonosító

Page 29: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

sales eladott mennyiség 1000-ben testmarket_1month.sav (k.a., rekl.) Az előző állomány havi összesítését mutatja a 133 üzletben. tree_car.sav , tree_score_car.sav (k.a., közg.) Autótulajdonosok demográfiai adatait és a gépkocsi eladási árait tartalmazó adatmátrix. Változók: car a gépkocsi első ára age a tuljadonos kora gender a tulajdonos neme (m-férfi, f-nő) inccat fizetéskategória 1000 dollárban 1 $25 alatt 2 $25 - $49 3 $50 - $74 4 $75+ ed képzési szint 1 nem fejezte be a középiskolát 2 érettségi 3 néhány év felsőfokú intézetben 4 diplomás (BsC) 5 diplomás (MsC) marital családi állapot (0-nem házas, 1-házas) tree_credit.sav (k.a., közg.) 2464 ügyfél hitelminősítését és demográfiai adatait tartalmazza. Változók: Credit_rating hitelminősítés (0-rossz, 1-jó, 9-nincs adat) Age kor Income jövedelmi szint (1-alacsony, 2-közepes, 3-magas) Credit_cards hitelkártyák száma (1-ötnél kevesebb, 2-5 vagy több) Education képzettség (1-főiskola, 2-egyetem) Car_loans gépkocsitartás (1-nincs vagy 1, 2-több mint 1) tree_missing_data.sav (k.a., közg.) Megegyezik az előző adatmátrixszal, de rengeteg hiányzó adatot tartalmaz. tree_textdata.sav (k.a., ) Egy independent és egy dependent nevű kategóriaváltozót tartalmazó 1000 esetből álló egyszerű adatmátrix. Az independent 4 értékű, a dependent pedig 3 értékű. tv-survey.sav (k.a., média)

Page 30: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

Egy kérdőíves felmérés eredmény arra vonatkozik, hogy egy csatorna folytasson-e egy programot. 906 nézőt kérdeztek meg arról, hogy folytatódjék-e a sorozat, és milyen feltételek mellett. Mindegyik kérdésre igennel (1), vagy nemmel (0) kellet válaszolni. Változók: any feltétel nélkül nézni fogja bored nézi, ha nincs jobb critics megvárja, amíg jó kritikát kap peers megvárja, amíg mások meg nem nézik writers maradjon a forgatókönyvíró director maradjon a rendező cast maradjanak a szereplők ulcer_recurrence.sav (Colett, 2003, orv.) Két terápiát hasonlítanak össze, amelyek fekélyek ellen alkalmaznak. Az adatok intervallum-cenzoráltak. Változók: id a páciens azonosítója age a páciens kora duration a gyulladás fennállásának időtartama (1-5 évnél rövidebb, 2-legalább 5 év) treatment a kezelés típusa (A és B) time az utolsó kontroll mikor volt? result a kezelés eredménye (0-nincs fekély, 1-van fekély) ulcer_recurrence_recoded.sav (Colett, 2003, orv.) Az előző állomány olyan két változóval kiegészített változata, amelyben olyan modell alkalmazása is lehetséges, amelyikben a tanulmányozott intervallumba esés valószínűségeivel is számolhatunk, szemben csak a befejeződött események valószínűségeivel számoló modellekkel. verd1985.sav (Verdegaal, 1985, szoc.) Egy kérdőíves felmérés nyolc kérdésére 15-en válaszoltak. A változók három csoportba oszthatók. Az első csoportban a kor és a családi állapot áll, a másodikban a háziállatok tartása és az újságolvasás áll, a harmadik csoportban a zeneszeretet és a környezetszeretet áll. Változók: age korkategória 1,00 20-25 2,00 26-30 3,00 31-35 4,00 36-40 5,00 41-45 6,00 46-50 7,00 51-55 8,00 56-60

Page 31: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

9,00 61-65 10,00 66-70 marital családi állapot (1-szingli, 2-házas, 3-egyéb) pet háziállat tartás 1 nincs 2 macskák 3 kutyák 4 egyéb állat (nem macska vagy kutya) 5 különböző háziállatok news újságolvasási gyakoriság 1 semmilyet 2 napilap 3 hetilap 4 havilap 5 egyéb music zeneszeretet 1 klasszikus zene 2 új hullámos zene 3 popzene 4 varieté zene 5 nem szereti a zenét live környezetszeretet (1-nagyváros, 2-falu, 3-vidék) math matematikai teszteredmény 1 0-5 2 6-10 3 11-15 language nyelvi teszteredmény 1 0-5 2 6-10 3 11-15 4 16-20 virus.sav (k.a., inf.) Egy internetszolgáltató egy számítógépes vírus hatását kívánja tesztelni a hálózatán. Megkísérlik megállapítani a fertőzött e-mailek arányát a vírus felfedezésétől óránként 42 órán keresztül. Változók: time a vírus felfedezése óta eltelt órák száma infected az adott órában megfertőzött e-mailok aránya waittimes.sav (k.a., bank) Egy bank három különböző fiókjánál mért kliens várakozási időket tartalmazza. Minden eset egy klienshez tartozik, tartalmazza a várakozási időt és a fiók kódját, ahol az ügyet intézi.

Page 32: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

Változók: branch a bankfiók kódja (A,B,C) wait az ügyfél várakozási ideje percekben webusability.sav (k.a., inf.) Egy internetes áruház használhatóságát tesztelik. Öt felkért tesztelő értékeli a nyújtott szolgáltatásokat előírt szempontok szerint. Hat akciót kellett a rendszerben végrehajtaniuk, és fel kellett jegyezniük, hogy adott időtartam alatt sikerült-e végrehajtania azt (1-succes, sikeres), vagy sem (0-failure, sikertelen). Változók: task1 a rendszerbe regisztrálás művelete task2 fax információk beállítása task3 hírlevelek fogadása task4 kérdések küldése a rendszergazdához task5 vásárlói kosár feltöltése task6 adatbázis információk kezelése wheeze_steubenville.sav (Ware, Dockery, Spiro III, Speizer, and Ferris Jr., 1984, orv.) Megvizsgálták, hogy a légszennyeződés adatai mennyire befolyásolják a gyerekek egészségi állapotát. Steubenville város, Ohio állam összesen 2148 hét, nyolc, kilenc és tíz éves gyerekén mérték az asztmásodás kialakulását ismételt bináris változókban. Feljegyezték azt is, hogy a gyermek édesanyja dohányzott-e a vizsgálat megkezdésének évében. Változók: id a gyerek azonosítója age a gyerek korkategóriája 1 7 éves 2 8 éves 3 9 éves 4 10 éves wheeze asztmás légzés (0-nincs, 1-van) smoker dohányzik-e a mama (0-nem, 1-igen) workprog.sav (k.a., szoc.) A kormány a hátrányos helyzetű embereket akarja jobb munkalehetőségekhez juttatni, ezért egy új program kidolgozásán fáradozik. Tekintik a programba potenciálisan bevonható emberek egy mintáját és az egyik részén kipróbálják a programot, a másik részén pedig nem. Változók: age a kor években marital családi állapot (0-nem házas, 1-házas) incbef a program előtti fizetés incaft a program utáni fizetés ed képzési szint 1 nem fejezte be a középiskolát

Page 33: KRVV]~ OLVWiMiWcs.bme.hu/~pricsi/stat/adatmatrix.pdfmhoohj]hwhvvpjhlw ihowiumin d nxwdwyn |vv]hvhq pwnh]pvl uhqghoohqhvvpjhw pxwdwy ildwdonru~ hj\pqw yl]vjiowdn phj 0lqghj\ln siflhqvw

2 érettségi 3 néhány év egyetem/főiskola 4 diplomás gender nem (f-nő, m-férfi) reside egy háztartásban élők száma prog részt vett a programban?