a.a. 2013/2014 corso laurea triennale economia aziendale e ... · a.a. 2013/2014 corso laurea...

15
a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria compito d’esame Esempio .1. 28 ottobre 2013 1. Una compagnia aerea, nell’ambito di una rilevazione mediante campionamento di convenienza che mira a valutare la soddisfazione della clientela rileva, tra le altre cose, i seguenti aspetti: (a) Data di oggi (b) Numero del volo (c) Motivo del viaggio (a. Affari/Lavoro; b. Visita parenti/amici; c. Turismo/Vacanze; d. Altro ) (d) Quanti viaggi aerei ha effettuato negli ultimi 4 mesi? (e) Come giudica, nel complesso il comfort sul volo che sta effettuando? Ottimo Buono Medio Scarso Pessimo Si indichi la natura della scala associata a ciascuna misurazione. Si considerino inoltre le seguenti misure di dispersione: la varianza, il campo di variazione, lo scarto interquartile; si indichi per quali misurazioni, tra quelle sopra elencate, esse risultino appropriate. 2. Si consideri la seguente scala attitudinale semplice: E’ soddisfatto dei servizi offerti dalla banca x? Molto soddisfatto Abbastanza Soddisfatto Poco soddisfatto Per niente soddisfatto (a) Dare una definizione delle scale attitudinali comparative. Si indichi se la scala di cui sopra ricade in tale fattispecie. (b) Dare una definizione del concetto di bilanciamento della scala. Indicare se la scala è bilanciata. (c) Fornire una motivazione per implementare una scala con un numero dispari di modalità. (d) Indicare alcuni plausibili ragioni per le quali la scala semplice potrebbe risultare scarsamente adeguata a misurare la soddisfazione nei confronti dei servizi bancari. 3. La tabella seguente riassume i risultati di un sondaggio relativo alla valutazione dei servizi offerti da un istituto di credito: il committente è rappresentato dall’istituto medesimo e con la sua collaborazione è stato selezionato un campione non probabilistico di clienti ai quali è stato chiesto di fornire una valutazione su una scala da 3 a 8 dei quesiti: (a) Facilità di contatto (b) Gentilezza delle persone - rispetto del cliente (c) Professionalità e competenza delle persone (d) Condizioni economiche praticate (e) Efficienza (f) Flessibilità (g) Capacità di fornire consulenza finanziaria alle imprese (h) Capacità di trovare soluzioni ad hoc per le imprese (i) Trasparenza e chiarezza delle condizioni (j) Fornitura di informazioni e di comunicazioni utili alle aziende clienti (k) Frequenza delle visite in azienda da parte del personale della banca (l) Assistenza continuativa al cliente (m) Giudizio complessivo 1

Upload: vantu

Post on 15-Feb-2019

214 views

Category:

Documents


0 download

TRANSCRIPT

a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria

compito d’esame Esempio .1. 28 ottobre 2013

1. Una compagnia aerea, nell’ambito di una rilevazione mediante campionamento di convenienza

che mira a valutare la soddisfazione della clientela rileva, tra le altre cose, i seguenti aspetti:

(a) Data di oggi

(b) Numero del volo

(c) Motivo del viaggio (a. Affari/Lavoro; b. Visita parenti/amici; c. Turismo/Vacanze; d. Altro )

(d) Quanti viaggi aerei ha effettuato negli ultimi 4 mesi?

(e) Come giudica, nel complesso il comfort sul volo che sta effettuando?Ottimo Buono Medio Scarso Pessimo

Si indichi la natura della scala associata a ciascuna misurazione. Si considerino inoltre le seguenti

misure di dispersione: la varianza, il campo di variazione, lo scarto interquartile; si indichi per

quali misurazioni, tra quelle sopra elencate, esse risultino appropriate.

2. Si consideri la seguente scala attitudinale semplice:

E’ soddisfatto dei servizi offerti dalla banca x?Molto soddisfatto Abbastanza Soddisfatto Poco soddisfatto Per niente soddisfatto(a) Dare una definizione delle scale attitudinali comparative. Si indichi se la scala di cui sopra

ricade in tale fattispecie.

(b) Dare una definizione del concetto di bilanciamento della scala. Indicare se la scala è bilanciata.

(c) Fornire una motivazione per implementare una scala con un numero dispari di modalità.

(d) Indicare alcuni plausibili ragioni per le quali la scala semplice potrebbe risultare scarsamente

adeguata a misurare la soddisfazione nei confronti dei servizi bancari.

3. La tabella seguente riassume i risultati di un sondaggio relativo alla valutazione dei servizi

offerti da un istituto di credito: il committente è rappresentato dall’istituto medesimo e con la

sua collaborazione è stato selezionato un campione non probabilistico di clienti ai quali è stato

chiesto di fornire una valutazione su una scala da 3 a 8 dei quesiti:

(a) Facilità di contatto

(b) Gentilezza delle persone - rispetto del cliente

(c) Professionalità e competenza delle persone

(d) Condizioni economiche praticate

(e) Efficienza

(f) Flessibilità

(g) Capacità di fornire consulenza finanziaria alle imprese

(h) Capacità di trovare soluzioni ad hoc per le imprese

(i) Trasparenza e chiarezza delle condizioni

(j) Fornitura di informazioni e di comunicazioni utili alle aziende clienti

(k) Frequenza delle visite in azienda da parte del personale della banca

(l) Assistenza continuativa al cliente

(m) Giudizio complessivo

1

Nella tabella sono riportate le frequenze assolute dei punteggi assegnati ai vari quesiti; NR indica

il numero di mancate risposte, mentre (1) indica che la mediana è stata calcolata su tutte le

risposte, mentre (2) che è stata calcolata soltanto sul sottoinsieme di coloro che hanno restituito

questionari senza lacune. Q3 - Q1 è lo scarto interquartile.Con riferimento alla selezione del campione, si indichi come si sarebbe potuto costruire un

campione probabilistico (dal punto di vista operativo) con la collaborazione dell’istituto

di credito; quali sarebbero stati i vantaggi rispetto al campionamento non probabilistico?

Mediante un’analisi del profilo indicare quale siano i punti forti ed i punti deboli dell’istituto

in questione. Sintetizzare per il committente il giudizio espresso dai rispondenti.

Sulla base dello scarto interquartile e del pattern delle mancate risposte (NR) indicare

quali item sono più ambigui ed hanno minore capacità discriminatoria.

Assumendo che si possa costruire una scala attitudinale complessa sommando i punteggi

individuali assegnati ai singoli quesiti, come valutare la concurrent validity della scala?

4. Scrivere i comandi R per il calcolo dell’indice di Cronbach con riferimento alla Tabella nella

domanda 3:

Le varianze σi2 dei singoli quesiti sono rispettivamente 0.68, 0.62, 0.53, 1.72, 0.97, 1.74, 1.88, 1.92,

1.68, 2.30, 3.30, 3.08, mentre la varianza σt2 dei punteggi totali individuali ottenuti sommando i

punteggi dei 12 quesiti è 113.5.

a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria

soluzioni compito d’esame Esempio .1. 28 ottobre 2013

1.

(b) scala nominale, (c) scala nominale, (d) scala di rapporti, (e) scala ordinale: se tuttavia si

assegnano punteggi ad esempio da -2 a 2 sulla base dell'ipotesi che tra una modalita' e la

2

successiva la differenza sia costante uguale a 1 la scala e' ad intervallo. La varianza, il campo di

variazione e l'intervallo interquartile sono appropriate per (d) ed eventualmente per (e).

2.

(a) Si definisce scala attitudinale comparativa una scala semplice per la cui costruzione e'

specificato un riferimento comune per tutti i rispondenti. Qui la scala e' non comparativa (2.3

Dispense)

(b) Il bilanciamento della scala implica un identico numero di opzioni favorevoli e sfavorevoli. Qui

la scala e' bilanciata (2.3 Dispense)

(c) La presenza di una modalita' centrale evita la polarizzazione delle risposte.

(d) Le scale semplici non consentono di misurare la affidabilita' della misurazione attitudinale.

3.

E' necessaria la disponibilita' di una lista di elementi della popolazione. Il campionamento

probabilistico consente l'uso dei metodi dell'inferenza statistica. In questo caso la scelta si puo'

orientare sul campionamento stratificato.

Per l’analisi del profilo si puo' far riferimento alle mediane di ciascun item; ad esempio, per

Frequenza visite e Assistenza la soddisfazione e' bassa. Il giudizio e' complessivamente buono,

infatti sulla scala da 3 a 8 molti item presentano mediane pari a 7 o superiori (rispetto al valore

medio tra 3 e 8, pari a 5.5 (11/2)).

Frequenza visite, Assistenza, Informazioni presentano elevata dispersione nelle risposte;

Consulenza e Soluzioni ad hoc presentano un numero elevato di mancate risposte.

Valutando la correlazione dei punteggi attitudinali con il giudizio complessivo espresso dalle

medesime unita'. La scala e' valida se la correlazione e' positiva e alta.

4.

si2 <- c(0.68, 0.62, 0.53, 1.72, 0.97, 1.74, 1.88, 1.92, 1.68, 2.30, 3.30, 3.08)

st2 <- 113.5

k <- 12

alfaCronbach <- (k/(k-1))*(1-sum(si2)/st2)

3

a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria

compito d'esame Esempio .2. 4 novembre 2013

1. Da una popolazione di 50 elementi e' stato selezionato, senza ripetizione, un campione casuale semplice di 5

elementi, per ciascuno dei quali e' stato misurato il numero di CD acquistati negli ultimi sei mesi, ottenendosi

(a) Scrivere la formula per il calcolo della stima del numero medio di CD acquistati,

(b) Scrivere la formula per il calcolo della varianza della popolazione e della varianza della media campionaria, in

quest'ultimo caso tenendo conto del fattore di correzione.

(c) Scrivere la formula dell'intervallo di confidenza al 95% (za/2 = 1.96) per la media della popolazione.

2. Si consideri la seguente scala attitudinale semplice:

Indichi il Suo giudizio sulla marca Z:

(a) Si definisca il concetto di bilanciamento della scala e si indichi se la scala e' bilanciata.

(b) Indicare quali aspetti formali del quesito siano apprezzabili e quali altri lo rendano inadeguato ai fini della

misurazione della soddisfazione dei clienti.

(c) Illustrare la scala attitudinale complessa di Thurstone.

3. Si dia una definizione di campionamento statistico e campionamento non probabilistico e si illustrino i due

principali schemi del campionamento statistico: il campionamento casuale semplice senza ripetizione e quello

stratificato.

Riguardo il campionamento stratificato,

(a) Se ne evidenzino i vantaggi rispetto al campionamento casuale semplice.

(b) Scrivere la formula dello stimatore stratificato della media della popolazione.

(c) La tabella sotto riportata contiene la dimensione, la media e la varianza campionarie di strato riferite ad una

popolazione di numerosita' N= 180 ripartita in 3 strati. Entro ciascuno strato e' stato estratto un campione casuale

semplice senza ripetizione di numerosita' nh.

Si indichi che tipo di allocazione e' stata effettuata e si definisca l'allocazione ottimale.

4. Con riferimento al problema della misura della distanza e della similarita',

(a) Si scriva la formula della distanza euclidea tra due oggetti a e b caratterizzati dagli attributi a1,..,an e b1,..,bn.

(b) Si pongano in evidenza i limiti della distanza euclidea e si suggerisca una possibile alternativa.

5. Scrivere in R i comandi per eseguire i calcoli relativamente alla domanda 1.

6. Scrivere in R i comandi per calcolare le stime della media e della varianza della popolazione in base alle

rilevazioni condotte sul campione stratificato i cui dati sono riportati in tabella 3(c).

7. Scrivere in R i comandi per calcolare la distanza euclidea tra le marche a e b caratterizzate dai seguenti profili:

4

a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria

soluzioni compito d’esame Esempio .2. 4 novembre 2013

1.

(a) Media campionaria: y = (4+2+10+1+3)/5 = 4; pertanto, la stima del numero medio di CD acquistati dalla popolazione negli ultimi sei mesi ammonta a 4 CD.

(b) La varianza campionaria, s2 risulta pari a s2 = (1/4)[(4-4)2 + (2-4)2 + (10-4)2 + (1-4)2 + (3-4)2] = 12.5 e rappresenta la stima della varianza della popolazione, S2. Dato che la frazione di campionamento è pari a f = n/N = 5/50 = 0.1, la stima della varianza della media campionaria risulta: Var(y) = (1-0.1)12.5/5 = 2.25.(c) L’intervallo di confidenza richiesto è l’intervallo di valori [4-1.96(2.25)1/2, 4+1.96(2.25)1/2]

2.

(a) Le scale bilanciate implicano un identico numero di opzioni favorevoli e sfavorevoli; in questo caso ha

rilievo se viene scelto un numero pari o dispari di opzioni. La scala riportata nella domanda è bilanciata in

quanto presenta due opzioni sfavorevoli e due favorevoli, mentre l'opzione 'non so' è posta all'esterno della

scala e non indica indifferenza nel giudizio di preferenza sulla marca Z.

(b) E' apprezzabile che sia messo in rilievo che l'opzione 'non so' non ha il significato di indifferenza o

giudizio neutrale ma stia a significare che non si esprime alcun giudizio. Non è apprezzabile che le opzioni

sfavorevoli siano presentate con aggettivi più decisamente orientati rispetto alle opzioni favorevoli.

(c) La costruzione della scala di Thurstone (o equintervallata) passa attraverso le seguenti fasi: a) Si

colleziona un numero m di statement o quesiti sufficientemente elevato, nei confronti dei quali l’intervistato

dovrà manifestare il proprio assenso o dissenso. b) Viene reclutato un numero elevato di giudici, ai quali si

chiede di ordinare in 11 gruppi i quesiti in ragione della loro connotazione (positiva o negativa) nei

confronti del dominio di indagine. c) Per ciascun quesito si calcola il valore mediano ed il campo di

variazione. d) Sono eliminati i quesiti che presentano dispersione più elevata, e che pertanto sono piu

ambigui e si seleziona un numero ridotto (20-30) di quesiti in modo da coprire l’intero spazio di misurazione

delle attitudini. e) I quesiti scelti sono sottoposti al campione di individui f) Il valore della scala attitudinale

per il rispondente viene ottenuto considerando il punteggio mediano realizzato sulle affermazioni con le

quali è d’accordo.

3.

Nel campionamento statistico ( o probabilistico) le unità statistiche della popolazione entrano a fare parte

del campione con una probabilità assegnata. Nel campionamento non probabilistico l'inclusione di una

unità statistica della popolazione nel campione è il risultato di una decisione del responsabile dell'indagine.

Il campionamento casuale semplice senza ripetizione seleziona dalla popolazione un campione di numerosità

n, in modo tale che ogni possibile campione abbia uguale probabilità di essere estratto. L’assenza di

ripetizione sta a significare che un’unità non può entrare a far parte dello stesso campione più di una volta;

pertanto, l’unità selezionata viene rimossa dalla popolazione e non può essere più estratta. Questo schema di

campionamento prende anche il nome di campionamento a blocchi.

Nel campionamento stratificato la popolazione è suddivisa in sottogruppi mutuamente esclusivi, detti strati,

in base ad una o più variabili ausiliarie o di classificazione. Da ciascun sottogruppo viene estratto in

maniera indipendente, tramite uno schema di campionamento casuale semplice, un campione di numerosità

minore della numerosità campionaria in modo tale che la somma sia pari al numero di elementi prefissato

per il campione complessivo.

5

Per quanto riguarda il campionamento stratificato si può dire che:

(a) presenta vantaggi che consistono nell'aumento della precisione delle stime rispetto al campionamento

casuale semplice, purché i sottogruppi siano omogenei al loro interno e disomogenei tra loro, nella

possibilità di adottare metodi di indagine specifici per ogni strato e nel fatto di rendere disponibili le stime

delle caratteristiche della popolazione sia nel complesso che articolate per strati.

(b) y = (100*5 + 50 * 15 + 30 * 50)/180 (c) L’allocazione è proporzionale: fh = f = 0.1 per h = 1, 2, 3. L'allocazione ottimale dipende dalla dimensione dello strato, dalla variabilità del carattere all’interno dello strato (a parità di altre condizioni,

quanto minore sarà l’omogeneità interna dello strato tanto maggiore sarà il numero di unità da selezionare

per ottenere un campione rappresentativo), nonchè dai vincoli di spesa dell'indagine.

4.

(a) d = {(a1-b1)2 + (a2-b2)2 + ... + (an-bn)2}1/2

(b) Il valore della distanza euclidea può essere influenzato in modo eccessivo da valori molto grandi o molto

piccoli delle differenze dovuti a dati errati o anomali. La distanza euclidea è definita solo per variabili

quantitative. Una distanza meno sensibile a dati errati o anomali è la distanza della città a blocchi (o

distanza di Manhattan). Per variabili categoriali si può adoperare la distanza di Hamming, data dalla

percentuale di modalità per le quali sono stati rilevati valori differenti.

5.

y <- c(4, 2, 10, 1, 3); N <- 50; n <- 5

media <- mean(y); varianza_campionaria <- var(y);

varianza_media <- (varianza_campionaria /n)*(1-n/N)

estremo_inferiore_intervallo <- media - 1.96*sqrt(varianza_media)

estremo_superiore_intervallo <- media + 1.96*sqrt(varianza_media)

6.

dati <- c(100, 50, 30, 10, 5,3, 5, 15, 50, 10, 30, 120)

matrice <- matrix(dati, 3, 4)

media <- sum(matrice[,1]*matrice[,3])/sum(matrice[,1])

f <- 0.1

varianza <- (1 - f)* sum(matrice[,1]*matrice[,4])/sum(matrice[,1])

7.

a <- c(2, 2.8, 2.2, 332.2)

b<- c(3, 2.5, 2.4, -31.9)

d <- sqrt(sum((a-b)^2))

a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria

6

compito d'esame Esempio .3. 18 novembre 2013

1.

Ad un campione di acquirenti potenziali di uno stereo portatile viene somministrato un questionario in cui si richiede di valutare cinque marche (Modello1-Modello5) sulla base dei seguenti quesiti:

(a) secondo quale tecnica sono strutturati i quesiti?(b) riformulare il quesito 'e' nella scala di Stapel(c) dare una definizione della misura dell'attitudine di un individuo(d) dare una definizione di profilo attitudinale

2.

La seguente tabella riporta i punteggi medi degli otto quesiti (a-h) di cui alla domanda precedente per il campione di rispondenti.

(a) Vi sono quesiti per i quali e' necessaria una operazione di 'rovesciamento' dei punteggi? Come si effettua questa operazione?(b) quali grafici sono i piu' adatti per descrivere il profilo attitudinale dei rispondenti rispetto alle 5 marche?(c) in che modo si calcola la distanza euclidea tra le 5 marche Mod1-Mod5? e la distanza nella metrica della citta' a blocchi?

3.

7

Si illustri il metodo di raggruppamento non gerarchico detto K-means.

4.

E' data la seguente matrice delle distanze tra 4 marche

(a) come si definiscono le tecniche di raggruppamento gerarchiche agglomerative? (b) si effettui il raggruppamento delle unita' con la tecnica del legame completo(c) qual e' la definizione di dendrogramma?

5.

Si assuma che la tabella dei punteggi medi riportata nella domanda 2 sia disponibile sul file "tabella.txt". Scrivere i comandi di R per le seguenti operazionilettura del file "tabella.txt" in un data framerovesciamento dei punteggi dove occorredisegno dei grafici ritenuti appropriati a rappresentare i profili attitudinalicalcolo della distanza euclidea tra le 5 marchecalcolo della distanza della citta' a blocchi tra le 5 marche

6.

Costruire una matrice che contenga le distanze indicate nella domanda 4.scrivere il comando di R per l'algoritmo gerarchico agglomerativo che usa la tecnica del legame completo sulla matrice di distanze di cui al passo precedentescrivere il comando di R per il disegno del dendrogramma relativo al raggruppamento effettutao al punto precedente

a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria

soluzioni compito d’esame Esempio .3. 18 novembre 2013

1.

(a) I quesiti sono strutturati secondo la tecnica del differenziale semantico.

(b) +3

+2

+1

qualita' del suono

8

-1

-2

-3

(c) I punteggi individuali sono sommati per ottenere un punteggio individuale complessivo che costituisce la

misura dell’attitudine per l’individuo. L'analisi aggregata si ottiene dal confronto tra i dati individuali o di gruppi

di individui.

(d) Viene calcolato il punteggio totale, medio o mediano assegnato dai rispondenti o da un particolare gruppo a

ciascuno degli item. L’analisi del profilo viene utilizzata per identificare i punti deboli e forti dell’oggetto o

costrutto che viene misurato.

2.

(a) I punteggi relativi al quesito 'f' vanno rovesciati, il che viene effettuato considerando 8-y, dove y e' il

punteggio riportato in tabella.

(b) Il diagramma a barre, sul quale si puo' eventualmente tracciare una linea in corrispondenza della media.

(c) La distanza euclidea tra Mod'i' e Mod'j' si calcola sottraendo la riga i dalla riga j, sommando i quadrati delle

otto differenze cosi' ottenute ed estraendo la radice quadrata. La distanza della citta' a blocchi si ottiene

sommando i valori assoluti delle differenze.

3.

Il metodo di raggruppamento non gerarchico detto K-means consiste nello specificare k punti iniziali, o seeds

(scegliendo in maniera opportuna alcune unita' o prendendo la configurazione determinata da una tecnica

gerarchica). Al primo passo ciascuna unita' e' assegnata ai k punti in ragione della distanza piu' piccola. Viene

calcolata la media o il centroide per ciascuno dei k gruppi e si verifica che ciascuna unita' sia assegnata al

grappolo che ha il centroide piu' vicino. Se questo non si verifica si procede a spostare l’unita' presso il grappolo

che ha il centroide piu' vicino e si controlla la nuova soluzione, per cui si procede iterativamente a spostamenti

successivi fino a raggiungere una configurazione stabile.

4.

(a) Le tecniche di raggruppamento gerarchiche agglomerative procedono per aggregazioni successive delle

unita'. Detto n il numero degli individui si assume inizialmente che vi siano n gruppi formati da un solo individuo.

I gruppi sono aggregati in iterazioni successive fino a formare un unico grappolo che contiene tutti gli n individui.

Esistono diversi criteri in base ai quali valutare se due grappoli debbano essere o meno aggregati, i piu' noti: il

legame singolo, il legame completo, il legame medio, il metodo del centroide, il metodo di Ward.

(b)

(c) Lo strumento grafico che consente di sintetizzare il processo di fusione e' il dendrogramma, dal quale e'

anche possibile apprezzare quanto un gruppo sia separato dagli altri. Il rapporto tra il livello di distanza a cui un

gruppo viene formato e quello a cui si fonde con un altro puo' essere utilizzato al fine di individuare il numero

9

dei grappoli, poiche' quanto piu' questo rapporto e' elevato tanto piu' il grappolo e' delimitato e separato dai

rimanenti.

a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria

compito d'esame Esempio .4. 2 dicembre 2013

1. Una societa' ha effettuato la valutazione del proprio personale di vendita, costituito da 50 individui, sulla base di

7 indicatori relativi a: Capacita' di incrementare il volume di vendita (X1); Capacita' di profitto (X2); Capacita' di

attrarre nuovi clienti (X3); Test di creativita' (X4); Test di ragionamento meccanico (X5); Test di ragionamento

astratto (X6); Test attitudinale matematico (X7).

Le prime e ultime tre righe della matrice dei dati si presentano come segue:

Gli autovalori della matrice di covarianza dei punteggi, S, risultano nell’ordine:

I primi due autovettori, riportati di seguito, forniscono i factor loadings delle prime due componenti principali:

10

In base a questi risultati:

(a) Spiegare il significato delle prime due componenti principali.

(b) Definire la comunalita' delle variabili X1-X7.

(c) Come si effettua il calcolo del valore della prima componente principale per la prima unita'?

(d) Enunciare un criterio per la scelta del numero di componenti principali e motivare la scelta effettuata di 2

componenti principali.

(e) Dare la definizione della matrice D delle distanze euclidee tra le 50 unita'. (f) Definire la matrice di covarianza dei punteggi, S, e dire se coincide con D oppure no, specificando il motivo.

2. Una testata giornalistica desidera stimare il numero medio di copie vendute in una settimana di riferimento e in

una determinata citta'. La popolazione di N=100000 individui e' stata ripartita in 3 zone di residenza e un campione stratificato di n = 1000 individui e' stato selezionato mediante l’estrazione entro ciascuno strato di un campione casuale semplice senza ripetizione di numerosita' nh, h=1,2,3. La tabella sotto riportata contiene la dimensione, le medie e le varianze campionarie di strato.

(a) Definire un campione stratificato e dire quali sono i vantaggi rispetto al campionamento casuale semplice.

(b) Scrivere la formula dello stimatore stratificato della media della popolazione e la formula della sua varianza.

(c) Spiegare se il campione stratificato come riportato nella tabella e' proporzionale oppure no.

3. I seguenti dati sono parte di un data set sulle caratteristiche di alcuni modelli di automobile:

Manufacturer Model Type AirBag Drive Manual Domestic

1 Acura Integra Small 0 1 1 0

2 Acura Legend Midsize 1 1 1 0

3 Audi 90 Compact 1 1 1 0

4 Audi 100 Midsize 1 1 1 0

5 BMW 535i Midsize 1 0 1 0

6 Buick Century Midsize 1 1 0 1

7 Buick LeSabre Large 1 1 0 1

8 Buick Roadmaster Large 1 0 0 1

9 Buick Riviera Midsize 1 1 0 1

10 Cadillac DeVille Large 1 1 0 1

11 Cadillac Seville Midsize 1 1 0 1

(a) Definire gli indici di similarita' 'simple matching coefficient' e 'Jaccard' e la distanza di Hamming.

(b) Calcolare questi indici per confrontare il primo e l'ultimo modello di automobile in base alle variabili binarie.

4. L'altezza del battistrada di 11 pneumatici in mm e' risultata uguale a:

11

Valeria

8.2 10 10.5 9.4 9.7 10.2 9.1 8.9 9.5 9.9 10.1

La numerosita' della popolazione non e' nota e si assume convenzionalmente infinita.

Scrivere le formule per il calcolo di:

(a) media campionaria

(b) varianza campionaria

(c) deviazione standard

(d) varianza della media campionaria

(e) intervallo di confidenza per la media (si tratta di un campione piccolo)

(f) definire l'errore di prima specie per l'ipotesi nulla H0: Altezza del battistrada nella popolazione = 10.2

5. Si dia una definizione di:

(a) imputazione deduttiva

(b) imputazione per medie

(c) imputazione hot deck

6. Scrivere i comandi di R per:

(a) disegnare il grafico degli autovalori riportati nella domanda 1.

(b) calcolare le comunalita' delle variabili X1-X7 descritte nella domanda 1.

(c) calcolare i valori della prima e della seconda componente principale per le 6 unita' statistiche i cui dati sono

riportati nel testo della domanda 1 (la prima tabella) in base agli autovettori a1 e a2 riportati nella seconda tabella.

(c) calcolare la media stratificata in base ai dati della tabella riportata nella domanda 2.

(d) effettuare il calcolo delle formule richieste nella domanda 4, (a)-(e), sui dati degli pneumatici.

a.a. 2013/2014 corso laurea triennale economia aziendale e bancaria

soluzioni compito d’esame Esempio .4. 2 dicembre 2013

1.

(a) La prima componente principale spiega il massimo della varianza spiegabile attraverso una

riduzione ad una dimensione, la prima e la seconda componente spiegano il massimo della

varianza spiegabile attraverso una riduzione a due dimensioni. I valori degli autovettori a1 e a2

indicano che la prima componente principale riassume le variabili X1 e X2, la seconda le variabili

X4 e X5, le due componenti insieme X3 e X7, mentre X6 non e' rappresentata dalle componenti

principali.

(b) La comunalita' di una variabile e' la somma dei quadrati dei factor loadings moltiplicati per la

radice quadrata dei rispettivi autovalori.

(c) La prima componente principale per la prima unita' statistica e' la somma dei prodotti dei

valori delle variabili nella prima riga della matrice dei dati per i valori della prima colonna (a1)

della tabella dei factor loadings.

(d) I piu' comuni criteri scelta sono i seguenti: (1) scegliere p in modo che la percentuale di

varianza spiegata dalle componenti principali sia almeno superiore al 70%; (2) in base alla

rappresentazione grafica degli autovalori in ordine decrescente: si può disegnare una spezzata

unendo i punti corrispondenti agli autovalori per individuare le componenti dopo le quali gli

autovalori non diminuiscono piu' in modo apprezzabile; (3) si assumono p componenti principali

corrispondenti ad autovalori piu' grandi della media degli autovalori stessi.

(e) La distanza euclidea tra due unita' i e j si ottiene considerando la riga i e la riga j della matrice

12

dei dati. Le differenze tra modalita' rilevate disposte sulla medesima colonna sono elevate al

quadrato e sommate. La radice quadrata della somma fornisce la distanza euclidea tra l'unita' i e

l'unita' j. La matrice D e' la tabella 50x50 che riporta nella riga i e nella colonna j la distanza

euclidea tra i e j, per tutte le possibili coppie (i,j) con i e j tra 1 e 50.

(f) La matrice S delle covarianze tra i punteggi e' una tabella 7x7 che all'incrocio di ciascuna riga i

con ciascuna colonna j ha come elemento la covarianza tra la variabile Xi e la variabile Xj, in

formula (con Xi si indica la media della variabileXi):

50

1,

( )( )

50

i i

ii j

Xi Xi Xj Xj

σ =

− −=∑

Le matrici S e D non possono essere uguali in quanto S e' una matrice quadrata di ordine 7 e D

una matrice quadrata di ordine 50.

2.

(a) Il campionamento stratificato consiste nel suddividere la popolazione in sottogruppi

mutuamente esclusivi, detti strati, in base ad una o piu' variabili ausiliarie o di classificazione. L’h-

esimo strato, con h = 1..H, contiene Nh elementi dai quali viene estratto in maniera indipendente

un campione casuale semplice di numerosita' nh. La stratificazione ha i seguenti vantaggi rispetto

al campionamento casuale semplice: la precisione delle stime aumenta qualora i sottogruppi

siano omogenei al loro interno e disomogenei tra di loro; si puo' adattare il campionamento alle

caratteristiche dei sottogruppi; e' possibile ottenere stime differenziate per sottogruppo.

(b) la media e’

3

1

1h h

h

Y N yN =

= ∑, la varianza

32 2

21

1( )h h h h

h

N N n sN

σ=

= −∑

(c) non e' proporzionale.

3.

(a) Gli indici dipendono dal confronto delle modalita' binarie rilevate per ciascuna variabile sulle

unita' i e j. Detto n00 il numero di variabili per le quali entrambe le modalita' sono 0, n11 il numero

di variabili per le quali entrambe le modalita' sono 1 e n01 ed n10 il numero di variabili in cui si

rilevano le modalita' 0 per l'unita' i ed 1 per la modalita' j ovvero il viceversa, si definisce simple

matching coefficient l'indice di similarita' (n00 + n11)/N, indice di Jaccard il rapporto n11/(n11+n01

+n10), distanza di Hamming la percentuale ((n01+n10)/N)*100, dove N=n00+n11+n01+n10.

(b) Risulta smc=1/4, jaccard=1/4 e hamming=75%.

4.

Poniamo n il numero delle misure e x1, …, xn le misure rilevate. Si ha

(a) 1

1 n

i

i

x xn =

= ∑

13

a) ( )

2

2

1

1

1

n

i

i

s x xn =

= −− ∑

b) 2s s=

c)

2

var( )s

xn

=

(a) / 2 / 2,

s sx t x t

n nα α

− +

(livello di confidenza 1-α)

(f) E' la probabilita' di rifiutare H0 se H0 e' vera.

5.

(a) Il valore mancante di una variabile e' calcolato in base ad una relazione nota con altre variabili

se le variabili rilevate sono connesse tra loro da vincoli logici.

(b) Il dato mancante e' sostituito con un valore medio, libero o condizionato.

(c) La procedura hot deck nella versione piu’ semplice consiste nell'estrazione casuale di

un’unita’ per ogni dato mancante effettuata con o senza ripetizione sulla distribuzione empirica

della caratteristica. Nell'hot deck sequenziale l'unita' non viene estratta ma e' utilizzata la piu'

recente esaminata. Nell'hot deck gerarchico i non rispondenti vengono suddivisi in gruppi

ordinati gerarchicamente a seconda della natura e del numero delle informazioni non fornite e il

valore che viene imputato e' tratto dal rispondente piu' simile nella classe. Una variante dell'hot

deck consiste nel sostituire al dato mancante il valore preso a prestito dall’unita’ per la quale e’

minima una funzione di distanza che tiene conto del profilo multidimensionale delle unita’.

6.

(a) autovalori <- c(279.43, 16.92, 8.8, 5.8, 2.5, 1.13, 0.33)

plot(autovalori, type="b")

oppure

barplot(autovalori); abline(h=mean(autovalori))

(b) autovalori <- c(279.43, 16.92, 8.8, 5.8, 2.5, 1.13, 0.33)

autovettori<-c(-0.42,-0.59,-0.25,-0.13,-0.14,-0.07,-0.61,-0.12,-0.07,-0.26,-0.74,-0.36, 0.05, 0.49)

autovettori <- matrix(autovettori, nrow=7, ncol = 2)

comunalita <- autovalori[1] * autovettori[,1]^2 + autovalori[2] * autovettori[,2]^2

(c)

autovettori<-c(-0.42,-0.59,-0.25,-0.13,-0.14,-0.07,-0.61,-0.12,-0.07,-0.26,-0.74,-0.36, 0.05, 0.49)

autovettori <- matrix(autovettori, nrow=7, ncol = 2)

osservazioni <- c(93, 88.8,95,84.3,104.3,106,96,91.8,100.3,89.8,109.5,118.5,97.8,96.8,99,

94.3,106.5,105,9,7,8,8,14,12,12,10,12,8,12,16,9,10,9,8,12,11,20,15,26,9,36,39)

osservazioni <- matrix(osservazioni, nrow=6, ncol=7)

fattori <- rep(0, 12); fattori <- matrix(fattori, nrow=6, ncol=2)

for (riga in 1:6){

for (colonna in 1:2){

fattori[riga,colonna]<- sum(osservazioni[riga,] * t(autovettori[,colonna]))

}

14

}

oppure

v1 <- rep(autovettori[,1], times = 6); v1 <- matrix(v1, nrow=7, ncol= 6)

fattore1 <- rowSums(osservazioni * t(v1))

v2 <- rep(autovettori[,2], times = 6); v2 <- matrix(v2, nrow=7, ncol= 6)

fattore2 <- rowSums(osservazioni * t(v2))

fattori <- cbind(fattore1, fattore2)

(d) tabella <- c(70000 ,25000, 5000, 500, 300, 200, 1.5, 2.9, 4.1, 15, 22, 84)

tabella <- matrix(tabella, nrow= 3, ncol = 4)

media_stratificata <- sum(tabella[,1] * tabella[,3])/sum(tabella[,1])

(e) h <- c(8.2, 10, 10.5, 9.4, 9.7, 10.2, 9.1, 8.9, 9.5, 9.9, 10.1)

media <- mean(h)

varianzac <- var(h)

deviazionec <- sqrt(varianzac) oppure deviazionec <- sd(h)

varianzam <- varianzac/11

estrinf <- media - qt(0.975, lower.tail=TRUE)* sqrt(varianzam)

estrsup <- media + qt(0.975, lower.tail=TRUE)* sqrt(varianzam)

oppure

estrinf <- media - qt(0.975, lower.tail=TRUE)* deviazionec/sqrt(11)

estrsup <- media + qt(0.975, lower.tail=TRUE)* deviazionec/sqrt(11)

15