statistica per l’analisi...
TRANSCRIPT
21 settembre 2006
Bruno Scarpa
Statistica per l’Analisi Organizzativa
Università Commerciale L. BocconiAnno Accademico 2006-2007
21 settembre 2006
le aziende
21 settembre 2006
Guida commerciale e tecnologica
Fare analisi e proporre idee: è il
motore delle azioni di
marketing
Supporto all’uomo di marketing:
aiuto quantitativo alle idee di marketing
Analisi di marketing: “reports” e statistiche
descrittive di base
Diversi livelli di coinvolgimento della statistica nel „fare business“
ReportsTabelle
Semplici indicatori
ReportsTabelle
Semplici indicatoriSemplici modelli
Tabelle Indicatori/tassi
ModelliData mining
Modelli StatisticiData mining
ReportsTabelleIndicatori
Strumenti:
focus sui prodotti
focus sul cliente
statistica in azienda
21 settembre 2006
Customer base: approccio strategico
Un unico obiettivo
Aumentare ilAumentare il Customer Lifetime ValueCustomer Lifetime Valueattraversoattraverso la la riduzioneriduzione del churn del churn
e e l’aumento dell’ARPUl’aumento dell’ARPU
PROFILING & PROFILING & SEGMENTATIONSEGMENTATION
Identificare i potenziali “Identificare i potenziali “churnerschurners””
Massimizzare la soddisfazione dei clientiMassimizzare la soddisfazione dei clienti
Focalizzarsi su target per cross e up sellFocalizzarsi su target per cross e up sell
Ridurre il Ridurre il churnchurn
Massimizzare ilMassimizzare ilvalore del clientevalore del cliente
… attraverso
21 settembre 2006
Customer Relationship Management
Identificare
Realizzare
Praticare
tutte le attività necessarie a garantire il processo di attenzione e fidelizzazionedell’individuo verso l’azienda e la sua
offerta di prodotti e servizi
e, conseguentemente
la massimizzazione delle opportunità di business attraverso la soddisfazione
costante dei bisogni
21 settembre 2006
Profiling
Identificare
Classificare
Acquisire
Gestire
tutte le informazioni che consentono la conoscenza e l’analisi del proprio target di
riferimento
e, conseguentemente
la realizzazione di prodotti e servizi ad elevata probabilità di soddisfazione dei suoi bisogni
sources analysis mgmnt
21 settembre 2006
Customer base: segmentazione di base
0%
VALO
RE D
EL C
LIE
NTE 1
00%
0%
VALO
RE D
EL C
LIE
NTE 1
00%
0% FEDELTA’ DEL CLIENTE 100% FEDELTA’ DEL CLIENTE 100%0%
MASSIMIZZARE MASSIMIZZARE IL VALOREIL VALORE
�� OPERATORE CC PERSONALEOPERATORE CC PERSONALE�� NUOVI VASNUOVI VAS�� MEMBER GETS MEMBERMEMBER GETS MEMBER�� CURA & ATTENZIONECURA & ATTENZIONE
AZIONI A BASSO AZIONI A BASSO COSTO/ NO COSTO/ NO
PROMOZIONIPROMOZIONI
�� NON COSTI AGGIUNTIVI PER LA NON COSTI AGGIUNTIVI PER LA GESTIONE DEL CLIENTEGESTIONE DEL CLIENTE�� AZIONI DI “MASSA”AZIONI DI “MASSA”
AUMENTARE IL AUMENTARE IL VALOREVALORE
�� AZIONI DI UP / CROSS SELLAZIONI DI UP / CROSS SELL
�� INCENTIVARE L’USOINCENTIVARE L’USO
�� INCENTIVARE ATTIVAZIONE DI INCENTIVARE ATTIVAZIONE DI VASVAS
COSTRUIRE COSTRUIRE FELDELTA’FELDELTA’
�� DIFFERENZIAZIONE DEI SERVIZIDIFFERENZIAZIONE DEI SERVIZIINBOUND & OUTBOUNDINBOUND & OUTBOUND
�� SCHEMA DI LOYALTY (Incentivi)SCHEMA DI LOYALTY (Incentivi)�� BLOCCHI (Disincentivi alla fuga)BLOCCHI (Disincentivi alla fuga)
…ALLA CONCORRENZA!…ALLA CONCORRENZA!
21 settembre 2006
L’approccio di crm
Generazione di profitti attraverso l’acquisizione di clienti ad alto valore, la creazione di valore e un’attenta politica di “cost to serve”4Acquisizione di clienti (conversione di prospect in clienti)4Aumento del valore dei clienti attraverso azioni di cross-sell e di up-sell4“trattenere” i clienti (retention)4Attenzione al “cost to serve”
4Campagne4Programmi di “Loyalty”4Personalizzazione dei Servizi4Gestione dei canali di contatto4(sviluppo di nuovi prodotti)
4Analisi di dati sui clienti4Segmentazione & micro-segmentazione4Suggerimenti sui bisogni e le preferenze dei clienti
4Analisi delle propensioni sui “contatti”•Uso dei canali•Ragioni di contatto
4Esperienza del cliente per ogni canale (CC, Portale,chat, Messaging, Dealers)
4Efficienza del Customer Care
CUSTOMER DATA4ID (nome, indirizzo, num. di telefono, piano tariffario...)
4Dati Demografici (età, città, ...)
4Dati Socio-economici (reddito, professione, titolo distudio, classe di valore, ...)
4Dati Psicografici (ambiente, preferenze, hobbies, ...)
4Patterns d’uso (spesa telefonica, servizi usati e frequenza, ...)
4Storia dei contatti del cliente•Uso dei canali•Motivo di contatto•Numero di contatti
DATI SUI LIVELLI DI SERVIZIO DEI CANALI...
DATI “GREZZI”
ANALISI(PROFILING)
AZIONI
OBIETTIVI
21 settembre 2006
L’approccio di crm
Generazione di profitti attraverso l’acquisizione di clienti ad alto valore, la creazione di valore e un’attenta politica di “cost to serve”4Acquisizione di clienti (conversione di prospect in clienti)4Aumento del valore dei clienti attraverso azioni di cross-sell e di up-sell4“trattenere” i clienti (retention)4Attenzione al “cost to serve”
4Campagne4Programmi di “Loyalty”4Personalizzazione dei Servizi4Gestione dei canali di contatto4(sviluppo di nuovi prodotti)
4Analisi di dati sui clienti4Segmentazione & micro-segmentazione4Suggerimenti sui bisogni e le preferenze dei clienti
4Analisi delle propensioni sui “contatti”•Uso dei canali•Ragioni di contatto
4Esperienza del cliente per ogni canale (CC, Portale,chat, Messaging, Dealers)
4Efficienza del Customer Care
CUSTOMER DATA4ID (nome, indirizzo, num. di telefono, piano tariffario...)
4Dati Demografici (età, città, ...)
4Dati Socio-economici (reddito, professione, titolo distudio, classe di valore, ...)
4Dati Psicografici (ambiente, preferenze, hobbies, ...)
4Patterns d’uso (spesa telefonica, servizi usati e frequenza, ...)
4Storia dei contatti del cliente•Uso dei canali•Motivo di contatto•Numero di contatti
DATI SUI LIVELLI DI SERVIZIO DEI CANALI...
ANALISI(PROFILING)
AZIONI
OBIETTIVI
DATI “GREZZI”
21 settembre 2006
Contesti rilevanti:
* data-base aziendali (customer-base, CRM, ...) soprattutto per
telefoniche, banche e assicurazioni, grande distribuzione (cfr
carte fedeltà)
* ambito scientifico: microarrays, radiotelescopi, fisica delle
alte energie
* tecnologie varie: telerilevazione, riconoscimento vocale,
OCR, etc.
* dati non strutturati
- text-mining (motori di ricerca web)
*costa poco rilevare dati in modalità
automatica
*costa poco immagazzinare dati in data-base
sempre più grandi
21 settembre 2006
Il DWH
Esempio: TLC
DWH
Ricerce di mercato e dati esterni
Offerta dellapagine/ contenutiweb(es. page views, unique visitors, ...)
Dati di trafficoda web
Dati sulle attivazioni (e.g. Data di sottoscrizione del contratto, Tipo di contratto, Piano tariffario, ...)
Dati di Billing
Dati sul Campaign Management & storia dei contatti diMarketing
Dati sulle communities
Dati dal CRM operativo
Informazioni socio-demografiche
Dati di traffico telefonico
Dati sui VAS & Killer Applications
Dati raccolti attraverso il web (questionari, indagini e comportamenti dei visitatori)
Dati sulle e-mail
Altri dati sui servizi a valore aggiunto (internie sui siti “amici”)
Dati sui programmi diLoyalty
Dati e indici ottenuti dalle analisi della CB
Dati sui “gravi errori”che l’azienda compienella gestione di clienti(es. errori dibilling, ...)
Dati sui costi
...
...
...
21 settembre 2006
Ad esempio:
* Nel datamart per la previsione della disattivazione, è più utile tenere
l’informazione sugli errori di fatturazione rispetto ai dettagli socio-
demografici
* Campioni casuali di clienti possono essere molto utili
*il data-base disponibile è enorme!
è quindi opportuno:
- tener conto degli obiettivi delle analisi
- non concentrarsi solo su da dove e come
raccogliere informazioni
- utilizzare estrazioni di parti del data-base
diverse a seconda degli obiettivi
21 settembre 2006
L’approccio di crm
Generazione di profitti attraverso l’acquisizione di clienti ad alto valore, la creazione di valore e un’attenta politica di “cost to serve”4Acquisizione di clienti (conversione di prospect in clienti)4Aumento del valore dei clienti attraverso azioni di cross-sell e di up-sell4“trattenere” i clienti (retention)4Attenzione al “cost to serve”
4Campagne4Programmi di “Loyalty”4Personalizzazione dei Servizi4Gestione dei canali di contatto4(sviluppo di nuovi prodotti)
4Analisi di dati sui clienti4Segmentazione & micro-segmentazione4Suggerimenti sui bisogni e le preferenze dei clienti
4Analisi delle propensioni sui “contatti”•Uso dei canali•Ragioni di contatto
4Esperienza del cliente per ogni canale (CC, Portale,chat, Messaging, Dealers)
4Efficienza del Customer Care
CUSTOMER DATA4ID (nome, indirizzo, num. di telefono, piano tariffario...)
4Dati Demografici (età, città, ...)
4Dati Socio-economici (reddito, professione, titolo distudio, classe di valore, ...)
4Dati Psicografici (ambiente, preferenze, hobbies, ...)
4Patterns d’uso (spesa telefonica, servizi usati e frequenza, ...)
4Storia dei contatti del cliente•Uso dei canali•Motivo di contatto•Numero di contatti
DATI SUI LIVELLI DI SERVIZIO DEI CANALI...
ANALISI(PROFILING)
AZIONI
OBIETTIVI
DATI “GREZZI”
21 settembre 2006
Alcuni problemi
�acquisizione della clientela
�prospect
→Raggiungere una soglia minima di clienti ASAP
→Trovare e attrarre i clienti giusti: quanto spendere per ciascun diverso cliente
potenziale?
�Scoprire frodi di sottoscrizione
→determinare domande di sottoscrizione fraudolente
�profittabilità dei clienti
�valore del cliente
�„dormienti“ e share of wallet
�monitoraggio e management del rischio
→Determinare e ottimizzare i parametri di rischio
21 settembre 2006
Alcuni problemi
�fedeltà
�approccio predittivo→modelli di previsione del churn
�attrito e retention
→Modellazione e determinazione e delle
principali cause
�azioni: programmi di
loyalty/campagne/up sell-cross sell
�relazione col cliente
→Personalizzazione dell‘attenzione e del
contatto
�Customer profiling
�chi sono i clienti?
�cosa ciascun cliente vuole?
�come contattare ogni cliente?
�valutazione delle azioni
�Spesso non è possibile effettuare esperimenti caso-controllo
→I clienti sono autoselezionati
�Valutare a posteriori alcune azioni
→Stima gli effetti delle azioni condizionatamente all’effetto di tutte le altre variabili
21 settembre 2006
L’approccio di crm
Generazione di profitti attraverso l’acquisizione di clienti ad alto valore, la creazione di valore e un’attenta politica di “cost to serve”4Acquisizione di clienti (conversione di prospect in clienti)4Aumento del valore dei clienti attraverso azioni di cross-sell e di up-sell4“trattenere” i clienti (retention)4Attenzione al “cost to serve”
4Campagne4Programmi di “Loyalty”4Personalizzazione dei Servizi4Gestione dei canali di contatto4(sviluppo di nuovi prodotti)
4Analisi di dati sui clienti4Segmentazione & micro-segmentazione4Suggerimenti sui bisogni e le preferenze dei clienti
4Analisi delle propensioni sui “contatti”•Uso dei canali•Ragioni di contatto
4Esperienza del cliente per ogni canale (CC, Portale,chat, Messaging, Dealers)
4Efficienza del Customer Care
CUSTOMER DATA4ID (nome, indirizzo, num. di telefono, piano tariffario...)
4Dati Demografici (età, città, ...)
4Dati Socio-economici (reddito, professione, titolo distudio, classe di valore, ...)
4Dati Psicografici (ambiente, preferenze, hobbies, ...)
4Patterns d’uso (spesa telefonica, servizi usati e frequenza, ...)
4Storia dei contatti del cliente•Uso dei canali•Motivo di contatto•Numero di contatti
DATI SUI LIVELLI DI SERVIZIO DEI CANALI...
ANALISI(PROFILING)
AZIONI
OBIETTIVI
DATI “GREZZI”
21 settembre 2006
Modelli statistici e data mining
4Utilizzo di tecniche e metodologie statistiche di vario tipo e di diverso livello di complessità
4L’approccio è graduale: si parte da soluzioni e metodologie semplici e poi man mano ci si sposta su modelli e strumenti piùsofisticati (KISS = Keep It Simple. Sam!)
4È preferibile non affidarsi a soluzioni automatiche (black box) che propongono “schiaccia il bottone e il computer farà tutto da solo”(la proposta tipica dei tools in vendita)
4Data mining: Insieme di tecniche statistiche (e non) per la stima di modelli non-lineari per grosse quantità di dati, ma caratterizzate da ridotta complessità computazionale.
21 settembre 2006
Definizione abbastanza condivisa:
'Data mining' rappresenta l'attività di
elaborazione in forma grafica o numerica di
grandi raccolte o di flussi continui di dati con
lo scopo di estrarre informazione utile a chi
detiene i dati stessi.
*ma di fatto ognuno la vive in modo diverso
*soprattutto in aree disciplinari diverse
21 settembre 2006
Voci autorevoli:
Data mining is fundamentally an applied
discipline (...)
data mining requires an understanding of both
statistical and computational issues. (p. xxviii)
The most fundamental difference between classical
statistical applications and data mining is the
size of the data.
(p. 19)
[da Hand, Mannila & Smith, 2001]
21 settembre 2006
Aspetti salienti:
•la dimensione dei dati lievita
(qui n.righe ~ 103/106, n.colonne ~ 102/103)
* ambito osservazionale
* ma non esiste un "piano campionamento";
semplicemente i dati "esistono“
* dati raccolti per esigenze gestionali o simili,
non per scopi di analisi
* i dati sono sporchi, anzi luridi
* campioni o censimenti?
21 settembre 2006
Di cosa ci occuperemo?
� Gli interrogativi:come costruire l’informazione in azienda?come interpretarla?come utilizzarla?come analizzarla?
� Cosa studieremo: insieme di metodi e tecniche statistiche specificamente pertinenti per lo studio empirico-quantitativo dei fenomeni aziendali.
� Caratteristiche specifiche(a) In questo contesto non è, in generale, possibile la sperimentazione
controllata. Si ha invece osservazione in condizioni non sperimentali
(b) la ‘teoria’ disponibile sul comportamento economico o sociale può fornire informazioni a priori, che conviene utilizzare:• identità contabili [es. 1: reddito = consumo + risparmio];• specificazione di relazioni funzionali [es. 2: funzione di consumo:
consumo = f(reddito, ricchezza, …)];• restrizioni sui parametri e/o sulla distribuzione degli errori [es. 3:
consumo = αααα + ββββ reddito + εεεε, con 0<ββββ<1].
21 settembre 2006
Il target potenziale
•L’ufficio marketing di un’azienda italiana che offre servizi Internet è interessato a conoscere qual è la presenza attuale del suo prodotto (la connessione a internet) in Italia.
Target potenziale
•Interessa inoltre avere delle previsioni su quale sarà la percentuale di famiglie connesse alla rete nel prossimo anno.
•Qual è il target potenziale, il massimo numero di possibili clienti del prodotto? Qual è il margine su cui è possibile agire?
•Come si posiziona l’azienda tra i competitors? E’ conosciuta dai potenziali clienti?
21 settembre 2006
Esempio 2: la customer base
•Il direttore marketing di un’azienda di telecomunicazioni vuole avere ogni giorno sotto controllo l’andamento delle vendite del giorno precedente ma anche l’utilizzo medio del serivizio dei suoi clienti.
•Quando il numero dei clienti diventa grande è importante che siano bene identificati i clienti “migliori”, in modo da trattarli meglio. Come sceglierli?
21 settembre 2006
customer base: il churn
Modellare la disattivazione:Modellare la disattivazione:
costruire, validare, interpretare un modello che descriva il comportamento degli utenti in termini di disattivazione in relazione ad altre variabili note
Perché?Perché?
�Per descrivere il fenomeno
�Per prevedere i potenziali futuri disattivi
�Per predisporre azioni
�Per verificare l’efficacia di operazioni di marketing/Customer Operation
21 settembre 2006
customer base: il churn
Le fontiLe fonti
Aziendali: (“DWH”, database operazionali, …)
•Per tutti i clienti
•Informazioni su
traffico
servizi opzionali
comportamento del cliente
reclami-rapporti con customer care
azioni di marketing/customer care
fatture/ricariche
dati demografico/anagrafici
Altre fonti: Ricerche di mercato
•Per un piccolo campione “casuale” di clienti
•Informazioni su
comportamenti
stili di vita
motivi della disattivazione
tempi della scelta
•ottenuti tramite interviste
21 settembre 2006
il churn: gli obiettivi
� Determinare un indicatore di propensione alla disattivazione per
ogni cliente
� Prevedere i potenziali futuri disattivi
� Capire i motivi fondamentali che portano alla disattivazione e i
comportamenti che la precedono
� Individuare possibili azioni volte alla retention del cliente
� Verificare l’efficacia di operazioni di Marketing/Customer
Operation
21 settembre 2006
il churn: gli obiettivi
�Caratteristiche demografiche�Usage
�Comportamenti di traffico�Contatti con l’azenda�Informazioni sul billing�Copertura della rete dei pop
Comportamento Comportamento dei clienti sul dei clienti sul churnchurn
Chi è a Chi è a rischio di rischio di abbandonoabbandono??
PerchéPerché sonosono a a rischiorischio didi
abbandonoabbandono??
QuandoQuando è è maggiore il maggiore il rischio di rischio di
abbandonoabbandono??
�Promozioni della concorrenza�Eventi della vita
�Offerte della concorrenza�convenienza dei prezzi�Prezzo dell’Hardware�Servizio al cliente�Programmi a premi
21 settembre 2006
Il churn: l’analisi statistica
•Come si ottiene l’indice di propensione?
•Quali caratteristiche dei clienti hanno effetto sulla decisione di disattivare e qual è l’effetto di ogni “variabile” considerata tra le altre?
•Ma non ci potrebbe essere qualche effetto di “sovrapposizione” tra le variabili? Come tenerne conto?
•Avendo a che fare con stime come dare una misura di “affidabilità” di queste stime? Come ottenere misure di qualità di adattamento ai dati?
21 settembre 2006
Segmentazione e profiling
•Conoscere i clienti, per suddividerli in gruppi a seconda di interessi, propensioni all’utilizzo di uno o più prodotti o servizi offerti dall’azienda
•Tutto finalizzato a personalizzare ogni eventuale contatto, azione di marketing, relazione...
•Alcuni esperti della società italiana propongono di suddividere i clienti sulla base di due “assi” che descrivono le caratteristiche socio-culturali degli individui
21 settembre 2006
Segmentazione e profiling
[12.0%]
CENTRALITÀ DEL CORPO E DEL
CONSUMO
[7.0%]
CULTURAPICCOLO
BORGHESE[21.7%]
TRADIZIONALISMO [11.6%]
IMPEGNO[10.3%]
RADICI [17.3%]
NUOVA FRONTIERA
[12.0%]
INTERIORITÀ [8.1%]
•L’altro asso Privato-Sociale è caratterizzato da una parte dal Privato, cioè la cultura intessuta di valori materiali ed aspirazioni individualistiche orientata ai valori del sé e del privato, dall’altra dal Sociale, indicante la cultura solidaristica impregnata di valori etici e spirituali orientata alla collettività e al sociale.
•Un asse di Apertura-Chiusuradove Apertura indica la cultura industriale e post-industriale, aperta al cambiamento, all’innovazione e alla complessità sociale, mentre Chiusura indica la cultura di stampo arcaico e preindustriale arroccata sui valori tradizionali e diffidente verso il nuovo.
•Ma come determinare questi assi (o altri)? •Come inserire ciascun cliente nel suo esatto punto della “mappa”? •Come assegnarlo a un gruppo definito?
21 settembre 2006
La valutazione delle azioni
� L’analisi ex post è essenziale per identificare quale azione agisce meglio e su quale target
ACTION D
ESIGN
AC
TIO
N D
EP
LO
YM
EN
T
ACTIONMEASUREMENT
�Per misurare le azioni è necessario definire:
•I modelli di misura (indicatori/modelli di analisi e algoritmi)
•Gli strumenti di misurazione
Azioni: massimizzare la redemption
21 settembre 2006
La valutazione delle azioni
Target: clienti “a rischio” con una determinata caratteristicaAzione: (1A) - Lettera con suggerimenti per l’utilizzo (DM)
(1B) - Lettera con suggerimenti per l’utilizzo + 1 regalo (DM)Disegno di indagine: Caso-controllo
Alcuni risultatiTest di significatività
Abbandoni
Azione casi controllo differenza t p-value
1A 61.30% 61.13% +0.17% +0.12 0.90
1B 59.21% 61.13% -1.92% -1.40 0.16
caso-controllo
21 settembre 2006
La valutazione delle azioni
…ma, se l’azione dipende dalla scelta del cliente?
Target: Tutti i clienti
Azione: Sottoscrizione di un particolare servizio
Disegno di indagine: non è possibile confrontare i sottoscrittori con un analogo campione di non sottoscrittori del servizio (autoselezione)
Non è possibile disegnare a priori l'indagine!
21 settembre 2006
Consumo di gas e prezzo
Per alcune città del Texas sono rilevati prezzo e consumo di gas
C’è una relazione?
È possibile prevedere il consumo di gas se si fissa un prezzo?
21 settembre 2006
Il problema...
...è quello di capire la dinamica all’interno dei dati osservati.
Si tratta di•capire quali sono le strutture di relazione,
•individuare se eventuali relazioni evidenti sono attribuibili alcaso, o se sono davvero presenti nel fenomeno in esame
•scoprire eventuali relazioni nascoste dalla componente di “rumore” presente nei i dati
•avere degli elementi per capire la realtà
•predisporre una strumentazione che sia utile per fare previsioni
21 settembre 2006
Che cosa sviluppiamo in questo corso?
Ci concentreremo soprattutto su alcuni strumenti quantitativi utili per affrontare i diversi problemi che si incontrano nel mondo aziendale
Faremo dei richiami di alcuni aspetti di matematica che ci saranno utili per l’analisi statistica dei dati
Approfondiremo semplici modelli per studiare la relazione tra variabili.
Durante il corso utilizzeremo semplici strumenti informatici di supporto per le analisi
21 settembre 2006
L’approccio
•Una comprensione delle caratteristiche degli strumenti è essenziale per poter scegliere adeguatamente lo strumento adatto
•Lo stesso tipo di padronanza è richiesto per poter interpretare correttamente i risultati prodotti dagli algoritmi
•Una certa competenza sugli aspetti algoritmici e computazionali è di aiuto per meglio valutare l’output del calcolatore anche in termini della sua attendibilità
Quindi: cercheremo di combinare assieme metodologie aggiornate con una certa comprensione sia del problema operativo, sia delle caratteristiche dei metodi e modelli utilizzati
21 settembre 2006
Il Programma
•Lo studio delle relazioni tra i fenomeni.
•Richiami del modello lineare �Modello lineare semplice�Inferenza sui parametri del modello�Estensioni del modello�Modello lineare multiplo
•Le tecniche statistiche e l’approccio analitico alla soluzione dei problemi.�Contrasto tra aderenza ai dati e complessità del modello (contrasto tra distorsione e varianza)�tecniche generali per la selezione del modello
•Metodi di previsione di variabili quantitative.�Regressione lineare e metodi legati (GLM, …)�Cenni ai metodi di regressione non parametrica �Modelli di regressione strutturata (modelli additivi, alberi, reti neurali)
•Metodi di classificazione�Modelli lineari e generalizzazioni (regressione lineare e logistica, analisi discriminante lineare e quadratica)�Modelli strutturati (alberi, GAM, reti neurali)
•Cenni ai metodi di raggruppamento
21 settembre 2006
L’ambiente R
•Molti pacchetti statistici forniscono procedure che aiutano nel calcolo dei modelli e metodi che incontreremo in questo corso… È quindi possibile utilizzare un qualsiasi software statistico, purché sia in grado di effettuare icalcoli necessari; ogni inadeguatezza del software è responsabilità vostra.
•Noi, per le esercitazioni in aula, ne abbiamo scelto uno: l’ambiente RAlcuni motivi per la scelta:
�In termini di qualità, R costituisce uno dei migliori prodotti disponibili
�È un prodotto “open source”, e quindi gratuito
�Il fatto che sia gratuito non significa che valga poco: R è curato e aggiornato continuamente da esperti di massimo livello scientifico
�R è anche un linguaggio, si presta quindi facilmente alla programmazione di varianti di metodi esistenti
Sono inoltre disponibili un’amplissima gamma di moduli aggiuntivi predisposti, da esperti di vari ambiti. L’insieme delle tecniche utilizzabili copre l’intero panorama delle più aggiornate metodologie
�Essendo “open source” consente a ciunque di poter contribuire al progetto anche correggendo eventuali ‘bachi’
�La modalità di utilizzo di R è tale per cui l’utente è indotto a prendere consapevolezza del funzionamento dei metodi usati.
21 settembre 2006
Lo studio e l’esame
•La materia non è tra le più comuni•L’approccio è di tipo “operativo” Per cui
la frequenza è vivamente consigliata!
•Non ci sono grossi libri da studiare:�conviene riprendere ogni giorno quanto fatto a lezione�studiate insieme in piccoli gruppi�fatevi/fate domande �sfruttate il ricevimento
•Attività di lavoro personale/di gruppo bi-settimanale�Approfondimenti�Ricerche e Analisi�Attività per casa - Homeworks�Studi di Caso
•LaboratorioPer quasi la metà delle lezioni si utilizzerà direttamente il Computer->Aule Informatiche per il lavoro personale
•Valutazione
•Per i frequentanti la valutazione sarà basata su:
�Partecipazione attiva - domande
�Attività bisettimanali – “per casa”
�Attività (assegnata a metà corso)
�Prova Finale (I appello)
21 settembre 2006
Testi e altre fonti utili
Libro di testo: A. Azzalini, B. Scarpa (2004). Analisi dei dati e data mining. Springer.
Software: R http://www.r-project.org
Sui contenuti del corso:T. Hastie, R. Tibshirani, J. Friedman. The Element of Statistical Learning.
Springer-Verlag.
Sul programma R:S.M. Iacus, G. Masarotto (2003). Laboratorio di Statistica con R. McGraw-
Hill, Milano.P. Bortot, L. Ventura, A. Salvan (2000). Inferenza Statistica: Applicazioni
con S-PLUS e R. CEDAM, Padova
Altri libri:
21 settembre 2006
Notizie
Orario di ricevimento: Giovedì 16:30-17:30
email: [email protected]
Dipartimento di metodi quantitativi – Stanza 124Ufficio:
Orario delle lezioni: Giovedì 14:30-16:00 N21Venerdì 10:30-12:00 INFO4
Docente: Bruno Scarpa
url: http://www.unipv.it/dipstea/bruno
Dipartimento di metodi quantitativi – Stanza 110Ufficio:Collaboratore: Paola Cerchiello
21 settembre 2006
Buon Lavoro!