dmaround 2014 - quanto vale il tuo database? data science, data mining e marketing strategy - furio...

43
Furio Camillo Quanto vale il tuo database? Data Science, Data Mining e Marketing Strategy Furio Camillo Alma Mater Studiorum Università di Bologna

Upload: event4itgroup

Post on 14-Jan-2015

104 views

Category:

Business


1 download

DESCRIPTION

 

TRANSCRIPT

  • 1. Furio Camillo Quanto vale il tuo database? Data Science, Data Mining e Marketing Strategy Furio Camillo Alma Mater Studiorum Universit di Bologna

2. Furio Camillo 3. Furio Camillo Silver osserva che, a dispetto del sensazionalismo dei media, una previsione accurata richiede un misto di umilt e lavoro duro; pi si dichiara il margine di incertezza pi ci si avvicina alla verit, e ricorda che l'elemento umano ancora essenziale nelle previsioni e nel progresso delle scienze, della tecnologia, dell'economia e della politica. I dati da soli non bastano. "Il mondo ha fatto molta strada dai tempi dell'invenzione della stampa a caratteri mobili. L'informazione non pi una merce rara; ne abbiamo a disposizione pi di quanto siamo in grado di gestire. Ma solo una parte relativamente piccola di essa utile. La percepiamo selettivamente, soggettivamente, e senza molta considerazione per le alterazioni che ci comporta. Pensiamo di volere informazioni quando in realt quello che vogliamo davvero conoscenza. Il segnale la verit. Il rumore ci che ci distrae dalla verit. 4. Furio Camillo Tre mesi fa, una sera degli esempi Musica in auto Dati della sim di MG Difficolt del merge Leggere il rumore: emersione delle infos Io e il collega X su FB: pi o meno di sinistra Ma. Io: amo il tennis, lo sci, tifo Roma Lui: ama il nuoto, tifa Juve, fuma Cosa importante per la vendita di una polizza? Un modello di causa-effetto!! 5. Furio Camillo Una analisi una valutazione critica, solitamente condotta scomponendo l'oggetto (materiale o intellettuale) nelle sue parti costituenti, per poi descrivere tali parti e le loro relazioni col tutto. Anal-isi (-itico) 6. Furio Camillo Per Cartesio l'analisi e la sintesi effettuano unoperazione di scomposizione e composizione che riguarda la conoscenza: l'analisi permette di identificare gli effetti dipendenti dalle loro cause, mentre la sintesi procede ripercorrendo e restaurando i rapporti identificati dall'analisi: in termini pi generali l'analisi consiste nel dividere il problema conoscitivo nelle sue parti componenti pi semplici, con l'avvertenza di non procedere troppo con la scomposizione per non perdere il senso complessivo del problema (il che accadrebbe se lo si frantumasse in parti troppo piccole); la sintesi consiste nel rimettere assieme le parti analizzate identificando in questo modo la giusta struttura e composizione del problema da risolvere. In Cartesio l'analisi procede con fini euristici mentre alla sintesi affidata l'esposizione. Definizione filosofica di conoscenza analitica 7. Furio Camillo Per Cartesio l'analisi e la sintesi effettuano una operazione di scomposizione e composizione che riguarda la conoscenza: l'analisi permette di identificare gli effetti dipendenti dalle loro cause, mentre la sintesi procede ripercorrendo e restaurando i rapporti identificati dall'analisi: in termini pi generali l'analisi consiste nel dividere il problema conoscitivo nelle sue parti componenti pi semplici, con l'avvertenza di non procedere troppo con la scomposizione per non perdere il senso complessivo del problema (il che accadrebbe se lo si frantumasse in parti troppo piccole); la sintesi consiste nel rimettere assieme le parti analizzate identificando in questo modo la giusta struttura e composizione del problema da risolvere. In Cartesio l'analisi procede con fini euristici mentre alla sintesi affidata l'esposizione. Definizione filosofica di conoscenza analitica 8. Furio Camillo Il report non analytics Occorre lavorare invece su un modello causale, sistematicamente, esplorando la complessit e stimando funzioni causa-effetto Stimare: inferenza causale Analytics e reporting 9. Furio Camillo A no-technical book 10. Furio Camillo 11. Furio Camillo Concorso per il brand di Bologna a partire da uno studio 12. Furio Camillo Il lessico Quali sono i termini pi utilizzati dagli stranieri? Nomi Gli stranieri passano un giorno a Bologna, ne apprezzano il cibo, il gelato e latmosfera amichevole. Il tempo un fattore chiave. 13. Furio Camillo Il lessico Quali sono i termini pi utilizzati dagli stranieri? Gli stranieri scoprono una citt differente da come se la erano immaginata. La apprezzano. Verbi 14. Furio Camillo Lo Spazio dei Concetti Le relazioni logico-funzionali Gli stranieri amano il cibo e la gentilezza delle persone. Apprezzano laccento, ma trovano le strade affollate e sporche. Amano vagare per le strade strette e camminare sotto i portici. c 15. Furio Camillo Lo Spazio dei Concetti Le relazioni logico-funzionali Gli stranieri associano il gelato delizioso, buono, fresco, artigianale - allUniversit o agli studenti universitari. Trovano in Bologna una reale cultura del gelato e citano spesso il museo ad esso dedicato. c 16. Furio Camillo Big data La mole di informazioni disponibili aumenta a ritmo vertiginoso, ma fare previsioni non affatto semplice: i dati da soli non bastano, la maggior parte solo interferenza e il rumore pi forte del segnale Shakespeare cos meraviglioso e tragico Nella prima met della tragedia Cesare riceve ogni tipo di profezie, segnali che avrebbero dovuto metterlo in guardia sulla sua incoronazione (Guardati dalle idi di marzo). Cesare naturalmente ignora questi segnali, insiste nella convinzione che riguardino la morte di qualcun altro e li interpreta selettivamente. Come sappiamo, Cesare viene infine assassinato. Gli uomini possono interpretare le cose a modo loro, interamente contrario al significato delle cose stesse, ci avverte Shakespeare attraverso la voce di Cicerone, Pi Informazioni, Pi Problemi Analitici !!! 17. Furio Camillo Tre casi Propensione allacquisto Credit scoring Sentiment analysis come mix di analisi linguistica e modelli predittivi 18. Furio Camillo Big-data e propensione allacquisto Da una presentazione a un convegno ufficiale 19. Furio Camillo Big-data e propensione allacquisto 20. Furio Camillo 21. Furio Camillo www.glamonweb.it The Glam on Web is projected to be a great emotional value site. It is composed by artistic pictures that describe the products (or the collections) in materials and in features as a catalog The navigation in the site of Glam on Web occurs as when one flips through a fashionable magazine composed by images and products descriptions Y 1 1 0 0 PROBLEM: ESTIMATION OF PURCHASE PROPENSITY Purchase made by the visitors (target variable) has been coded with a binary string of values (1=buy and 0=no-buy) 22. Furio Camillo Significant characteristic headwords of every cluster 23. Furio Camillo Modello predittivo =f1/0 Semantic Basket Semantic Basket consists in the extraction of factor scores of a Lexical Correspondence Analysis calculated on the lexical matrix (users)*(1-7 cluster of objects) cluster 1 cluster 2 cluster 3 cluster 4 cluster 5 cluster 6 cluster 7 user1 f11 . . . . . . user2 f21 . . . . . . user3 f32 . . . . user4 f42 . . . . . . . . . . . . . . . . . . . 24. Furio Camillo Fisher DA From/To no buyer buyer Total no buyer 88.50 11.50 100 buyer 57.69 42.31 100 Nearest Neighbour Method (n=20) From/To no buyer buyer Total no buyer 81.10 18.90 100 buyer 30.77 69.23 100 Results are quite good, it is an expected result. Using only the navigation via concepts and visual stimuli is possible to explain the purchase behaviour In such frame is useful using a non-linear Discriminant Analysis which is capable to capture the nonlinear structures in the data: in fact texts are well represented with chi-square metric. It is known that the factor representation of data which use such metric could be non-linear 25. Furio Camillo 26. Furio Camillo KDA RESULTS KDA hibridizated with NNM (n=20) From/To no buyer buyer Total no buyer 97.00 3.00 100 buyer 26.92 73.08 100 Cauchy kernel (width = 0.01) ATTENTI ALLE SOLUZIONI FACILI e SEMPLICI: DIFFIDATE!!!!! 27. Furio Camillo A proposito di credit scoring Input variables: Cdb, Comportamenti, Survey di satisfaction, opinioni a testo libero Soluzione kernel ma linearizzata con unapprossimazione 28. Furio Camillo 29. Furio Camillo Intangible values have not been exploited in credit risk modeling. More specifically the usage of the information coming from personal values reputation and other intangible assets can be used as loan collateral to distressed borrowers that lack sufficient predictive risk indicators. This is particularly true for specific customer segments: high revenue individuals (affluent segments) not involved in corporations. Lending against intangibles is a recent credit market innovation, and in recent literature we found evidence consistent with the fact that this credit practice has not been a negative mutation in credit markets. A predictive kernel discriminant has been performed, matching marketing data (opinions survey and individual semiometrics) with usual individual credit scoring drivers. Results highlight standard risk indicators express only the high level of affluent segment homogeneity. Marketing data have been crucial in prediction and interpretation of risk factors especially for adjusting bank CRM actions according to individual credit scoring. Data complexity, related to characteristics of affluent segment which is very spread in Italian financial system, has been treated ad hoc: the selection of relevant variables and the model identification have been combined simultaneously via a linear reconstruction of a kernel rule. Uso degli intangibles nel credit scoring 30. Furio Camillo 31. Furio Camillo Fantascienza? E la survey? La survey sar un sistema di aggiustamento dei meccanismi di self-selection: la post-stratificazione Il rumore aumenta allaumentare della quantit di dati, ma non aumenta neanche proporzionalmente a ciascuna delle dimensioni concettuali presenti nelle info non strutturate 32. Furio Camillo La tesi che Morozov sostiene : La maggior parte dei servizi che ci vengono offerti online, ad esempio su Gmail, possono rimanere gratuiti esclusivamente vendendo le nostre informazioni personali. Questo il motivo per cui Google, setacciando le nostre mail, riesce a proporci la pubblicit su misura per noi: del resto il prezzo da pagare per avere un servizio gratuito. Ecco la prima questione che Morozov pone: gli esseri umani accettano di farsi controllare le mail e le ricerche che fanno in rete pur di avere un servizio gratuito. Quando il futuro sar ancora pi smart di adesso, ovvero quando molti oggetti di uso comune avranno dei sensori che consentiranno una connessione ad internet, il numero dei dati a disposizione del mercato si moltiplicher. Lesempio che viene fatto quello dello spazzolino smart, che invier informazioni su quante volte e come ci laviamo i denti, o ancora delle scarpe smart che informano la casa produttrice sulla modalit con cui si consuma la suola, o, e questo gi il presente, di pannolini per bambini che avvisano i genitori con un tweet quando sono da cambiare. La domanda che si pone a questo punto : ma dove andranno a finire tutti questi dati? Come verranno utilizzati e da chi? La risposta molto semplice: verranno venduti ed in cambio di questo noi avremo servizi gratuiti o a basso costo. 33. Furio Camillo 34. Furio Camillo 35. Furio Camillo 36. Furio Camillo 37. Furio Camillo (milioni di euro) 38. Furio Camillo Customer Lifetime Value, satisfaction, happiness e churn Orizzonte temporale nuovo Breve poich la struttura informativa permetter aggiustamenti repentini delle policies (anche pubbliche) Lungo, poich il trattamento del cliente- cittadino riguarder la sua soddisfazione, la sua felicit, il suo livello di condivisione del sistema sociale Nascita di consorzi di consumatori-cittadini che venderanno la loro privacy Quanto valgono i dati su di te? 39. Furio Camillo [email protected] In time: Everyone Wants to Live Forever 40. Furio Camillo Quanto vale il tuo database? Data Science, Data Mining e Marketing Strategy Furio Camillo Alma Mater Studiorum Universit di Bologna DoxaCRM - LAB Questo documento servito come supporto scritto per una presentazione orale; non quindi esaustivo senza i commenti che lo hanno accompagnato [email protected] 41. Furio Camillo Modelli di survival 42. Furio Camillo 43. Furio Camillo