zastosowanie metod eksploracji danych data mining w...
TRANSCRIPT
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
1
Przykład – Rezygnacja z usług operatora
Zbiór CHURN
Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy
Dane pochodzą z UCI Repository of Machine Learning Databases w University of California w Irvine
http://www.ics.uci.edu/~MLRepository.html
www.spps.pl/larose
Opis w książce: Daniel T. Larose, Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
2
Zbiór danych CHURN
Zbiór zawiera 21 zmiennych jakościowych lub ilościowychZmienneStan- kod stanu USA (jakościowa)Czas_W - czas posiadania konta (całkowita)Kod - kod obszaru kraju (jakościowa)Telefon - numer telefonu klienta, zastępuje ID klienta (jakościowa)Plan_M - czy klient przystąpił do planu międzynarodowego (0-1)Plan_G - czy klient przystąpił do planu poczty głosowej (0-1)M_min - liczba minut na połączenia międzynarodowe (rzeczywista)M_roz- liczba połączeń międzynarodowych (całkowita)M_opl- całkowita opłata za rozmowy międzynarodowe (rzeczywista)L_Rozbok - liczba połączeń z biurem obsługi klienta (całkowita)Churn - informacja o rezygnacji (0-1)
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
3
CHURN – cd
Zmienne (cd) L_wiad - liczba wiadomości w poczcie głosowej (całkowita) DzienMin - liczba minut rozmowy w dzień (rzeczywista) DzienRoz - liczba połączeń w dzień (całkowita) DzienOpl - całkowita opłata za rozmowy w dzień (rzeczywista) WieczMin - liczba minut rozmowy wieczorem (rzeczywista) WieczRoz - liczba połączeń wieczorem (całkowita) WieczOpl - całkowita opłata za rozmowy wieczorem (rzeczywista) NocMin - liczba minut rozmowy w nocy (rzeczywista) NocRoz - liczba połączeń w nocy (całkowita) NocOpl - całkowita opłata za rozmowy w nocy (rzeczywista)
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
4
Diagram projektu An_Clus
Diagram projektu o nazwie churn_norm zawiera węzły Input Data z grupy Sample oraz Cluster z grupy Explore. Nie definiujemy zbioru walidacyjnego ani testowego.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
5
Usunięcie zmiennych skorelowanych
Zbiór zawiera 21 zmiennych jakościowych lub ilościowych. Należy unikać wprowadzania do modeli zmiennych silnie
skorelowanych. Użycie zmiennych skorelowanych wyolbrzymia część danych, powoduje niestabilność modeli.
Zmienne: minuty, rozmowy i opłata są skorelowane. Ponadto opłata = minuty * rozmowy Dlatego z tych grup zmiennych wybraliśmy tylko po jednej zmiennej: DZIENMIN, WIECZMIN, NOCMIN, M_MIN.
Zmienne wybrane do analizy: CZAS_W, PLAN_M, POCZTA_G, L_WIAD, DZIENMIN, WIECZMIN,
NOCMIN, M_MIN, L_ROZBOK Zmienna TELEFON jest identyfikatorem obserwacji (Model Role ID)
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
6
Okno Cluster - Variables
Zmienna CHURN nie będzie brać udziału w analizie. Nadamy jej status Use = No.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
7
Cluster – parametry węzła
Rodzaj standaryzacji: Range (normalizacja) zamiast Stardardization (standaryzacja)
Metoda ustalania liczby skupień jest domyślna.
• Najpierw losowane jest 50 zalążków skupień, a potem skupienia są konsolidowane za pomocą hierarchicznej metody Warda. Stosowana jest metoda CCC, a końcowa liczba skupień jest wybierana w przedziale [2; 20]
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
8
Cluster – parametry węzła
Tutaj sami ustalimy liczbę segmentów = 3 (User Specify).
Utworzymy nową zmienną _SEGMNT_ - numer skupienia, do którego należy obiekt. Będzie ona miał rolę Segment.
Uruchamiamy węzeł (Run), a następnie oglądamy wyniki (Results).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
9
Cluster - Results
W wyniku otrzymujemy domyślnie 4 okna:
• Segment Plot,
Mean Statistics,
Segment Size,
Output.
Wybierając pozycje z menu View można otrzymać też inne wykresy lub tabele.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
10
Segment PlotOkno pokazuje rozkład każdej zmiennej o roli Input występującej w analizie skupień.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
11
Mean Statistics
Okno pokazuje różne statystyki w przekroju według skupień.
_SEGMENT_ - nazwa (numer) skupienia,
Frequency of Cluster – liczebność skupień,
Maximum Distance from Cluster Seed - promień skupienia,
Distance to Nearest Cluster - odległość do najbliższego skupienia.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
12
Mean Statistics
Okno pokazuje różne statystyki w przekroju według skupień.
Dla wszystkich zmiennych przedziałowych są wyświetlane wartości średnie, dla zmiennych binarnych są wyświetlane częstości dla poziomu 0 i 1. Widzimy np., że w pierwszym skupieniu zmienna PLAN_M ma zawsze wartość 0, w trzecim skupieniu ma zawsze wartość 1, a w drugim skupieniu 90,4% obserwacji ma wartość 0, a 9,6% obserwacji ma wartość 1.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
13
Segment Size
Okno pokazuje na wykresie kołowym liczebności i częstości skupień.
Trzy skupienia różnią się rozmiarem (liczbą obiektów:
1. 830 (24.9%)
2.2411 (72.3%)
3. 92 ( 2.8%)
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
14
Segment Size
Po wyświetleniu wykresu kołowego można kliknąć prawym przyciskiem myszy na wykresie i wybrać Graph Properties, a następnie zaznaczyć pozycję Value i Percentage.
Można zaznaczyć pozycję, gdzie będą wyświetlane wartości (domyślnie Inside, zmienimy na Outside).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
15
Output
Okno pokazuje różne wyniki przebiegu procedury oraz statystyki, np. ważności zmiennych (Importance)
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
16
Cluster Distance
Po wybraniu polecenia View | Cluster Distance | Table otrzymujemy tablicę odległości między skupieniami. Tablica jest symetryczna. Widzimy, że najbliższe są skupienia 1 i 3 Odległość 11.5), a najdalsze 2 i 3 (odległość 31.8).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
17
Variable Importance
Po wybraniu polecenia View | Cluster Profile | Variable Importance otrzymujemy tablicę ważności zmiennych.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
18
Tree
Po wybraniu polecenia View | Cluster Profile | Tree otrzymujemy drzewo, w którym zmienną objaśnianą jest numer skupienia. Widzimy, że o przyporządkowaniu obiektów do skupień decydują zmienne: POCZTA_G i PLAN_M.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
19
Input Mean Plot
Wykres Input Mean Plot (View | Summary Statistics | Input Mean Plot pokazuje porównanie znormalizowanych wartości zmiennych ogółem i w skupieniach. Można zobaczyć jakie są różnice w wartościach zmiennych w skupieniach.
Np. NOC_MIN
ma najmniejsze wartości w skupieniu 3, a największe w skupieniu 1.
Ogółem1
23
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
20
Exported data
Po wyborze pozycji Exported Data w oknie właściwości widzimy, jakie pliki są utworzone i eksportowane przez węzeł Cluster.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
21
Exported dataPo zaznaczeniu pierwszego wiersza (TRAIN) i wybraniu Explore otwiera się okno (domyślnie dotyczy ono 2000 pierwszych obserwacji):
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
22
Exported data
Żeby zobaczyć więcej obserwacji, należy wybrać opcję Fetch Size = Max
Wybierane są obserwacje początkowe (Top). Żeby uzyskać losowy wybór obserwacji, należy zmienić na Random.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
23
Exported data
Po kliknięciu na przycisk Plot (w lewym górnym rogu ekranu) możemy zdefiniować różne wykresy, np. tutaj wykres rozproszenia (Scatter) zmiennych L_wiad (X) i M_min (Y).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
24
Exported data
Wybierając dla zmiennej _SEGMENT_ rolę Color można zaznaczyć, w których skupieniach są obserwacje na wykresie rozproszenia. Liczba wiadomości ma zawsze wartość 0 w drugim skupieniu.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
25
Exported data
Po wciśnięciu Plot, wybraniu wykresu słupkowego (Bar) i zaznaczeniu dla zmiennej _SEGMENT_ roli Category oraz Response Statistics Frequency otrzymamy wykres słupkowy liczebności skupień.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
26
Exported data
Należy kliknąć prawym klawiszem myszy na wykresie i wybrać Graph Properties i następnie Show labels, aby zobaczyć liczebności skupień.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
27
Rezygnacja w segmentach
Po wybraniu Exported Data | Train | Explore (jak poprzednio) i wciśnięciu Plot, wybierzmy Lattice, a następnie Next, w oknie Lattice Type Pie | Next zaznaczmy dla zmiennej _SEGMENT_ roli Lattice-X a dla zmiennej CHURN roli Category.
Po wciśnięciu Finish otrzymamy wykresy kołowe.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
28
Rezygnacja w segmentach
Wykresy pokazują rozkład zmiennej CHURN w poszczególnych segmentach. Można zobaczyć liczebność wartości CHURN=0 lub CHURN=1.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
29
Exported data
Do zbioru danych zostały dodane dwie zmienne: Segment.ID, Distance.
W oknie danych EMWS.Clus_TRAIN można zobaczyć, jakie jest przyporządkowanie obserwacji do skupień.
Należy przeciągnąć kolumny Segment.Id i Distance na początek, żeby łatwiej oglądać wraz z identyfikatorem obserwacji.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
30
Segment Profile
Dołączymy do diagramu węzeł Segment Profile (z grupy Access).
Węzeł Segment Profile pozwala na porównanie rozkładu zmiennej w indywidualnym skupieniu z całkowitym rozkładem zmiennej. Zmienne są posortowane według ważności w grupowaniu zbioru danych.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
31
Segment Profile
W oknie Output widzimy ważność wybranych zmiennychw poszczególnych skupieniach
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
32
Okno Profile: _SEGMENT_
Po kliknięciu prawym przyciskiem myszy na wykresie i wybraniu Sort segments | Name można uporządkować segmenty według nazw (domyślnie według liczebności).
Zakładka: Profiles
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
33
Okno Variable Worth: _SEGMENT_
Wszyscy klienci z grupy 1 i część klientów z grupy 2 przystąpili do planu międzynarodowego, nikt z grupy 3 nie przystąpił. Wszyscy klienci z grupy 1 i 3 przystąpili do planu poczty głosowej, nikt z grupy 2 nie przystąpił.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
34
Opis profili
Grupa 1: Użytkownicy planu poczty głosowej Grupa klientów o średnim rozmiarze (830 osób), którzy przystąpili do planu
poczty głosowej, ale nie przystąpili do planu międzynarodowego
Grupa 2: Przeciętna większośćNajliczniejsza grupa klientów (2411 osób), z których część przystąpiła do planu poczty głosowej, ale nikt nie przystąpił do planu międzynarodowego
Grupa 3: Wyrafinowani użytkownicy Mała grupa klientów (92 osoby), którzy przystąpili do planu
międzynarodowego i poczty głosowej
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
35
Cluster – parametry węzła
Dodajmy do diagramu nowy węzeł Cluster i ustalmy w nim automatyczny wybór liczby skupień za pomocą algorytmu CCC.
Należy, podobnie jak poprzednio, wyłączyć zmienną CHURN z analizy. Po uruchomieniu węzła można oglądać wyniki
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
36
CCC Plot
Okazuje się, że uzyskaliśmy identyczne wyniki jak poprzednio.
Dodatkowo dostępny jest wykres CCC Plot (View | Summary Statistics | CCC Plot). Wskazuje on, że liczba skupień 3 jest optymalna.