Кластерный анализ в программе statistica
DESCRIPTION
Кластерный анализ в программе STATISTICA. Рассмотрим некоторые основные социально-экономические показатели регионов Южного федерального округа РФ за 2008 год (источник: www.gks.ru ): Х1 – численность населения на 1 января 2009 г., тыс. человек; - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/1.jpg)
Кластерный анализ в программе STATISTICA
![Page 2: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/2.jpg)
Рассмотрим некоторые основные социально-экономические показатели регионов Южного
федерального округа РФ за 2008 год (источник: www.gks.ru):
Х1 – численность населения на 1 января 2009 г., тыс. человек;Х2 – среднедушевые денежные доходы (в месяц), руб.;Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.;Х4 – валовой региональный продукт в 2007 г., млн. руб.;Х5 – продукция сельского хозяйства, млн. руб.;Х6 – ввод в действие общей площади жилых домов, тыс. м2;Х7 – оборот розничной торговли, млн. руб.
![Page 3: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/3.jpg)
Х1 – численность населения на 1 января 2009 г., тыс. человек;Х2 – среднедушевые денежные доходы (в месяц), руб.;Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.;Х4 – валовой региональный продукт в 2007 г., млн. руб.;Х5 – продукция сельского хозяйства, млн. руб.;Х6 – ввод в действие общей площади жилых домов, тыс. м2;Х7 – оборот розничной торговли, млн. руб.
![Page 4: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/4.jpg)
1. Запускаем программу Statistica2. Создаем новый документ (Create New Document):
В меню Файл выбрать команду Новый…3. В появившемся окне диалога указываем количество
переменных – 7 (число параметров), число регистров – 13 (число регионов). Нажать Ok.
![Page 5: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/5.jpg)
В появившейся таблице вводим исходную информацию
![Page 6: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/6.jpg)
Стандартизируем данные, т.к. они имеют разную размерность:- выделить столбцы- правой кнопкой мыши (ПКМ) по названию любого столбца – переменной вызвать контекстное меню - выбрать команду Fill/Standardize Block → Standardize Columns
![Page 7: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/7.jpg)
Стандартизируем данные
Результат стандартизации по формуле:
![Page 8: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/8.jpg)
Вызываем диалог кластерного анализаМеню Статистика / Многомерные исследовательские методы / Анализ кластера
![Page 9: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/9.jpg)
В появившемся окне диалога выбираем иерархические агломеративные методы Joining (tree clustering)
![Page 10: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/10.jpg)
Открываем вкладку Advanced
![Page 11: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/11.jpg)
Выбираем переменные- кнопка Variables- в открывшемся окне диалога выбрать все переменные (можно нажать кнопку Select All) - нажать кнопку Ok
![Page 12: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/12.jpg)
В открывающемся списке Input file можно указать:- Raw data (исходные данные)- Distance matrix (матрица расстояний)
Следует оставить Raw data (установлено по умолчанию)
![Page 13: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/13.jpg)
В открывающемся списке Amalgamation (linkage) rule (правило объединения в кластеры) можно указать:- Single Linkage (метод одиночной связи)- Complete Linkage (метод полной связи)- Unweighted pair-group average (метод невзвешенного попарного среднего)- Ward’s method (метод Уорда)- и другие
![Page 14: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/14.jpg)
В открывающемся списке Distance measure (метрика – расстояние между объектами) можно указать:- Euclidean distance (евклидова метрика)- City-block Manhattan distance (манхеттенское расстояние городских кварталов)- Percent disagreement (процент несогласия)- и другие
![Page 15: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/15.jpg)
Выберем метод одиночной связи и евклидову метрику
После нажатия кнопки Ok появится окно, в котором можно выбрать результаты анализа (на вкладке Advanced расширенный набор результатов)
![Page 16: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/16.jpg)
Кнопка Distance matrix выводит матрицу расстояний (с учетом выбранной метрики)
Например, расстояние между объектами 1 и 2 равно 2,51 по евклидовой метрике – расстоянию между точками в пространстве размерности 7 (исходные данные стандартизированы)
![Page 17: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/17.jpg)
Кнопка Horizontal hierarchical tree plot выводит дендограмму в горизонтальном виде
Например, при уровне 1,0 (расстояние между кластерами не превышает одно стандартное отклонение) образовано 6 кластеров:1 КЛАСТЕР: С1, С6, C4, C7, C11 2 КЛАСТЕР: C3, C53 КЛАСТЕР: С2, С10, C12 4 КЛАСТЕР: C85 КЛАСТЕР: С13 6 КЛАСТЕР: C9
![Page 18: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/18.jpg)
Кнопка Amalgamation schedule выводит последовательность объединения в кластеры в виде таблицы
При уровне 1,0 (расстояние между кластерами не превышает одно стандартное отклонение) образовано 6 кластеров (3 кластера содержат несколько объектов, а остальные 3 кластера по одному объекту):1 КЛАСТЕР: C3, C5 4 КЛАСТЕР: C82 КЛАСТЕР: С2, С10, C12 5 КЛАСТЕР: C93 КЛАСТЕР: С1, С6, C4, C7, C11 6 КЛАСТЕР: С13
![Page 19: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/19.jpg)
1 КЛАСТЕР: C3, C5 4 КЛАСТЕР: C82 КЛАСТЕР: С2, С10, C12 5 КЛАСТЕР: C93 КЛАСТЕР: С1, С6, C4, C7, C11 6 КЛАСТЕР: С13
Содержательная интерпретация
1 кластер:Республика ИнгушетияРеспублика Калмыкия2 кластер:Республика ДагестанСтавропольский крайВолгоградская область3 кластер:Республика АдыгеяКарачаево-Черкесская РеспубликаКабардино-Балкарская РеспубликаРеспублика Северная осетияАстраханская область4 кластер: Чеченская республика5 кластер: Краснодарский край6 кластер: Ростовская область
![Page 20: Кластерный анализ в программе STATISTICA](https://reader036.vdocuments.net/reader036/viewer/2022082213/5681317b550346895d97f392/html5/thumbnails/20.jpg)
Содержательная интерпретация
1 кластер:Республика ИнгушетияРеспублика Калмыкия2 кластер:Республика ДагестанСтавропольский крайВолгоградская область3 кластер:Республика АдыгеяКарачаево-Черкесская РеспубликаКабардино-Балкарская РеспубликаРеспублика Северная осетияАстраханская область4 кластер: Чеченская республика5 кластер: Краснодарский край6 кластер: Ростовская область
ЗамечаниеВозрастание номера кластера не означает возрастание характеристик регионов, входящих в состав кластера
В кластерах с меньшим номером объекты расположены ближе друг к другу (плотнее) – были раньше объединены в один кластер