ibmspss:$Программное$ обеспечение$дляпрогностической...
TRANSCRIPT
IBM SPSS: Программное обеспечение для прогностической
аналитики
Сергей Бердышев Эксперт по аналитическим решениям IBM SPSS
27.06.2014
Четыре линейки продуктов IBM SPSS
IBM SPSS Data Collec/on
Сбор данных
IBM SPSS Sta/s/cs
Статистический анализ данных
IBM SPSS Modeler
Data Mining
IBM SPSS Collabora/on And Deployment Services
Интеграция в бизнес процессы
IBM SPSS Data CollecRon: программная платформа
для сбора данных
3
IBM SPSS Data CollecRon
§ IBM SPSS Data CollecRon – это интегрированный комплекс программных продуктов, обеспечивающий полную реализацию исследовательского проекта от создания анкеты и сбора данных до подготовки отчетов.
§ С IBM SPSS Data CollecRon Вы сможет управлять всеми аспектами процесса исследования, что позволит Вам повысить производительность и сделать работу над проектом максимально эффективной.
4
IBM SPSS Data CollecRon
§ С IBM SPSS Data CollecRon вся работа над проектом от самого его начала и до конца протекает в рамках единой среды. Используя простой и интуитивно понятный интерфейс Вы сможете: – сформировать выборку; – разработать форму опросника; – выбрать любой удобный вам способ сбора данных:
§ опрос в Интернет; § телефонный опрос; § личное интервью с использованием портаивного компьютера.
– провести опрос и собрать данные; – обработать и проанализировать данные; – подготовить отчет на любом языке.
5
Продукты для разработки опросников
§ IBM SPSS Data CollecRon Author позволяет бизнес-‐пользователям быстро создавать как простые, так и сложные опросники с помощью интуитивно понятного графического интерфейса.
§ IBM SPSS Data CollecRon Professional позволяет продвинутым пользователям создавать опросники любой степени сложности с помощью мощного языка скриптов.
6
Продукты для сбора данных
§ IBM SPSS Data CollecRon Web Interview предоставляет полный набор инструментов необходимых для быстрого и эффективного проведения Web-‐опросов (CAWI).
§ IBM SPSS Data CollecRon Phone Interview позволяет быстро организовать высококачественный телефонный опрос на базе физического или виртуального call-‐центра (CATI).
§ IBM SPSS Data CollecRon Interviewer позволяет эффективно проводить личные интервью с помощью ноутбука или портативного компьютера, с последующей синхронизацие данных в IBM SPSS Data CollecRon Remote AdministraRon (CAPI).
7
Продукты для анализа данных и подготовки отчетов
§ IBM SPSS Data CollecRon Survey Reporter позволяет бизнес-‐пользователям с легкостью создавать профессиональные, интерактивные отчеты как в режими онлайн, так и на локальном рабочем месте.
§ IBM SPSS Data CollecRon Professional предоставляет широкие возможности по управлению даннными и созданию сложных отчетов с помощью мощного языка скриптов.
8
Решение компании Sohline для проведения опросов с помощью портативных компьютеров
§ Базируется на программном продукте IBM SPSS Data CollecRon Interviewer
§ В качестве аппаратной платформы может использоваться практически любой планшетный компьютер с операционной системой Windows 8 Pro (Windows RT не поддерживается)
§ Позволяет проводить опрос интервьюером в режиме лицом-‐к-‐лицу, либо в режиме самозаполнения респондентом
§ Позволяет эмитировать web-‐опрос с применением любых html шаблонов, при этом физически подключение к Интернет не требуется
Решение компании Sohline для проведения опросов с помощью портативных компьютеров
§ Так выглядит опрос на планшетном компьютере:
Кому нужно решение для проведения опросов с помощью портативных компьютеров?
§ Компании, проводящие маркетинговые и социологические исследования (квартирные опросы, exit poll и т.д.)
§ Retail (опросы в точках продаж, исследования удовлетворенности покупателей)
§ Органы государственной статистики либо аналитические центры органов государственной власти (переписи, выборочные обследования физических или юридических лиц, экспертные опросы)
§ Медицина и экстренная психологическая помощь (составление анкеты для пациента, психологическое тестирование и т.д.)
Пример решения для проведения опросов с помощью портативных компьютеров
§ Центр экстренной психологической помощи регулярно проводит опросы для мониторинга психологического состояния людей
§ Для повышения эффективности работы им необходимо отказаться от бумажных анкет и автоматизировать сбор информации
§ Предлагаемой решение – 60 планшетных компьютеров с предустановленным программным обеспечением IBM SPSS Data Collec/on Interviewer + услуги по обучению сотрудников центра
§ Общая стоимость проекта составляет 2 600 000 рулей.
IBM SPSS StaRsRcs: продукт для статистического анализа данных
IBM SPSS StaRsRcs
IBM SPSS StaRsRcs -‐ это модульный, полностью интегрированный программный комплекс, охватывающий все этапы аналитического процесса:
1. планирование 2. ввод данных 3. доступ к данным 4. управление данными 5. анализ данных 6. создание отчетов и представление результатов
Этапы аналитического процесса
1. Планирование
IBM SPSS Sample Power IBM SPSS Complex Samples
2. Сбор данных 3. Доступ к данным
IBM SPSS Data Entry IBM SPSS Data Collec/on
IBM SPSS Sta/s/cs Base
4. Управление данными
IBM SPSS Sta/s/cs Base IBM SPSS Data Prepara/on IBM SPSS Missing Values
5. Анализ данных
IBM SPSS Sta/s/cs Base IBM SPSS Data Prepara/on IBM SPSS Missing Values IBM SPSS Regression IBM SPSS Advanced Sta/s/cs IBM SPSS Categories IBM SPSS Decision Trees IBM SPSS Forecas/ng IBM SPSS Bootstrapping IBM SPSS Exact Tests IBM SPSS Neural Networks
…
6. Представление результатов
IBM SPSS Sta/s/cs Base IBM SPSS Custom Tables
Планирование исследования
Усилия, затраченные на этапе планирования исследования, позволяют существенно снизить денежные и временные затраты в ходе его осуществления.
§ IBM SPSS SamplePower —инструмент, который поможет спланировать выборочное исследование.
§ IBM SPSS SamplePower помогает быстро и без лишних усилий определять размеры выборок, находя оптимальное сочетание точности результатов и затрат на проведение исследования.
Планирование исследования
§ Аналитикам проводящим опросы и обследования, основанные на сложных выборках, модуль IBM SPSS Complex Samples поможет: – создать план сложной выборки; – провести отбор; – обработать полученные данные с учетом сложного плана
выборки. § IBM SPSS Complex Samples позволяет:
– работать с расслоенными, кластеризованными и многоэтапными выборками;
– использовать методы пропорционального вероятностного отбора.
Ввод данных
§ Программное обеспечение IBM SPSS Data Entry представляет собой надежное и удобное средство для ввода и чистки данных.
§ IBM SPSS Data Entry предлагает широкие возможности по: – разработке электронных форм для ввода данных, – контролю и чистке данных, – организации двойного ввода, для обеспечения высокого качества
собираемых данных.
Доступ к данным
Часто прежде чем приступить к анализу данных их необходимо загрузить в IBM SPSS Sta/s/cs из различных источников.
§ Конструктор чтения баз данных позволяет легко и быстро получить доступ к данным, хранящимся в базах данных различных типов.
§ IBM SPSS StaRsRcs поставляется с набором драйверов для многих ODBC-‐совместимых баз данных, включая Oracle®, Microso�® SQL Server™, Microso� Access, IBM DB2® UDB, и Sybase™.
§ При помощи соответствующих драйверов можно организовать доступ к любым другим ODBC-‐совместимым базам данных.
Подготовка данных
§ Модуль IBM SPSS Data PreparaRon позволяет быстро и эффективно провести проверку данных и выявить нетипичные и ошибочные значения.
§ Если в данных выявлены пропуски или ошибки IBM SPSS Data PreparaRon провести импутацию пропущенных значений, а также удалить или скорректировать нетипичные значения.
Управление данными
IBM SPSS StaRsRcs предлагает пользователям целый ряд процедур управления данными, которые позволяют: – создавать новые переменные на базе уже существующих
переменных; – перекодировать переменные; – осуществлять поиск дублирующихся наблюдений; – агрегировать данные; – реструктурировать данные; – сливать несколько файлов данных.
Анализ данных
§ IBM SPSS StaRsRcs предлагает широкий выбор статистических методов, что позволяет получать наилучшие результаты при анализе данных различных типов.
§ IBM SPSS StaRsRcs включает процедуры для: – обобщения и представления данных – выявления взаимосвязей – построения моделей и предсказания результатов – решения задач сегментации и классификации – прогнозирование
Обобщение данных
§ IBM SPSS StaRsRcs Base предоставляет широкие возможности, позволяющие обобщать и подытоживать данные: – стандартные таблицы описательных статистик; – частотные таблицы и таблицы сопряженности; – мастер диаграмм с интуитивно понятным графическим
интерфейсом; – панель выбора диаграмм, автоматически предлагающая виды
графиков наиболее подходящие для графического представления анализируемых данных.
Выявление взаимосвязей
§ IBM SPSS StaRsRcs Base включает целый ряд методов позволяющих выявлять взаимосвязи в данных: – Таблицы сопряженности и критерий Хи-‐квадрат – Таблицы средних и t-‐критерий – Дисперсионный анализ (ANOVA) – Непараметрические критерии – Коэффициенты корреляции – Линейная регрессия
–
Поиск сложных взаимосвязей
§ Модуль IBM SPSS Neural Networks позволяет выявлять сложные взаимосвязи в данных с помощью процедур нелинейного моделирования.
§ Данные процедуры дополняют более традиционные методы моделирования, представленные в IBM SPSS Sta/s/cs Base и других дополнительных модулях.
§ Модели, построенные в IBM SPSS Neural Networks, помогают выявить взаимосвязи, которые невозможно найти с помощью традиционных статистических методов.
Построение моделей и предсказание результатов
§ Модуль IBM SPSS Regression предлагает широкий выбор регрессионных моделей для выявления нелинейных взаимосвязей и предсказания результатов
§ В модуль IBM SPSS Advanced StaRsRcs заложены процедуры, позволяющие выйти за рамки базового анализа данных. Такие методы, как линейные смешанные модели, позволяют лучше понять природу взаимосвязей скрытых в данных со сложной структурой и повысить точность предсказания результатов.
Сегментация и классификация
§ Базовый модуль IBM SPSS StaRsRcs Base предлагает широкий выбор методов кластерного и факторного анализа для решения задач сегментации (например, сегментация потребителей, товаров или услуг).
§ Модуль IBM SPSS Decision Trees позволяет строить деревья классификации, с помощью которых можно выделять группы объектов, обнаруживать связи между ними и предсказывать принадлежность исследуемых объектов к той или иной группе.
Прогнозирование
IBM SPSS ForecasRng -‐ это мощное средство анализа временных данных, построения моделей и предсказания будущих событий.
IBM SPSS ForecasRng позволяет: § Автоматически подобрать наилучшую модель,
параметры и предикторы для различных временных рядов, используя эксперт построения моделей.
§ Оценить уже имеющиеся модели с целью их более точной настройки.
§ Сохранять модели и применять их заново, что позволяет строить различные сценарии развития событий, меняя значения параметров, на которые мы можем влиять.
Создание отчетов и представление результатов
§ Модуль IBM SPSS Custom Tables позволяет быстро и легко представить результаты в виде таблиц.
§ Интерактивный интерфейс построения таблиц позволяет в режиме реального времени видеть, как будет выглядеть таблица, и изменять ее в процессе построения.
§ Вместе с таблицами можно рассчитывать статистические критерии, что позволяет проверять достоверность полученных результатов.
Повышение производительности при работе с данными больших объемов
§ IBM SPSS StaRsRcs Server позволяет пользователям обрабатывать и анализировать данных больших объемов на сервере экономя время и не затрачивая вычислительных ресурсов локальных рабочих станций.
§ SPSS SaRsRcs Server работает на нескольких наиболее распространенных серверных платформах, включая Microso�® Windows Server™, Sun™ Solaris™; IBM® AIX®; Red Hat® Enterprise Linux®; HP-‐UX™.
IBM SPSS Modeler: платформа для решений Data Mining
Что такое Data Mining?
§ Data Mining – технология анализа информации позволяющая обнаружить в накопленных данных ранее неизвестные, нетривиальные и практически полезные знания, необходимые для принятия оптимальных бизнес решений.
§ Основная задача Data Mining – нахождение закономерностей в данных, моделирование и изучение сложных систем на основе истории их поведения.
Задачи решаемые с помощью Data Mining
1. Описательный анализ – поиск новых знаний о бизнес проблеме: – Какова структура клиентской базы?
– Какие факторы влияют на уход клиентов к конкурентам?
– Какие события происходят одновременно?
– Какие события происходят последовательно?
2. Предиктивный анализ – прогнозирование возможных событий: – Насколько клиент склонен к покупке конкретного продукта?
– Какова вероятность возврата кредита?
– Какие клиенты собираются уйти к конкуренту?
Классы задач, решаемые с помощью Data Mining
Клиентская аналитика
Операционная аналитика Анализ рисков
Привлечение клиентов • Выявить профили лучших клиентов • Выяснить как лучше с ними связываться • Предпринять оптимальные действия для максимизации продаж
Увеличение прибыльности клиентов • Выявить наилучший набор продуктов и канал его предложения • Максимизировать прибыль для каналов и клиентов • Выполнение оптимальных действий при каждом взаимодействии
Удержание клиентов • Выяснить, что заставляет клиентов уходить, а что оставаться • Обеспечить лучшие условия для лучших клиентов • Принять меры для борьбы с оттоком клиентов
Управление операциями • Максимизировать эффективность использования ресурсов • Обеспечить доступность ресурсов в нужное время • Идентифицировать влияние инвестиций
Поддержка инфраструктуры • Выяснить, что приводит к поломкам и неисправностям активов • Минимизировать простои из-‐за неисправностей • Снизить стоимость ремонта
Максимизация эффективности • Оптимизация режима использования ресурсов • Уменьшение операционных издержек • Ликвидация узких мест в критичных процессах
Мониторинг событий • Идентификация угроз • Повышение безопасности • Увеличение прозрачности критичных функций
Выявление подозрительной активности • Выявление мошеннических последовательностей действий • Выявление ненадежных сотрудников и контрагентов • Выявление редких и нетипичных событий
Контроль результатов • Реагирование в реальном времени для предотвращения нанесения вреда • Ускорение анализа данных и реакции • Система оповещений
Данные используемые в Data Mining
Данные о взаимодействии - E-‐Mail / мгновенные сообщения - Звонки в колл-‐центры - Потоки кликов на сайте - Текст и диалоги
Данные об отношении -‐ Мнения и предпочтения -‐ Требования и желания -‐ Результаты опросов -‐ Данные из социальных сетей
Транзакционные данные -‐ Заказы -‐ Транзакции -‐ Факты оплаты -‐ Возвраты
Описательные данные -‐ Атрибуты -‐ Характеристики -‐ Само-‐декларируемая информация -‐ Социально-‐демографические данные
Кому нужен Data Mining?
Компаниям, работающим на высоко конкурентных рынках и обладающим большим объемом накопленных данных и неструктурированной информации. § Банки § Страховые компании § Розничная торговля § Телекоммуникационные компании § Производственные компании § Промышленные предприятия § Медицинские учреждения § Государственные структуры и ведомства
Кому нужен Data Mining?
Финансовый сектор • Целевой маркетинг • Оценка заемщиков • Оценка привлекательности
инвестиционных проектов
Страхование • Cross-‐sell & Up-‐sell • Обнаружение случаев
мошенничества • Урегулирование страховых случаев
Государственный сектор • Прогнозирование криминальной
обстановки • Мониторинг транспортной ситуации
в городе • Анализ высказываний в СМИ
Retail • Анализ предпочтений покупателей • Анализ потребительской корзины и
планирование ассортимента • Прогнозирование потребительского
спроса
Телекоммуникации • Прогнозирование оттока клиентов • Прогнозирование объемов и видов
трафика • Cross-‐sell
Промышленность • Прогнозирование необходимости
обслуживания оборудования и ремонтных работ
• Прогнозирование аварийных ситуаций
• Техническая диагностика при управлении сложными процессами Образование
• Разработка учебных программ и учебных курсов
• Научная деятельность • Управление человеческими
ресурсами
Медицина • Прогнозирование заболеваемости • Прогнозирование осложнений после
операций • Управление человеческими
ресурсами
IBM SPSS Modeler
§ IBM SPSS Modeler — программное обеспечение для Data Mining, включающее в себя все необходимые аналитические инструменты для работы с данными, разработки и внедрения эффективных прогностических моделей не только аналитиками, но и безнес-‐пользователями.
§ IBM SPSS Modeler является основой для построения Data Mining решений на базе продуктов IBM.
Основные преимущества IBM SPSS Modeler
§ Простота обучения – Интуитивный интерфейс
– Визуальный подход к управлению аналитическим процессом
– Большое количество методов анализа данных – Гибкие возможности развертывания
§ Мощное средство моделирования – Автоматическая подготовка данных и выбор алгоритмов построения моделей – Построение нескольких моделей и оценка их качества
– Интегрированный анализ данных из web, баз данных и файлов
§ Масштабируемая архитектура – Простота подключения к существующим источникам данных
– Использование существующих алгоритмов data mining в базах данных с помощью SQL pushback
– Возможность переноса вычислений на сервер
IBM SPSS CollaboraRon and Deployment Services
Analytical Data Store
Attitudinal Data
Interaction Data
Behavioral Data
Demographic Data
Modeler Server
SQL Pushback
Collaboration and Deployment Services
Modeler Client
Analytics Repository
Модели Описания источников Задания Отчеты
Automation Service
Scoring Service
Notification service
Deployment Web portal
Публикация результатов Возможность просмотра через веб динамики качества моделей и результатов анализа.
AnalyRcs Repository • Единый репозиторий, где хранятся все модели, результаты анализа и задания на прогноз. • Возможность разграничения прав доступа и действий пользователей • Хранение полной истории версий всех объектов репозитория • Аудит доступа к объектам репозитория
Автоматизация. • Создание заданий на регулярную оценку качества моделей и выбора лучшей. • Рассылка оповещений в случае неуспеха прогнозирования
Благодарю за внимание! Пожалуйста, вопросы!?