2011/09/16_data mining_lecture 1
Post on 15-Jun-2015
1.874 Views
Preview:
TRANSCRIPT
Анализ данных: Введение
Юля КиселёваШкола анализа данных
13.04.2023 Введение в анализ данных 2
Требования
• Коллоквиум (20%)• Применение теоретических знаний на практике: – анализа данных по теме проекта (25%) – подробный рассказ по статье или реализация
прототипа, описанного в статье (15%)
• Финальный экзамен (40%)
13.04.2023 Введение в анализ данных 3
Программа курса(1)
• Крупномасштабные файловые системы и Map Reduce.
• Нахождение похожих объектов. Использование задачи для поиска ближайших соседей. Метрики расстояний. Locality-Sensitive Functions.
• Mining Data Streams.• Ссылочное ранжирование. Page Rank.• Частотные объекты. Анализ «потребительской
корзины». A-Priori Algorithm.
13.04.2023 Введение в анализ данных 4
• Кластеризация. Иерархическая кластеризация.• Кластеризация. K-Means Basics. The CURE
Algorithm.• Spam detection• Реклама в интернете. Задачи интернет-рекламы.• Система рекомендаций. Модели системы
рекомендаций. Collaborative Filtering.
Программа курса(2)
13.04.2023 Введение в анализ данных 5
Зачем нужен анализ данных (data mining)? Индустрия
• Много данных, которые были собраны:– Веб-данные, электронная коммерция– Покупки в магазинах– Банки/кредитные карты (транзакции)
• Компьютеры дешевые и «могущественные»• Конкуренция
– Нужно лучше понимать данные дляпринятия решения
13.04.2023 Введение в анализ данных 6
• Данные коллекционируются и сохраняются в больших количествах (GB/hour) – Телескопы, сканирующие небесное пространство– Научная эмуляция производит терабайты данных
• Медицинские данные• Анализ данных помогает:– классификации данных– кластеризации данных– формулировании гипотезы
Зачем нужен анализа данных? Наука
13.04.2023 Введение в анализ данных 7
• Существуют «скрытые» знания в данных• Анализ, проведенный человеком, может занять
недели-месяцы-годы• Большинство данных вообще не анализируется
Анализ больших объемов данных: Мотивация
1995 1996 1997 1998 19990
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
Объемы данных
Попытки анализа данных
13.04.2023 Введение в анализ данных 8
• Много определений• Нетривиальное извлечение «скрытых» ранее
неизвестных и полезных знаний из данных• Анализ больших объемов данных, использующий
автоматические или полуавтоматические методы, с целью определить значимые паттерны
Что такое анализ данных?Что такое анализ данных?
13.04.2023 Введение в анализ данных 9
• Процесс автоматического или полуавтоматического анализа больших объемов данных, чтобы найти паттерны, которые:
Валидны: эксперименты можно повторить на новых данных с похожим результатом
Новые: не являются очевидными в рамках системыПолезные: полученные знания можно применить для
улучшения работыПонятные: человек может интерпретировать полученный
паттерн
Анализ данных
13.04.2023 Введение в анализ данных 10
• Одним из самых больших рисков анализа данных является тот факт, что результаты могут не иметь смысла
• Bonferroni’s principle: если вы рассмотрите больше интересных моделей, чем потенциально содержат ваши данные, то вы получите чепуху.
Непонятные ответы
13.04.2023 Введение в анализ данных 11
• Парапсихологи в 1950-х выдвинули гипотезу, что некоторые люди обладают экстра-ординарными способностями (ЭОС)
• Они провели эксперимент, в котором участники должны были угадать 10 скрытых карт – красные или синие
• Они обнаружили, что 1 из 1000 участников обладают ЭОС – они были способны угадать все 10 скрытых карт правильно
Rhine Paradox (1)
13.04.2023 Введение в анализ данных 12
• Далее они рассказали этим людям, что они они обладают ЭОС и попросили их пройти другой тест
• Но следующий эксперимент показал, что эти люди потеряли ЭОС
• Какой вывод они сделали?
• Группа парапсихологов решили, что не стоит говорить людям, что они обладают ЭОС; иначе они потеряют их
Rhine Paradox (2)
13.04.2023 Введение в анализ данных 13
• Банки: разрешения на кредит:– Предсказывать «хороших» клиентов, базируясь на истории старых
клиентов
• Targeting Marketing:– Предсказание реакции на ту или иную рекламу
• Fraud detection (определение мошенничество):– Телекоммуникации– Финансы– Отзывы на товары и продукты
Возможные приложения (1)
13.04.2023 Введение в анализ данных 14
• Медицина: оценка эффективности лечения– Анализ истории болезни пациента– Нахождения зависимости между болезнями
• Молекулярная:– Новые медикаменты
• Научные исследования:– Нахождение новых галактик!
• Анализ Веб данных
Возможные приложения (2)
13.04.2023 Введение в анализ данных 15
• АД – это пересечение машинного обучения, статистики, искусственного интеллекта, баз данных, визуализации:
* масштабируемость * алгоритмы * неоднородные данные
Откуда пришел анализ данных
Статистика Машинное обучение
Базы данных
Анализ данных
13.04.2023 Введение в анализ данных 16
• Предсказательные методы:используя, существующие переменные, предсказать не неизвестные или будущие значения других переменных
• Описательные методы:Нахождение паттернов, понятных человеку, которые описывают данные
Задачи анализа данных
13.04.2023 Введение в анализ данных 17
• Классификация• Кластеризация• Ассоциативные правила• Определение аномалий
Задачи, которые могут решаться в процессе анализа данных
13.04.2023 Введение в анализ данных 18
Пример кластеризации
13.04.2023 Введение в анализ данных 19
Классификация галактик
Ранняя
Средняя
Поздняя
Атрибуты:• Признаки картинки• Характеристики световых волн
Классы:• Стадия формирования
13.04.2023 Введение в анализ данных 20
• По предоставленной базе данных пользовательских предпочтений, определить «вкусы» новых пользователей
• Пример:– Определить фильмы, которые потенциально могут
быть интересны пользователю– Предсказать, СD/книги интересные пользователю
Collaborative Filtering
13.04.2023 Введение в анализ данных 21
• Определение значительных отклонений от нормального поведения
• Приложения:– Мошенничество с кредитными
картами– Атака сети
Определение аномалий
13.04.2023 Введение в анализ данных 22
• Супермаркет (customer basket):– Цель: Найти продукты, которые покупаются вместе
большим количеством покупателей– Способ: Проанализировать цепочку, которую покупает
пользователь и найти зависимость– Классическое правило:
• Если пользователь покупает подгузник и молоко, затем он покупает пиво
• Таким образом не удивляйтесь тому, что (в американских) магазинах пиво расположено недалеко от подгузников
Ассоциативные правила
13.04.2023 Введение в анализ данных 23
• Масштабируемость• Размерность• Сложные и неоднородные данные• Качество данных• Privacy Preservation
Сложности анализа данных
13.04.2023 Введение в анализ данных 24
1. Формулировка задачи 2. Выбор алгоритма для анализа и методов оценки3. Выбор обучающего и тестового множества4. Feature selection (Выбор признаков)5. Оценка полученных результатов6. Вывод
13.04.2023 Введение в анализ данных 24
Построение эксперимента
13.04.2023 Введение в анализ данных 25
1. Формулировка задачи (рассмотрели)2. Выбор алгоритма для анализа (рассмотрели) и
методов оценки3. Выбор обучающего и тестового множества4. Feature selection (Выбор признаков)5. Оценка полученных результатов6. Вывод (рассмотрели)
Построение эксперимента
13.04.2023 Введение в анализ данных 26
• Обучающее множество:на чем обучаемсяДля каких рассмотренных методов АД это особенно актуально?Какие свойствами должно обладать обучающее множество?
• Тестовое множество:на основе чего проверяем полученный результатКакие свойствами должно обладать тестовое множество?Важно: Данные всегда нужно смотреть глазами
Выбор обучающего и тестового множеств
13.04.2023 Введение в анализ данных 27
• В медицине:– Данные очень дорогие
• Для задач Информационного поиска есть готовые тестовые коллекции (английский – TREC, русский - РОМИП)
• Для анализа поисковых запросов есть открытие логи:– Проблема: последний лог отрыт в 2005 году
• Часто нужно составлять для каждой отдельной задачи вручную:– Amazon Mechanical Turk– Важно: достоверность
Выбор тестового множества
13.04.2023 Введение в анализ данных 28
Amazon Mechanical Turk
13.04.2023 Введение в анализ данных 29
1. Формулировка задачи (рассмотрели)2. Выбор алгоритма для анализа и методов
оценки(рассмотрели)3. Выбор обучающего и тестового
множества(рассмотрели)4. Feature selection (Выбор признаков)5. Оценка полученных результатов6. Вывод (рассмотрели)
13.04.2023 Введение в анализ данных 29
Построение эксперимента
13.04.2023 Введение в анализ данных 30
• Что такое признаки?• Признаки – это индивидуальная характеристика
объекта• Зависит от данных:– Картинки (цвет, текстура)– Текст (n-grams, контекст)
• Важно: во время остановиться
Выбор признаков (Feature selection)
13.04.2023 Введение в анализ данных 3113.04.2023 Введение в анализ данных 31
1. Формулировка задачи (рассмотрели)2. Выбор алгоритма для анализа и методов оценки (рассмотрели)3. Выбор обучающего и тестового
множества(рассмотрели)4. Feature selection (Выбор признаков)
(рассмотрели)5. Оценка полученных результатов6. Вывод (рассмотрели)
13.04.2023 Введение в анализ данных 31
Построение эксперимента
13.04.2023 Введение в анализ данных 32
• Этот метод работает «хорошо» • Этот метод работает «плохо»
• Оценка должна быть численной:– Нужно сравниваться с конкурентами– При внесении изменений в метод понимать, как это
влияет на результат
Зачем нужна оценка
Это хорошая оценка?
13.04.2023 Введение в анализ данных 3313.04.2023 Введение в анализ данных 33
1. Формулировка задачи (рассмотрели)2. Выбор алгоритма для анализа и методов
оценки и методов оценки (рассмотрели)3. Выбор обучающего и тестового
множества(рассмотрели)4. Feature selection (Выбор признаков)
(рассмотрели)5. Оценка полученных результатов (рассмотрели)6. Вывод (рассмотрели)
13.04.2023 Введение в анализ данных 33
Построение эксперимента
13.04.2023 Введение в анализ данных 34
• Рассмотрели требования к курсу• Познакомились с программой курса• Рассмотрели, что такое data mining (анализ
данных)• Рассмотрели задачи анализа данных• Познакомились и запомнили схему
построения эксперимента
Резюме
13.04.2023 Введение в анализ данных 35
Контакты
• Мой мейл juliakiseleva@yandex-team.ru
top related