![Page 1: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/1.jpg)
CLASSIFICATION IN
ORANGE
1. KNN
2. SVM
3. LOGISTIC
REGRESSION
Saint Petersburg, 1.10.2018
Internet Studies Lab, Department of Applied
Mathematics and Business Informatics
Анализ баз данных в публичном управлении
Кольцов С.Н.
![Page 2: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/2.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Задача классификации
Задача классификации в машинном обучении — это задача отнесения объекта к одному
из заранее определенных классов на основании его формализованных признаков. Каждый
из объектов в этой задаче представляется в виде вектора в N-мерном пространстве, каждое
измерение в котором представляет собой описание одного из признаков объекта.
Для обучения классификатора необходимо иметь набор объектов, для которых заранее
определены классы. Это множество называется обучающей выборкой, её разметка
производится вручную, с привлечением специалистов в исследуемой области.
Например, у нас есть набор текстов, и у каждого текста есть оценка тональности.
Алгоритм классификации может обучится на этих текстах, и в дальнейшем, обученный
алгоритм можно использовать для другого набора текстов. В этом случае, многомерное
пространство признаков представляет собой матрица частот слов в текстах.
Другой пример, предположим есть таблица пациентов, с медицинскими показателями
(виды болей, различные анализы) и диагноз, который был подтвержден. В этом случае
можно обучить алгоритм распознавать диагноз у вновь поступивших пациентов.
![Page 3: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/3.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ТИПЫ КЛАССИФИКАТОРОВТипичная задача статистического обучения – есть набор объектов с наблюдаемыми свойствами, и не
наблюдаемыми свойствами. Нужно построить алгоритм, который бы позволял вычислить ненаблюдаемые
свойства при помощи наблюдаемых, при этом хотелось бы что бы алгоритм ошибался не очень часто и не
очень сильно.
Классификаторы основанные на таблице частот.
1. ZeroR (алгоритм строит таблицу частот и выбирает максимальную частоту).
2. OneR (Алгоритм строит таблицу частот и строит одно правило для каждой класса. Выбирает правило,
которое дает минимальную ошибку. Это правило применяется для всего датасета)
3. Naive Bayesian
4. Decision Tree (Алгоритм разбивает датасет на все меньшие куски данных, формируя тем самым дерево).
Классификаторы основанные на ковариационной матрице
1. Линейный дискриминационный анализ (Linear Discriminant Analysis)
2. Логистическая регрессия (Logistic Regression)
Классификатор основанный на функции сходства.
1. Метод ближайших соседей (K Nearest Neighbors)
Другие
1. Нейронные сети.
2. Метод опорных векторов (Support Vector Machine)
![Page 4: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/4.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Меры качества классификаторов для бинарных классовPrecision: число правильно предсказанных
положительных значений поделенных на число
предсказанных классификатором
положительных значений.
Confusion Matrix
TP – число правильно предсказанных
положительных значений
FN – число неправильно предсказанных
положительных значений
FP – число неправильно предсказанных
негативных значений
FN – число правильно предсказанных
негативных значений
![Page 5: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/5.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Меры качества классификаторов для многих классов
Precision =
Recall =F measure =
![Page 6: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/6.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
МЕРЫ КАЧЕСТВА КЛАССИФИКАТОРОВ
ДЛЯ БИНАРНЫХ КЛАССОВ
F − measure
β– обычно берут равной 1. F measure = 2 * (precision * recall) / (precision + recall)
The F measure (F1, Fscore) можно интерпретировать как взвешенное среднее
precision и recall. Если F1=1, то классификатор отработал на 100% и F1=0
тогда классификатор не справился с задачей.
Рассчитывает отношение числа правильно
распознанных случаев к числу не правильных.
Процесс расчета таков: берутся данные,
последовательно, и в них вычисляется это
отношение. В какой то момент отношение
становится константой.
AUC – интеграл под кривой.
![Page 7: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/7.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ОБЗОР ВИДЖЕТОВ
Виджет для работы с методом ближайших соседей (K
Nearest Neighbors)
Виджет для работы с методом опорных
векторов (SVN)
Виджет для работы с моделью Naïve
Bayes
Виджет для работы с моделью
логистическая регрессия
![Page 8: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/8.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ОБЗОР ВИДЖЕТОВ
Виджет для расчета метрик качества
Виджет для расчета для расчета
новых значений (предсказание)
Виджет для расчета для расчета
confusion matrix
Виджет для расчета для расчета
ROC
![Page 9: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/9.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ
Виджет для заполнения
пропущенных значений
![Page 10: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/10.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ
![Page 11: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/11.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ (K NEAREST NEIGHBORS)
Все объекты расположены в многомерном пространстве
1. Задаем число k – количество ближайших соседей.
2. Ищем k объектов с минимальным
расстоянием до нашего нового
объекта. Используем меру для
расчета расстояний.
3.1 Простое невзвешенное
голосование. Считаем сколько
объектов с классами присутствует
внутри заданного расстояния.
Например, если число объектов с
классом А большинство, то новый
объект относится к классу А.
3.2. Взвешенное голосование
В такой ситуации учитывается также
и расстояние до новой записи. Чем
меньше расстояние, тем более
значимый вклад вносит голос.
![Page 12: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/12.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
КЛАССИФИКАЦИЯ ТАБЛИЧНЫХ ДАННЫХ
![Page 13: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/13.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ПРЕДСКАЗАНИЯ С ИСПОЛЬЗОВАНИЕМ
КЛАССИФИКАТОРА KNN
![Page 14: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/14.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ПРЕДСКАЗАНИЯ АКЦИЙ ГАЗПРОМА
Задача заключается в том ,что
бы построить на основе KNN
алгоритм предсказания
котировок ценных бумаг.
Решение: будем использовать
пакет Orange.
1. Возьмем исходный датасет.
2. Обучим классификатора на
наших данных.
3. Посмотрим как
классификатор предсказывает на
наших данных котировки акций
Газпрома.
http://www.finam.ru/profile/moex-akcii/gazprom/export/
![Page 15: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/15.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ПРЕДСКАЗАНИЯ АКЦИЙ ГАЗПРОМА
![Page 16: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/16.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ВЛИЯНИЕ ЧИСЛА СОСЕДЕЙ НА КЛАССИФИКАЦИЮ
![Page 17: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/17.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ВЛИЯНИЕ ТИПА РАССТОЯНИЯ НА КЛАССИФИКАЦИЮ
![Page 18: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/18.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
НЕФТЬ - РУБЛЬ
![Page 19: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/19.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
КЛАССИФИКАЦИЯ РУСКОЯЗЫЧНЫХ ТЕКСТОВВозьмем набор текстов, которые содержат тональную разметку.
![Page 20: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/20.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ЭФФЕКТ УДАЛЕНИЯ СТОП СЛОВ НА
КЛАССИФИКАЦИЮ
Результат классификации без очистки
Результат классификации после
удаления стоп слов
![Page 21: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/21.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ЭФФЕКТ ВЫБОРА ЧИСЛА СОСЕДЕЙ
Используется очищенный датасет и эвклидово расстояние
![Page 22: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/22.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
КЛАССИФИКАЦИЯ АНГЛОЯЗЫЧНЫХ ТЕКСТОВ
Удаление стоп слов
![Page 23: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/23.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ЭФФЕКТ ВЫБОРА РАССТОЯНИЯ НА ТЕКСТОВУЮ
КЛАССИФИКАЦИЮ
![Page 24: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/24.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ
https://www.youtube.com/watch?v=lvgx62a8XQk&index=15&list=PLmNPvQr9Tf-ZSDLwOzxpvY-HrE0yv-8Fy
Изображения
разложены по
категориям. Каждая
категория это
отдельный каталог.
![Page 25: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/25.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ
![Page 26: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/26.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ
![Page 27: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/27.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
МЕТОД ОПОРНЫХ ВЕКТОРОВ (SVM)
Каждый объект данных (например, документ, котировки ценных бумаг или компании)
представлен как вектор в P мерном пространстве (последовательность чисел). Пусть у
нас есть тестовая коллекция, в которой есть набор объектов (features) и есть набор классов.
Математическая задача обучения заключается в том что бы найти функцию, которая
адекватно сопоставляла объекты и классы, то есть найти такую функцию, которая
эффективно разделяла бы объекты в пространстве features.
Рассмотрим пример на плоскости: У нас есть два класса с двумя features (х1, х2).
Нужной найти прямую линию, которая оптимально разделяла два класса.
![Page 28: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/28.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
МЕТОД ОПОРНЫХ ВЕКТОРОВ (SVM)Нахождение уравнения плоскости является стандартной задачей квадратичного
программирования и решается с помощью множителей Лагранжа. Собственно в этом
заключается процесс обучения.
Как только плоскость найдена, берем новый объект и смотрим где он расположен относительно
плоскости. Если справа, то принадлежит одному классу, если слева, то наш объект
принадлежит другому классу.
Однако, ка правило на практике встречаются случаи когда объекты расположены, так что на
плоскости невозможно провести разделяющую прямую. В этом случае плоскость вкладывается
в пространство большей размерности. При вложении плоскость трансформируется таким
образом, что бы появилась возможность провести разделяющую плоскость.
https://youtu.be/3liCbRZPrZA
Демонстрация подобного преобразования
![Page 29: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/29.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
МЕТОД ОПОРНЫХ ВЕКТОРОВ (SVM)
Типы kernels (ядер):
1. Линейное ядро.
2. Полиномиальное ядро.
3. Radial basis function kernel
4. Hyperbolic Tangent (Sigmoid)
Kernel
c - const (default =0)
d - степень ядра
![Page 30: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/30.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
SVM - ТАБЛИЧНЫЕ ДАННЫЕ
![Page 31: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/31.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
SVM – ТАБЛИЧНЫЕ ДАННЫЕ – ЭФФЕКТ
ВЫБОРА ЯДРА
![Page 32: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/32.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
SVM – ТАБЛИЧНЫЕ ДАННЫЕ - ПРЕДСКАЗАНИЕ
![Page 33: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/33.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
SVM – ТЕКСТОВЫЕ ДАННЫЕ
![Page 34: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/34.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
SVM – ТЕКСТОВЫЕ ДАННЫЕ – ЭФФЕКТ
ВЫБОРА ЯДРА
![Page 35: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/35.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
МЕТОД ОПОРНЫХ ВЕКТОРОВ (SVM)
ИЗОБРАЖЕНИЯ
![Page 36: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/36.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
МЕТОД ОПОРНЫХ ВЕКТОРОВ (SVM)
ИЗОБРАЖЕНИЯ - ПРЕДСКАЗАНИЯ
![Page 37: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/37.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
МЕТОД ОПОРНЫХ ВЕКТОРОВ (SVM)
ЭФФЕКТ IMAGE EMBEDDING
![Page 38: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/38.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ В ЗАДАЧАХ
КЛАССИФИКАЦИИЛогистическая регрессия – это разновидность множественной регрессии, общее назначение
которой состоит в анализе связи между несколькими независимыми переменными
(называемыми также регрессорами или предикторами) и зависимой переменной. Бинарная
логистическая регрессия, как следует из названия, применяется в случае, когда зависимая
переменная является бинарной (т.е. может принимать только два значения). Иными словами, с
помощью логистической регрессии можно оценивать вероятность того, что событие наступит
для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.).
Для решения проблемы задача регрессии может быть сформулирована иначе: вместо
предсказания бинарной переменной, мы предсказываем непрерывную переменную со
значениями на отрезке [0,1] при любых значениях независимых переменных. Это достигается
применением следующего регрессионного уравнения (логит-преобразование):
где P – вероятность того, что произойдет интересующее
событие; e – основание натуральных логарифмов 2,71…; y –
стандартное уравнение регрессии.
![Page 39: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/39.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
LOGISTIC REGRESSION
![Page 40: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/40.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
СРАВНЕНИЕ РАБОТЫ ТРЕХ КЛАССИФИКАТОРОВ
![Page 41: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/41.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
LOGISTIC REGRESSION – ТЕКСТОВЫЕ ДАННЫЕ
![Page 42: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/42.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
LOGISTIC REGRESSION – ЭФФЕКТ РЕГУЛЯРИЗАЦИИ
![Page 43: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/43.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
LOGISTIC REGRESSION – KNN – SVM
![Page 44: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/44.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
LOGISTIC REGRESSION – IMAGE CLASSIFICATION
![Page 45: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/45.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
LOGISTIC REGRESSION – ЭФФЕКТ РЕГУЛЯРИЗАЦИИ
![Page 46: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/46.jpg)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
LOGISTIC REGRESSION – KNN - SVM
![Page 47: CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC … · 2018. 10. 4. · CLASSIFICATION IN ORANGE 1. KNN 2. SVM 3. LOGISTIC REGRESSION Saint Petersburg, 1.10.2018 Internet Studies](https://reader033.vdocuments.net/reader033/viewer/2022051512/603c02ad2a06ad68a9460c85/html5/thumbnails/47.jpg)
Email: [email protected]://linis.hse.ru/ Phone: +7 (911) 981 9165