Корреляционный и регрессионный анализ. Временные...

44
Корреляционный и регрессионный анализ. Временные ряды. МНК

Upload: barbara-blackwell

Post on 30-Dec-2015

99 views

Category:

Documents


0 download

DESCRIPTION

Корреляционный и регрессионный анализ. Временные ряды . МНК. Метод наименьших квадратов. Как же правильно построить график зависимости Y = Y ( X )? Как найти функцию Y = Y ( X ), которая наилучшим образом соответствовала экспериментальным точкам?. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Корреляционный и регрессионный анализ.

Временные ряды.МНК

Page 2: Корреляционный  и регрессионный анализ. Временные ряды . МНК

1. Метод наименьших квадратов

Выполняя лабораторную работу по физике, например, изучая зависимость некоторой физической величины Y от физической величины X, вы получили следующие экспериментальные данные. X x1 x2 x3 …xi… xn

Y y1 y2 y3 …yi… yn

Page 3: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Как же правильно построить график зависимости Y=Y(X)? Как найти функцию Y=Y(X), которая наилучшим образом

соответствовала экспериментальным точкам?

Page 4: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Предположим, что функция Y(Х) линейная – , но конкретный вид её не известен.

• Метод поиска оптимального вида сглаживающей функции был предложен в XVIII веке немецким математиком К. Гауссом. Он называется методом наименьших квадратов (МНК).

Page 5: Корреляционный  и регрессионный анализ. Временные ряды . МНК

распределений вероятностей – нормальное, а в теории случайных процессов

основной объект изучения – гауссовские процессы.

Иоганн Карл Фри дрих Га усс (нем. Johann Carl Friedrich Gauß; 30 апреля 1777,

Брауншвейг — 23 февраля 1855, Гёттинген) — немецкий математик, астроном и физик,

считается одним из величайших математиков всех времён, «королём математиков»[1]

В конце XIX в. – начале ХХ в. крупный

Page 6: Корреляционный  и регрессионный анализ. Временные ряды . МНК
Page 7: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Иными словами нужно свести к минимуму функцию S:

• • S•

Page 8: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Для отыскания минимума функции S приравняем нулю соответствующие частные производные:

Page 9: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Получив значения a и b, можно составить уравнение линейной зависимости вида

и построить график этой зависимости:

Page 10: Корреляционный  и регрессионный анализ. Временные ряды . МНК

. Построить график зависимости по данным n=8 наблюдений, которые получены при изучении зависимости количества продаж лекарственного средства «Амбробене» у от затрат на рекламу этого товара х: х 1,5 4,0 5,0 7,0 8,5 10,0 11,0 12,5 y 5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0 Решение. Экспериментальные данные изобразим в виде точек на координатной плоскости. Соединим полученные точки. По виду ломанной можно предположить наличие линейной зависимости между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки

Page 11: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Для построения линии тренда составим расчетную таблицу: № хi yi x i

2 xiyi 1 2 3 4 5 6 7 8

1,5 4,0 5,0 7,0 8,5 10,0 11,0 12,5

5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0

2,25 16,00 25,00 49,00 72,25 100,00 121,00 156,25

7,50 18,00 35,00 45,50 80,75 90,00 121,00 112,50

Σ 59,5 61,5 541,75 510,25 Найдем искомые параметры, для чего подставим вычисленные по таблице суммы в соотношения (1): а = (61,5 × 541,75 – 510,25 ×59,50)/ (8 ×541,75 – 3540,25) = 3,73, b = (8 × 510,25 – 59,50 × 61,50)/ (8 ×541,75 – 3540,25) = 0,53. Таким образом, уравнение тренда имеет вид .𝑦ത = 3,73+ 0,53𝑥

Page 12: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Построенная линия тренда позволяет с некоторой вероятностью не только предсказать в интервале от х=1,5 до х=12,5 любые значения

функции у при отсутствующих в таблице значениях фактора х, но и за пределами данного интервала.

Page 13: Корреляционный  и регрессионный анализ. Временные ряды . МНК

МНК и поиск по картинкам, лицам и картам

Поиск по лицам, заснятым на камеру наблюдения

Page 14: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Статистический анализ временных рядов.

• Временн й ряд (или ряд динамики) — это о́�собранные в разные моменты времени значения случайной величины, характеризующие исследуемый процесс.

Временные ряды состоят из двух элементов:• периода времени, за который или по состоянию

на который приводятся числовые значения;• числовых значений той или иной случайной

величины.

Page 15: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Временные ряды по своему представлению бывают дискретные и непрерывные.

Page 16: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Пример дискретного временного ряда: результаты измерений в ходе лечения утренней температуры

тела пациента.

Page 17: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Непрерывный ряд представляет результаты непрерывных наблюдений за случайной

величиной (результаты снятия ЭКГ).

Page 18: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Временные ряды бывают детерминированными и случайными: первые получают, если существует строгое соответствие (однозначная зависимость) между значениями времени регистрации и соответствующими значениями временного ряда (например, ряд последовательных данных о количестве дней в месяцах); вторые есть результат реализации некоторой случайной величины.

• Различают стационарные и нестационарные временные ряды. Стационарным временным рядом называют ряд, функция распределения значений которого не зависит от времени. Нестационарным рядом называют ряд, функция распределения которого меняется со временем.

Page 19: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Пример графического изображения нестационарного временного ряда. Детерминированная компонента

изображена синей линией.

Page 20: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Детерминированная компонента f(t) (тренд) – характеризует основную тенденцию изменения временного ряда с течением времени, на которую накладываются случайные отклонения , определяемые компонентой Ɛ(t) ( "шумы", случайные погрешности).

• То есть исходный временной ряд X(t) представляется в виде суммы:

• X(t) = f(t) + Ɛ(t)

Page 21: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• На практике наибольший интерес представляет выявления основной тенденции изменения временного ряда. Одним из методов нахождения уравнения тренда является метод наименьших квадратов.

• Статистические модели на основе изучения нестационарных временных рядов служат для описания вероятные значения временного ряда в ближайшем будущем при известных последних значениях (прогноз). Прогноз будущих значений временного ряда используется для эффективного принятия решений.

Page 22: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• . Движение цен на валютном рынке происходит в соответствии с определёнными тенденциями - трендами. Рост курса происходит, когда спрос на определенную валюту превышает предложение на рынке, и наоборот. При долгосрочном росте или падении курса валют, участники рынка говорят о том, что сложился "восходящий" (рост курса), либо "нисходящий" (падение курса) тренд по данной валюте. Также, выделяют иногда третий тип тренда - "боковой", хотя, по сути, это, как раз, отсутствие тренда - ярко выраженного роста или падения курса валюты в течение определённого периода времени. Неформально, восходящий тренд участники рынка называют "бычьим", а нисходящий "медвежьим". Боковой тренд называют просто - "флэт" (от англ. flat - плоский). На основании анализа трендов ( или вопреки ему) принимается решение о покупке валюты.

Page 23: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Восходящий и нисходящие тренды.

Page 24: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Боковой тренд.

Page 25: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• 3. Корреляционный и регрессионный анализы.

Page 26: Корреляционный  и регрессионный анализ. Временные ряды . МНК

3.1. Статистическая зависимость ее отличие от функциональной зависимости.

Функциональная зависимость: X→Y

Статистическая зависимость:X →Y1, Y2, … ,Yn

Page 27: Корреляционный  и регрессионный анализ. Временные ряды . МНК

В медико-биологических исследованиях в большинстве случаев между переменными величинами существуют зависимости такого вида, когда

каждому значению одной переменной (Х) соответствует не какое-то одно определенное, а множество значений другой

переменной(Y), причем нельзя сказать заранее, какое именно значение примет зависимая величина Y. Такая зависимость

получила название статистической (или стохастической, вероятностной).

Page 28: Корреляционный  и регрессионный анализ. Временные ряды . МНК

3.2. Корреляционная зависимость:Линии регрессии.

• X → • Функция же f(х)=М(Y), описывающая

изменение математического ожидания случайной переменной Y при изменении значений переменной Х, называется функцией регрессии Y на Х, а ее график – линией регрессии.

Page 29: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Термин «регрессия» ввёл в математическую статистику Френсис Гальтон. Гальтон был двоюродным братом Чарльза Дарвина по их

деду — Эразмусу (Эразму) Дарвину.

• Сэр Фрэнсис Гальтон (англ. Francis Galton; 16 февраля 1822 — 17 января 1911) — английский исследователь, географ, антрополог и психолог; основатель дифференциальной психологии и психометрики.

Page 30: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Если f(х) – линейная функция, то корреляционную зависимость можно описать с помощью уравнения вида

• • М(Y/х) =Bх+A, • • где А и В – некоторые параметры, а М(Y/х) –

условное математическое ожидание наблюдавшихся значений Y, соответствующих Х=х.

Page 31: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели.

• Если функция f(х) линейная, то выборочное уравнение линейной регрессии Y на Х имеет вид:

• • yx=𝞺xy x + a (по аналогии с уравнением (2)),• • где 𝞺xy – выборочный коэффициент линейной регрессии Y на

X, . yx – условное среднее значение y для соответствующих Х=х.

Page 32: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Диаграмма связи между численностью рабочих на фармацевтическом предприятии и доходом предприятия.

yx=𝞺xy x + a

Page 33: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Смысл коэффициента регрессии 𝞺xy :

• В общем случае коэффициент регрессии показывает, как в среднем изменится значение Y, если X увеличится на единицу.

• Численно он равен тангенсу угла между прямой линией регрессии Y на X и положительным направлением оси ОХ.

• По величине коэффициента регрессии судят о силе корреляционной связи между изучаемыми величинами: чем больше величина 𝞺xy, тем сильнее изменится среднее значение Y при изменении Х, тем сильнее корреляционная связь.

• Знак указывает направление связи.

Page 34: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Y=3000x+2450

Page 35: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Пример. На каком из двух графиков связь между признаками выражена сильнее?

Page 36: Корреляционный  и регрессионный анализ. Временные ряды . МНК
Page 37: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Оказывается форма связи (линия регрессии) сама по себе не дает ответа на вопрос о тесноте связи пары переменных. На этот вопрос отвечает коэффициент парной корреляции. Он показывает, насколько тесно две переменные связаны между собой.

Page 38: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Коэффициент парной корреляции r принимает значения в диапазоне от –1 до +1.Положительные значения коэффициента корреляции r свидетельствуют о прямой

связи между признаками, отрицательные – об обратной связи.

Page 39: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Если r = 0, то рассматриваемые переменные линейно независимы, т.е. на диаграмме рассеяния

облако точек "вытянуто по горизонтали".

Page 40: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Формула для вычисления парного коэффициента корреляции:

Page 41: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Сравнение коэффициентов корреляции и регрессииКоэффициент корреляции • • Принимает значения в диапазоне от -1 до +1 • • Безразмерная величина • • Показывает тесноту связи (связь как синхронность,

согласованность) между признаками • • Знак коэффициента говорит о направлении связи Коэффициент регрессии • • Может принимать любые значения • • Привязан к единицам измерения обоих признаков • • Показывает структуру связи между признаками:

характеризует связь как зависимость, влияние, устанавливает причинно-следственные связи.

• • Знак коэффициента говорит о направлении связи

Page 42: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Чем выше по модулю (по абсолютной величине) значение коэффициента

корреляции, тем теснее связь между признаками:

• Принято считать, что коэффициенты корреляции, которые по модулю больше 0,7, говорят о сильной связи.

• Коэффициенты корреляции, которые по модулю меньше 0,7, но больше 0,5, говорят о связи средней силы.

• Наконец, коэффициенты корреляции, которые по модулю меньше 0,5, говорят о слабой связи.

Page 43: Корреляционный  и регрессионный анализ. Временные ряды . МНК

Усложнение модели• Совокупное влияние всех независимых факторов на зависимую

переменную не может быть представлено как простая сумма нескольких парных регрессий.

• Это совокупное влияние находится более сложным методом - методом множественной регрессии .

Визуализация модели множественной регрессии

Page 44: Корреляционный  и регрессионный анализ. Временные ряды . МНК

• Этапы проведения корреляционного и регрессионного анализа:

• • Выявление наличия взаимосвязи между

признаками;• Определение формы связи;• Определение силы, тесноты и направления связи.• •