Лекция 7 Многомерный регрессионный анализ

49
Лекция 7 Многомерный регрессионный анализ

Upload: asa

Post on 30-Jan-2016

136 views

Category:

Documents


4 download

DESCRIPTION

Лекция 7 Многомерный регрессионный анализ. Многомерный регрессионный анализ. был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Лекция 7 Многомерный регрессионный анализ

Лекция 7Многомерный регрессионный анализ

Page 2: Лекция 7 Многомерный регрессионный анализ

Многомерный регрессионный анализ

был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.)

полезен для прогнозов будущих тенденций и для оценки и корректировки текущей стратегии (оценки настоящего)

Page 3: Лекция 7 Многомерный регрессионный анализ

Многомерная регрессия

Для прогноза зависимой переменной используется более одной независимой переменной

Признаки хорошей независимой переменной: связанна с зависимой переменной не имеет тесной связи с любой другой независимой

переменной

Мультиколлинеарность

Page 4: Лекция 7 Многомерный регрессионный анализ

Многомерная регрессия

Зависимая переменная – объем продаж молока

Независимые переменные: цена за 1 л, расходы на рекламу

Page 5: Лекция 7 Многомерный регрессионный анализ

Многомерная регрессия

Корреляционная матрица составляется из коэффициентов корреляции, вычисленных для каждой возможной пары переменных

r12 = r21 и т. д.

r11 = r22 = r33 = 1

Переменные 1 2 3 1 r11 r12 r13 2 r21 r22 r23 3 r31 r32 r33

Page 6: Лекция 7 Многомерный регрессионный анализ

Многомерная регрессия

НеделяКол-во молока

(тыс. л) Цена 1 л (руб.) Реклама (руб.)1 16 16 52 5002 20 17 73 5003 15 18 42 0004 10 20 31 5005 12 21 35 0006 11 23 49 0007 10 24 52 5008 5 25 17 5009 5 26 21 000

10 6 30 24 500

16 График остатков

0

0,2

0,4

0,6

0,8

1

1,2

0 10 20 30 40

16

Ост

атки

16 График подбора

0

5

10

15

20

25

0 50

16

16

16

Предсказанное

16

Переменная X 1 График остатков

0

0,2

0,4

0,6

0,8

1

1,2

0 10 20 30 40

Переменная X 1

Ост

атки

Page 7: Лекция 7 Многомерный регрессионный анализ

Корреляционная матрица

Переменные Продажа Цена Реклама 1 2 3 Продажа 1 1.00 -0.88 0.89 Цена 2 1.00 -0.67 Реклама 3 1.00

Page 8: Лекция 7 Многомерный регрессионный анализ

Многомерная регрессионная модель

Математическое ожидание зависимой величины является линейной функцией всех объясняющих ее переменных

Многомерная регрессионная функция генеральной совокупности

kkY XXX ...22110

Page 9: Лекция 7 Многомерный регрессионный анализ

Многомерная регрессионная модель

Статистическая модель многомерной регрессии

Метод наименьших квадратов

kkXXXY ...22110

Page 10: Лекция 7 Многомерный регрессионный анализ

Многомерная регрессионная модель

Пример с молоком

21

^

00015.058.071.17 XXY

Page 11: Лекция 7 Многомерный регрессионный анализ

Интерпретация коэффициентов регрессии

b0 – свободный член

(значение при Х1 и Х2, равных нулю)

b1 и b2 – частные или чистые коэффициенты регрессии

(среднее изменение при единичном изменении соответствующей независимой переменной и постоянных значениях других независимых переменных)

^

Y

^

Y

Page 12: Лекция 7 Многомерный регрессионный анализ

Статистический анализ модели многомерной регрессии

вычисления проводятся на компьютере

2)(

YYSST

2^

)(

YYSSR

2^

)( YYSSE

Page 13: Лекция 7 Многомерный регрессионный анализ

Статистический анализ модели многомерной регрессии

SST = SSR + SSE

df: n-1 = k + n-k-1

Page 14: Лекция 7 Многомерный регрессионный анализ

Стандартная ошибка оценки

Стандартная ошибка оценки измеряет отклонение имеющихся данных (Y) от их оценок ( )

^

Y

MSEkn

SSE

kn

YYs sxy

11

)( 2^

'*

Page 15: Лекция 7 Многомерный регрессионный анализ

Стандартная ошибка оценки

Пример с молоком: • 2 независимые переменные: цена за 1 л и

расходы на рекламу стандартная ошибка оценки = 1.42

• 1 независимая переменная: цена 1 л стандартная ошибка оценки = 2.5

Вывод: использование многомерной регрессии позволяет сделать более точный прогноз

Page 16: Лекция 7 Многомерный регрессионный анализ

Значимость регрессии

Источник Сумма квадратов

Степени свободы

Среднеквадратичное значение

Отношение F

Регрессия SSR k MSR=SSR/k Ошибки SSE n-k-1 MSE=SSE/(n-k-1)

F=MSR/MSE

Общая SST n-1

Page 17: Лекция 7 Многомерный регрессионный анализ

Значимость регрессии

Гипотезы:

df=k, n-k-1

0:

...:

1

210

j

k

одинхотьH

H

MSE

MSRF

FFеслияотклоняетсH ,0

Page 18: Лекция 7 Многомерный регрессионный анализ

Значимость регрессии

Коэффициент детерминации

Многомерный коэффициент корреляции (характеризует корреляцию между зависимой переменной и прогнозом)

Для многомерной регрессии

2

2^

2

)(

)(

YY

YY

SST

SSRR

2RR

)1

(1 2

2

k

kn

R

RF

Page 19: Лекция 7 Многомерный регрессионный анализ

Значимость регрессии

Пример с молоком

Две независимые переменные

SST=SSR+SSE222=207.86+14.14

R2=0.94

Одна независимая переменная

SST=SSR+SSE222=172.023+49.977

R2=0.77

Page 20: Лекция 7 Многомерный регрессионный анализ

Отдельные независимые переменные

0:0 jH Проверочная статистика t

jb

j

s

bt

df = n-k-1

Page 21: Лекция 7 Многомерный регрессионный анализ

Прогнозирование будущих значений зависимой переменной

sxystY '2/

^

Границы интервала прогноза величины Y:

Page 22: Лекция 7 Многомерный регрессионный анализ

Анализ остатков

2

2

)(

)(1

XX

XX

nh

i

iii

Рычаг – мера влияния i-й точки данных на положение функции регрессии

Стандартизированный остаток

iisxy

i

e

i

hs

e

s

e

i

1'

Page 23: Лекция 7 Многомерный регрессионный анализ

Анализ остатков

Метки (большие стандартизированные остатки)

2ie

i

s

e

Page 24: Лекция 7 Многомерный регрессионный анализ

Предостережения при прогнозировании

• прогнозирование вне допустимого множества• небольшой объем выборки• большое количество независимых переменных

• в идеале – 10 наблюдений на одну независимую переменную

• вычисление функции регрессии для одной части данных и проверка ее на оставшихся данных

• при уровне значимости 0,05 отношение F было хотя бы в 4 раза больше соответствующего критического значения

Page 25: Лекция 7 Многомерный регрессионный анализ

Фиктивные переменные

РаботникОценка

производительности Данные теста способностей

Y Х1

1 5 60 0 Ж2 4 55 0 Ж3 3 35 0 Ж4 10 96 0 Ж5 2 35 0 Ж6 7 81 0 Ж7 6 65 0 Ж8 9 85 0 Ж9 9 99 1 М10 2 43 1 М11 8 98 1 М12 6 91 1 М13 7 95 1 М14 3 70 1 М15 6 85 1 М

Х2

Пол

Page 26: Лекция 7 Многомерный регрессионный анализ

Фиктивные переменные

Фиктивные, или индикаторные, переменные используются для определения взаимосвязи между качественными независимыми переменными и зависимой переменной

Page 27: Лекция 7 Многомерный регрессионный анализ

Фиктивные переменные

Page 28: Лекция 7 Многомерный регрессионный анализ

Фиктивные переменные

Page 29: Лекция 7 Многомерный регрессионный анализ

Фиктивные переменные

0 для женщин Х2 = (фиктивная переменная) 1 для мужчин

2^

)( YYSSE

21

^

18.212.096.1 XXY

1

^

12.096.1 XY для женщин

1

^

12.014.4 XY для мужчин

Page 30: Лекция 7 Многомерный регрессионный анализ

Применение в менеджменте

Маркетинг – вывод нового товара на рынок Агрономы – урожайность Медики – давление крови Менеджеры по персоналу – уровень заработной

платы Менеджеры по рекламе – изменение мнения

покупателей Руководство компаний – месторасположение

розничных магазинов

Page 31: Лекция 7 Многомерный регрессионный анализ

Многомерный регрессионный анализ

Мультиколлинеарность

Выбор «наилучшего» уравнения регрессии

Анализ всех возможных регрессий

Пошаговая регрессия

Page 32: Лекция 7 Многомерный регрессионный анализ

Мультиколлинеарность

Стоимость дома Год строительства Жилая площадь Кол-во комнат Кол-во продаваемых домов

Неточная линейная зависимость – неустойчивость полученных оценок Рассчитанные величины больше ожидаемых Неверный знак отдельных коэффициентов Значимость регрессии по F-тесту при незначимых t-статистиках

отдельных коэффициентов

Page 33: Лекция 7 Многомерный регрессионный анализ

Мультиколлинеарность

kjR

VIFj

j ,...,2,1,1

12

Мультиколлинеарность –линейная зависимость между двумя или более независимыми переменными

Степень мультиколлениарности определяется фактором роста дисперсии

- коэффициент детерминации из регрессии j-й независимой переменной по оставшимся (к-1) независимым переменным

VIF близко к 1 – нет проблемы мультиколлинеарности

больше 1- оценка коэффициента при этой независимой переменной неустойчива

2jR

Page 34: Лекция 7 Многомерный регрессионный анализ

Мультиколлинеарность

Стоимость выпуска газеты: тираж, кол-во семей, объем продаж

Page 35: Лекция 7 Многомерный регрессионный анализ

Мультиколлинеарность

Page 36: Лекция 7 Многомерный регрессионный анализ

Мультиколлинеарность

При наличии в модели мультиколлинеарности для оценки эффекта одной отдельно взятой независимой переменной можно:

1. Использовать метод, отличный от метода наименьших квадратов

2. Найти и удалить из набора данных одну или более избыточных независимых переменных

3. Представить зависимую переменную Y как линейную комбинацию некоррелирующих между собой независимых переменных Х

4. Тщательно отобрать независимые переменные в начале исследования

5. Создать новые переменные Х посредством масштабирования (нулевое среднее значение и одно и то же выборочное среднеквадратичное отклонение)

nikjXX

XXX

jij

jijij ,...,2,1,,...,2,1,

)(

~2

Page 37: Лекция 7 Многомерный регрессионный анализ

Выбор «наилучшего» уравнения регрессии

1. Определение набора возможных независимых переменных

2. Отбор переменных, неадекватных для данному случаю (например, при значительных ошибках измерения; недоступности данных; высокой их стоимости)

3. Сокращение списка независимых переменных (нет «наилучшего» набора переменных, процесс отбора субъективен)

Page 38: Лекция 7 Многомерный регрессионный анализ

Выбор «наилучшего» уравнения регрессии

Page 39: Лекция 7 Многомерный регрессионный анализ

Выбор «наилучшего» уравнения регрессии

Page 40: Лекция 7 Многомерный регрессионный анализ

Выбор «наилучшего» уравнения регрессии

1 шаг – изучение корреляционной матрицы

2 шаг – анализ всех возможных регрессий или пошаговая регрессия

Page 41: Лекция 7 Многомерный регрессионный анализ

Анализ всех возможных регрессий

1этап – все возможные уравнения регрессии ( )

2 этап – разделение уравнений на множества (по количеству оцениваемых параметров)

Page 42: Лекция 7 Многомерный регрессионный анализ

Анализ всех возможных регрессий

Page 43: Лекция 7 Многомерный регрессионный анализ

Анализ всех возможных регрессий

Page 44: Лекция 7 Многомерный регрессионный анализ

Анализ всех возможных регрессий

3 этап – выбор наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров

Page 45: Лекция 7 Многомерный регрессионный анализ

Анализ всех возможных регрессий

4 этап – выбор наилучшего уравнения

Желательно иметь наибольшее из возможных значений показателя детерминации, НО максимально простое уравнение регрессии

Это уравнение объясняет 89,48% вариации переменной Y

Page 46: Лекция 7 Многомерный регрессионный анализ

Пошаговая регрессия

Процедура пошаговой регрессии предусматривает добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе

1. Рассматриваются все возможные простые регрессии (наибольшая корреляция с зависимой переменной)

2. Следующая вводимая переменная должна привносить наибольший вклад в регрессионную сумму квадратов (F для включения)

3. Проверка уравнения (проверка на значимость независимой переменной на уровне 5%)

, F=4 – критерий для включения или исключения4. Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся

незначимыми, а все возможные удаления – значимыми

Результат пошаговой регрессии – регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне

Page 47: Лекция 7 Многомерный регрессионный анализ

Пошаговая регрессия

Пример Первая переменная – возраст Вторая переменная – результат теста

способностей Тест на тревожность не имеет тесной связи с

объемом продаж Потенциально хорошие переменные опыта

работы и среднего балла совместно с переменной возраста создают проблему мильтиколлинеарности

Page 48: Лекция 7 Многомерный регрессионный анализ

Упражнения

1. Что измеряет в многомерной регрессии частный или чистый коэффициент?

2. Пусть уравнение регрессии имеет вид:

Спрогнозируйте значение У при Х1=20 и Х2=7.

21

^

2.12352.7 XXY

Page 49: Лекция 7 Многомерный регрессионный анализ

Упражнения

3. Объясните каждое из следующих понятий:

а) корреляционная матрица

б) R2

в) мультиколлинеарность

г) остатки

д) фиктивная переменная

е) пошаговая регрессия