Лекция 7 Многомерный регрессионный анализ
DESCRIPTION
Лекция 7 Многомерный регрессионный анализ. Многомерный регрессионный анализ. был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.) - PowerPoint PPT PresentationTRANSCRIPT
Лекция 7Многомерный регрессионный анализ
Многомерный регрессионный анализ
был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.)
полезен для прогнозов будущих тенденций и для оценки и корректировки текущей стратегии (оценки настоящего)
Многомерная регрессия
Для прогноза зависимой переменной используется более одной независимой переменной
Признаки хорошей независимой переменной: связанна с зависимой переменной не имеет тесной связи с любой другой независимой
переменной
Мультиколлинеарность
Многомерная регрессия
Зависимая переменная – объем продаж молока
Независимые переменные: цена за 1 л, расходы на рекламу
Многомерная регрессия
Корреляционная матрица составляется из коэффициентов корреляции, вычисленных для каждой возможной пары переменных
r12 = r21 и т. д.
r11 = r22 = r33 = 1
Переменные 1 2 3 1 r11 r12 r13 2 r21 r22 r23 3 r31 r32 r33
Многомерная регрессия
НеделяКол-во молока
(тыс. л) Цена 1 л (руб.) Реклама (руб.)1 16 16 52 5002 20 17 73 5003 15 18 42 0004 10 20 31 5005 12 21 35 0006 11 23 49 0007 10 24 52 5008 5 25 17 5009 5 26 21 000
10 6 30 24 500
16 График остатков
0
0,2
0,4
0,6
0,8
1
1,2
0 10 20 30 40
16
Ост
атки
16 График подбора
0
5
10
15
20
25
0 50
16
16
16
Предсказанное
16
Переменная X 1 График остатков
0
0,2
0,4
0,6
0,8
1
1,2
0 10 20 30 40
Переменная X 1
Ост
атки
Корреляционная матрица
Переменные Продажа Цена Реклама 1 2 3 Продажа 1 1.00 -0.88 0.89 Цена 2 1.00 -0.67 Реклама 3 1.00
Многомерная регрессионная модель
Математическое ожидание зависимой величины является линейной функцией всех объясняющих ее переменных
Многомерная регрессионная функция генеральной совокупности
kkY XXX ...22110
Многомерная регрессионная модель
Статистическая модель многомерной регрессии
Метод наименьших квадратов
kkXXXY ...22110
Многомерная регрессионная модель
Пример с молоком
21
^
00015.058.071.17 XXY
Интерпретация коэффициентов регрессии
b0 – свободный член
(значение при Х1 и Х2, равных нулю)
b1 и b2 – частные или чистые коэффициенты регрессии
(среднее изменение при единичном изменении соответствующей независимой переменной и постоянных значениях других независимых переменных)
^
Y
^
Y
Статистический анализ модели многомерной регрессии
вычисления проводятся на компьютере
2)(
YYSST
2^
)(
YYSSR
2^
)( YYSSE
Статистический анализ модели многомерной регрессии
SST = SSR + SSE
df: n-1 = k + n-k-1
Стандартная ошибка оценки
Стандартная ошибка оценки измеряет отклонение имеющихся данных (Y) от их оценок ( )
^
Y
MSEkn
SSE
kn
YYs sxy
11
)( 2^
'*
Стандартная ошибка оценки
Пример с молоком: • 2 независимые переменные: цена за 1 л и
расходы на рекламу стандартная ошибка оценки = 1.42
• 1 независимая переменная: цена 1 л стандартная ошибка оценки = 2.5
Вывод: использование многомерной регрессии позволяет сделать более точный прогноз
Значимость регрессии
Источник Сумма квадратов
Степени свободы
Среднеквадратичное значение
Отношение F
Регрессия SSR k MSR=SSR/k Ошибки SSE n-k-1 MSE=SSE/(n-k-1)
F=MSR/MSE
Общая SST n-1
Значимость регрессии
Гипотезы:
df=k, n-k-1
0:
...:
1
210
j
k
одинхотьH
H
MSE
MSRF
FFеслияотклоняетсH ,0
Значимость регрессии
Коэффициент детерминации
Многомерный коэффициент корреляции (характеризует корреляцию между зависимой переменной и прогнозом)
Для многомерной регрессии
2
2^
2
)(
)(
YY
YY
SST
SSRR
2RR
)1
(1 2
2
k
kn
R
RF
Значимость регрессии
Пример с молоком
Две независимые переменные
SST=SSR+SSE222=207.86+14.14
R2=0.94
Одна независимая переменная
SST=SSR+SSE222=172.023+49.977
R2=0.77
Отдельные независимые переменные
0:0 jH Проверочная статистика t
jb
j
s
bt
df = n-k-1
Прогнозирование будущих значений зависимой переменной
sxystY '2/
^
Границы интервала прогноза величины Y:
Анализ остатков
2
2
)(
)(1
XX
XX
nh
i
iii
Рычаг – мера влияния i-й точки данных на положение функции регрессии
Стандартизированный остаток
iisxy
i
e
i
hs
e
s
e
i
1'
Анализ остатков
Метки (большие стандартизированные остатки)
2ie
i
s
e
Предостережения при прогнозировании
• прогнозирование вне допустимого множества• небольшой объем выборки• большое количество независимых переменных
• в идеале – 10 наблюдений на одну независимую переменную
• вычисление функции регрессии для одной части данных и проверка ее на оставшихся данных
• при уровне значимости 0,05 отношение F было хотя бы в 4 раза больше соответствующего критического значения
Фиктивные переменные
РаботникОценка
производительности Данные теста способностей
Y Х1
1 5 60 0 Ж2 4 55 0 Ж3 3 35 0 Ж4 10 96 0 Ж5 2 35 0 Ж6 7 81 0 Ж7 6 65 0 Ж8 9 85 0 Ж9 9 99 1 М10 2 43 1 М11 8 98 1 М12 6 91 1 М13 7 95 1 М14 3 70 1 М15 6 85 1 М
Х2
Пол
Фиктивные переменные
Фиктивные, или индикаторные, переменные используются для определения взаимосвязи между качественными независимыми переменными и зависимой переменной
Фиктивные переменные
Фиктивные переменные
Фиктивные переменные
0 для женщин Х2 = (фиктивная переменная) 1 для мужчин
2^
)( YYSSE
21
^
18.212.096.1 XXY
1
^
12.096.1 XY для женщин
1
^
12.014.4 XY для мужчин
Применение в менеджменте
Маркетинг – вывод нового товара на рынок Агрономы – урожайность Медики – давление крови Менеджеры по персоналу – уровень заработной
платы Менеджеры по рекламе – изменение мнения
покупателей Руководство компаний – месторасположение
розничных магазинов
Многомерный регрессионный анализ
Мультиколлинеарность
Выбор «наилучшего» уравнения регрессии
Анализ всех возможных регрессий
Пошаговая регрессия
Мультиколлинеарность
Стоимость дома Год строительства Жилая площадь Кол-во комнат Кол-во продаваемых домов
Неточная линейная зависимость – неустойчивость полученных оценок Рассчитанные величины больше ожидаемых Неверный знак отдельных коэффициентов Значимость регрессии по F-тесту при незначимых t-статистиках
отдельных коэффициентов
Мультиколлинеарность
kjR
VIFj
j ,...,2,1,1
12
Мультиколлинеарность –линейная зависимость между двумя или более независимыми переменными
Степень мультиколлениарности определяется фактором роста дисперсии
- коэффициент детерминации из регрессии j-й независимой переменной по оставшимся (к-1) независимым переменным
VIF близко к 1 – нет проблемы мультиколлинеарности
больше 1- оценка коэффициента при этой независимой переменной неустойчива
2jR
Мультиколлинеарность
Стоимость выпуска газеты: тираж, кол-во семей, объем продаж
Мультиколлинеарность
Мультиколлинеарность
При наличии в модели мультиколлинеарности для оценки эффекта одной отдельно взятой независимой переменной можно:
1. Использовать метод, отличный от метода наименьших квадратов
2. Найти и удалить из набора данных одну или более избыточных независимых переменных
3. Представить зависимую переменную Y как линейную комбинацию некоррелирующих между собой независимых переменных Х
4. Тщательно отобрать независимые переменные в начале исследования
5. Создать новые переменные Х посредством масштабирования (нулевое среднее значение и одно и то же выборочное среднеквадратичное отклонение)
nikjXX
XXX
jij
jijij ,...,2,1,,...,2,1,
)(
~2
Выбор «наилучшего» уравнения регрессии
1. Определение набора возможных независимых переменных
2. Отбор переменных, неадекватных для данному случаю (например, при значительных ошибках измерения; недоступности данных; высокой их стоимости)
3. Сокращение списка независимых переменных (нет «наилучшего» набора переменных, процесс отбора субъективен)
Выбор «наилучшего» уравнения регрессии
Выбор «наилучшего» уравнения регрессии
Выбор «наилучшего» уравнения регрессии
1 шаг – изучение корреляционной матрицы
2 шаг – анализ всех возможных регрессий или пошаговая регрессия
Анализ всех возможных регрессий
1этап – все возможные уравнения регрессии ( )
2 этап – разделение уравнений на множества (по количеству оцениваемых параметров)
Анализ всех возможных регрессий
Анализ всех возможных регрессий
Анализ всех возможных регрессий
3 этап – выбор наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров
Анализ всех возможных регрессий
4 этап – выбор наилучшего уравнения
Желательно иметь наибольшее из возможных значений показателя детерминации, НО максимально простое уравнение регрессии
Это уравнение объясняет 89,48% вариации переменной Y
Пошаговая регрессия
Процедура пошаговой регрессии предусматривает добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе
1. Рассматриваются все возможные простые регрессии (наибольшая корреляция с зависимой переменной)
2. Следующая вводимая переменная должна привносить наибольший вклад в регрессионную сумму квадратов (F для включения)
3. Проверка уравнения (проверка на значимость независимой переменной на уровне 5%)
, F=4 – критерий для включения или исключения4. Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся
незначимыми, а все возможные удаления – значимыми
Результат пошаговой регрессии – регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне
Пошаговая регрессия
Пример Первая переменная – возраст Вторая переменная – результат теста
способностей Тест на тревожность не имеет тесной связи с
объемом продаж Потенциально хорошие переменные опыта
работы и среднего балла совместно с переменной возраста создают проблему мильтиколлинеарности
Упражнения
1. Что измеряет в многомерной регрессии частный или чистый коэффициент?
2. Пусть уравнение регрессии имеет вид:
Спрогнозируйте значение У при Х1=20 и Х2=7.
21
^
2.12352.7 XXY
Упражнения
3. Объясните каждое из следующих понятий:
а) корреляционная матрица
б) R2
в) мультиколлинеарность
г) остатки
д) фиктивная переменная
е) пошаговая регрессия