Булашев. Статистика для трейдеров

244
С.В. БУЛАШЕВ СТАТИСТИКА ДЛЯ ТРЕЙДЕРОВ

Upload: husserl01

Post on 29-Jul-2015

1.097 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Булашев. Статистика для трейдеров

С.В. БУЛАШЕВ

СТАТИСТИКА ДЛЯ

ТРЕЙДЕРОВ

Page 2: Булашев. Статистика для трейдеров

ББК 60.6 Б 91

Булашев С.В.Б 91 Статистика для трейдеров. -М.: Компания Спутник+,

2003. - 245с.

ISBN 5-93406-577-7

В этой книге сделана попытка систематизированно рас-смотреть практические методы статистики применительно кфинансам. Наибольший интерес данная книга может пред-ставлять для трейдеров/портфельных менеджеров, то естьспециалистов, принимающих самостоятельные решения нафинансовых рынках в условиях неопределенности, а такжедля студентов экономических и финансовых вузов. Изложе-ние материала начинается с базовых понятий, и постепеннопереходит к достаточно сложным методам, применяющимсяпри анализе инвестиционных рисков. В книге содержитсябольшое количество практических алгоритмов вычисленияи оптимизации различных финансовых стохастических пе-ременных.

ББК 60.6

ISBN 5-93406-577-7 Булашев С.В., 2003

Page 3: Булашев. Статистика для трейдеров

Оглавление

С.В. Булашев. Статистика для трейдеров (электронная версия).

3

ПРЕДИСЛОВИЕ 10

1. ВЕРОЯТНОСТНОЕ ОПИСАНИЕ СЛУЧАЙНЫХВЕЛИЧИН

13

1.1. Введение. 13

1.2. Случайное событие. Вероятность. 13

1.3. Случайная величина. 14

1.4. Законы распределения случайной величины. 15

1.5. Показатели центра распределения. 16

1.6. Моменты распределения. 17

1.7. Показатели меры рассеяния. 18

1.8. Показатели формы распределения - коэффициентасимметрии.

21

1.9. Показатели формы распределения - эксцесс. 23

1.10. Плотность распределения функции от случайной ве-личины.

24

1.11. Математическое ожидание функции от случайнойвеличины.

26

1.12. Линейное преобразование случайной величины. 27

1.13. Общие свойства случайных величин с произвольнымзаконом распределения.

28

2. АНАЛИТИЧЕСКИЕ ЗАКОНЫ РАСПРЕДЕЛЕ-НИЯ СЛУЧАЙНЫХ ВЕЛИЧИН

30

2.1. Введение. 30

2.2. Биномиальное распределение. 30

2.3. Распределение Пуассона. 32

2.4. Равномерное распределение. 33

2.5. Нормальное распределение. 34

2.6. Логнормальное распределение. 37

2.7. Распределение Лапласа. 38

Page 4: Булашев. Статистика для трейдеров

Оглавление

С.В. Булашев. Статистика для трейдеров (электронная версия).

4

2.8. Распределение Коши. 39

2.9. Распределение Парето. 40

2.10. Обобщенное экспоненциальное распределение. 41

2.11. Поиск интегральной функции распределения путемчисленного интегрирования плотности распределе-ния.

43

2.12. Поиск интегральной функции распределения путемразложения плотности распределения в ряд с после-дующим аналитическим интегрированием этого ряда.

46

2.13. Моделирование с помощью равномерного распреде-ления случайных чисел с произвольной плотностьюраспределения.

48

Приложение 2.1. Гамма-функция Эйлера. 51

3. СПЕЦИАЛЬНЫЕ РАСПРЕДЕЛЕНИЯ ВЕРОЯТ-НОСТЕЙ

53

3.1. t-распределение Стьюдента. 53

3.2. χ2-распределение. 55

3.3. F-распределение. 57

4. ОЦЕНКА ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ ПОВЫБОРКЕ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

59

4.1. Введение. 59

4.2. Оценки центра распределения. 59

4.3. Оценка дисперсии и среднеквадратичного отклоне-ния.

62

4.4. Оценка коэффициента асимметрии и эксцесса. 62

4.5. Исключение промахов из выборки. 63

5. СТАТИСТИЧЕСКИЕ ВЫВОДЫ 65

5.1. Введение. 65

5.2. Выборочное распределение выборочной средней. 65

Page 5: Булашев. Статистика для трейдеров

Оглавление

С.В. Булашев. Статистика для трейдеров (электронная версия).

5

5.3. Доверительный интервал для генеральной средней. 66

5.4. Выборочное распределение выборочной дисперсии. 67

5.5. Доверительный интервал для генеральной дисперсии. 68

5.6. Статистическая проверка гипотез. 69

5.7. Проверка гипотез о величине генеральной средней. 70

5.8. Проверка гипотез о величине генеральной дисперсии. 74

6. ИДЕНТИФИКАЦИЯ ЗАКОНА РАСПРЕДЕЛЕ-НИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

79

6.1. Введение. 79

6.2. Группировка данных. Оптимальное число интерваловгруппировки.

79

6.3. Построение гистограммы распределения. 81

6.4. Гистограмма логарифмов относительных измененийиндекса РТС.

84

6.5. Использование критериев согласия при идентифика-ции закона распределения случайной величины.

87

7. КОРРЕЛЯЦИЯ СЛУЧАЙНЫХ ВЕЛИЧИН 91

7.1. Введение. 91

7.2. Функция регрессии. 91

7.3. Линейная корреляция. 93

7.4. Коэффициент корреляции. Ковариация. 95

7.5. Математическое ожидание и дисперсия линейнойкомбинации случайных величин.

96

7.6. Оценка ковариации и коэффициента корреляции повыборке случайных величин.

97

7.7. Оценка коэффициентов линейной регрессии по вы-борке случайных величин.

99

7.8. Линейная регрессия как наилучшая оценка по методунаименьших квадратов.

99

Page 6: Булашев. Статистика для трейдеров

Оглавление

С.В. Булашев. Статистика для трейдеров (электронная версия).

6

8. РЕГРЕССИОННЫЙ АНАЛИЗ 101

8.1. Введение. 101

8.2. Выбор вида математической модели. 101

8.3. Расчет параметров математической модели. 103

8.4. Сущность метода наименьших квадратов. 105

8.5. Свойства ошибок метода наименьших квадратов. 106

8.6. Оценка параметров однофакторной линейной регрес-сии.

107

8.7. Коэффициент детерминации. 110

8.8. Необратимость решений МНК. 114

8.9. Статистические выводы о величине параметров од-нофакторной линейной регрессии.

115

8.10. Статистические выводы о величине коэффициентадетерминации.

118

8.11. Полоса неопределенности однофакторной линейнойрегрессии.

120

8.12. Прогнозирование на основе однофакторной линей-ной регрессии.

121

8.13. Проверка допущений МНК. 122

8.14. Сведение нелинейной функциональной зависимостик линейной путем преобразования данных.

128

8.15. Функция регрессии как комбинация несколькихфункций.

130

9. АНАЛИЗ ФУРЬЕ 132

9.1. Введение. 132

9.2. Численный анализ Фурье. 132

9.3. Амплитудно-частотная характеристика. 133

9.4. Пример выделения основной гармоники с помощьюанализа Фурье.

134

Page 7: Булашев. Статистика для трейдеров

Оглавление

С.В. Булашев. Статистика для трейдеров (электронная версия).

7

10. ПРИМЕНЕНИЕ МНК ПРИ ИЗУЧЕНИИ ДИНА-МИЧЕСКИХ РЯДОВ

138

10.1. Введение. 138

10.2. Модель динамики цен активов. 139

10.3. Определение тренда. 141

10.4. Статистические выводы о величине параметров рег-рессии.

145

10.5. Полоса неопределенности рассеяния эмпирическихданных относительно линии регрессии.

147

10.6. Проверка допущений МНК. 148

11. СГЛАЖИВАНИЕ ДИНАМИЧЕСКИХ РЯДОВ 155

11.1. Введение. 155

11.2. Типы скользящих средних. 155

11.3. Простая скользящая средняя. 156

11.4. Взвешенная скользящая средняя. 156

11.5. Экспоненциальная скользящая средняя. 157

11.6. Точки пересечения экспоненциально сглаженныхкривых.

160

11.7. Выбор величины показательного процента для экс-поненциальной скользящей средней.

161

11.8. Экспоненциальная скользящая средняя с перемен-ным показательным процентом.

162

11.9. Дисперсия скользящих средних. 162

12. АДАПТИВНОЕ МОДЕЛИРОВАНИЕ ДИНАМИ-ЧЕСКИХ РЯДОВ

165

12.1. Введение. 165

12.2. Адаптивное моделирование линейного тренда с по-мощью экспоненциальных скользящих средних.

165

12.3. Адаптивное моделирование параболического тренда 169

Page 8: Булашев. Статистика для трейдеров

Оглавление

С.В. Булашев. Статистика для трейдеров (электронная версия).

8

с помощью экспоненциальных скользящих средних.

12.4. Выбор величины показательного процента при адап-тивном моделировании.

173

12.5. Адаптивное моделирование с переменным показа-тельным процентом.

174

13. МЕХАНИЧЕСКИЕ ТОРГОВЫЕ СИСТЕМЫ 176

13.1. Введение. 176

13.2. Механический и интуитивный подход к торговле. 177

13.3. Свойства MTС. 178

13.4. Минимальное число сделок. 180

13.5. Тестирование МТС. 182

13.6. Отчет о величине торгового счета. 182

13.7. Сгруппированный отчет о величине торгового счета. 183

13.8. Отчет о сделках. 184

13.9. Сводный отчет. 187

13.10. Математическое ожидание дохода сделки. 192

13.11. Кумулятивная кривая дохода сделок. 196

13.12. Вероятность получения убытка в серии последова-тельных сделок.

197

13.13. Вероятность разорения в серии последовательныхсделок.

201

14. УПРАВЛЕНИЕ КАПИТАЛОМ 204

14.1. Введение. 204

14.2. Ограничение суммы убытка в сделке. 204

14.3. Ограничение процента убытка в сделке. 205

14.4. Максимизация средней величины дохода МТС. 206

14.5. Оптимизация соотношения дохода и риска МТС. 211

14.6. Анализ соотношения скользящих средних от кумуля 214

Page 9: Булашев. Статистика для трейдеров

Оглавление

С.В. Булашев. Статистика для трейдеров (электронная версия).

9

тивной кривой дохода сделок.

14.7. Критерий серий. 216

14.8. Увеличение объема выигрывающей позиции. 218

15. УПРАВЛЕНИЕ РИСКОМ ПОРТФЕЛЯ НА ОС-НОВЕ АНАЛИЗА КОВАРИАЦИЙ АКТИВОВ

222

15.1. Введение. 222

15.2. Корреляция активов и риск портфеля. 222

15.3. Понижение риска портфеля. Диверсификация. 223

15.4. Граница эффективности. 226

15.5. Постановка задачи по оптимизации портфеля. 229

15.6. Введение ограничений на состав и веса активов впортфеле (лимитов).

230

15.7. Численное решение задачи оптимизации портфеля сучетом лимитов методом Монте-Карло.

231

16. УПРАВЛЕНИЕ РИСКОМ ПОРТФЕЛЯ НА ОС-НОВЕ АНАЛИЗА КВАНТИЛЬНЫХ МЕР РИСКА

236

16.1. Введение. 236

16.2. Понятие Value-at-risk и Shortfall-at-risk 237

16.3. Вычисление Value-at-risk и Shortfall-at-risk 239

16.4. Оптимизация портфеля с учетом Value-at-risk и Shor-fall-at-risk.

243

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА 244

Page 10: Булашев. Статистика для трейдеров

Предисловие

С.В. Булашев. Статистика для трейдеров (электронная версия).

10

ПРЕДИСЛОВИЕ

В последние годы значительно увеличилось количество людей,сфера деятельности которых связана с работой на финансовыхрынках. Для этих специалистов необходимо хорошее знание ос-нов теории вероятности и математической статистики, так какрезультаты решения об инвестировании в различные финансо-вые инструменты (активы) всегда имеют ту или иную степеньнеопределенности. В этой книге сделана попытка систематизи-рованно рассмотреть практические методы статистики приме-нительно к финансам. Наибольший интерес данная книга можетпредставлять для трейдеров/портфельных менеджеров, то естьспециалистов, принимающих самостоятельные решения на фи-нансовых рынках в условиях неопределенности. Изложение ма-териала начинается с базовых понятий, и постепенно переходитк достаточно сложным методам, применяющимся при анализеинвестиционных рисков. В книге содержится большое количе-ство практических алгоритмов вычисления и оптимизации раз-личных финансовых стохастических переменных.

Данная книга состоит из 16-ти глав.

В 1-й главе рассмотрено понятие вероятности, случайного собы-тия, случайной величины, дано определение закона распределе-ния случайной величины, а также изучены основные параметрызаконов распределения, такие как показатели центра распреде-ления, показатели меры рассеяния, показатели формы распреде-ления.

Во 2-й главе рассказано о наиболее употребительных законахраспределения случайных величин и основных параметрах этихзаконов. Даны методы поиска функции распределения вероят-ности случайной величины в случае неинтегрируемой плотно-сти вероятности, а также алгоритмы получения последователь-ностей случайных величин с произвольным законом распреде-ления, что необходимо при моделировании случайных процес-сов.

В 3-й главе изучены специальные распределения вероятностей,используемые для проверки статистических гипотез и при опре-делении доверительных интервалов для случайных величин.

Page 11: Булашев. Статистика для трейдеров

Предисловие

С.В. Булашев. Статистика для трейдеров (электронная версия).

11

4-я глава посвящена методам оценки по эмпирической выборкепараметров распределения случайной величины, указаны фор-мулы для оценки центра распределения, дисперсии и показате-лей формы распределения, а также практические приемы удале-ния аномальных значений (промахов) из выборки.

В 5-й главе рассказано о методах проверки статистических ги-потез и методах определения доверительных интервалов дляслучайных величин.

6-я глава посвящена вопросу о том, как по эмпирической вы-борке идентифицировать закон распределения случайной вели-чины. Подробно рассмотрена проблема группировки данных, тоесть расчет оптимального количества интервалов группировки иоптимальной ширины интервала, а также построения по сгруп-пированным данным гистограммы распределения таким обра-зом, чтобы максимально возможное сглаживание случайногошума сочеталось с минимальным искажением от сглаживаниясамого распределения.

В 7-й главе рассмотрено понятие линейной корреляционной свя-зи между случайными величинами.

8-я глава посвящена изучению регрессионного анализа, то естьметодам расчета параметров математической модели, связы-вающей различные стохастические переменные.

В 9-й главе излагается метод аппроксимации эмпирической за-висимости тригонометрическим рядом Фурье. Даны формулы,позволяющие по реальной выборке вычислить коэффициентыФурье, амплитуду и фазу гармоник. Рассказано, как строитсяамплитудно-частотная характеристика разложения, и как онаиспользуется для выделения гармоник с максимальной ампли-тудой.

В 10-й главе рассмотрено применение регрессионного анализапри изучении динамических (временных) рядов.

В 11-й главе рассказано о методах сглаживания динамическихрядов, базирующихся на расчете скользящих средних. Рассмот-рены различные типы скользящих средних и даны их сравни-тельные характеристики.

Page 12: Булашев. Статистика для трейдеров

Предисловие

С.В. Булашев. Статистика для трейдеров (электронная версия).

12

В 12-й главе изучены методы адаптивного моделирования ди-намических рядов, которые основаны на экспоненциальномсглаживании (экспоненциальной скользящей средней). Пре-имуществом этих методов является учет временной ценностиданных и, следовательно, постоянное адаптирование к изме-няющимся уровням динамического ряда, что имеет решающеезначение при моделировании и прогнозировании волатильныхрядов.

13-я глава посвящена механическим торговым системам, то естьалгоритмам, которые формализуют правила открытия и закры-тия позиций в биржевой торговле. Подробно рассмотрены отче-ты о работе торговой системы и даны практические рекоменда-ции о том, как по величине, разбросу и устойчивости показате-лей системы сделать вывод о ее качестве.

14-я глава является продолжением предыдущей. В ней изученыалгоритмы вычисления доли участвующего в конкретной сделкекапитала, которые максимизируют показатели динамики торго-вого счета.

В 15-й главе рассматриваются вопросы, связанные с оптимиза-цией портфеля активов. Изучается влияние корреляции междуотдельными парами активов на общий риск портфеля, при этомв качестве меры риска принимается дисперсия (или среднеквад-ратичное отклонение). Рассказано о том, что такое эффективнаядиверсификация и как общий риск портфеля, составленного изпроизвольного количества активов, можно разделить на несис-тематический (диверсифицируемый) риск и рыночный (не ди-версифицируемый) риск. Поставлена задача по оптимизациипортфеля с учетом ограничений на состав и веса активов впортфеле (лимитов), и приведен алгоритм поиска решений этойзадачи методом Монте-Карло.

16-я глава посвящена изучению квантильных мер риска портфе-ля из произвольного количества активов и управления рискомпортфеля на основе их анализа.

Все замечания по содержанию и оформлению книги просьба направ-лять автору по адресу [email protected]

Page 13: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

13

1. ВЕРОЯТНОСТНОЕ ОПИСАНИЕ СЛУЧАЙНЫХ ВЕЛИ-ЧИН

1.1. Введение.

Теория вероятностей играет значительную роль во многихобластях человеческой деятельности, в том числе в финансах.Это связано с тем, что результаты решения об инвестировании вфинансовые инструменты (активы) всегда имеют ту или инуюстепень неопределенности.

В биржевых торгах по различным активам принимают уча-стие большое количество инвесторов и спекулянтов. Каждый изучастников имеет свое представление о том, куда движется ры-нок, у каждого из них свой горизонт инвестирования и своя тех-нология работы на рынке. Из-за столкновения интересов боль-шого количества людей цены активов приобретают случайныйхарактер. Следствием этого является невозможность точногопредсказания будущей цены. Прогноз становится возможнымтолько в вероятностном смысле.

С другой стороны, результаты инвестирования в инстру-менты с фиксированной доходностью также являются неопре-деленными из-за того, что существует риск невыполнения эми-тентом (заемщиком) своих обязательств.

В этой главе мы рассмотрим на качественном уровне поня-тие вероятности, случайного события, случайной величины, да-дим определение закона распределения случайной величины.Далее будут изучены основные параметры законов распределе-ния, такие как показатели центра распределения, показатели ме-ры рассеяния, показатели формы распределения.

1.2. Случайное событие. Вероятность.

Случайным событием называется такое событие, котороеможет как произойти, так и не произойти при соблюдении опре-деленного комплекса условий. Будем предполагать, что указан-ный комплекс условий может быть воспроизведен неограничен-ное количество раз. Испытанием будем называть каждое осу-ществление этого комплекса условий.

Page 14: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

14

Относительной частотой случайного события называетсяотношение количества случаев появления этого события M кобщему числу проведенных испытаний N.

Опыт показывает, что при многократном повторении испы-таний относительная частота M/N случайного события обладаетустойчивостью. В разных достаточно длинных сериях испыта-ний относительные частоты случайного события группируютсявокруг некоторого определенного числа. Устойчивость относи-тельной частоты может быть объяснена как проявление объек-тивного свойства случайного события, которое заключается всуществовании определенной степени его возможности.

Таким образом, степень возможности случайного событияможно описать числом. Это число называется вероятностьюслучайного события. Именно вокруг вероятности группируютсяотносительные частоты данного случайного события. Относи-тельная частота и вероятность случайного события являютсябезразмерными величинами, которые могут принимать значенияот 0 до 1. Вероятность является первичным, базовым понятием,и в общем случае ее нельзя определить через более простыетермины.

1.3. Случайная величина.

Случайной величиной называется такая величина, котораяпринимает те или иные значения с определенными вероятно-стями. Случайные величины могут быть дискретными и непре-рывными.

Дискретной случайной величиной называется такая величи-на, все возможные значения которой образуют конечную илибесконечную последовательность чисел ),...,,( 21 nxxx ипринятие ей каждого из указанных значений есть случайноесобытие, характеризующееся соответствующей вероятностью

),...,,( 21 nppp . При этом должно соблюдаться условие норми-

рования, то есть 1=∑n

np .

Непрерывной случайной величиной называется такая вели-чина, все возможные значения которой целиком заполняют не-который промежуток и попадание в любой интервал ),( 21 xx

Page 15: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

15

есть случайное событие, характеризующееся соответствующейвероятностью }{ 21 xxxP ≤≤ . При этом вероятностьдостоверного события 1}{ =+∞≤≤−∞ xP .

Генеральной совокупностью будем называть все возможныезначения, которые может принимать случайная величина.

1.4. Законы распределения случайной величины.

Для характеристики вероятности появления различныхзначений случайной величины используют законы распределениявероятностей случайной величины. При этом различают два видапредставления законов распределения: интегральный идифференцальный.

Интегральным законом, или функцией распределениявероятностей случайной величины X, называется функция, значе-ние которой для любого x является вероятностью события, заклю-чающегося в том, что случайная величина X принимает значения,меньшие x, то есть функция }{)( xXPxF <= . Функцияраспределения вероятностей )(xF обладает следующимисвойствами:1) 1)(0 ≤≤ xF для любого x2) 2121 ),()( xxеслиxFxF ≤≤3) 1)(,0)( =+∞=−∞ FFДля случайной величины с непрерывной и дифференцируемойфункцией распределения вероятностей )(xF можно найти диффе-ренциальный закон распределения вероятностей, выражаемый какпроизводная )(xF , то есть dxxdFxp /)()( = . Эта зависимостьназывается плотностью распределения вероятностей. Плотностьраспределения )(xp обладает следующими свойствами:1) 0)( ≥xp для любого x

2) ∫∞−

=≡<x

dttpxFxXP )()(}{

3) ∫=−=<≤b

a

dttpaFbFbXaP )()()(}{

Page 16: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

16

4) ∫+∞

∞−

=1)( dxxp

Распределение называется предельно пологим, если при±∞→x его плотность вероятности δ+≅ 1||/1)( xxp , где δ -

сколь угодно малое положительное число. При более пологих,чем δ+1||/1 x спадах, площадь под кривой бесконечна, то есть невыполняется условие нормирования, и такие кривые не могутописывать плотность распределения вероятностей.

1.5. Показатели центра распределения.

Координата центра распределения определяет положениеслучайной величины на числовой оси. Дать однозначноеопределение этого понятия невозможно. Центр распределенияможет быть найден несколькими способами:- как медиана распределения,- как мода распределения,- как математическое ожидание.

Медиана

Наиболее общим, а следовательно наиболеефундаментальным, является определение центра распределениясогласно принципу симметрии, то есть как такой точки на оси x,слева и справа от которой вероятности появления случайнойвеличины одинаковы и равны 0.5. Такой показатель центрараспределения называется медианой. В отличие от другихпоказателей центра, медиана существует у любогораспределения. Медиану обычно обозначают как Me .

Мода

Точка на оси x, соответствующая максимуму кривойплотности распределения, называется модой, то есть мода – этонаиболее вероятное значение случайной величины. Однако,мода существует не у всех распределений. В качестве примераможно привести равномерное распределение. В этом случаеопределение центра распределение как моды невозможно. Модуобычно обозначают как Mo .

Page 17: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

17

Математическое ожидание

Наиболее часто используемым методом оценки центрараспределения является математическое ожидание.Преимущественное использование математического ожиданияобъясняется тем, что это единственная оценка, которую можновыразить аналитически.

Математическое ожидание обозначается как µ ивычисляется по формулам:- для дискретного распределения

∑=≡n

nn pxxM µ)(

- для непрерывного распределения

∫+∞

∞−

=≡ dxxxpxM )()( µ

Необходимо отметить, что математическое ожиданиесуществует только у тех распределений, у которых при ±∞→xплотность вероятности спадает как δ+2||/1 x или круче, где δ -сколь угодно малое положительное число. При более пологих,чем δ+2||/1 x спадах, математическое ожидание не существует,так как определяющий его интеграл расходится.

1.6. Моменты распределения.

Для описания свойств распределений нам понадобится понятиемомента распределения. Существуют два типа моментов:начальные и центральные. Начальным называется моментраспределения, найденный без исключения систематическойсоставляющей. Соответственно, центральным является момент,вычисленный с исключением систематической составляющей.

Начальный момент k-го порядка вычисляется по формулам:- для дискретного распределения

∑=n

nknk pxM

- для непрерывного распределения

∫+∞

∞−

= dxxpxM kk )(

Page 18: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

18

Первый начальный момент был уже рассмотрен выше - этоматематическое ожидание.

Центральный момент k-го порядка вычисляется поформулам:- для дискретного распределения

nn

knk pxm ∑ −= )( µ

- для непрерывного распределения

∫+∞

∞−

−= dxxpxm kk )()( µ

Понятие моментов распределения будет использовано приизучении показателей рассеяния случайной величины ипоказателей формы распределения.

1.7. Показатели меры рассеяния.

Оценив величину центра распределения, нам необходимоиметь представление, как случайная величина рассеяна вокругэтой точки. Для оценки меры рассеяния используются, как пра-вило, два способа:- квантильное отклонение случайной величины,- дисперсия и среднеквадратичное отклонение случайной ве-

личины.

Квантильное отклонение

Площадь, заключенная под кривой плотности распределенияp(x), согласно правилу нормирования, равна единице, то естьотражает вероятность всех возможных событий.

Выберем точку Х1 на оси х таким образом, чтобы площадь подкривой р(х) слева от точки Х1 была бы равна, например, 5% отобщей площади, то есть вероятность того, что случайная величинаменьше, чем Х1 составляет 0.05. В этом случае говорят, что Х1 - это5%-ная квантиль распределения. Ее удобно обозначить как

05.01 XX = . Выберем далее точку Х3 на оси х таким образом, чтобы

площадь под кривой р(х) слева от точки Х3 была бы равна 95% отобщей площади, то есть вероятность того, что случайная величина

Page 19: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

19

меньше, чем Х3 составляет 0.95. Тогда Х3 - это 95%-ная квантильраспределения. Обозначим ее как 95.03 XX = .

Медиана распределения - это 50%-ная квантиль, так как онаделит площадь под кривой р(х) на две равные части. Медиануможно обозначить как 50.02 XX = .

Заметим, что точки 05.01 XX = и 95.03 XX = симметричны в томсмысле, что - во-первых, вероятность того, что случайная величина меньше

Х1, и вероятность того, что случайная величина больше Х3,равны между собой,

- во-вторых, вероятность того, что случайная величинанаходится в интервале от Х1 до Х2, и вероятность того, чтослучайная величина находится в интервале от Х2 до Х3, такжеравны между собой.

Интервал значений х между 05.01 XX = и 95.03 XX = называютинтерквантильным промежутком с 90%-ной вероятностью. Егопротяженность 05.095.090.0 XX −=∆ . Половину указанногопромежутка, которую будем называть квантильным отклонением с90%-ной вероятностью, обозначим как 2/90.090.0 ∆=d .

На основании вышеизложенного подхода можно ввестипонятие квантильной оценки рассеяния случайной величины, тоесть значения рассеяния с заданной доверительной вероятностью.Для симметричных распределений квантильное рассеяние сзаданной доверительной вероятностью P - это такой интервалнеопределенности ),( 50.050.0 PP dXdX +− , внутри которого лежат

P100 процентов всех значений случайной величины, а )1(100 P−процентов лежат вне этого интервала.

Так как квантили, ограничивающие доверительный интервал,могут быть различными, при указании квантильной оценки рассея-ния обязательно должна быть указана доверительная вероятностьтакой оценки. Квантильная оценка рассеяния применима для лю-бых законов распределения случайной величины.

При рассмотрении квантильного отклонения, мы не случайно вкачестве примера использовали отклонение с 90%-ной доверитель-ной вероятностью. Дело в том, что величина 90.0d обладаетуникальным свойством, которое заключается в том, что только

Page 20: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

20

квантильное отклонение 90.0d имеет однозначное соотношение сосреднеквадратичным отклонением σ (которое будет рассмотренониже) в виде σ6.190.0 ≈d для очень широкого класса наиболееупотребительных законов распределения. Поэтому, при отсутствииданных о виде закона распределения, для оценки квантильногоотклонения рекомендуется пользоваться доверительнойвероятностью, равной 0.90.

Дисперсия и среднеквадратичное отклонение

Если в качестве показателя центра распределения выбраноматематическое ожидание, то в качестве меры рассеяния слу-чайной величины используют дисперсию. Дисперсия - это сред-нее значение квадратов отклонений случайной величины от еематематического ожидания. Дисперсия является вторым цен-тральным моментом распределения.

Дисперсия обозначается как D и вычисляется по формулам:- для дискретного распределения

∑ −=n

nn pxD 2)( µ

- для непрерывного распределения

∫+∞

∞−

−= dxxpxD )()( 2µ

В формуле для дисперсии в качестве центра распределенияиспользовано математическое ожидание. Это не случайно. Делов том, что использование в качестве центра распределенияматематического ожидания минимизирует средний квадратотклонения случайной величины от ее центра. При этомминимум среднего квадрата отклонений как раз и равендисперсии. Дисперсия и математическое ожидание связанысоотношением:

22 )]([)()( xMxMxD −=Дисперсия имеет размерность квадрата случайной величи-

ны. Поэтому для более наглядной характеристики рассеяния ис-пользуют корень квадратный из дисперсии, который называетсясреднеквадратичным отклонением (с.к.о.): D=σ .

Page 21: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

21

Дисперсия - наиболее широко применяемая оценка рассея-ния случайных величин. Это связано с тем, что она обладаетсвойством аддитивности, то есть дисперсия суммы статистиче-ски независимых случайных величин равна сумме дисперсийэтих величин, безотносительно к разнообразию законов распре-деления каждой из суммируемых величин и возможной дефор-мации законов распределения при суммировании. Отметим, чтосреднеквадратичное отклонение не аддитивно.

Таким образом, для того, чтобы рассеяния случайных вели-чин можно было суммировать аналитически, эти рассеяниядолжны быть представлены своими дисперсиями, а не кван-тильными (доверительными) отклонениями.

Однако, конечная дисперсия существует только у техраспределений, у которых при ±∞→x плотность вероятностиспадает как δ+3||/1 x или круче, где δ - сколь угодно малоеположительное число. При более пологих, чем δ+3||/1 x спадах,определяющий дисперсию интеграл расходится.

1.8. Показатели формы распределения - коэффициент асим-метрии.

При изучении формы распределения случайной величиныважно выяснить, симметрична ли относительно центра распределе-ния кривая плотности вероятности. Показателем степени несим-метричности этой кривой является безразмерная величина, назы-ваемая коэффициентом асимметрии. Коэффициент асимметрииобозначается как γ или As . Рассмотрим на качественном уровнепонятие асимметрии.

В случае, если кривая плотности вероятности имеет крутой ле-вый и пологий правый спад, говорят, что распределение имеет по-ложительную асимметрию. В этом случае координаты показате-лей центра распределения располагаются на оси абсцисс, как пра-вило, следующим образом: мода < медиана < математическое ожидание.

Если кривая плотности вероятности имеет пологий левый икрутой правый спад, распределение имеет отрицательную асим-метрию. В этом случае для показателей центра распределения име-ем:математическое ожидание < медиана < мода.

Page 22: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

22

Наконец, у симметричных распределений, медиана, мода и ма-тематическое ожидание совпадают.

Разумеется, все вышесказанное о соотношении показателейцентра, справедливо только для тех распределений, у которых су-ществует мода и/или математическое ожидание. Напомним, чтопонятие медианы применимо к любому распределению.

Существует несколько методов для оценки коэффициентаасимметрии.

Оценка коэффициента асимметрии с помощью квантилей рас-пределения

Рассмотрим, например, интерквантильный промежуток с 90%-ной вероятностью. Напомним, что он образован с помощью 5%-нойи 95%-ной квантилей распределения. Тогда соответствующийкоэффициент асимметрии вычисляется по следующей формуле:

xxxxx

xxxxxx

05.095.0

50.005.095.0

05.095.0

05.050.050.095.0 2)()(−

−+=

−−−

Разумеется, таким способом можно вычислить коэффициентасимметрии на любом интерквантильном промежутке, однако сле-дует сказать, что подобная оценка будет зависеть от выбора интер-квантильного промежутка, то есть, например, оценка на 90%-ном ина 50%-ном промежутках будут давать вообще говоря разные ре-зультаты. Достоинством данного метода является то, что с его по-мощью можно рассчитать коэффициент асимметрии для любогораспределения.

Оценка коэффициента асимметрии с помощью третьегоцентрального момента распределения

Если в качестве показателя центра распределения выбрано ма-тематическое ожидание, то коэффициент асимметрии рассчитыва-ют, используя третий центральный момент распределения.

В этом случае коэффициент асимметрии - это отношениетретьего центрального момента (имеющего размерность куба слу-чайной величины) к среднеквадратичному отклонению (размер-ность которого совпадает с размерностью случайной величины),возведенному в третью степень.

Коэффициент асимметрии вычисляется по формулам:- для дискретного распределения

Page 23: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

23

3

3)(

σ

µγ

∑ −= n

nn px

- для непрерывного распределения

3

3 )()(

σ

µγ

∫+∞

∞−

−=

dxxpx

1.9. Показатели формы распределения - эксцесс.

Чрезвычайно важным показателем формы распределенияявляется безразмерный показатель, называемый эксцессом. Эксцессобозначается как ε или Ex . Эксцесс характеризует:- во-первых, остроту пика распределения,- во-вторых, крутизну спада хвостов распределения.Если за точку отсчета принять нормальное распределение (котороебудет подробно рассмотрено ниже), то распределения плотностивероятности можно условно разделить на три группы:- островершинные,- средневершинные,- плосковершинные.Островершинные распределения характеризуются болеевыраженным, чем у нормального распределения, пиком и пологоспадающими, "тяжелыми" хвостами.Средневершинные распределения незначительно отличаются отнормального.Плосковершинные распределения имеют слабо выраженный пикили совсем не имеют пика и, соответственно, моды. Кроме того,они характеризуются резко спадающими хвостами.

Определим эксцесс как отношение четвертого центральногомомента распределения к среднеквадратичному отклонению, воз-веденному в четвертую степень. Эксцесс вычисляется по форму-лам:- для дискретного распределения

4

4)(

σ

µε

∑ −= n

nn px

- для непрерывного распределения

Page 24: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

24

4

4 )()(

σ

µε

∫+∞

∞−

−=

dxxpx

Для различных законов распределения эксцесс может иметьзначение от 1 до +∞. Нормальное распределение имеет эксцесс,равный трем.

Эксцесс удобно использовать для характеристики остротыпика и крутизны спадов хвостов распределения:- островершинные распределения имеют эксцесс > 3,- средневершинные распределения имеют эксцесс ≈ 3,- плосковершинные распределения имеют эксцесс < 3,

Часто в качестве эксцесса используют отношениечетвертого центрального момента к четвертой степенисреднеквадратичного отклонения, за вычетом числа три. Однакоздесь и далее мы будем рассчитывать эксцесс по приведеннымвыше формулам.

1.10. Плотность распределения функции от случайной вели-чины.

Пусть Х - это случайная величина, имеющая плотностьраспределения )(xpx . Найдем плотность распределения )(yp y

случайной величины Y, которая является функцией от Х. Пусть функция )(xy монотонно возрастает. Тогда любой ин-

тервал ),( 21 xx взаимно однозначно отображается на интервал),( 21 yy . Следовательно, вероятности попадания случайных вели-

чин Х и Y в соответствующие интервалы равны. В применении кмалым интервалам это означает равенство дифференциалов веро-ятности:

dyypdxxp yx )()( =

Следовательно dydxyxpyp xy ⋅= )]([)(

где )(yx - это функция, обратная функции )(xy .Если функция )(xy монотонно убывает, то положительному

значению dx соответствует отрицательное значение dy.

Page 25: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

25

Следовательно, в уравнении равенства дифференциалов нужнозаменить dy на -dy=|dy|. Это приводит к более общей зависимости:

dydxyxpyp xy ⋅= )]([)(

Для иллюстрации вышесказанного рассмотрим несколько приме-ров.1) 0,)( ≠+= abaxxy

В зависимости от знака параметра a эта функция может бытькак монотонно возрастающей, так и монотонно убывающей.Переменные х и y определены на всей числовой оси.

=

=−

=

abyp

ayp

adydx

abyyx

xy ||1)(

1)(

2) 3)( xxy =Эта функция является монотонно возрастающей. Переменныех и y определены на всей числовой оси.

)(3

1)(

31)(

3/13/2

3/23/1

ypy

yp

ydydxyyx

xy =

==

3) )ln()( xxy =Эта функция является монотонно возрастающей. Переменная хопределена на интервале от 0 до +∞. Переменная y определенана всей числовой оси.

)()(

)(

yx

yy

yy

epeyp

edydxeyx

=

==

4) xexy −=)(Эта функция является монотонно убывающей. Переменная хопределена на всей числовой оси. Переменная y определена наинтервале от 0 до +∞.

Page 26: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

26

ydydxyyyx 1)/1ln()ln()( −==−=

( )( )

00)(

0/1ln1)(

≤=

>=

yyp

yypy

yp

y

xy

5) 2)( xxy =Эта функция монотонно убывает на интервале от -∞ до 0 имонотонно возрастает на интервале от 0 до +∞. Переменная хопределена на всей числовой оси. Переменная y определена наинтервале от 0 до +∞.

2/12/1

2/12/1

21)(:0

21)(:0

ydydxyyxx

ydydxyyxx

==≥

−=−=<

Следовательно

00)(

0)(2

1)(2

1)( 2/12/1

2/12/1

<=

>+−=

yyp

yypy

ypy

yp

y

xxy

1.11. Математическое ожидание функции от случайной ве-личины.

Математическое ожидание случайной величины Y, котораяявляется функцией случайной величины Х, может быть вычис-лено без нахождения плотности вероятности этой функции, тоесть непосредственно по распределению случайной величины Х.

Если обозначить математическое ожидание случайной вели-чины Y как yµ , то справедливы следующие формулы:- для дискретного распределения

∑=≡n

nny pxyxyM )()]([µ

- для непрерывного распределения

Page 27: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

27

∫+∞

∞−

=≡ dxxpxyxyMy )()()]([µ

Заметим, что в общем случае )( xy y µµ ≠ .

1.12. Линейное преобразование случайной величины.

В дальнейшем наиболее часто мы будем использоватьлинейное преобразование случайной величины, то естьпреобразование вида baxxy +=)( . В этом случае параметрыраспределения величин Х и Y связаны соотношениями:

xy

xy

xy

a

DaD

ba

σσ

µµ

⋅=

⋅=

+=

||

2

Одним из важнейших примеров линейного преобразованияявляется преобразование случайной величины к стандартномувиду (нормирование):

x

xxxttσµ−

=≡ )(

То есть случайная величина х с произвольнымматематическим ожиданием и произвольной дисперсиейпреобразуется в случайную величину t с нулевым математиче-ским ожиданием и единичной дисперсией и среднеквадратич-ным отклонением. Величина t называется стандартизованной(нормированной) случайной величиной.

1.13. Общие свойства случайных величин с произвольнымзаконом распределения.

Независимо от закона распределения случайной величинысуществуют общие свойства распределений вероятностей. Кним можно отнести:- неравенства, определяющие граничные значения

вероятности попадания случайной величины в заданныйинтервал,

- законы больших чисел, определяющие свойства достаточнобольшого количества случайных величин.

Page 28: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

28

Неравенство Чебышева

Неравенство Чебышева определяет граничное значениевероятности попадания случайной величины x с произвольнымзаконом распределения, имеющей математическое ожидание µи дисперсию 2σ , в заданный интервал вокруг математическогоожидания:

22

11}|{|1}|{|λ

λσµλ

λσµ −≥≤−≤≥− xPxP

Иными словами, вероятность того, что в некоторомиспытании случайная величина x окажется за пределамиинтервала, длина которого прямо пропорциональна с.к.о.,убывает обратно пропорционально квадрату коэффициентапропорциональности λ .

Неравенство Чебышева определяет важностьсреднеквадратичного отклонения как характеристики рассеянияслучайной величины относительно центра распределения.

Подставив в неравенство Чебышева несколько конкретныхзначений величины λ , получим, что для любых законовраспределения с математическим ожиданием µ и дисперсией

2σ справедливо:

9/8}3|{|9/1}3|{|:34/3}2|{|4/1}2|{|:2

0}|{|1}|{|:1

≥≤−≤≥−=≥≤−≤≥−=

≥≤−≤≥−=

σµσµλσµσµλ

σµσµλ

xPxPxPxPxPxP

Законы больших чисел

Невозможно предвидеть, какое значение примет случайнаявеличина в результате отдельного испытания. Однако, придостаточно большом количестве испытаний оценки по выборкепараметров распределения случайных величин в достаточнойстепени утрачивают случайный характер. То же самое можносказать и в отношении суммы большого количества случайныхвеличин. При увеличении числа слагаемых колебанияотдельных величин взаимно сглаживаются и законраспределения суммы приближается к нормальному

Page 29: Булашев. Статистика для трейдеров

Глава 1. Вероятностное описание случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

29

распределению. Различные утверждения, относящиеся к этимпредельным случаям носят названия законов больших чисел.

Теорема Бернулли

Если в последовательности из N независимых испытанийвероятность p некоторого случайного события остаетсяпостоянной, то вероятность того, что отклонение эмпирическойчастоты этого события NM / от p не превзойдет заранеезаданное число 0>δ стремится к единице:

1lim =

<−∞→

δpNMP

N

Теорема Чебышева

Вероятность того, что отклонение среднегоарифметического N независимых случайных величин сконечными дисперсиями от среднего арифметического ихматематических ожиданий не превзойдет заранее заданноечисло 0>δ стремится к единице

11111

lim =

<− ∑∑==∞→

δµN

kk

N

kk

N Nx

NP

Из теоремы Чебышева следует, что с увеличением числа Nсреднее арифметическое случайных величин постепенноутрачивает характер случайной величины и все более стремитсяк константе.

Центральная предельная теорема (теорема Ляпунова)

Распределение суммы N независимых случайных величинс конечными дисперсиями и с произвольными законамираспределения стремится к нормальному распределению при

∞→N , если вклад отдельных слагаемых в сумму мал.Теорема Ляпунова объясняет широкое распространение

нормального закона распределения тем, что рассеяниеслучайных величин вызывается множеством случайныхфакторов, влияние каждого из которых ничтожно мало.

Page 30: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

30

2. АНАЛИТИЧЕСКИЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯСЛУЧАЙНЫХ ВЕЛИЧИН

2.1. Введение.

В этой главе мы рассмотрим наиболее употребительные за-коны распределения случайных величин, а также основные па-раметры этих законов. Будут даны методы поиска функции рас-пределения вероятности случайной величины в случае неинтег-рируемой плотности вероятности, а также алгоритмы полученияпоследовательностей случайных величин с произвольным зако-ном распределения, что необходимо при моделировании слу-чайных процессов. Особое внимание будет уделено обобщенно-му экспоненциальному распределению, которое наиболее при-годно при изучении ценообразования активов.

2.2. Биномиальное распределение.

Пусть некоторое событие может иметь только два исхода, ко-торые назовем "успех" и "неудача", при этом вероятность успехаравна p , вероятность неудачи равна )1( p− .

Если проводится серия из N независимых испытаний, то ве-роятность того, что успех в данной серии повторится x раз, а не-удача )( xN − раз, будет равна произведению числа способов, ко-торыми можно выбрать x из N , на вероятность того, что сначалаx раз повторится успех, а затем )( xN − раз повторится неудача.Следовательно, вероятность x успехов в N независимых испыта-ниях равна:

NxppxNx

Nxp xNx ,...,1,0)1()!(!

!)( =−−

= −

Данная формула описывает биномиальный закон распределенияслучайной величины. Из формулы непосредственно следует, чтобиномиальный закон полностью характеризуется двумя парамет-рами: количеством испытаний N и вероятностью успеха p . Нарисунке приведена плотность биномиального распределения при

10=N и различных значениях вероятности успеха p . Распреде-ление является дискретным, поэтому точки соединены на графикелишь для наглядности.

Page 31: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

31

0.000.050.100.150.200.250.300.350.400.450.50

0 1 2 3 4 5 6 7 8 9 10

p = 0.08p = 0.5p = 0.75

Математическое ожидание и дисперсия биномиального рас-пределения составляют:

)1( pNpDNp

−==µ

Третий центральный момент данного распределения равен)21)(1(3 ppNpm −−=

Следовательно, коэффициент асимметрии составляет

)1(21

pNpp−

−=γ

Знак коэффициент асимметрии зависит от вероятности успеха p : γ < 0, если p > 0.5γ = 0, если p = 0.5γ > 0, если p < 0.5Если вероятность успеха p фиксирована, то коэффициент асим-метрии 0→γ при количестве испытаний ∞→N для любой p .Четвертый центральный момент данного распределения равен

)]1()2(31)[1(4 ppNpNpm −−+−= . Следовательно, эксцесссоставляет

)1()1()2(31

pNpppN

−−−+

Page 32: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

32

При количестве испытаний ∞→N эксцесс биномиального рас-пределения стремится к числу три, то есть к эксцессу нормальногораспределения.

2.3. Распределение Пуассона.

Распределение Пуассона называют еще распределением ред-ких событий. Ему подчиняются случайные величины, вероятностьпоявления которых в отдельном испытании мала и постоянна.

Распределение Пуассона является предельным случаем бино-миального распределения. Его можно применить, когда количествоиспытаний N достаточно велико, а вероятность успеха p мала,но так что произведение Np=µ - это некоторое конечноепостоянное число.

Если мы обозначим математическое ожидание количествауспехов за некоторый промежуток времени (или за некотороеколичество испытаний) как µ , то вероятность получить x успеховза этот промежуток времени подчиняется распределениюПуассона:

,...2,1,0!

)( ==−

xx

expxµµ

Данное распределение зависит от единственного параметра µ ,который может принимать конечные положительные значения.Напомним, что величина x - это количество успехов, а потомудискретна.

Из формулы для распределения Пуассона непосредственноследует, что )1/()(/)1( +=+ xxpxp µ . Если 1<µ , то

)()1( xpxp <+ при любом x и максимальное значение )(xpдостигается при 0=x . Если же 1>µ , то )(xp сначала растет сувеличением x , достигая максимума при µ≈x , а затем убывает.Математическое ожидание и дисперсия распределения Пуас-сона равны µ .Третий центральный момент 3m также равен µ .Следовательно, коэффициент асимметрии составляет

µγ /1= , то есть распределение Пуассона имеет положитель-ную асимметрию. Асимметрия стремится к нулю при ∞→µ .

Page 33: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

33

Четвертый центральный момент µµ += 24 3m . Следовательно,

эксцесс составляет µε /13+= . При ∞→µ эксцессраспределения Пуассона стремится к числу три, то есть к эксцессунормального распределения.На рисунке приведена плотность распределения Пуассона при раз-личных значениях математического ожидания. Распределение яв-ляется дискретным, поэтому точки соединены на графике лишь длянаглядности.

0.000.050.100.150.200.250.300.350.400.450.50

0 1 2 3 4 5 6 7 8 9 10

мат. ожидание = 0.8

мат. ожидание = 2

мат. ожидание = 5

2.4. Равномерное распределение.

Если все значения непрерывной случайной величины в не-котором интервале от a до b , равновероятны, то аналитическиэто можно записать в виде:

bxaabxpbxaxxp

≤≤−=><=

)/(1)(,0)(

Распределение с такой плотностью вероятности называетсяравномерным (равновероятным, прямоугольным). Данноераспределение часто используют для качественного анализастатистических процессов. Математическое ожидание и дисперсия равномерного распре-деления составляют:

12/)(2/)(

2abDba

−=

+=µ

Page 34: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

34

Медиана распределения совпадает с математическиможиданием, моды не существует.Коэффициент асимметрии и эксцесс равны: 8.1,0 == εγ .Для равномерного распределения можно в явном виде найтифункцию распределения вероятностей:

bxxFbxaabaxxF

axxF

>=≤≤−−=

<=

1)()/()()(

0)(

Встроенный в компьютер генератор псевдослучайных чиселвыдает числа, равномерно распределенные в интервале от 0 до1. С их помощью можно моделировать случайные процессы спроизвольной функцией распределения. Подробнее о том, какэто делается, будет рассказано далее в этой главе.

2.5. Нормальное распределение.

Одним из важнейших распределений, встречающихся в ста-тистике, является нормальное распределение (распределениеГаусса), относящееся к классу экспоненциальных. Плотностьвероятности этого распределения:

+∞<<∞−

−−= xxxp 2

2

2)(exp

21)(

σµ

σπРаспределение имеет вид симметричной колоколообразной кри-вой, распространяющейся по всей числовой оси. РаспределениеГаусса зависит от двух параметров: ),( σµ .

Математическое ожидание, медиана и мода данного рас-пределения равны µ , а дисперсия 2σ . Кривая плотности веро-ятности симметрична относительно математического ожидания.Коэффициент асимметрии и эксцесс равны 3,0 == εγ .

Часто плотность нормального распределения записывают некак функцию переменной х, а как функцию переменной

σµ /)( −= xz , которая имеет нулевое математическоеожидание и дисперсию, равную 1. Плотность вероятности приэтом равна:

Page 35: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

35

−=

2exp

21)(

2zzpπ

Такое распределение называют стандартным нормальным рас-пределением.

Плотность вероятности распределения Гаусса нельзя проин-тегрировать для получения интегральной функции распределе-ния вероятностей F(x) в явном виде. F(x) можно найти с исполь-зованием:- численных методов интегрирования функции р(х),- путем разложения функции р(х) в ряд с последующим ана-

литическим интегрированием этого ряда.Широкое применение распределения Гаусса в статистике

основано на доказанном в теории вероятностей утверждении,что случайная величина, являющаяся суммой большого числанезависимых случайных величин с конечными дисперсиями и спрактически произвольными законами распределения, распре-делена нормально.

То есть условием использования нормального распределе-ния для описания случайной величины являются ситуации, ко-гда изучаемую случайную величину можно представить в видесуммы достаточно большого количества независимых слагае-мых, каждое из которых мало влияет на сумму.

Распределение Гаусса можно использовать в качестве пер-вого приближения для описания, например, логарифмов отно-сительного изменения цен активов. Однако, только в качествепервого приближения, потому что на практике распределенияэтих величин отличаются от нормального, то есть имеют какправило более ярко выраженный пик и более "тяжелые" хвосты.Следовательно эти распределения являются островершиннымии имеют эксцесс, превышающий три (иногда очень существен-но).

Вычисление нормального распределения с помощью MicrosoftExcel

Приведем несколько примеров вычисления характеристикнормального распределения. Все используемые функции можнонайти в разделе "Статистические функции" электронных таблицMicrosoft Excel.

Page 36: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

36

Пусть случайная величина X подчиняется нормальномураспределению с параметрами ),( σµ . 1) Плотность распределения в точке xX = :

),,,( ложьхНОРМРАСП σµ2) Вероятность того, что xX ≤ :

),,,( истинахНОРМРАСП σµ3) Вероятность того, что xX > :

),,,(1 истинахНОРМРАСП σµ−4) Если известна вероятность того, что xX ≤ , то есть

}{ xXPP ≤= , то соответствующее значение x можно вы-числить как:

),,( σµPНОРМОБРx =5) Для приведения нормально распределенной случайной ве-

личины к стандартному виду, то есть для вычисленияσµ /)( −= xz используется функция:

),,( σµхИЯНОРМАЛИЗАЦz =

Пусть случайная величина Z подчиняется стандартномунормальному распределению )1,0( == σµ .1) Вероятность того, что zZ ≤ :

)(zНОРМСТРАСП2) Вероятность того, что zZ > :

)(1 zНОРМСТРАСП−3) Если известна вероятность того, что zZ ≤ , то есть

}{ zZPP ≤= , то соответствующее значение z можно вы-числить как:

)(PНОРМCTОБРz =4) Вероятность того, что zZz ≤≤− :

)()( zНОРМСТРАСПzНОРМСТРАСП −−5) Если известна вероятность того, что zZz ≤≤− , то есть

}{ zZzPP ≤≤−= , то соответствующее значение z мож-но вычислить как:

( )2/)1( PНОРМCTОБРz += или

Page 37: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

37

( )2/)1( PНОРМCTОБРz −−=

2.6. Логнормальное распределение.

Пусть х - нормально распределенная случайная величина сплотностью распределения:

+∞<<∞−

−−= xxxpx 2

2

2)(exp

21)(

σµ

σπТогда случайная величина у, связанная с величиной х соотноше-нием xexy =)( будет распределена логнормально. Заметим, чтоу может принимать значения только от 0 до +∞. Найдем основ-ные параметры логнормального распределения.

Обозначим неизвестную пока плотность логнормальногораспределения через )(ypy , которую определим исходя из ра-венства дифференциалов:

dydxyxpypdxxpdyyp xyxy /)]([)()()( ⋅=⇒=Так как )ln()( yyx = , и ydydx /1/ = , для плотностивероятности логнормального распределения получаетсяследующая формула:

+∞<<

−−= yy

yypy 0

2))(ln(exp

21)( 2

2

σµ

σπПараметры логнормального распределения выражаются черезпараметры соответствующего распределения Гаусса следующимобразом:

)1)(exp()2exp(

)2/exp(22

2

−⋅+=

+=

σσµ

σµµ

y

y

D

)exp()exp(

2σµ

µ

−=

=

MoMe

Распределение имеет крутой левый и пологий правый спад, тоесть имеет положительную асимметрию.

Как и в случае распределения Гаусса, плотность вероятно-сти логнормального распределения нельзя проинтегрировать

Page 38: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

38

для получения функции распределения вероятностей в явномвиде.

Однако, значения интегральной функции логнормальногораспределения можно найти, используя значения интегральнойфункции распределения Гаусса, так как они связаны соотноше-нием )][ln()( yFyF xy = , или в явном виде:

∫∫∞−

=)ln(

0

)()(y

x

y

y dttpdttp

Логнормальное распределение можно использовать в каче-стве первого приближения для описания относительного изме-нения цен активов, однако, с теми ограничениями, о которыхбыло сказано при обсуждении распределения Гаусса.

2.7. Распределение Лапласа.

Еще одним типом экспоненциального распределения, наря-ду с нормальным, является распределение Лапласа, плотностькоторого выражается формулой:

+∞<<∞−

−−= x

xxp

2exp

21)(

σµ

σКак и распределение Гаусса, распределение Лапласа:- зависит от двух параметров ),( σµ ,- математическое ожидание, медиана и мода данного рас-

пределения равны µ , а дисперсия 2σ ,- кривая плотности вероятности симметрична относительно

математического ожидания, коэффициент асимметрии ра-вен нулю.

Однако эксцесс распределения 6=ε , то есть вдвое превышаетэксцесс нормального распределения. Следовательно, распреде-ление Лапласа островершинное, то есть имеет высокий пик и"тяжелые" хвосты.

Кроме того, плотность данного распределения интегрируе-ма, и функция распределения может быть получена в явном ви-де:

Page 39: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

39

µσ

µ

µσ

µ

>

−−⋅−=

−−⋅=

xx

xF

xx

xF

2exp5.01)(

2exp5.0)(

Распределение Лапласа можно использовать для описаниялогарифмов относительного изменения цен активов, зачастую сбольшим успехом, чем нормальное распределение. Однако, сеще большей точностью, реальные распределения вероятностейописывает обобщенное экспоненциальное распределение, кото-рое будет также рассмотрено в этой главе.

2.8. Распределение Коши.

Распределение Коши является одним из простейших зако-нов распределения. Его плотность выражается формулой:

)]/)[(1(1)( 2baxb

xp−+

Плотность распределения Коши имеет вид симметричнойотносительно точки ax = кривой, визуально очень похожей наплотность нормального распределения.

Кроме того р(х) интегрируема, поэтому функцию распреде-ления Коши можно записать в явном виде и не прибегать при еевычислении к помощи численных методов:

]/)[(121)( baxarctgxF −+=

πКазалось бы, распределение Коши выглядит очень привле-

кательно для описания и моделирования случайных величин.Однако в действительности это не так. Свойства распределенияКоши резко отличны от свойств распределения Гаусса, Лапласаи других экспоненциальных распределений.

Дело в том, что распределение Коши близко к предельнопологому. Напомним, что распределение называется предельнопологим, если при ±∞→x его плотность вероятности

δ+≅ 1||/1)( xxp , где δ - сколь угодно малое положительноечисло. При более пологих, чем δ+1||/1 x спадах, площадь под

Page 40: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

40

кривой бесконечна, то есть не выполняется условиенормирования, и такие кривые не могут описывать плотностьраспределения вероятностей.

Для распределения Коши не существует даже первогоначального момента распределения, то есть математическогоожидания, так как определяющий его интеграл расходится. Приэтом распределение имеет и медиану и моду, которые равныпараметру a .

Разумеется, дисперсия этого распределения (второйцентральный момент) также равна бесконечности. На практике этоозначает, что оценка дисперсии по выборке из распределения Кошибудет неограниченно возрастать с увеличением объема данных.

Из вышесказанного следует, что аппроксимацияраспределением Коши случайных процессов, которыехарактеризуются конечным математическим ожиданием иконечной дисперсией, неправомерна.

2.9. Распределение Парето.

Распределение Парето - это усеченное слева распределение,плотность вероятности и функция распределения которого выра-жаются в виде:

0)()(: ==< xFxpBxαααα )/(1)()/()(:0,0 1 xBxFxB

BxpBx −==>>≥ +

Плотность р(х) распределения равна нулю при Bx < , имеет мак-симальное значение при Bx = и монотонно убывает при Bx > .

Распределение Парето можно модифицировать таким образом,чтобы его можно было использовать для описания симметричныхраспределений вероятностей.Введя новую переменную Bxt −= , получим

0,0,0

)]/1/(1[)]/([)( 11

>>+∞<≤

+⋅=+⋅= ++

α

αα αα

Bt

BtB

tBBB

tp

Взяв величину t по модулю, эту формулу можно распространить навсю числовую ось, введя при этом нормировочный коэффициент1/2.

Page 41: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

41

0,0,

)]/||1/(1[2

)( 1

>>+∞<<∞−

+⋅= +

α

α α

Bt

BtB

tp

Описываемое последней формулой распределение имеет центр вточке 0=t . Для распределения с центром в произвольной точке

At = получим

0,0,

)]/||1/(1[2

)( 1

>>+∞<<∞−

−+⋅= +

α

α α

Bt

BAtB

tp

Итак, мы получили симметричное распределение, зависящее оттрех параметров, с помощью которого можно описывать выборкислучайных величин, в том числе с пологими спадами. Однако, этораспределение обладает недостатками, которые были рассмотреныпри обсуждении распределения Коши, а именно, математическоеожидание существует только при 1>α , дисперсия конечна толькопри 2>α , и вообще, конечный момент распределения к-гопорядка существует при k>α .

2.10. Обобщенное экспоненциальное распределение.

Выше в этой главе были рассмотрены два видаэкспоненциальных распределений: Гаусса и Лапласа. У них многообщего: они симметричны, зависят от двух параметров ),( σµ ,имеют конечные моменты любого порядка. Отличие же состоит втом, что из-за того, что переменная х возводится в разную степеньпод знаком экспоненты (в квадрат у распределения Гаусса и в пер-вую степень у распределения Лапласа), эксцесс у них разный. На-помним, что эксцесс характеризует остроту пика распределения икрутизну спада хвостов распределения. Возникает вопрос: можноли записать формулу для плотности вероятностиэкспоненциального распределения в общем виде, то есть спроизвольной положительной степенью переменной х под знакомэкспоненты? Оказывается, такая формула существует:

+∞<<∞−

−−= xx

Гxp

α

λσµ

λσαα exp

)/1(2)(

Page 42: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

42

)/3()/1( ααλ ГГ=где )(tГ - это гамма-функция. О том, как вычисляется гамма-функция, рассказано в ПРИЛОЖЕНИИ 2.1 к этой главе.

Распределение с приведенной выше плотностью вероятностимы будем называть обобщенным экспоненциальнымраспределением, которое характеризуется тремя параметрами:- математическим ожиданием (медианой, модой) µ ,

- среднеквадратичным отклонением σ (дисперсией 2σ ),- показателем степени распределения α .Показатель степени α характеризует форму распределения:- при 1<α распределение имеет очень острый пик и очень

пологие спады,- при 1=α распределение тождественно распределению

Лапласа,- при 2=α распределение тождественно распределению

Гаусса,- при 2>α распределение становится похожим на

равнобедренную трапецию, то есть имеет плоскую вершину ирезко спадающие хвосты,

- при ∞→α распределение тождественно равномерномураспределению.

Эксцесс распределения однозначно определяется показателем сте-пени α : 2)]/3(/[)/5()/1( αααε ГГГ= .Соответственно, из вычисленного по выборке случайных величинзначения оценки эксцесса, можно определить оценку показателяα .

Обычно в справочниках распределения Гаусса, Лапласа и рав-номерное рассматриваются как разные распределения, хотя в изла-гаемой здесь концепции - это одно и тоже распределение. Единст-венным параметром, характеризующим форму (а значит и свойст-ва) этих распределений является показатель α .

В дальнейшем, если принята гипотеза о том, что плотность ве-роятности случайной величины имеет экспоненциальный характер,для описания этой величины будем использовать именно обобщен-ное экспоненциальное распределение.

На рисунке приведена плотность стандартного обобщенногоэкспоненциального распределения при различных значениях α .

Page 43: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

43

0.00

0.20

0.40

0.60

0.80

-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0

alpha = 1 (Лаплас)

alpha = 2 (Гаусс)

alpha = 100

В общем случае плотность вероятности обобщенного экспо-ненциального распределения нельзя проинтегрировать для получе-ния функции распределения вероятностей F(x) в явном виде. F(x)можно найти с использованием:- численных методов интегрирования функции р(х),- путем разложения функции р(х) в ряд с последующим аналити-

ческим интегрированием этого ряда.О том, как это делается, будет рассказано в следующих параграфах.

Вычисление интегральной функции обобщенного экспоненци-ального распределения в Microsoft Excel

Не приводя доказательства скажем, что интегральная функцияобобщенного экспоненциального распределения может бытьвыражена через интегральную функцию гамма-распределения(встроенная функция Excel) следующим образом:

−⋅−=<

−⋅+=≥

ИСТИНАx

ГАММАРАСПxFx

ИСТИНАx

ГАММАРАСПxFx

,1,1

,5.05.0)(:

,1,1

,5.05.0)(:

α

α

λσ

µµ

α

α

λσ

µµ

2.11. Поиск интегральной функции распределения путемчисленного интегрирования плотности распределения.

Пусть дана случайная величина, которая подчиняется обоб-щенному экспоненциальному распределению с параметрами

Page 44: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

44

),,( ασµ , то есть плотность вероятности имеет вид:

+∞<<∞−

−−= xx

Гxp

α

λσµ

λσαα exp

)/1(2)(

Требуется найти интегральную функцию распределения:

∫∞−

=x

dzzpxF )()(

Прежде всего заметим, что задачу можно упростить, перейдя кпеременной σµ /)( −= xt . Случайная величина t имеет математи-ческое ожидание, равное нулю, и дисперсию, равную единице.Формулы для плотности вероятности и функции распределенияпримут вид:

( )

∫∞−

=

+∞<<∞−−=

t

dzzptF

ttГ

tp

)()(

exp)/1(2

)( αλλα

α

Для решения поставленной задачи достаточно:- разбить всю область определения переменной t на N интерва-

лов, при этом узлы разбиения будут образовывать массивNkTk ,...,0},{ = .

- вычислить в узлах разбиения массив значений интегральнойфункции NkFk ,...,0},{ = .Тогда для произвольного значения переменной t, такого, что

1+≤≤ kk TtT значение интегральной функции F(t) может быть при-ближенно определено в виде:

)/())(()( 11 kkkkkk TTFFTtFtF −−−+= ++

Так как между узлами разбиения величина Fаппроксимируется линейной зависимостью, то интервал разбиениядолжен быть достаточно мал, то есть количество узлов разбиениядостаточно велико.

Однако, плотность вероятности определена на всей числовойоси, а разбить бесконечный интервал на конечное количество ин-тервалов конечной длины невозможно. Поэтому приближенно бу-дем считать, что

Page 45: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

45

( )

∫−

=

>=

≤≤−−=

t

R

dzzptF

Rttp

RtRtГ

tp

)()(

0)(

exp)/1(2

)( αλλα

α

где величину 2R назовем размахом распределения.Очевидно, интервал от - R до R можно трактовать как

интерквантильный промежуток с некоторой близкой к единицедоверительной вероятностью. Для обобщенногоэкспоненциального распределения половину размаха можно задатьэмпирически полученной формулой:

3/2)8.1(788.43 −⋅+= εRПосле введения понятия размаха распределения, все готово для на-писания алгоритма решения задачи:1) Задаем входные данные: показатель степени распределения α и

количество интервалов разбиения N (целое четное число).2) Вычисляем эксцесс распределения

2)]/3(/[)/5()/1( αααε ГГГ=3) Вычисляем половину размаха распределения

3/2)8.1(788.43 −⋅+= εR4) Вычисляем минимальное и максимальное значение пере-

менной t

RTRT

=−=

max

min

5) Вычисляем массив узлов на оси tNkNkTTTTk ,...,0/)( minmaxmin =−+=

6) Вычисляем номер центра распределения2/NM =

7) Вычисляем массив значений плотности вероятности для kот 0 до М

( )0

,...,1exp)/1(2

0 =

=−=

p

MkTГ

p kkαλ

λαα

Page 46: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

46

8) Вычисляем вспомогательный массив, в котором величины kpсуммируются нарастающим итогом для k от 0 до М

MkpSk

iik ,...,0

0== ∑

=

9) Так как значение интегральной функции в центре распределе-ния (то есть в узле с номером М) равно 0.5, то можно вычис-лить левую часть массива, в котором содержится функция рас-пределения

MkSSF Mkk ,...,0/5.0 =⋅=10) Так как распределение симметрично относительно центра, вы-

числяем оставшуюся часть массива, в котором содержитсяфункция распределения

NMkFF kNk ,...,11 +=−= −

Итак, мы получили массив значений случайной величины }{ kT исоответствующий ему массив интегральной функциираспределения }{ kF , то есть задали функцию распределения втабличном виде.

Для произвольного значения переменной t значение инте-гральной функции F(t) может быть определено по формулам:

1)(:)/())(()(

:1,...,00)(:

11

1

0

=≥−−−+=

−=<≤=<

++

+

tFTtTTFFTtFtF

NkTtTtFTt

N

kkkkkk

kk

Напомним, что переменная t имеет нулевое математическоеожидание и единичную дисперсию. Переменная х с произвольнымиматематическим ожиданием и дисперсией связана с переменной tсоотношением tx σµ += .

2.12. Поиск интегральной функции распределения путемразложения плотности распределения в ряд с последующиманалитическим интегрированием этого ряда.

Задачу, поставленную в предыдущем параграфе, можнорешить путем разложения стоящей под знаком интегралафункции в ряд Тейлора с последующим интегрированием этого

Page 47: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

47

ряда. Итак, нам нужно проинтегрировать обобщенное экспонен-циальное распределение )1,0( == σµ :

( )

∫∞−

=

+∞<<∞−−=

t

dzzptF

ttГ

tp

)()(

exp)/1(2

)( αλλα

α

Так как плотность распределения симметрична относитель-но центра, для нахождения интегральной функции распределе-ния достаточно вычислить

( )( )

( )( ) ( )∫∫

∫∫

−=−=

=−==

λαα

α

ααλλ

αα

λλα

α

/

00

00

exp)/1(2

)/(/exp)/1(2

/exp)/1(2

)()(

tt

tt

dyyГ

zdzГ

dzzГ

dzzptq

Функцию под знаком интеграла можно разложить в ряд Тейлораследующим образом:

( )!

)1(exp0 k

yyk

k

α ∑∞

=

−=−

Подставив это разложение под знак интеграла и проведя интег-рирование, получим

1)/(

!)1(

)/1(2)(

1

0 +⋅

−=

+∞

=∑ k

tkГ

tqk

k

k

αλ

αα α

Практически, суммирование производится не до ∞, а до некото-рого k=N, такого, что

δαλ α

≤+

⋅+

1)/(

!1 1

Nt

N

N

где δ - это некоторое наперед заданное малое положительноечисло (точность вычисления). То есть мы должны вычислитьчастичную сумму ряда.Функция распределения )(tF связана с )(tq соотношениями:

|)(|5.0)(:0)(5.0)(:0tqtFt

tqtFt−=<+=≥

Page 48: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

48

2.13. Моделирование с помощью равномерного распределе-ния случайных чисел с произвольной плотностью распреде-ления.

Встроенный в компьютер генератор псевдослучайных чиселвыдает числа, равномерно распределенные в интервале от 0 до 1.Так как любая интегральная функция распределения F(x) имеетобласть значений от 0 до 1, то с помощью равномерногораспределения можно получить случайное число с произвольнымзаконом распределения путем решения обратной задачи, то естьвосстанавливая по известному значению F(x) значение х. Вкачестве примера будем моделировать случайную величину,подчиняющуюся обобщенному экспоненциальномураспределению. Для решения этой задачи будем использоватьрезультаты, полученные в двух предыдущих параграфах.

Постановка задачи

Дано случайное число z, равномерно распределенное наинтервале от 0 до 1.

Требуется получить число x, подчиняющееся обобщенномуэкспоненциальному распределению, с параметрами ),,( ασµ .

Решение путем предварительного численного интегрированияплотности распределения, то есть задания функции распреде-ления в табличном виде.

Для получения искомого числа x, найдем сначалавспомогательное число t, которое подчиняется обобщенному экс-поненциальному распределению, с параметрами )1,0( == σµ .

Для этого по методике, изложенной в параграфе 2.11, получиммассив значений случайной величины }{ kT и соответствующий

ему массив интегральной функции распределения }{ kF , то естьзададим функцию распределения в табличном виде. Для произ-вольного значения переменной t значение интегральной функцииF(t) может быть определено как:

1)(:)/())(()(

:1,...,00)(:

11

1

0

=≥−−−+=

−=<≤=<

++

+

tFTtTTFFTtFtF

NkTtTtFTt

N

kkkkkk

kk

Page 49: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

49

На интервале NTtT ≤≤0 величины t и F связаны линейно.Если принять, что величина t не может быть меньше T0 и неможет быть больше TN , то можно получить обратнуюзависимость )(Ft в виде:

NTFtFTFtF

====

)(:1)(:0 0

)/())(()(:1,...,0

11

1

kkkkkk

kk

FFTTFFTFtNkFFF

−−−+=−=<≤

++

+

Если считать, что полученная с помощью генератораслучайных чисел величина z является значением функции рас-пределения F в некоторой точке t, то величина t может бытьнайдена по приведенным выше формулам, где вместо перемен-ной F подставлена величина z. Искомое число х вычисляется как

tx σµ += .

Решение методом итераций, с использованием вычисленияфункции распределения через ряд Тейлора.

Как и в предыдущем случае, для получения искомого числа x,найдем сначала вспомогательное число t, которое подчиняетсяобобщенному экспоненциальному распределению, с параметрами

)1,0( == σµ .В параграфе 2.12 было показано, что можно вычислить функ-

цию распределения F(t) в точке t с требуемой точностью какчастичную сумму соответствующего ряда. Теперь нам нужнорешить обратную задачу, то есть по известному значению F(t)найти неизвестное значение t. Точнее, в соответствии с условиямипоставленной задачи, мы должны решить относительно t уравнение

0)( =− ztF .Для численного решения этого уравнения мы используем ме-

тод деления пополам. Для того, чтобы приступить к решению этимметодом, необходимо задать конечный интервал, в котором долженлежать корень уравнения. В качестве области возможных значенийt выберем интервал от -R до R, где 2R - это рассмотренный вышеразмах распределения. Считаем, что 1)(,0)( ==− RFRF .

Численное решение уравнения 0)( =− ztF с заданнойточностью означает, что достаточно найти такое t, при котором

Page 50: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

50

δ≤− ztF )( , где δ - это некоторое наперед заданное малое поло-жительное число (точность вычисления).

Решение состоит в последовательном повторении шагов(итераций), до тех пор, пока не будет достигнута необходимаяточность:1) Задаем начальные величины граничных значений переменных t

и F

10

maxmax

minmin

===−=

FRTFRT

2) Вычисляем текущее значение t как среднее значение между Tminи Tmax

2/)( maxmin TTt +=3) Вычисляем по методике из параграфа 2.12 величину F(t)4) Проверяем условие δ≤− zF . Если неравенство

справедливо, то необходимая точность решения достигнута итекущее значение t является решением.

5) В случае δ>− zF изменяем значения величин Tmin, Tmax,Fmin, Fmax:- если zF < , то

FFtT == minmin ,

maxmax , FT остаются без изменения- если zF > , то

minmin , FT остаются без измененияFFtT == maxmax ,

6) Возвращаемся на шаг 2.

После того, как необходимая точность вычисления величины t дос-тигнута, искомое число x находится как tx σµ += . На практикечаще всего необходимо получить не отдельное случайное число xс заданным законом распределения, а последовательность такихчисел Nkxk ,...,0},{ = . Это необходимо, как правило, при моде-лировании случайных процессов. В этом случае описанные в дан-ном параграфе процедуры нужно повторить соответствующее ко-личество раз.

Page 51: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

51

ПРИЛОЖЕНИЕ 2.1. Гамма-функция Эйлера.

Гамма-функция, обобщающая понятие факториала, являетсяодной из важнейших специальных функций. Для произвольногоположительного x , значение )(xГ задается формулой:

0)(0

1 >= ∫+∞

−− xdttexГ xt

В этом приложении мы рассмотрим алгоритм вычисления гам-ма-функции. Данный алгоритм основан на следующем ее свой-стве: )()1( хГххГ ⋅=+ для любого 0>x . Это свойство по-зволяет свести вычисление )(xГ от любого x к вычислениюгамма-функции на интервале 21 ≤≤ x , на котором ее можноаппроксимировать полиномом пятой степени:

771932692-0.095740301321180.885309942313704-3.26329362085496.37763107

5480728-6.60156189878513.69764701

)(

5

4

3

2

1

0

55

44

33

2210

======

+++++=

aaaaaa

xaxaxaxaxaaxГ

Область значений величины 0>x можно разбить на триинтервала, на каждом из которых )(xГ вычисляетсяследующим образом:1) 21 ≤≤ x

В этом случае, )(xГ непосредственно вычисляется с помо-щью приведенного выше полинома.

2) 10 << xВ этом случае, xxГxГ /)1()( += , и так как 211 <+< x ,то )1( +xГ вычисляется с помощью полинома.

3) 2>xВ этом случае величину х можно представить в виде

zNx += , где

Page 52: Булашев. Статистика для трейдеров

Глава 2. Аналитические законы распределения случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

52

N - это целая часть x ( 2≥N ),z - это дробная часть x ( 10 << z ).Тогда

∏−

=

−++=

==−+−+=+≡1

1

)()1(

...)1()1()()(N

k

kzNzГ

zNГzNzNГхГ

и так как 211 <+< z , то )1( +zГ вычисляется с помощьюполинома.

Вычисление гамма-функции с помощью Microsoft Excel

В Microsoft Excel гамма-функцию можно вычислить, используяследующую комбинацию функций:

))(()( хГАММАНЛОГЕХРхГ =

Page 53: Булашев. Статистика для трейдеров

Глава 3. Специальные распределения вероятностей

С.В. Булашев. Статистика для трейдеров (электронная версия).

53

3. СПЕЦИАЛЬНЫЕ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

3.1. t-распределение Стьюдента.

Плотность распределения Стьюдента описывается формулой:( )

( )( ) +∞<<∞−+

+=

+− xxГ

Гxp 2/)1(2 2/12/2/)1()( ν

ννπν

Распределение имеет вид колоколообразной кривой, симметричнойотносительно точки 0=t , и зависит от единственного параметраν , который принято называть числом степеней свободы. Приведемзначения основных характеристик распределения Стьюдента:

Математическое ожидание,медиана, мода

10 >νпри

Дисперсия2

2>

−ν

νν при

Коэффициент асимметрии 0

Эксцесс4

)4()2(3

>−− ν

νν при

При числе степеней свободы ∞→ν , распределение Стьюдентастремится к стандартному нормальному распределению, то есть кнормальному распределению с центром 0 и дисперсией 1.

Типичная интерпретация

1) Пусть случайная величина Х имеет нормальное распределениес математическим ожиданием µ и дисперсией 2σ .Если имеется выборка этой случайной величины

),...,,( 21 Nxxx , то состоятельными и несмещенными оценкамиматематического ожидания и дисперсии по выборке будутследующие величины:

2

1

2

1)(

111 Xx

Nx

NX

N

kk

N

kk −

−== ∑∑

==

σ

Page 54: Булашев. Статистика для трейдеров

Глава 3. Специальные распределения вероятностей

С.В. Булашев. Статистика для трейдеров (электронная версия).

54

Тогда случайные величины σµ−

= kxt и N

Xt/σ

µ−= будут

подчиняться распределению Стьюдента с 1−= Nν степенямисвободы.

2) Пусть случайные величины Х и Y имеют нормальноераспределение с математическими ожиданиями и дисперсиями

),( 2xx σµ и ),( 2

yy σµ соответственно.Если имеются выборки этих случайных величин

),...,,( 21 Nxxx и ),...,,( 21 Nyyy , то состоятельной инесмещенной оценкой коэффициента корреляции между этимивеличинами по выборке будет:

∑∑

==

=

−−

−−=

N

kk

N

kk

N

kkk

YyXx

YyXx

1

2

1

2

1

)()(

))((ρ

Тогда случайная величина 2

12

ρ

ρ

−⋅−= Nt будет

подчиняться распределению Стьюдента с 2−= Nν степенямисвободы.

Вычисление распределения Стьюдента с помощью MicrosoftExcel

Приведем несколько примеров вычисления характеристикраспределения Стьюдента. Все используемые функции можнонайти в разделе "Статистические функции" электронных таблицMicrosoft Excel.

Пусть случайная величина X подчиняется распределениюСтьюдента с числом степеней свободы ν .1) Вероятность того, что xX ≤ :

)1,,(1 νxСТЬЮДРАСП−2) Вероятность того, что xX > :

)1,,( νxСТЬЮДРАСП

Page 55: Булашев. Статистика для трейдеров

Глава 3. Специальные распределения вероятностей

С.В. Булашев. Статистика для трейдеров (электронная версия).

55

3) Вероятность того, что xXx ≤≤− , вычисляется как:)2,,(1 νxСТЬЮДРАСПP −=

4) Вероятность того, что xX >|| , равна:)2,,( νxСТЬЮДРАСПq =

Величина q - это вероятность того, что случайная величинаX попадает в критическую область распределенияСтьюдента.

5) Если известна вероятность q того, что xX >|| , тосоответствующее значение x равно:

),( νqБРСТЬЮДРАСПОx =6) Если известна вероятность q того, что xX > , то

соответствующее значение x равно:),2( νqБРСТЬЮДРАСПОx =

3.2. χ2-распределение.

Плотность χ2-распределения задается формулой:

( )( ) 2/

2/)2(

22/2/exp)(:0

0)(:0

ν

ν

ν ⋅−⋅

=>

=<−

Гxxxpx

xpx

Плотность зависит от единственного параметра ν , которыйпринято называть числом степеней свободы. Приведем значенияосновных характеристик распределения:

Математическое ожидание νМода )2(2 ≥− νν

Дисперсия ν2Коэффициент асимметрии ν/22

Эксцесс

νν 123 +

Page 56: Булашев. Статистика для трейдеров

Глава 3. Специальные распределения вероятностей

С.В. Булашев. Статистика для трейдеров (электронная версия).

56

При числе степеней свободы ∞→ν , χ2-распределениестремится к нормальному распределению с центром ν идисперсией ν2 .

Типичная интерпретация

Пусть случайная величина Х имеет нормальноераспределение с математическим ожиданием µ и дисперсией

2σ .Если имеется выборка этой случайной величины

),...,,( 21 Nxxx , то состоятельными и несмещенными оценкамиматематического ожидания и дисперсии по выборке будутследующие величины:

2

1

2

1)(

111 Xx

Nx

NX

N

kk

N

kk −

−== ∑∑

==

σ

Тогда случайная величина ( )∑=

−=N

kkx

1

22 /)( σµχ будет

подчиняться χ2-распределению с N=ν степенями свободы, а

случайная величина )/()1( 222 σσχ ⋅−= N будет подчинятьсяχ2-распределению с 1−= Nν степенями свободы.

Вычисление χ2-распределения с помощью Microsoft Excel

Приведем несколько примеров вычисления характеристикχ2-распределения. Все используемые функции можно найти вразделе "Статистические функции" электронных таблиц Micro-soft Excel.

Пусть случайная величина X подчиняется χ2-распределению с числом степеней свободы ν . 1) Вероятность того, что xX ≤ , вычисляется как:

),(21 νxРАСПХИP −=2) Вероятность того, что xX > , равна:

),(2 νxРАСПХИq =Величина q - это вероятность того, что случайная величинаX попадает в критическую область χ2-распределения.

Page 57: Булашев. Статистика для трейдеров

Глава 3. Специальные распределения вероятностей

С.В. Булашев. Статистика для трейдеров (электронная версия).

57

3) Если известна вероятность P или вероятность q , тосоответствующее значение x , определяющее границуинтервала xX ≤ равно:

),(2 νqОБРХИx = или ),1(2 νPОБРХИx −=

3.3. F-распределение (распределение v2).

Плотность F-распределения задается формулой:

( ) ( )( ) ( ) ( ) 2/)(

212/)2(

21

212/21

2111 )/(12/2/

2/)(/)(

:00)(:0

νννν νννν

νννν +−− ⋅+⋅⋅+

⋅=

>=<

xxГГ

Гxp

xxpx

Плотность F-распределения зависит от двух параметров),( 21 νν , которые принято называть числом степеней свободы.

Приведем значения основных характеристик F-распределения:

Математическоеожидание 2

2 22

2 >−

ννν при

Мода2

)2()2(

121

12 >+− ν

νννν при

Дисперсия4

)4()2()2(2

22

221

2122 >

−−−+ ν

νννννν при

Типичная интерпретация

Пусть случайные величины Х и Y имеют нормальноераспределение с дисперсиями 2

xσ и 2yσ соответственно.

Если имеются выборки этих случайных величин),...,,( 21 Nxxx и ),...,,( 21 Myyy , то состоятельными и

несмещенными оценками дисперсий по выборке будутследующие величины:

Page 58: Булашев. Статистика для трейдеров

Глава 3. Специальные распределения вероятностей

С.В. Булашев. Статистика для трейдеров (электронная версия).

58

2

1

22

1

2)(

11)(

11 Yy

MXx

N

N

kky

N

kkx −

−=−

−= ∑∑

==

σσ

Пусть выборочная дисперсия величины Х большевыборочной дисперсии величины Y . Тогда случайная величина

22/ yxF σσ= будет подчиняться F-распределению с

1,1 21 −=−= MN νν степенями свободы.

Вычисление F-распределения с помощью Microsoft Excel

Приведем несколько примеров вычисления характеристикF-распределения. Все используемые функции можно найти вразделе "Статистические функции" электронных таблиц Micro-soft Excel.

Пусть случайная величина X подчиняется F-распределению счислом степеней свободы 21 ,νν . 1) Вероятность того, что xX ≤ , вычисляется как:

),,(1 21 ννxFРАСПP −=2) Вероятность того, что xX > , равна:

),,( 21 ννxFРАСПq =Величина q - это вероятность того, что случайная величинаX попадает в критическую область F-распределения.

3) Если известна вероятность P или вероятность q , тосоответствующее значение x , определяющее границуинтервала xX ≤ равно:

),,( 21 ννqFРАСПОБРx = или),,1( 21 ννPFРАСПОБРx −=

Page 59: Булашев. Статистика для трейдеров

Глава 4. Оценка параметров распределения по выборке случайной вели-чины

С.В. Булашев. Статистика для трейдеров (электронная версия).

59

4. ОЦЕНКА ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ ПО ВЫ-БОРКЕ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

4.1. Введение.

Эта глава посвящена методам оценки по эмпирической вы-борке параметров распределения случайной величины. Будутуказаны формулы для оценки центра распределения, дисперсиии показателей формы распределения, а также практическиеприемы удаления аномальных значений (промахов) из выборки.

4.2. Оценки центра распределения.

По возможности наиболее точная оценка центра распреде-ления по выборке случайных величин исключительно важна, таккак центр распределения используется в формулах для вычисле-ния дисперсии, среднеквадратичного отклонения, коэффициентаасимметрии и эксцесса распределения. Некорректное определе-ние центра влечет за собой ошибки в определении всех этих ве-личин.

Оценку центра распределения по выборке можно проводитьразличными способами. Не зная априорно закона распределенияслучайной величины, невозможно заранее указать наиболееприемлемый способ. К тому же, некоторые из этих оценок чув-ствительны к наличию аномальных значений в выборке (прома-хов).

Поэтому для корректной оценки центра распределения мыбудем вычислять его пятью различными способами. После этогопять полученных оценок упорядочим по возрастанию и выберемиз них в качестве центра распределения серединное, то естьтретье по счету, значение.

Выборку случайных величин будем обозначать какNkxk ,...,1},{ = . Упомянутые выше пять оценок центра по вы-

борке следующие:- медиана Хмедиана,- центр 50%-ного интерквантильного промежутка (центр сги-

бов) Хцентр_сгибов,- среднее арифметическое по всей выборке X ,

Page 60: Булашев. Статистика для трейдеров

Глава 4. Оценка параметров распределения по выборке случайной вели-чины

С.В. Булашев. Статистика для трейдеров (электронная версия).

60

- среднее арифметическое по 50%-ному интерквантильномупромежутку %50X ,

- центр размаха Хцентр_размаха.Серединное значение этих оценок будем обозначать как ХЦЕНТР.

Медиана

Перед вычислением медианы выборка }{ kx должна бытьупорядочена по возрастанию, после чего медиану можно опре-делить следующим образом:- если объем выборки N является нечетным, то

2/)1( += Nмедиана xX- если объем выборки N является четным, то

2/)( 1)2/(2/ ++= NNмедиана xxXМедиана нечувствительна к промахам в выборке.

Центр 50%-ного интерквантильного промежутка (центрсгибов)

Перед вычислением этой оценки выборка }{ kx также должнабыть упорядочена по возрастанию. Обозначим как М четвертуючасть от объема выборки, то есть M=ЦЕЛОЕ(N/4).Тогда центр сгибов определяется по формуле:

2/)( 1 MNMсгибовцентр xxX −+ +=Центр сгибов нечувствителен к промахам в выборке.

Среднее арифметическое по всей выборке

Среднее арифметическое (выборочная средняя) является самымраспространенным методом оценки центра распределения:

∑=

=N

kkx

NX

1

1

Эта величина является несмещенной и состоятельной оценкойматематического ожидания (генеральной средней) µ случайнойпеременной х. Несмещенность заключается в том, чтоматематическое ожидание величины X равно µ. Состоятель

Page 61: Булашев. Статистика для трейдеров

Глава 4. Оценка параметров распределения по выборке случайной вели-чины

С.В. Булашев. Статистика для трейдеров (электронная версия).

61

ность заключается в том, что при объеме выборки ∞→N ,значение величины µ→X .Среднее арифметическое случайных величин само являетсяслучайной величиной. Дисперсия и среднеквадратичноеотклонение среднего арифметического зависят от дисперсии исреднеквадратичного отклонения самой случайной величины иобъема выборки:

NX

NNDXD

/)(

//)( 2

σσ

σ

=

==

Это соотношение справедливо для независимых данных с конечнойдисперсией и с любым законом распределения. Таким образом,с.к.о. среднего значения меньше, чем с.к.о. самой случайнойвеличины в N раз. Из этого следует, что точность оценки можноповысить путем увеличения объема выборки. Среднееарифметическое не защищено от промахов. Особенно большоевлияние на него оказывают промахи при малом объеме выборки.При увеличении объема эта оценка становится все болееустойчивой.

Среднее арифметическое по 50%-му интерквантильномупромежутку

Перед вычислением этой оценки выборка }{ kx должна бытьупорядочена по возрастанию. Данная оценка является аналогомпредыдущей, но усреднение проводится по усеченной на 25%слева и справа выборке. Если обозначить как М четвертую частьот объема выборки, то есть M=ЦЕЛОЕ(N/4), то

∑−

+=−=

MN

Mkkx

MNX

1%50 2

1

Среднее арифметическое по 50%-ному интерквантильному про-межутку нечувствительно к промахам в выборке.

Центр размаха

Центр размаха определяется как среднее между максимальными минимальным значением в выборке:

2/)]min()[max( kkразмахацентр xxX +=

Page 62: Булашев. Статистика для трейдеров

Глава 4. Оценка параметров распределения по выборке случайной вели-чины

С.В. Булашев. Статистика для трейдеров (электронная версия).

62

Центр размаха не защищен от промахов в выборке. Более того, вотличие от среднего арифметического, объем выборки оказываетгораздо меньшее влияние на точность этой оценки.

4.3. Оценка дисперсии и среднеквадратичного отклонения.

Оценки дисперсии и среднеквадратичного отклонения повыборке случайной величины Nkxk ,...,1},{ = вычисляются поформулам:

D

XxN

DN

kk

=

−−

= ∑=

σ

2

1)(

11

В случае небольших выборок и при наличии промаховвместо среднего арифметического X следует применять ХЦЕНТР.

Эти оценки называют еще выборочной дисперсией ивыборочным с.к.о. Они определяют рассеяние случайнойвеличины, однако сами также являются случайнымивеличинами со своими показателями рассеяния.

Приближенные формулы для вычисления дисперсии и с.к.о.выборочной дисперсии, а также дисперсии и с.к.о. выборочногос.к.о. следующие:

)()(4

)(

)()()(

2

4

4

4

4

σσσσ

σσ

σσ

DN

mD

DDDN

mDD

=−

=−

где 4m - это оценка четвертого центрального моментараспределения, которая приведена в следующем параграфе.

4.4. Оценка коэффициента асимметрии и эксцесса.

Оценки третьего и четвертого моментов распределения по вы-борке Nkxk ,...,1},{ = определяются как:

∑=

−−−

=N

kk Xx

NNNm

1

33 )(

)2)(1(

Page 63: Булашев. Статистика для трейдеров

Глава 4. Оценка параметров распределения по выборке случайной вели-чины

С.В. Булашев. Статистика для трейдеров (электронная версия).

63

2

1

2

1

4

1

2

4

)()()3)(2)(1(

)32(3

)()3)(2)(1(

32

XxXxNNNN

N

XxNNN

NNm

N

kk

N

kk

N

kk

−−−−−

−−

−−−−−

+−=

∑∑

==

=

Следовательно, оценки коэффициента асимметрии и эксцессаможно найти по формулам:

)3)(2()1)(32(3)(

)3)(2)(1(321

)()2)(1(

1

4

1

2

4

1

33

−−−−

−−−−−

+−=

−−−

=

=

=

NNNNNXx

NNNNN

XxNN

N

N

kk

N

kk

σε

σγ

В случае небольших выборок и при наличии промахов вместосреднего арифметического X следует применять ХЦЕНТР.Дисперсии оценок коэффициента асимметрии и эксцесса можнооценить как:

)5)(3()1()3)(2(24)(

)3)(1()1(6)(

2 ++−−−

=

++−

=

NNNNNND

NNND

ε

γ

Считается, что если 3)(/|| >γγ D , то распределение несим-

метрично. Если же 3)(/|| <γγ D , то асимметрия несущест-венна и ее наличие может быть объяснено случайностью выбор-ки.

4.5. Исключение промахов из выборки.

Промахами в выборке случайных величин будем называтьаномально отклоняющиеся от центра распределения значенияпо сравнению с основной массой данных.

В применении к ценам активов, эти аномалии могут бытьвызваны сменой президента или правительства, банкротствомкрупных компаний, террористическими актами и т.п.

Page 64: Булашев. Статистика для трейдеров

Глава 4. Оценка параметров распределения по выборке случайной вели-чины

С.В. Булашев. Статистика для трейдеров (электронная версия).

64

Решение о том, фильтровать промахи или нет, каждый при-нимает для себя сам. Однако следует учесть, что промахи могутсущественно исказить оценку параметров распределения.

В этом параграфе излагается формализованная процедураудаления аномальных величин из выборки. Прежде всего, вве-дем понятие коэффициента цензурирования. Коэффициент цен-зурирования - это безразмерная величина G, такая, что все зна-чения из выборки }{ kx , лежащие за пределами интервала

σσ ⋅+≤≤⋅− GXxGX ЦЕНТРЦЕНТР , считаются промахами иподлежат исключению из выборки.

Интуитивно понятно, что коэффициент цензурированиядолжен зависеть от объема выборки и рассчитанного повыборке значения эксцесса. Действительно, такое отклонение отцентра, которое является промахом для средневершинного (атем более плосковершинного) распределения, дляостровершинного распределения с его длинными "тяжелыми"спадами может безусловно принадлежать выборке.

Эмпирическая формула для коэффициента цензурированиякак функции от объема выборки N и эксцесса ε, пригодная кприменению для широкого класса распределений следующая:

1)10/lg(8.055.1 −⋅⋅+= εNG .Теперь все готово для написания алгоритма удаления

промахов из выборки:1) Вычислить величину ХЦЕНТР,2) Вычислить оценку среднеквадратичного отклонения σ , при

этом в качестве центра распределения использовать ХЦЕНТР,3) Вычислить оценку эксцесса ε , при этом в качестве центра

распределения использовать ХЦЕНТР,4) Вычислить коэффициент цензурирования G,5) Исключить из выборки значения, лежащие за пределами

интервала σσ ⋅+≤≤⋅− GXxGX ЦЕНТРЦЕНТР

После удаления промахов нужно пересчитать параметрыраспределения. При этом в качестве центра распределения ужеможно использовать среднее арифметическое X , как состоя-тельную и несмещенную оценку математического ожидания.

Page 65: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

65

5. СТАТИСТИЧЕСКИЕ ВЫВОДЫ

5.1. Введение.

Какие выводы о некотором параметре генеральной сово-купности мы можем сделать, имея выборочное значение этогопараметра? Ответ на этот вопрос зависит от того, имеем ли мыаприорную информацию о величине генерального параметра.

Если априорная информация о величине генерального па-раметра отсутствует, то мы можем по выборочному значениюоценить этот параметр, задав для него доверительный интер-вал, то есть границы, в которых его величина лежит с опреде-ленной доверительной вероятностью.

Если есть априорные соображения о величине генеральногопараметра, то мы можем проверить гипотезу о том, соответст-вует ли выборочная оценка априорному значению генеральногопараметра.

5.2. Выборочное распределение выборочной средней.

Пусть случайная величина Х имеет математическое ожиданиеµ и генеральную дисперсию 2σ . Оценками математическогоожидания и дисперсии по выборке ),...,,( 21 Nxxx будутвыборочная средняя и выборочная дисперсия:

2

1

2

1)(

111 Xx

Nx

NX

N

kk

N

kk −

−== ∑∑

==

σ

Рассмотрим случайную величину )//()( NXt σµ−= . Так

как µ=)(XM и NX /)( σσ = , то эта случайная величинаимеет нулевое математическое ожидание и единичную дисперсию.

Будем считать, что величина t подчиняется распределениюСтьюдента с 1−= Nν степенями свободы, хотя в общем случаеэто утверждение некорректно. Дело в том, что строго говорявеличина t подчиняется распределению Стьюдента только вслучае когда выборка ),...,,( 21 Nxxx взята из нормальнораспределенной совокупности.

Page 66: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

66

5.3. Доверительный интервал для генеральной средней.

Доверительный интервал возможных значений величины t ,характеризующийся доверительной вероятностью P илиуровнем значимости Pq −= 1 , это такой интерквантильныйпромежуток νν ,2/1,2/ qq ttt −≤≤ , внутри которого лежат P100процентов всех значений случайной величины t , а q100процентов лежат вне этого промежутка. При этом 2/100qпроцентов лежит слева от ν,2/qt и 2/100q процентов лежит

справа от ν,2/1 qt − .

Величины ν,2/qt и ν,2/1 qt − - это квантили распределения

Стьюдента с 1−= Nν степенями свободы, причем, так как этораспределение симметрично и имеет нулевое математическоеожидание, то νν ,2/1,2/ qq tt −−= . Используя последнее равенство и

подставив значение )//()( NXt σµ−= получаем, что

νν σµ

,2/1,2/1 / qq tN

Xt −− ≤−

≤−

Отсюда следует, что доверительный интервал дляматематического ожидания µ через выборочную среднюю ивыборочное с.к.о. задается в виде:

NtX

NtX qq

σµσνν ,2/1,2/1 −− +≤≤−

Ширина доверительного интервала для математическогоожидания очень существенно зависит от объема выборки.Проиллюстрируем это на простом примере. Пусть в двухиспытаниях получены одинаковые значения выборочнойсредней 2.1=X и выборочного с.к.о. 5.2=σ . Но в первомслучае эти данные были получены по выборке объемом

100=N , а во втором случае по выборке объемом 25=N .Зададимся уровнем значимости 05.0=q .

Вычислим с помощью функций Microsoft Excelдоверительные интервалы для математического ожидания:

Page 67: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

67

1) Большая выборка

696.1704.0100

5.2984.12.1100

5.2984.12.1

984.1)99,05.0(

)1,(1005.22.1

,2/1

≤≤

+≤≤−

==

=−====

µ

µ

σ

ν

БРСТЬЮДРАСПО

NqБРСТЬЮДРАСПОtNX

q

Ширина доверительного интервала = 1.696 - 0.704 = 0.992

2) Малая выборка

232.2168.0255.2064.22.1

255.2064.22.1

064.2)24,05.0(

)1,(255.22.1

,2/1

≤≤

+≤≤−

==

=−====

µ

µ

σ

ν

БРСТЬЮДРАСПО

NqБРСТЬЮДРАСПОtNX

q

Ширина доверительного интервала = 2.232 - 0.168 = 2.064То есть для данных значений выборочной средней ивыборочного с.к.о. увеличение объема выборки в 100/25=4 разапривело к уменьшению ширины доверительного интервала дляматематического ожидания в 2.064/0.992=2.08 раза.

5.4. Выборочное распределение выборочной дисперсии.

Пусть случайная величина Х имеет математическоеожидание µ и генеральную дисперсию 2σ . Оценкамиматематического ожидания и дисперсии по выборке

),...,,( 21 Nxxx будут выборочная средняя и выборочнаядисперсия:

2

1

2

1)(

111 Xx

Nx

NX

N

kk

N

kk −

−== ∑∑

==

σ

Page 68: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

68

Рассмотрим случайную величину 222 /)1( σσχ −= N . Этавеличина подчиняется χ2-распределению с 1−= Nν степенямисвободы, если выборочная средняя X нормально распределена.Для малых выборок это χ2-распределение имеет положительнуюасимметрию, но с увеличением объема выборки его асимметриястремится к нулю.

5.5. Доверительный интервал для генеральной дисперсии.

Доверительный интервал возможных значений величины 2χ ,характеризующийся доверительной вероятностью P или уровнемзначимости Pq −= 1 , это такой интерквантильный промежуток

2,2/1

22,2/ νν χχχ qq −≤≤ , внутри которого лежат P100 процентов

всех значений случайной величины 2χ , а q100 процентов лежатвне этого промежутка. При этом 2/100q процентов лежит слева

от 2,2/ νχ q и 2/100q процентов лежит справа от 2

,2/1 νχ q− .

Величины 2,2/ νχ q и 2

,2/1 νχ q− - это квантили 2χ -распределения

с 1−= Nν степенями свободы. Подставив значение222 /)1( σσχ −= N получаем, что

2,2/12

22

,2/ )1( νν χσσχ qq N −≤−≤

Отсюда следует, что доверительный интервал для генеральнойдисперсии через выборочную дисперсию задается в виде:

2,2/

22

2,2/1

2)1()1(

νν χσσ

χσ

qq

NN −≤≤

Пусть в испытании получено значение выборочного с.к.о.5.2=σ по выборке объемом 25=N . Зададимся уровнем

значимости 05.0=q .Вычислим с помощью функций Microsoft Excel доверительный

интервалы для генеральной дисперсии:

Page 69: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

69

10.1281.34.12

5.22436.395.224

36.39)24,975.01(2975.02/1

40.12)24,025.01(2025.02/241251

255.2

2

22

2

224,975.0

224,025.0

≤≤

≤≤

=−=⇒=−

=−=⇒=

=−=−===

σ

σ

χ

χ

νσ

ОБРХИq

ОБРХИqN

N

Ширина доверительного интервала = 12.10 - 3.81 = 8.29

5.6. Статистическая проверка гипотез.

Статистическая гипотеза - это предположительное суж-дение о закономерностях, которым подчиняется случайная ве-личина. Мы будем рассматривать гипотезы о величине парамет-ров закона распределения вероятностей и о его виде.

Статистическая проверка гипотез - это система приемов,предназначенных для проверки соответствия эмпирическихданных некоторой статистической гипотезе. Процесс проверкибазируется на формулировании 2-х гипотез - нулевой и альтер-нативной:- нулевая гипотеза 0H - это гипотеза, которая считается вер-

ной до тех пор, пока не будет доказано обратное исходя изрезультатов статистической проверки,

- альтернативная гипотеза 1H - это гипотеза, которая при-нимается, если в результате статистической проверки отвер-гается нулевая гипотеза.

Критерий проверки

Правило, по которому принимается или отклоняется нулеваягипотеза, называется статистическим критерием проверки.Построение критерия определяется выбором некоторой функ-ции Q от результатов наблюдений, которая служит мерой рас-хождения между эмпирическими и теоретическими значениями.Функция Q называется статистикой критерия и являетсяслучайной величиной.

Page 70: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

70

По распределению статистики Q находится такое значение

0Q , что если гипотеза 0H верна, то вероятность того, что

0QQ > равна q , где q - это заданный заранее уровень значи-мости. Если 0QQ ≤ , то гипотеза 0H принимается, а если

0QQ > , то гипотеза 0H отвергается.

Ошибки 1-го и 2-го рода

При решении вопроса о справедливости гипотезы 0H могутбыть допущены ошибки двух видов:- ошибка первого рода происходит тогда, когда отвергается

верная гипотеза 0H ,- ошибка второго рода происходит тогда, когда принимается

ложная гипотеза 0H .

Уровень значимости

Очевидно, что уровень значимости q - это вероятность ошибкипервого рода. Если он чрезмерно велик, то в основном ущерббудет связан с ошибочным отклонением верной гипотезы 0H ,если же он чрезмерно мал, то ущерб будет возникать от оши-бочного принятия ложной гипотезы 0H . На практике в качествеуровня значимости выбирают вероятность в пределах от 0.01 до0.1.

5.7. Проверка гипотез о величине генеральной средней.

Располагая априорными суждениями о величине генераль-ной средней (математического ожидания) мы можем проверитьгипотезу о том, соответствует ли выборочная средняя априор-ному значению математического ожидания.

Проверка гипотезы о соответствии выборочной средней ап-риорному значению математического ожидания может быть од-носторонней (правосторонней или левосторонней) или двусто-ронней:- двусторонняя проверка используется в том случае, когда не-

обходимо проверить, равна ли выборочная средняя априор

Page 71: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

71

ному значению математического ожидания, и гипотеза фор-мулируется в виде:

µ

µ

=

XH

XH

:

:

1

0

- правосторонняя проверка используется в том случае, когданеобходимо проверить, что выборочная средняя больше, чемаприорное значение математического ожидания, и гипотезаформулируется в виде:

µ

µ

>

=

XH

XH

:

:

1

0

- левосторонняя проверка используется в том случае, когданеобходимо проверить, что выборочная средняя меньше,чем априорное значение математического ожидания, и гипо-теза формулируется в виде:

µ

µ

<

=

XH

XH

:

:

1

0

Проиллюстрируем проверку гипотез на примерах.

Двусторонняя проверка гипотез

1) Априорная информацияМатематическое ожидание 1=µ

2) Результаты испытания5.22.1100 === σXN

3) Гипотеза

µ

µ

=

XH

XH

:

:

1

0

4) Принятая величина уровня значимости05.0=q

5) Критерий проверки

NXt

/σµ−

=

6) Правило принятия решения

Page 72: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

72

Принять Н0 , если νν ,2/1,2/1 qq ttt −− ≤≤−В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки t попадает в критическую область

ν,2/1|| qtt −> .7) Расчет границ критической области

984.1)99,05.0(

)1,(,2/1

==

=−=−

БРСТЬЮДРАСПО

NqБРСТЬЮДРАСПОt q ν

8) Расчет критерия проверки

8.0100/5.212.1

/=

−=

−=

NXtσ

µ

9) Проверка гипотезыТак как νν ,2/1,2/1 qq ttt −− ≤≤− , то критерий проверки 8.0=tне попадает в критическую область и мы принимаем гипоте-зу Н0 . Это означает, что при заданном уровне значимостивыборочная средняя 2.1=X статистически незначимо от-личается от априорной величины математического ожида-ния 1=µ .

Правосторонняя проверка гипотез

1) Априорная информацияМатематическое ожидание 7.0=µ

2) Результаты испытания5.22.1100 === σXN

3) Гипотеза

µ

µ

>

=

XH

XH

:

:

1

0

4) Принятая величина уровня значимости05.0=q

5) Критерий проверки

NXt

/σµ−

=

6) Правило принятия решения

Page 73: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

73

Принять Н0 , если ν,1 qtt −≤В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки t попадает в критическую область

ν,1 qtt −> .7) Расчет границ критической области

66.1)99,05.02(

)1,2(,1

=×=

=−=−

БРСТЬЮДРАСПО

NqБРСТЬЮДРАСПОt q ν

8) Расчет критерия проверки

2100/5.2

7.02.1/

=−

=−

=N

Xtσ

µ

9) Проверка гипотезыТак как ν,1 qtt −> , то критерий проверки 2=t находится вкритической области и мы отвергаем гипотезу Н0 и прини-маем гипотезу Н1. Это означает, что при заданном уровнезначимости выборочная средняя 2.1=X статистическизначимо отличается от априорной величины математическо-го ожидания 7.0=µ .

Левосторонняя проверка гипотез

1) Априорная информацияМатематическое ожидание 5.1=µ

2) Результаты испытания5.22.1100 === σXN

3) Гипотеза

µ

µ

<

=

XH

XH

:

:

1

0

4) Принятая величина уровня значимости05.0=q

5) Критерий проверки

NXt

/σµ−

=

6) Правило принятия решения

Page 74: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

74

Принять Н0 , если ν,1 qtt −−≥В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки t попадает в критическую область

ν,1 qtt −−< .7) Расчет границ критической области

66.1)99,05.02(

)1,2(,1

−=×−=

=−−=− −

БРСТЬЮДРАСПО

NqБРСТЬЮДРАСПОt q ν

8) Расчет критерия проверки

2.1100/5.2

5.12.1/

−=−

=−

=N

Xtσ

µ

9) Проверка гипотезыТак как ν,1 qtt −−≥ , то критерий проверки 2.1−=t не попа-дает в критическую область и мы принимаем гипотезу Н0.Это означает, что при заданном уровне значимости выбо-рочная средняя 2.1=X статистически незначимо отличает-ся от априорной величины математического ожидания

5.1=µ .

5.8. Проверка гипотез о величине генеральной дисперсии.

Располагая априорными суждениями о величине генераль-ной дисперсии мы можем проверить гипотезу о том, соответст-вует ли выборочная дисперсия априорному значению генераль-ной дисперсии.

Проверка гипотезы для дисперсии может быть односторон-ней (правосторонней или левосторонней) или двусторонней:- двусторонняя проверка используется в том случае, когда не-

обходимо проверить, равна ли выборочная дисперсия апри-орному значению генеральной дисперсии, и гипотеза фор-мулируется в виде:

22

1

22

0

:

:

σσ

σσ

=

H

H

- правосторонняя проверка используется в том случае, когданеобходимо проверить, что выборочная дисперсия больше,

Page 75: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

75

чем априорное значение генеральной дисперсии, и гипотезаформулируется в виде:

22

1

22

0

:

:

σσ

σσ

>

=

H

H

- левосторонняя проверка используется в том случае, когданеобходимо проверить, что выборочная дисперсия меньше,чем априорное значение генеральной дисперсии, и гипотезаформулируется в виде:

22

1

22

0

:

:

σσ

σσ

<

=

H

H

Проиллюстрируем проверку гипотез на примерах.

Двусторонняя проверка гипотез

1) Априорная информацияГенеральная дисперсия 42 =σ

2) Результаты испытания

25.65.2252=== σσN

3) Гипотеза

22

1

22

0

:

:

σσ

σσ

=

H

H

4) Принятая величина уровня значимости05.0=q

5) Критерий проверки

2

22 )1(

σσχ −= N

6) Правило принятия решенияПринять Н0 , если 2

,2/122

,2/ νν χχχ qq −≤≤В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки 2χ попадает в критическую об-ласть 2

,2/122

,2/2

νν χχχχ qq или −><

Page 76: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

76

7) Расчет границ критической области

36.39)24,975.01(2

40.12)24,025.01(22

24,975.02

,2/1

224,025.0

2,2/

=−==

=−==

− ОБРХИ

ОБРХИ

q

q

χχ

χχ

ν

ν

8) Расчет критерия проверки

50.37425.624)1( 2

22 ==−=

σσχ N

9) Проверка гипотезыТак как 2

,2/122

,2/ νν χχχ qq −≤≤ , то критерий проверки

50.372 =χ не попадает в критическую область и мы при-нимаем гипотезу Н0. Это означает, что при заданном уровне

значимости выборочная дисперсия 25.62=σ статистически

незначимо отличается от априорной величины генеральнойдисперсии 42 =σ .

Правосторонняя проверка гипотез

1) Априорная информацияГенеральная дисперсия 6.32 =σ

2) Результаты испытания

25.65.2252=== σσN

3) Гипотеза

22

1

22

0

:

:

σσ

σσ

>

=

H

H

4) Принятая величина уровня значимости05.0=q

5) Критерий проверки

2

22 )1(

σσχ −= N

6) Правило принятия решенияПринять Н0 , если 2

,12

νχχ q−≤

Page 77: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

77

В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки 2χ попадает в критическую об-ласть 2

,12

νχχ q−>7) Расчет границ критической области

42.36)24,95.01(2224,95.0

2,1 =−==− ОБРХИq χχ ν

8) Расчет критерия проверки

67.416.325.624)1( 2

22 ==−=

σσχ N

9) Проверка гипотезыТак как 2

,12

νχχ q−> , то критерий проверки 67.412 =χ на-ходится в критической области и мы отвергаем гипотезу Н0и принимаем гипотезу Н1. Это означает, что при заданном

уровне значимости выборочная дисперсия 25.62=σ стати-

стически значимо отличается от априорной величины гене-ральной дисперсии 6.32 =σ .

Левосторонняя проверка гипотез

1) Априорная информацияГенеральная дисперсия 92 =σ

2) Результаты испытания

25.65.2252=== σσN

3) Гипотеза

22

1

22

0

:

:

σσ

σσ

<

=

H

H

4) Принятая величина уровня значимости05.0=q

5) Критерий проверки

2

22 )1(

σσχ −= N

6) Правило принятия решенияПринять Н0 , если 2

,2

νχχ q≥

Page 78: Булашев. Статистика для трейдеров

Глава 5. Статистические выводы

С.В. Булашев. Статистика для трейдеров (электронная версия).

78

В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки 2χ попадает в критическую об-ласть 2

,2

νχχ q<7) Расчет границ критической области

85.13)24,05.01(2224,05.0

2, =−== ОБРХИq χχ ν

8) Расчет критерия проверки

67.16925.624)1( 2

22 ==−=

σσχ N

9) Проверка гипотезыТак как 2

,2

νχχ q≥ , то критерий проверки 67.162 =χ непопадает в критическую область и мы принимаем гипотезуН0. Это означает, что при заданном уровне значимости вы-

борочная дисперсия 25.62=σ статистически незначимо

отличается от априорной величины генеральной дисперсии92 =σ .

Page 79: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

79

6. ИДЕНТИФИКАЦИЯ ЗАКОНА РАСПРЕДЕЛЕНИЯ ПОВЫБОРКЕ СЛУЧАЙНОЙ ВЕЛИЧИНЫ.

6.1. Введение.

В данной главе будет рассмотрен вопрос о том, как по эм-пирической выборке идентифицировать закон распределенияслучайной величины.

Подробно рассмотрена проблема группировки данных, тоесть расчет оптимального количества интервалов группировки иоптимальной ширины интервала, а также построения по сгруп-пированным данным гистограммы распределения.

Полученное эмпирическое распределение будет аппрокси-мировано непрерывной аналитической функцией, то есть будетидентифицирован закон распределения случайной величины.Также рассмотрено использование критериев согласия приидентификации закона распределения.

В качестве выборки случайной величины использована вы-борка, состоящая из логарифмов относительного изменения ве-личины индекса Российской торговой системы (индекса РТС) запериод с 1 сентября 1995 года по 31 декабря 2002 года.

6.2. Группировка данных. Оптимальное число интерваловгруппировки.

Для расчета оценок математического ожидания, дисперсии,среднеквадратичного отклонения, коэффициента асимметрии иэксцесса (на основе моментов распределения) не требуетсяпредварительного упорядочивания и группировки данных. Этивеличины могут быть найдены непосредственно по исходнойвыборке.

Для определения медианы, квантилей распределения, дляудаления промахов из выборки данные необходимо располо-жить в порядке возрастания, то есть упорядочить выборку.

Группировка данных необходима для того, чтобы найтиформу распределения, то есть, в конечном итоге идентифициро-вать закон распределения.

В результате группировки выборка представляется в видегистограммы, состоящей из L столбцов (интервалов

Page 80: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

80

группировки), каждый из которых имеет ширину d. Посленормирования гистограмма представляет собой эмпирическуюплотность распределения случайной величины.

Из качественных соображений следует, что должносуществовать оптимальное число интервалов группировки.

Действительно, при большом количестве столбцов ипоэтому малой ширине столбца, из-за случайности выборкигистограмма будет заполнена очень неравномерно, иметь сильноизрезанный вид, состоять из большого количества всплесков ипровалов.

При другой крайности, то есть очень малом числе столбцовбольшой ширины, гистограмма будет излишне сглаживатьраспределение, уничтожать его характерные особенности.Например, если выбрать только один интервал группировки сшириной, равной размаху выборки, то любое распределениесведется к прямоугольному. Два столбца выбирать нельзя, таккак любое симметричное распределение, как и в предыдущемслучае, сведется к прямоугольному. Три столбца также даютмало информации о форме распределения.

Эти сугубо качественные рассуждения показывают, чтодолжно существовать некоторое оптимальное количествоинтервалов группировки.

Если исходить из предположения, что генеральнаясовокупность, из которой получена данная конкретная выборка,имеет гладкую кривую плотности вероятности (это справедливов большинстве случаев), то неравномерности гистограммыявляются случайным шумом, обусловленным случайностьювыборки. Увеличение ширины столбца и уменьшениеколичества столбцов фильтруют этот шум. Однако, дальнейшееувеличение ширины столбца начинает сглаживать уже самораспределение.

Следовательно, определение оптимального числаинтервалов группировки при построении гистограммы являетсязадачей оптимальной фильтрации. При этом оптимальноеколичество столбцов гистограммы - это такое количество,при котором максимально возможное сглаживание случайногошума сочетается с минимальным искажением отсглаживания самого распределения.

Page 81: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

81

Оптимальное число столбцов должно зависеть не только отобъема выборки, как это указано в большинстве пособий постатистике. Очевидно, что это число зависит еще и от формыраспределения. Действительно, если плосковершинныераспределения можно приблизить достаточно малымколичеством столбцов, то для островершинных распределений сих длинными, пологими спадами это количество естественнодолжно быть больше.

Количество интервалов группировки должно бытьнечетным числом. При четном числе столбцов область вблизицентра распределения будет описываться двумя симметричнорасположенными относительно центра столбцами гистограммы,тем самым пик распределения будет неоправданносглаживаться. Это особенно критично для островершинныхраспределений. Как уже говорилось выше, три столбца даюточень мало информации о форме распределения. Поэтому будемсчитать, что количество столбцов гистограммы должно бытьнечетным числом не менее пяти.

Эмпирическая формула для оценки оптимальногоколичества столбцов гистограммы как функции от объемавыборки N и эксцесса ε , пригодная к применению дляширокого класса распределений следующая:

4.0

65.1 NL +

Вычисленное по этой формуле значение должно бытьокруглено вниз до ближайшего большего или равного пятинечетного целого.

Используя значение L , ширину столбца гистограммы

можно найти по формуле: L

Xxd k |)max(|2 −=

6.3. Построение гистограммы распределения.

Изложим алгоритм построения гистограммы по выборкеслучайных величин Nkxk ,...,1},{ = :1) Упорядочить исходную выборку по возрастанию.2) Вычислить оценки центра распределения:

Page 82: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

82

Хмедиана, Хцентр_сгибов, X , %50X , Хцентр_размаха.Упорядочить эти оценки по возрастанию и выбрать из них вкачестве центра распределения серединное, то есть третьепо счету, значение, которое обозначить как ХЦЕНТР.

3) Вычислить оценку среднеквадратичного отклонения

2

1)(

11

ЦЕНТР

N

kk Xx

N−

−= ∑

=

σ

4) Вычислить оценку эксцесса

)3)(2()1)(32(3

)()3)(2)(1(

321 4

1

2

4

−−−−

−−−−−

+−⋅= ∑

=

NNNNN

ХxNNN

NNЦЕНТР

N

kk

σε

5) Вычислить коэффициент цензурирования

1)10/lg(8.055.1 −⋅⋅+= εNG6) Исключить из выборки все значения (промахи), лежащие за

пределом интервалаσσ ⋅+≤≤⋅− GXxGX ЦЕНТРЦЕНТР

Если в выборке присутствовали промахи, то ее объемуменьшился. Обозначим как Mkxk ,...,1},{ = очищеннуюот промахов выборку )( NM ≤ . Все дальнейшие операциибудут проводиться с очищенной выборкой.

7) Заново вычислить параметры распределения

=

=

=

−−−

⋅=

−−

=

=

M

kk

M

kk

M

kk

XxMM

M

XxM

xM

X

1

33

2

1

1

)()2)(1(

1

)(1

1

1

σγ

σ

Page 83: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

83

)3)(2()1)(32(3

)()3)(2)(1(

321 4

1

2

4

−−−−

−−−−−

+−⋅= ∑

=

MMMMM

XxMMM

MM M

kk

σε

8) Рассчитать оптимальное количество столбцов гистограммы

4.0

65.1 ML +

Полученное число округлить вниз до ближайшего большегоили равного пяти нечетного целого.

9) Рассчитать левую и правую границы гистограммы

|)max(|

|)max(|

max

min

XxXX

XxXX

k

k

−+=

−−=

10) Рассчитать ширину столбца гистограммы

LXx

LXXd k |)max(|2minmax −

=−

=

11) Рассчитать массив узлов разбиения на оси х

1,...,1)1(min

+=⋅−+=

LidiXX i

Интервалы между соседними узлами являются интерваламиразбиения.

12) Рассчитать количество случайных величин из выборкиMkxk ,...,1},{ = , которое попадает в каждый из интервалов

разбиения. В результате получится ненормированнаягистограмма распределения или гистограмма частот. Оназадана в виде массива, который обозначим как

Lisi ,...,1},{ = .13) В случае, если есть основания полагать, что плотность

вероятности должна быть симметричной, и в подтверждениеэтого, вычисленный на шаге 7 коэффициент асимметриинезначительно отличается от нуля, то можно провестирасчетное симметрирование гистограммы. Центральныйстолбец остается без изменения, а в симметричных

Page 84: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

84

относительно него парах столбцов количество отсчетовусредняется.

14) Вычислить площадь S ненормированной гистограммы. Онадолжна быть равна произведению ширины столбца d наобъем выборки M.

15) Нормировать гистограмму путем деления количестваотсчетов в каждом столбце на S. Таким образом на этомшаге получена гистограмма плотности вероятности:

LiMdsSsp iii

,...,1)/(/

=⋅==

16) Рассчитать значения интегральной функции распределения вузлах разбиения

1,...,2

0

11

1

+=⋅+=

−−

LidpFF

F

iii

Фактически, на этом шаге мы получили функциюраспределения в табличном виде, то есть мы имеем массивзначений случайной величины }{ iX и соответствующийему массив значений 1,...,1},{ += LiFi .

6.4. Гистограмма логарифмов относительных изменений ин-декса РТС.

Рассмотрим временной ряд, состоящий изпоследовательных значений цены некоторого актива

TtPt ,...,0},{ = . Тогда цену в момент времени Т можно пред-ставить, как

111

2

0

10 ......

−−

=T

T

t

tT P

PPP

PP

PPPP

Движение цены актива - это случайный процесс, вызванныйдействиями большого количества участников рынка. Предполо-жим, что отношения цен активов в любой момент времени яв-ляются случайными величинами с одинаковым законом распре-деления.

Page 85: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

85

Тогда по выборке этих случайных величин, которая можетбыть получена из ценового ряда, можно определить их законраспределения.

Но исследовать непосредственно отношение цен представ-ляется не совсем удобным. Дело в том, что так как цена не мо-жет упасть ниже нуля, то отношение цен также не может бытьменьше нуля. С другой стороны, цена может сколь угодно силь-но вырасти, то есть отношение цен может быть неограниченнобольшим. Этих качественных рассуждений достаточно, чтобыпонять, что плотность вероятности отношения цен будет иметьположительную асимметрию. Однако, если мы перейдем к лога-рифмам отношения цен, ситуация изменится.

)ln(...)ln(...)ln()ln()ln()ln(111

2

0

10

−−

+++++=−T

T

t

tT P

PPP

PP

PPPP

Распределение логарифмов уже может быть симметрично ивозможна его аппроксимация одним из аналитических законовраспределения, которые были рассмотрены во второй главе.

В качестве примера ценового ряда рассмотрим индекс Рос-сийской торговой системы (индекс РТС) за период с 1 сентября1995 года по 31 декабря 2002 года. График этого ряда изображенна рисунке:

Индекс РТС

0

100

200

300

400

500

600

сен.

95

мар

.96

окт.

96

апр.

97

ноя.

97

июн.

98

дек.

98

июл.

99

янв.

00

авг.0

0

фев

.01

сен.

01

апр.

02

окт.

02

Исследуемой выборкой случайных величин будут нату-ральные логарифмы отношения цен закрытия индекса РТС.

Page 86: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

86

Подробный алгоритм вычисления параметров распределе-ния, построения графиков плотности распределения и функциираспределения рассмотрен в предыдущем параграфе, поэтомуздесь приведем только результаты.

Наименование оценки Величина

Центр распределения (математическоеожидание)

0.0007

Среднеквадратичное отклонение 0.0324Коэффициент асимметрии -0.3064Эксцесс 7.4301

Плотность вероятности

02468

1012141618

-0.20 -0.10 0.00 0.10 0.20

Функция распределения

0.0

0.2

0.4

0.6

0.8

1.0

-0.20 -0.10 0.00 0.10 0.20

Page 87: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

87

Отметим, что с.к.о. превышает математическое ожиданиеболее чем в 46 раз, то есть исследуемая случайная величина яв-ляется высоковолатильной. Распределение имеет очень неболь-шую отрицательную асимметрию, которая вероятно носит слу-чайный характер, поэтому гистограмма плотности вероятностибыла центрирована.

Эксцесс распределения существенно превышает эксцесснормального распределения, то есть данное распределение яв-ляется островершинным.

Гистограмма распределения имеет 27 столбцов. Для боль-шей наглядности плотность вероятности приведена не в видегистограммы, а как плавная линия, проходящая через серединыинтервалов разбиения.

6.5. Использование критериев согласия при идентификациизакона распределения случайной величины.

После построения гистограммы распределения можно вы-двинуть гипотезу о том, что данная гистограмма может быть ап-проксимирована одним из изученных ранее законов распределе-ния. При этом степень близости гистограммы и принятой анали-тической модели может быть проверена с использованием кри-териев согласия. Здесь будет рассмотрен один из этих критериев- критерий χ2 Пирсона.

При использовании критерия согласия Пирсона необходимовычислить величину:

∑=

−=

L

i i

ii

TsT

1

22 )(χ

гдеL - количество столбцов гистограммы,

is - фактическая частота попадания в i-й столбец,

iT - теоретическая частота попадания в i-й столбец.Для идеально подобранной модели все разности )( ii sT − равнынулю и, следовательно, величина χ2 также равна нулю. Такимобразом, ненулевое значение χ2 является мерой суммарного рас-хождения между фактическим распределением и моделью.

Page 88: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

88

Насколько велико это расхождение можно проверить, срав-нив фактическое значение χ2 с теоретической величиной 2

,1 νχ q− ,которая определяет максимально возможное расхождение меж-ду фактическими данными и моделью, соответствующее приня-тому уровню значимости q .

Уровень значимости q определяет вероятность ошибки 1-города, то есть вероятность того, что будет отвергнута не проти-воречащая эмпирическим данным модель.

Величина ν - это число степеней свободы χ2-распределения. Число степеней свободы зависит от количествастолбцов гистограммы эмпирических данных L и количествапараметров r, описывающих теоретическую модель:

rL −−= 1ν . Величина 2

,1 νχ q− - это такая квантиль χ2-распределения, что

)1(100 q− процентов всех значений случайной величины χ2

лежат слева от 2,1 νχ q− , а q100 процентов всех значений

случайной величины χ2 лежат справа от 2,1 νχ q− .

Если 2,1

2νχχ q−≤ , то считают, что модель не противоречит

фактическим данным при заданном уровне значимости.Если 2

,12

νχχ q−> , то считают, что при заданном уровнезначимости модель не описывает удовлетворительным образомфактические данные и должна быть отвергнута.

Следует особо подчеркнуть, что при проверке модели покритерию согласия определенным является лишь отрицатель-ный ответ, то есть отклонение модели.

Положительный ответ означает лишь то, что модель не про-тиворечит эмпирическим данным. Это вовсе не означает, чтоименно этой моделью данные описываются на самом деле, чтоэто наилучшая модель, что нельзя подобрать другую модель дляописания данных и т.д. Фактически, положительный ответ припроверке по критерию согласия следует понимать как "возмож-но эти данные описываются такой-то моделью", и не более того.

Page 89: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

89

Вернемся к полученной в предыдущем параграфе гисто-грамме натуральных логарифмов относительного изменения це-ны закрытия индекса РТС.

Гистограмма имеет ярко выраженный пик и достаточно по-логие спады. Островершинность подтверждается еще и значени-ем эксцесса, существенно превышающим эксцесс нормальногораспределения. Как нам уже известно, распределения с подоб-ными характеристиками могут быть описаны обобщенным экс-поненциальным распределением с показателем степени меньшедвух.

Выдвинем гипотезу о том, что фактическое распределениеописывается моделью

+∞<<∞−

−−= xx

Гxp

α

λσµ

λσαα exp

)/1(2)(

где математическое ожидание 0007.0=µсреднеквадратичное отклонение 0324.0=σпоказатель степени 87.0=α

Показатель степени был найден из значения оценки эксцес-са распределения, так как для обобщенного экспоненциальногораспределения показатель степени и эксцесс имеют взаимно од-нозначное соответствие:

2)]/3(/[)/5()/1( αααε ГГГ=Исследуемое эмпирическое распределение имеет 27 столб-

цов. Аналитическая модель имеет 3 параметра. Следовательно,число степеней свободы для критерия Пирсона равно

2331271 =−−=−−= rLν .Фактические и теоретические частоты попадания в столбцы

гистограммы дадим для наглядности в графическом виде.

Page 90: Булашев. Статистика для трейдеров

Глава 6. Идентификация закона распределения по выборке случайной ве-личины

С.В. Булашев. Статистика для трейдеров (электронная версия).

90

Распределение фактических и теоретических частот

0

100

200

300

400

500

600

-0.20 -0.15 -0.10 -0.05 0.00 0.05 0.10 0.15 0.20

ФактическаячастотаТеоретическаячастота

Фактическое значение 635.352 =χ . Проверим гипотезу отом, что 2

,12

νχχ q−≤ .

2,1

21

2,1

20

:

:

ν

ν

χχ

χχ

q

q

H

H

>

Пусть уровень значимости 01.0=q . Тогда граница крити-ческой области вычисляется как:

638.41)23,01.0(22,1 ==− ОБРХИq νχ

Так как 2,1

2νχχ q−≤ , то исследуемое распределение при

заданном уровне значимости можно аппроксимироватьобобщенным экспоненциальным распределением.

В заключении следует сказать, что для ликвидныхроссийских акций, торгующихся в РТС, таких как РАО ЕЭС,Лукойл, Сургутнефтегаз, Ростелеком, Мосэнерго,распределения логарифмов относительного изменения цены за-крытия также можно описать обобщенным экспоненциальнымраспределением с соответствующим математическиможиданием, среднеквадратичным отклонением и показателемстепени.

Page 91: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

91

7. КОРРЕЛЯЦИЯ СЛУЧАЙНЫХ ВЕЛИЧИН

7.1. Введение.

Существует два типа зависимостей между переменными:функциональная (строго детерминированная) и статистическая(стохастически детерминированная).

В случае функциональной зависимости каждому значениюодной переменной соответствует одно или несколько строго за-данных значений другой переменной. Функциональная связьдвух переменных возможна, если вторая переменная зависит отпервой и ни от чего более. На практике таких связей не сущест-вует, то есть функциональная связь является упрощающей ре-альность абстракцией.

В случае статистической связи каждому значению однойвеличины соответствует определенное распределение вероятно-сти другой величины. Это связано с тем, что в любой математи-ческой модели на описываемый показатель влияют не толькоявным образом входящие в модель переменные, но и большоеколичество факторов, которые существуют в действительности,но не учитываются моделью, причем часть из этих факторов -это случайные величины. Этим можно объяснить случайный ха-рактер многих финансовых переменных и взаимосвязей междуними.

Важнейшим частным случаем статистической связи являет-ся корреляционная связь, когда каждому значению одной пере-менной соответствует определенное математическое ожида-ние другой переменной, и при изменении значения одной вели-чины математическое ожидание другой величины изменяетсязакономерным образом. Если же при изменении значения однойпеременной закономерным образом изменяется другая стати-стическая характеристика второй переменной (дисперсия, асим-метрия, эксцесс и т.д.), то связь является статистической, но некорреляционной. Данная глава посвящена изучению линейнойкорреляционной связи между случайными величинами.

7.2. Функция регрессии.

Рассмотрим две непрерывные случайные величины Х и Y.Тогда вероятность того, что в некотором испытании величина Х

Page 92: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

92

окажется в интервале от x до dxx + , а величина Y окажется винтервале от y до dyy + равна dxdyyxpxy ),( . Величина

),( yxpxy называется плотностью двумерного распределениявероятностей величин Х и Y.

Для двумерного распределения вероятностей плотностьраспределения координат х и у выражается формулами:

∫∞+

∞−

+∞

∞−

=

=

dxyxpyp

dyyxpxp

xyy

xyx

),()(

),()(

Случайные величины Х и Y находятся в корреляционнойзависимости, если:- каждому значению переменной Х соответствует определенное

математическое ожидание переменной Y,- каждому значению переменной Y соответствует определенное

математическое ожидание переменной Х.

Рассмотрим условное распределение вероятности переменнойY при фиксированном значении переменной Х. Оно описываетсяусловной плотностью распределения:

)(/),(),(| xpyxpyxp xxyxy =Используя условную плотность распределения можно найти

математическое ожидание случайной величины Y , при условиитого, что случайная величина Х равна фиксированному значению х(условное математическое ожидание):

∫+∞

∞−

⋅= dyyxpyxM xyxy ),()( ||

Условное математическое ожидание )(| xM xy называют ещефункцией регрессии Y на Х. Функция регрессии обладаетважнейшим свойством: среднеквадратичное отклонение случайнойвеличины Y от функции регрессии Y на Х меньше, чем ее средне-квадратичное отклонение от любой другой функции от х.

Если функцию регрессии можно удовлетворительным образомаппроксимировать линейной зависимостью, то такая регрессия

Page 93: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

93

называется линейной. Линейная регрессия обладает тем свойством,что если регрессия Y на Х линейна, то регрессия X на Y также ли-нейна.

Заметим, что функции регрессии X на Y и Y на Х не являют-ся взаимно обратными и соответствующие линии регрессиисовпадают только в случае, когда величины Y и Х связаныфункционально. Если эти величины связаны корреляционно, толинии регрессии X на Y и Y на Х различны.

В дальнейшем мы ограничимся рассмотрением только техслучаев, когда функция регрессии является линейной.

7.3. Линейная корреляция.

Корреляционная зависимость между случайными величи-нами X и Y называется линейной корреляцией, если обе функциирегрессии X на Y и Y на Х являются линейными.

Пусть математическое ожидание и дисперсия случайнойвеличины Х равны 2, xx σµ , а математическое ожидание и

дисперсия случайной величины Y равны 2, yy σµ .Выведем уравнение регрессии Y на Х, то есть найдем коэф-

фициенты линейной функции baxy += .1) Выразим коэффициент b через математические ожидания X

и Y

xy

xy

ab

babxaMbaxMyM

µµ

µµ

−=

+=+=+=≡ )()()(

2) Тогда уравнение регрессии можно переписать в виде

)( xy

xy

xay

aaxy

µµ

µµ

−⋅=−

−+=

3) Найдем коэффициент регрессии а через математическоеожидание произведения случайных величин X и Y

)]([)( xy aaxxMxyM µµ −+=

22

2

)()(

)()()()(

xyx

xy

axaMxyM

xaMxMxaMxyM

µµµ

µµ

−+=

−+=

Page 94: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

94

2

2

22

)()(

])([)(

x

yx

yxx

yxx

xyMa

axyM

xMaxyM

σµµ

µµσ

µµµ

−=

+=

+−=

4) Назовем коэффициентом корреляции между X и Yследующую безразмерную и симметричную относительно Xи Y величину

yx

yx

y

y

x

x yxMyxMσσ

µµσµ

σµρ

)])([()()( −−=

−⋅

−=

5) Тогда математическое ожидание произведения случайныхвеличин X и Y можно выразить через коэффициенткорреляции

yxyx

yxyx

yxxy

yxyx

yyxx

xyM

yxMxyM

xM

yMyxMxyM

yxMxyM

µµσρσ

µµµµ

µµµµ

µµµµ

µµµµ

+=

+−−=

+−+

+−+−−=

+−+−≡

)(

)])([()(

)(

)()])([()(

)])([()(

6) Окончательно для коэффициента регрессии Y на Х получаем)/( xya σσρ ⋅=

7) В итоге уравнение регрессии Y на Х приобретает вид)()/( xxyy xy µσσρµ −⋅⋅=−

Тангенс угла наклона, под которым эта прямая пересекаетось х равен )/( xy σσρ ⋅ .

8) Аналогично можно получить уравнение регрессии Х на Y )()/( yyxx yx µσσρµ −⋅⋅=−

Тангенс угла наклона, под которым эта прямая пересекаетось х равен )/()/1( xy σσρ ⋅ .

Заметим, что прямые регрессии Y на Х и Х на Y пересекают ось хпод разными углами. Эти прямые совпадают только тогда, когдамодуль коэффициента корреляции 1|| =ρ . Обе прямые регрес

Page 95: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

95

сии проходят через центр двумерного распределениявероятностей величин Х и Y - точку с координатами ),( yx µµ .

7.4. Коэффициент корреляции. Ковариация.

Рассмотрим подробнее введенный в предыдущем параграфекоэффициент корреляции. Было выяснено, что он равен

yx

yx

y

y

x

xyxxy

xyMyxMσσ

µµσµ

σµρρ

−=

−⋅

−==

)()()(

Следовательно, коэффициент корреляции характеризуетотносительное отклонение математического ожиданияпроизведения двух случайных величин от произведенияматематических ожиданий этих величин. Так как отклонениеимеет место только для зависимых величин, то коэффициенткорреляции характеризует степень этой зависимости.

Коэффициент корреляции обладает следующимисвойствами:1) Линейные преобразования случайных величин Х и Y не

изменяют коэффициента корреляции между ними),(),( 1010 ybbxaayx ++= ρρ

для любых констант 0,,0, 1010 >> bbaa .2) Коэффициент корреляции случайных величин Х и Y заключен в

пределах между -1 и +1, достигая этих крайних значений толь-ко в случае линейной функциональной зависимости между Х иY.

3) Коэффициент корреляции между независимыми случайнымивеличинами равен нулю. Обратное утверждение вообще говоря неверно, то есть есликоэффициент корреляции равен нулю, то это не означаетнезависимости соответствующих величин. В этом случаеговорят, что величины некоррелированы.

Как уже говорилось выше, коэффициент корреляции являетсябезразмерной величиной. Произведение коэффициентакорреляции на среднеквадратичные отклонения случайныхвеличин Х и Y имеет размерность дисперсии и называется кова-риацией случайных величин Х и Y:

yxyxyxxy xyMyxMyx µµµµσσ −=−−==≡ )()])([(),cov(

Page 96: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

96

7.5. Математическое ожидание и дисперсия линейной ком-бинации случайных величин.

В этом параграфе мы рассмотрим правила вычисленияматематического ожидания и дисперсии многомернойслучайной величины, являющейся линейной комбинациейкоррелированных случайных величин:

+∑

=

N

kkk xaaM

10 и

+∑

=

N

kkk xaaD

10

Математическое ожидание

Математическое ожидание обладает следующими свойствами:1) Постоянный множитель можно выносить за знак

математического ожиданияxaxaMaxM µ≡= )()(

2) Математическое ожидание суммы случайной величины иконстанты равно сумме математического ожидания этойвеличины и константы

aaxMaxM x +≡+=+ µ)()(3) Математическое ожидание суммы случайных величин равно

сумме их математических ожиданийyxyMxMyxM µµ +≡+=+ )()()(

Следовательно, для линейной комбинации произвольного коли-чества случайных величин получаем

∑∑∑===

+≡+=

+

N

kkk

N

kkk

N

kkk aaxMaaxaaM

10

10

10 )( µ

Дисперсия

Аналогичные свойства для дисперсии следующие:1) Постоянный множитель можно выносить за знак дисперсии,

возведя его в квадрат222 )()( xaxDaaxD σ≡=

2) Дисперсия суммы случайной величины и константы равнадисперсии случайной величины

2)()( xxDaxD σ≡=+

Page 97: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

97

3) Дисперсия суммы случайных величин равно сумме ихдисперсий плюс удвоенное произведение их коэффициентакорреляции на среднеквадратичные отклонения

yxxyyx

yxyx

yx

yxMyMxM

yxMyxD

σσρσσ

µµµµ

µµ

2

)])([(2)()(

)]()[()(

22

22

2

++=

=−−+−+−=

=+−+=+

Следовательно, для линейной комбинации произвольного количе-ства случайных величин получаем

∑∑∑∑= +===

+=

+

N

k

N

kikiikki

N

kkk

N

kkk aaaxaaD

1 11

22

10 2 σσρσ

Если все случайные величины независимы, то так каккоэффициенты корреляции для различных случайных величинравны 0, а коэффициент корреляции случайной величины ссамой собой равен 1, формула упрощается

∑∑==

=

+

N

kkk

N

kkk axaaD

1

22

10 σ

Полученные выражения для математического ожидания идисперсии линейной комбинации произвольного количествакоррелированных случайных величин позволяют сделатьследующие выводы:- математическое ожидание линейной комбинации случай-

ных величин - это взвешенная сумма математических ожида-ний отдельных случайных величин,

- дисперсия линейной комбинации случайных величин - этовзвешенная сумма ковариаций всех пар случайных величин,при этом вес каждой ковариации равен произведению весовсоответствующей пары случайных величин, а ковариацияслучайной величины с самой собой является дисперсиейданной величины.

7.6. Оценка ковариации и коэффициента корреляции по вы-борке случайных величин.

Для оценки ковариации и коэффициента корреляции междуслучайными величинами Х и Y мы должны располагать двумясоответствующими друг другу выборками этих величин:

Page 98: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

98

Nkyx kk ,...,1}{},{ =

Оценка ковариации

В качестве оценки математического ожидания случайныхвеличин Х и Y используем средние арифметические значения посоответствующим выборкам:

∑∑==

==N

kk

N

kk y

NYx

NX

11

11

Тогда выборочная ковариация случайных величин Х и Y за-дается формулой:

∑=

−−−

=N

kkkxy YyXx

N 1))((

11σ

Оценка коэффициента корреляции

Для оценки коэффициента корреляции между случайнымивеличинами Х и Y нам понадобятся выборочныесреднеквадратичные отклонения этих величин:

∑∑==

−−

=−−

=N

kky

N

kkx Yy

NXx

N 1

2

1

2 )(1

1)(1

1 σσ

Тогда выборочный коэффициент корреляции случайныхвеличин Х и Y задается формулой:

∑∑

==

=

−−

−−=

⋅=

N

kk

N

kk

N

kkk

yx

xyxy

YyXx

YyXx

1

2

1

2

1

)()(

))((

σσσ

ρ

Дисперсию и с.к.о. выборочного коэффициента корреляцииможно оценить как

11

1)1( 222

2

−=

−=

NNxyxy ρ

σρ

σ ρρ

Page 99: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

99

7.7. Оценка коэффициентов линейной регрессии по выборкеслучайных величин.

В параграфе 7.3 было получено, что в случае, когдавеличины Х и Y представлены своими генеральными совокупно-стями, уравнение регрессии Y на Х имеет вид:

)()/( xxyy xy µσσρµ −⋅⋅=−

Следовательно, так как 2/)/( xxyxy σσσσρ ≡⋅ , то коэффициен-

ты ),( ba линейной регрессии baxy += можно представить ввиде:

xyxxy aba µµσσ −== 2/Переходя к выборочным оценкам получаем:

XaYb

XNx

YXNyx

Xx

YyXxa N

kk

N

kkk

N

kk

N

kkk

x

xy

⋅−=

⋅−

⋅⋅−=

−−==

=

=

=

=

2

1

2

1

1

2

12

)(

))((

σ

σ

Аналогичным образом можно получить оценку коэффициентовлинейной регрессии Х на Y.

7.8. Линейная регрессия как наилучшая оценка по методунаименьших квадратов.

Докажем, что полученные в предыдущем параграфе оценкикоэффициентов линейной регрессии Y на Х определяют такуюпрямую линию, что сумма квадратов отклонений величины Y отэтой прямой имеет минимальное значение, по сравнению ссуммой квадратов отклонений величины Y от любой другойпрямой.

Пусть величины Х и Y представлены своими выборками:Nkyx kk ,...,1}{},{ =

Предположим, что зависимость величины Y от величины Хможно аппроксимировать прямой линией βα += xy . Найдемкоэффициенты α и β, которые минимизируют сумму квадратовотклонений величины Y от этой прямой:

Page 100: Булашев. Статистика для трейдеров

Глава 7. Корреляция случайных величин

С.В. Булашев. Статистика для трейдеров (электронная версия).

100

∑=

−−=N

kkk xyS

1

2)( βα

Возьмем частные производные S по α и по β, и приравняем их кнулю:

0)(21

=−−−=∂∂ ∑

=

N

kkk xyS βα

β

0)(21

=−−−=∂∂ ∑

=

N

kkkk xyxS βα

αСледовательно:

0

0

11

2

1

11

=−−

=−−

∑∑∑

∑∑

===

==

N

kk

N

kk

N

kkk

N

kk

N

kk

xxyx

Nxy

βα

βα

Из первого уравнения этой системы следует, что

XYxN

yN

N

kk

N

kk ⋅−=−= ∑∑

==

ααβ11

11

Подставив это выражение во второе уравнение системы посленесложных преобразований получим:

2

1

2

1

XNx

YXNyx

N

kk

N

kkk

⋅−

⋅⋅−=

=

Использованный метод поиска коэффициентов α и β назы-вается методом наименьших квадратов. Сравниваякоэффициенты α и β с полученными в предыдущем параграфевыборочными коэффициентами линейной регрессии видим, чтоони совпадают. Следовательно, утверждение о том, чтокоэффициенты линейной регрессии Y на Х определяют такуюпрямую линию, что сумма квадратов отклонений величины Y отэтой прямой имеет минимальное значение, по сравнению ссуммой квадратов отклонений величины Y от любой другойпрямой, доказано.

Page 101: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

101

8. РЕГРЕССИОННЫЙ АНАЛИЗ

8.1. Введение.

Различные экономические и финансовые переменные связанымежду собой. Если не принимать во внимание случайный характерэтих переменных, то для описания связей между ними можно при-менить функциональный подход, то есть предположить, что связьодной из переменных Y с некоторым количеством других перемен-ных ),...,( 1 MXX можно выразить некоторой функцией (матема-тической моделью):

),...,,,...,( 11 ML XXaafY = , где- ),...,( 1 MXX - это набор независимых переменных, которые

будем называть факторами,- Y - это зависимая переменная, которую будем называть

откликом,- ),...,( 1 Laa - это набор констант, которые будем называть

параметрами математической модели.В случае, когда отклик Y зависит только от единственного фактораХ, модель называется однофакторной. Если отклик Y зависит отнескольких факторов ),...,( 1 MXX , модель называетсямногофакторной.

Математическая модель, связывающая факторы и отклик,может быть найдена только на основе реальных выборок этихвеличин. Определение модели включает в себя два этапа:- выбор вида модели, то есть вида функции f,- расчет параметров выбранной модели ),...,( 1 Laa .Первый этап, то есть выбор вида математической модели, являетсяне формализуемой задачей. Это решение принимается с учетомпростоты и удобства использования модели, содержательности мо-дели и других соображений. Второй этап, то есть расчет парамет-ров выбранной математической модели, является задачей, котораярешается с помощью регрессионного анализа реальных выборокфакторов и отклика.

8.2. Выбор вида математической модели.

Рассмотрим однофакторную зависимость. Этот случай наи-более прост и может быть изучен графически. Предположим,

Page 102: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

102

что имеется массив значений фактора Х и соответствующий емумассив значений отклика Y. Нанесем соответствующие точки

Nkyx kk ,...,1),,( = на график. Если фактор и отклик - это ре-альные статистические данные, то указанные точки никогда нелягут на простую линию (прямую, параболу, гиперболу, экспо-ненту, синусоиду и т.д.). Всегда будут присутствовать отклоне-ния, связанные со случайным характером рассматриваемых пе-ременных и/или с влиянием неучтенных факторов.

Кроме того часто оказывается, что один и тот же набор то-чек можно с примерно одинаковой точностью описать различ-ными аналитическими функциями. Следовательно, выбор видаматематической модели - это не формализуемая задача. Рацио-нальный выбор той или иной модели может быть обоснованлишь с учетом определенных требований, а именно:- простоты модели,- содержательности модели.

Простота модели

Наиболее распространенной ошибкой при описании фактиче-ской зависимости является попытка детерминированного описанияэтой зависимости, то есть включение в математическую модельвсех наблюдающихся особенностей конкретной выборки, в томчисле и тех, которые в действительности носят случайный харак-тер.

Например, любой набор точек Nkyx kk ,...,1),,( = можноописать абсолютно точно полиномом (N-1)-й степени, зависящимот N параметров ),...,,( 110 −Naaa :

∑−

=

=1

0

N

k

kk xay

Но на практике получается, что появляющаяся новая (N+1)-я точкауже не будет удовлетворять полученной формуле. То же самоеможно сказать обо всех появляющихся далее новых точках. Приэтом расхождение между реальными данными и моделью будет на-растать с увеличением количества новых данных.

В то же время может оказаться, что исходный наборзначений ),( kk yx можно приближенно описать какой-либопростой функцией (прямой, параболой, гиперболой, экспонен

Page 103: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

103

той, синусоидой и т.д.), и эта модель, зависящая от небольшогочисла параметров, будет устойчива к появлению новых данных.Следовательно, необходимым требованием к математическоймодели является ее простота.

Содержательность модели

Под содержательностью математической модели будем по-нимать разумную интерпретируемость результатов, которые мо-гут быть получены при вычислении по этой модели.

Поясним это утверждение на простом примере. Пусть нашазадача состоит в том, чтобы описать кривую зависимости ценыбескупонной облигации от срока до погашения облигации. Вданном случае фактором X является срок до погашения, откли-ком Y является цена. На эту математическую модель можно на-ложить очевидные ограничения:1) функция )(xfy = должна быть неотрицательной,2) функция )(xfy = должна быть монотонно убывающей,3) значение функции )(xfy = при 0=x должно быть равно

константе (номиналу облигации),4) значение функции )(xfy = при ∞→x должно стремиться

к нулю.Приведем примеры функций, которые не удовлетворяют хотябы одному из ограничений и поэтому не могут быть использо-ваны для построения рассматриваемой модели из соображенийсодержательности:- линейная функция axby −= не удовлетворяет первому и

четвертому условию, так как при ∞→x величина −∞→y ,- гипербола xaby /+= не соответствует третьему условию,

так как при 0→x величина ∞→y .При этом данные функции могут удовлетворительным образомописывать набор исходных данных ),( kk yx .

8.3. Расчет параметров математической модели.

Если выбор вида математической модели - это не формали-зуемая задача, то расчет параметров уже выбранной математи-ческой модели является чисто формальным процессом. В общем

Page 104: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

104

случае он состоит в решении системы вообще говоря нелиней-ных уравнений.

Рассмотрим произвольную однофакторную зависимость, тоесть модель, в которой связь фактора Х и отклика Y выражаетсяфункцией ),,...,( 1 XaafY L= . Вид функции предполагаетсяизвестным. Наша задача состоит в том, чтобы по имеющейсявыборке данных, то есть по набору точек Nkyx kk ,...,1),,( =вычислить неизвестные параметры модели ),...,( 1 Laa . Для это-го нам нужно решить систему уравнений:

=

=

=

),,...,(...............................),,...,(

...............................),,...,(

1

1

111

NLN

kLk

L

xaafy

xaafy

xaafy

Эта система состоит из N уравнений с L неизвестными па-раметрами модели ),...,( 1 Laa . Возможны три варианта соотно-шения между количеством уравнений N и количествомнеизвестных L:1) N < L

В этом случае объем выборки является недостаточным дляопределения параметров модели. Необходимо увеличитьколичество фактических данных и/или упростить модель,уменьшив количество ее параметров.

2) N = LЕсли объем выборки совпадает с количеством неизвестныхпараметров, то решение системы единственно. Но так какпредполагается, что исходные данные ),( kk yx могут иметь

случайный характер, то и решение ),...,( 1 Laa также случайно,так как оно в точности соответствует случайным исходнымданным.

3) N > LПри объеме выборки, превышающем количество неизвестныхпараметров, система уравнений является избыточной. Изисходной системы уравнений в различных комбинациях можносоставить несколько систем по L уравнений в каждой. Каждая

Page 105: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

105

из систем даст свое решение, и все эти решения будут вообщеговоря разными. Если их нанести на график, то получитсяцелый пучок аппроксимирующих кривых. Если эти кривыекаким-либо образом усреднить, то полученное усредненноерешение будет гораздо достовернее описывать истиннуюзависимость между Х и Y, так как оно в значительной степенибудет защищено от случайности выборки. Этот эффект усред-нения тем больше, чем больше объем выборки N.

Наиболее эффективным методом усреднения решений избыточ-ной системы уравнений является регрессионный анализ или ме-тод наименьших квадратов (МНК).

8.4. Сущность метода наименьших квадратов.

Пусть после предварительного анализа принято решение отом, что связь фактора Х и отклика Y выражается функцией

),,...,( 1 XaafY L= . Наша задача состоит в том, чтобы поимеющейся выборке, то есть по набору точек

Nkyx kk ,...,1),,( = вычислить наилучшие оценки неизвестныхпараметров модели ),...,( 1 Laa . Заметим, что все значения

),( kk yx - это не переменные, а конкретные числа.Между рассчитанными по модели значениями отклика kf и

реальными значениями из выборки ky будут присутствоватьрасхождения, которые обозначим как

),,...,( 1 kLkkkk xaafyfye −=−=Метод наименьших квадратов позволяет найти такой набор

параметров модели, при котором сумма квадратов всех расхож-дений между значениями по выборке и вычисленными по моде-ли значениями будет минимальной, то есть

min)],,...,([

min

1

21

1

2

→−=

→=

=

=

N

kkLk

N

kk

xaafyS

eS

Величина S является функцией от L переменных ),...,( 1 Laa .Минимум этой функции можно найти, приравняв к нулю все ее

Page 106: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

106

частные производные по каждому из неизвестных параметров ирешив полученную таким образом систему из L уравнений:

=∂

∂−−=

∂∂

=∂

∂−−=

∂∂

=

=

0),,...,()],,...,([2

....................................................................................

0),,...,()],,...,([2

1

11

1 1

11

1

N

k L

kLkLk

L

N

k

kLkLk

axaafxaafy

aS

axaafxaafy

aS

Решение такой системы уравнений в случае нелинейной за-висимости между Х и Y может быть сопряжено со значительны-ми трудностями. Поэтому в дальнейшем мы ограничимся рас-смотрением линейной зависимости между Х и Y, то есть линей-ной регрессии. К тому же, во многих случаях нелинейная зави-симость может быть сведена к линейной достаточно простымипреобразованиями данных.

8.5. Свойства ошибок метода наименьших квадратов.

Рассмотрим подробнее ошибки, возникающие при примене-нии МНК, то есть расхождения между рассчитанными по моде-ли значениями отклика kf и реальными значениями из выборки

ky , которые мы обозначили как),,...,( 1 kLkkkk xaafyfye −=−=

Для того, чтобы мы могли сказать, что модель адекватнаэмпирическим данным, эти ошибки должны обладать опреде-ленными свойствами:1) Ошибки должны являться реализацией нормально распреде-

ленной случайной переменной.Это означает, что хотя существует только один главныйфактор Х, определяющий поведение отклика Y, ноприсутствует также большое количество малосущественныхфакторов, совокупное воздействие которых на отклик Yсогласно центральной предельной теореме имеетнормальное распределение.

2) Математическое ожидание ошибки должно быть равнонулю: 0)( =keM .

Page 107: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

107

Это означает, что отсутствует систематическая ошибка вопределении линии регрессии, следовательно оценкипараметров регрессии являются несмещенными, то естьматематическое ожидание оценки каждого параметра равноего истинному значению.

3) Дисперсия ошибки должна быть постоянна: 2)( σ=keD .Это означает, что при увеличении объема выборкидисперсия оценок параметров регрессии стремится к нулю,то есть оценки параметров регрессии являютсясостоятельными.

4) Ошибки должны быть независимыми, то есть

=

≠=

jkjk

ee jk 2

0),cov(

σЭто означает, что ошибка в одной из величин отклика Y неприводит автоматически к ошибкам в последующихвеличинах.

Кроме того, в МНК предполагается что факторы (независимыепеременные) не являются случайными величинами.

8.6. Оценка параметров однофакторной линейной регрессии.

Допустим, что принята гипотеза о том, что связь фактора Хи отклика Y выражается линейной функцией baxxf +=)( . На-личие отклонений, связанных со случайным характером рас-сматриваемых переменных и/или с влиянием неучтенных фак-торов приведет к тому, что связь между рассчитанными по мо-дели значениями отклика kf и реальными значениями из вы-борки ky будет выражаться в виде:

kkkkk ebaxefy ++=+=где ke - это расхождения между моделью и выборкой.

Оценка параметров линейной регрессии

Вычислим такой набор параметров модели, при которомсумма квадратов всех расхождений между значениями по вы-борке и вычисленными по модели значениями будет минималь-ной, то есть

Page 108: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

108

min1

2 →= ∑=

N

kkeS

min][1

2 →−−=∑=

N

kkk baxyS

Величина S является функцией от 2-х переменных ),( ba . Ми-нимум этой функции можно найти, приравняв к нулю ее част-ные производные по каждому из неизвестных параметров и ре-шив полученную таким образом систему из 2-х уравнений. Таккак вычисление параметров мы будем проводить по конечнойвыборке, то в результате мы получим лишь оценку этих пара-метров ),( ba :

=−−−=∂∂

=−−−=∂∂

=

=

0][2

0][2

1

1N

kkkk

N

kkk

xbxayaS

bxaybS

Из 1-го уравнения системы получаем:

XaYbNbxayN

kk

N

kk ⋅−=⇒=−− ∑∑

==

011

Из 2-го уравнения системы получаем:

001

2

111

2

1=−−⇒=−− ∑∑∑∑∑

=====

XNbxaxyxbxaxyN

kk

N

kkk

N

kk

N

kk

N

kkk

Подставив в это уравнение выражение для оценки параметра bнайдем оценку параметра a :

=

=

=

=

−−≡

⋅−

⋅⋅−= N

kk

N

kkk

N

kk

N

kkk

Xx

YyXx

XNx

YXNyxa

1

2

1

2

1

2

1

)(

))((

Из последнего равенства следует, что оценку параметра a мож-но выразить через ковариацию или коэффициент корреляциипеременных Х и Y:

Page 109: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

109

x

y

x

xyaσσ

ρσσ

== 2

Параметр a , который еще называют коэффициентом регрессии,численно равен тангенсу угла наклона прямой регрессии к оси х.

Дисперсия оценок параметров линейной регрессии

Так как оценки параметров линейной регрессии полученыпо случайной выборке, то сами эти оценки являются случайны-ми величинами. Оценка дисперсии параметра a выражаетсяформулой:

∑=

−= N

kk

ea

Xx1

2

22

)(

σσ

где величина 2

eσ - это оценка дисперсии случайных отклоне-ний отклика Y от линии регрессии:

∑=−−

=N

kke e

mN 1

22

11σ

где m - число факторов (независимых переменных).В случае парной линейной регрессии

∑∑==

−−−

=−

=N

kkk

N

kke bxay

Ne

N 1

2

1

22)(

21

21σ

Так как XaYb ⋅−= и так как фактор Х предполагаетсянестохастическим, то для оценки дисперсии параметра bсправедливо:

2222

aYb X σσσ ⋅+=

где величина 2

Yσ - это оценка дисперсии среднего значения от-клика Y:

22 1eY N

σσ =

После несложных преобразований для оценки дисперсиипараметра b получаем формулу:

Page 110: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

110

N

x

Xx

N

kk

N

kk

eb

∑=

=

⋅−

= 1

2

1

2

22

)(

σσ

Величину 2

eσ называют еще необъясненной дисперсией.Чем меньше необъясненная дисперсия (то есть чем меньше от-клонения величины Y от линии регрессии), тем меньше ошибкив определении параметров регрессии, и, следовательно, тем точ-нее модель объясняет фактические данные.

Кроме того, из формул для дисперсии параметров следует,что чем на более широком диапазоне изменения фактора Х оце-нивается регрессия, тем больше величина ∑ − 2)( Xxk , а зна-чит меньше дисперсия параметров.

Из тех же самых соображений следует, что чем больше объ-ем выборки N, тем меньше дисперсия параметров.

8.7. Коэффициент детерминации.

Из того, что связь фактора Х и отклика Y выражается в видеkkkkk ebaxefy ++=+=

следует, что разброс отклика Y может быть объяснен разбросомфактора Х и случайной ошибкой е. Необходимо определить ин-дикатор, который бы показывал, насколько разброс Yопределяется разбросом Х и насколько случайными причинами,то есть насколько хорошо фактические данные описываютсяфункцией регрессии.

В качестве общей меры разброса переменной Y естественноиспользовать сумму квадратов отклонений этой величины от еесреднего значения. Тогда в качестве объясняемой регрессиеймеры разброса переменной Y будем использовать суммуквадратов отклонений прогнозируемых линией регрессиизначений от среднего значения величины Y.

Индикатором качества линии регрессии является коэффи-циент детерминации:

Page 111: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

111

=

=

=

=

−+=

−= N

kk

N

kk

N

kk

N

kk

Yy

Ybax

Yy

YfR

1

2

1

2

1

2

1

2

2

)(

)(

)(

)(

или

=

=

−−= N

kk

N

kk

Yy

eR

1

2

1

2

2

)(1

В случае однофакторной линейной регрессии коэффициентдетерминации равен квадрату коэффициента корреляциивеличин Х и Y.

Иногда при расчете коэффициента детерминации дляполучения несмещенных оценок дисперсии в числителе изнаменателе делается поправка на число степеней свободы, тоесть скорректированный коэффициент детерминациивычисляется по формуле:

=

=

−−

−−−= N

kk

N

kk

YyN

emNR

1

2

1

2

2

)(1

11

1

1

где m - число факторов (независимых переменных).При добавлении в уравнение регрессии дополнительных

объясняющих переменных (факторов) нескорректированный 2Rвсегда растет. При этом скорректированный 2R может умень-шиться за счет увеличения числа m , если новый фактор приво-дит к небольшому уменьшению необъясненной дисперсии.

В случае парной линейной регрессии скорректированный2R вычисляется как:

=

=

−−

−−= N

kk

N

kk

YyN

eNR

1

2

1

2

2

)(1

12

1

1

Page 112: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

112

Коэффициент детерминации может принимать значения отнуля (когда Y не зависит от Х) до единицы (когда Х полностьюопределяет Y, то есть между ними существует строгаяфункциональная зависимость). Чем больше этот коэффициент,тем выше качество линии регрессии.

Запишем формулу для 2R в компактном виде

2

22 1

y

eRσσ

−=

Отношение ширины полосы рассеяния данных относитель-но их среднего значения к ширине полосы рассеяния данныхотносительно линии регрессии называется числом различимыхградаций отклика. Если в качестве меры рассеяния принять со-ответствующие среднеквадратичные отклонения, то формуладля числа различимых градаций отклика будет иметь вид:

eyGRADN σσ=Как и коэффициент детерминации, число различимых градацийявляется позитивной оценкой корреляционной связи, то естьчем больше GRADN , тем выше качество уравнения регрессии.

( )22 11 GRADNR −=Негативной оценкой корреляционной связи является отно-

сительная приведенная погрешность, которая является отноше-нием половины ширины полосы рассеяния данных относитель-но линии регрессии к ширине полосы рассеяния данных относи-тельно их среднего значения и вычисляется по формуле

y

e

σσγ ⋅= 5.0 , то есть ( )22 21 γ−=R .

Связь между γ и GRADN задается формулами

γγ

⋅=

⋅=

21

21

GRADGRAD

NN

Приведем таблицу, показывающую связь между коэффициентомдетерминации, числом различимых градаций отклика и относи-тельной приведенной погрешностью.

Page 113: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

113

GRADN γ 2R R

1 50.0% 0.00 0.001.41 35.4% 0.50 0.71

2 25.0% 0.75 0.873 16.7% 0.89 0.944 12.5% 0.94 0.975 10.0% 0.96 0.986 8.3% 0.972 0.9867 7.1% 0.980 0.9908 6.3% 0.984 0.9929 5.6% 0.988 0.994

10 5.0% 0.990 0.995

Отметим следующие важные случаи:- Коэффициент детерминации )71.0(5.02 ≈= RR , то есть

только половина разброса отклика Y объясняетсяуравнением регрессии. В этой ситуации говорят, чтовлияние сигнала (фактора Х) равно влиянию помехи (слу-чайной ошибки е). Поэтому при коэффициентедетерминации меньше чем 0.5, помехи начинают вноситьосновной вклад в вариацию переменной Y, и такая модельрегрессии должна быть отвергнута.

- Если с.к.о. ошибки е ровно в два раза меньше, чем с.к.о. от-клика Y, то есть число различимых градаций отклика равно2, то )87.0(75.02 ≈= RR . Именно это значениерекомендуется принять в качестве минимально приемлемогозначения коэффициента детерминации.

ПРИМЕЧАНИЕ. При оценке величин γ и GRADN мы предполага-ли, что мерой ширины полосы рассеяния данных относительно ихсреднего значения и мерой ширины полосы рассеяния данных от-носительно линии регрессии являются соответствующие средне-квадратичные отклонения. Если в качестве меры принять довери-тельные интервалы, то формулы для γ и GRADN изменятся, так какотклик Y и ошибка уравнения регрессии е - это случайные вели-чины с вообще говоря различными законами распределения. Рас

Page 114: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

114

пределение величины Y , особенно при ярко выраженной линейнойзависимости, близко к равномерному. Распределение величины е вбольшинстве случаев близко к нормальному.

8.8. Необратимость решений МНК.

Если отвлечься от причинно-следственной связи и рассматри-вать переменные Х и Y как равноправные, то по методунаименьших квадратов можно найти линейную регрессию как Y поX так и Х по Y.

Пусть линейная регрессия Y по X выражается функцией

11 bXaY += , а линейная регрессия Х по Y функцией

22 bYaX += . Оценки параметров 1a и 2a выражаются через ко-эффициент корреляции между переменными Х и Y как:

x

yN

kk

N

kkk

Xx

YyXxa

σσ

ρ=−

−−=

=

=

1

2

11

)(

))((

y

xN

kk

N

kkk

Yy

YyXxa

σσρ=

−−=

=

=

1

2

12

)(

))((

Тангенс угла наклона функции 11 bXaY += к оси х равен)/(1 xya σσρ ⋅= , а тангенс угла наклона функции 22 bYaX +=

к оси х равен )/()/1(/1 2 xya σσρ ⋅= . Это разные величины, сле-довательно линии регрессии Y на Х и Х на Y - это разные прямые.Они совпадают только тогда, когда модуль коэффициентакорреляции 1|| =ρ , то есть когда между переменными Х и Yсуществует строгая функциональная зависимость.

В несовпадении линий регрессии Y на Х и Х на Y и состоитнеобратимость решений МНК, то есть нельзя использоватьвеличины ),( 22 ba для вычисления величин ),( 11 ba и наоборот:

1

12

12

2

21

21

11abb

aa

abb

aa −≠≠−≠≠

Page 115: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

115

8.9. Статистические выводы о величине параметров одно-факторной линейной регрессии.

Полученные в этой главе формулы для выборочныхкоэффициентов однофакторной линейной регрессии дают лишьоценки истинных значений этих коэффициентов.

Введем обозначения:- истинные значения параметров линейной регрессии ),( ba ,- выборочные значения параметров линейной регрессии

),( ba ,

- выборочные дисперсии параметров ),(22

ba σσ .

Выборочное распределение параметров линейной регрессии

При анализе коэффициентов регрессии считают, что

случайные величины a

aaat

σ−

= и b

bbbt

σ−

= подчиняются

распределению Стьюдента с )2( −= Nν степенями свободы,где N - объем выборки. В этих формулах:

∑∑∑

∑==

=

= −=−

−−=

N

kk

N

kkN

kk

N

kkk

xN

ayN

bXx

YyXxa

11

1

2

1 11

)(

))((

∑∑∑ =

==

⋅−

=−

=N

kkN

kk

ebN

kk

ea x

NXxXx 1

2

1

2

22

1

2

22 1

)()(

σσσσ

∑=

−−−

=N

kkke bxay

N 1

22)(

21σ

Доверительный интервал для параметров линейной регрес-сии

Доверительный интервал возможных значений величины t ,характеризующийся доверительной вероятностью P илиуровнем значимости Pq −= 1 , это такой интерквантильный

Page 116: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

116

промежуток νν ,2/1,2/ qq ttt −≤≤ , внутри которого лежат P100процентов всех значений случайной величины t , а q100процентов лежат вне этого промежутка. При этом 2/100qпроцентов лежит слева от ν,2/qt и 2/100q процентов лежит

справа от ν,2/1 qt − .

Величины ν,2/qt и ν,2/1 qt − - это квантили распределенияСтьюдента с 2−= Nν степенями свободы, причем, так как этораспределение симметрично и имеет нулевое математическоеожидание, то νν ,2/1,2/ qq tt −−= .

Подставив значения aa aat σ/)( −= и bb bbt σ/)( −= вдвойное неравенство νν ,2/1,2/1 qq ttt −− ≤≤− получимдоверительные интервалы для истинных значений параметровлинейной регрессии ),( ba :

bqbq

aqaq

tbbtb

taata

σσ

σσ

νν

νν

,2/1,2/1

,2/1,2/1

−−

−−

+≤≤−

+≤≤−

Гипотезы о величине параметров линейной регрессии

Когда речь идет о линейной регрессии, необходимо знать,насколько значимо отличаются от нуля величины параметроврегрессии. Для проверки этого выдвигаются гипотезы:

0:

0:

1

0

=

aH

aH или

0:

0:

1

0

=

bH

bH

Проверка данных гипотез осуществляется в отдельности длякаждого из параметров по следующей схеме:1) Априорные предположения

Истинные значения параметров регрессии равны нулю

00

==

ba

2) Результаты испытанияВыборочные коэффициенты регрессии и их выборочныес.к.о.

Page 117: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

117

b

a

b

a

σ

σ

,

,

при объеме выборки N. 3) Гипотеза

0:

0:

1

0

=

aH

aH или

0:

0:

1

0

=

bH

bH

4) Принятая величина уровня значимости05.0=q или 01.0=q

5) Критерий проверки

aaa

aaatσσ

=−

=

bbb

bbbtσσ

=−

=

6) Правило принятия решенияПринять Н0 , если νν ,2/1,2/1 qq ttt −− ≤≤−В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки t попадает в критическую область

ν,2/1|| qtt −> .Граница критической области вычисляется как

)2,(,2/1 −=− NqБРСТЬЮДРАСПОt q ν

В качестве критерия проверки t используются at и bt .7) Проверка гипотезы- Если νν ,2/1,2/1 qq ttt −− ≤≤− то критерий проверки t не попа-

дает в критическую область и мы принимаем гипотезу Н0 .Это означает, что при заданном уровне значимости соответ-ствующий параметр регрессии статистически незначимо от-личается от нуля.

- В противном случае мы принимаем гипотезу Н1 . Это озна-чает, что при заданном уровне значимости соответствующийпараметр регрессии статистически значимо отличается отнуля.

Page 118: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

118

8.10. Статистические выводы о величине коэффициента де-терминации.

Коэффициент детерминации является индикатором того,насколько хорошо изменения фактора X объясняют измененияотклика Y . Чем он ближе к единице, тем выше качество урав-нения регрессии.

Так как коэффициент детерминации вычисляется поконечной случайной выборке, то он сам является случайнойвеличиной. Проверка значимости коэффициента детерминации -это проверка гипотезы о том, что он значимо отличается отнуля.

0:

0:2

1

20

>

=

RH

RH

Критерий проверки рассчитывается по формуле:

)1/()1(/

2

2

−−−=

mNRmRF

где N - объем выборки, m - количество независимыхпеременных (факторов). Критерий проверки подчиняется F -распределению с m степенями свободы для числителя и

)1( −− mN степенями свободы для знаменателя.В случае однофакторной линейной регрессии критерий

проверки принимает вид:

)2/()1( 2

2

−−=

NRRF

Количество степеней свободы для числителя равно 1,количество степеней свободы для знаменателя равно )2( −N .

Если в действительности переменная Y не зависит отпеременной X , то коэффициент детерминации 2R и критерийпроверки F равны нулю. При этом их оценки по случайнойвыборке могут отличаться от нуля, но чем больше это отличие,тем менее оно вероятно.

Если же критерий проверки F больше некоторогокритического значения при заданном уровне доверительнойвероятности, то это событие считается слишком маловероятным

Page 119: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

119

и мы отвергаем гипотезу 0H и принимаем гипотезу 1H . Этозначит, что переменная Y зависит от переменной X .

Проверка гипотезы для однофакторной линейной регрессиипроводится по следующей схеме:1) Гипотеза

0:

0:2

1

20

>

=

RH

RH

2) Принятая величина уровня значимости05.0=q или 01.0=q

3) Критерий проверки

)2(1 2

2

−−

= NR

RF

4) Правило принятия решенияПринять Н0 , если 2,1,1 ννqFF −≤ .В противном случае принять Н1 , то есть Н1 принимается, когдакритерий проверки F попадает в критическую область

2,1,1 ννqFF −> .

Здесь 2,1,1 ννqF − - это квантиль F -распределения,

соответствующая уровню значимости q с 11 =ν степенямисвободы для числителя и 22 −= Nν степенями свободы длязнаменателя.Величину 2,1,1 ννqF − можно вычислить с помощью электронныхтаблиц Microsoft Excel:

),,( 212,1,1 νννν qFРАСПОБРF q =−

5) Проверка гипотезы- Если 2,1,1 ννqFF −≤ , то критерий проверки F не попадает в

критическую область и мы принимаем гипотезу Н0 . Это озна-чает, что при заданном уровне значимости изменения фактораX не объясняют изменения отклика Y и регрессионная мо-дель должна быть отвергнута.

- В противном случае мы принимаем гипотезу Н1 . Это означает,что при заданном уровне значимости переменная Y зависит отпеременной X .

Page 120: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

120

8.11. Полоса неопределенности однофакторной линейнойрегрессии.

Так как параметры линейной регрессии зависимы междусобой ( XaYb ⋅−= ), то уравнение регрессии можнопереписать в виде YXxabxaf +−⋅=+= )( . Каждая точка на

линии регрессии выражается через выборочные значения ),( Ya ,

имеющие выборочные дисперсии ),(22

Ya σσ , и потомуявляется случайной величиной.

Дисперсия линии регрессии

Так как в МНК предполагается, что фактор Хнестохастичен, то дисперсию точки на линии регрессии можновыразить следующим образом:

2222)( Yaf Xx σσσ +⋅−=

Из этой формулы следует, что:- дисперсия величины Y влияет на дисперсию точки на линии

регрессии аддитивным образом, то есть ее вклад постоянени не зависит от величины фактора Х,

- дисперсия величины a влияет на дисперсию точки на линиирегрессии мультипликативным образом, то есть ее вкладтем больше, чем больше абсолютное отклонение фактора Хот X .

С учетом того, что22

1

2

22 1

)(eYN

kk

ea NXx

σσσσ =−

=

∑=

для дисперсии точки на линии регрессии получим:

−+⋅=

∑=

N

kk

ef

Xx

XxN

1

2

222

)(

)(1σσ

Page 121: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

121

Доверительный интервал линии регрессии

Аналогично тому, как мы нашли доверительные интервалыдля истинных параметров линейной регрессии, мы можемзаписать доверительный интервал для линии регрессии в виде:

fqfq tfftf σσ νν ,2/1,2/1 −− +≤≤−Ширина доверительного интервала линии регрессии равна

fqt σν,2/12 − . Эту величину называют еще шириной полосынеопределенности линии регрессии.

8.12. Прогнозирование на основе однофакторной линейнойрегрессии.

При прогнозировании, то есть при экстраполяции линиирегрессии за пределы поля точек, по которым была получена эталиния, мы должны учитывать не только неопределенностьположения самой линии регрессии (о чем говорилось впредыдущем параграфе), но и дисперсию случайных отклонений отнее (ошибок МНК).

Дисперсия прогноза

Дисперсию случайной величины efy += в произвольнойточке х можно выразить следующим образом:

222

efef σσσ +=+

Используя полученную в предыдущем параграфе формулу длядисперсии линии регрессии получаем:

−++⋅=

∑=

+ N

kk

eef

Xx

XxN

1

2

222

)(

)(11σσ

Доверительный интервал прогноза

Так как математическое ожидание ошибки МНК е равно нулю,то доверительный интервал для прогнозного значения отклика Y вточке х определяется неравенствами:

efqefq tfytf +−+− +≤≤− σσ νν ,2/1,2/1 .

Page 122: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

122

Назовем величину efqty +−=∆ σν,2/12 шириной полосынеопределенности прогноза.

Горизонт прогнозирования

Ширина полосы неопределенности прогноза минимальна приXx = и возрастает при увеличении абсолютной величины

отклонения переменной х от X . Точность прогноза определяетсяшириной полосы неопределенности.

Пусть мы априорно задаем максимально возможную ширинунеопределенности прогноза maxy∆ и считаем, что точностьпрогноза является удовлетворительной, если в точке прогноза

maxyy ∆≤∆ . При удалении от поля точек, по которым была

получена линия регрессии, y∆ обязательно достигнет maxy∆ .Соответствующее удаление называется горизонтомпрогнозирования. Дальнейшее удаление приведет к тому, что

y∆ превысит maxy∆ . Интервал значений х, в пределах котороготочность прогноза является удовлетворительной, выражаетсянеравенством:

∑=−

−−

∆=

≤−

N

kk

eq

XxNt

yxгде

xXx

1

2

2

,2/1

maxmax

max

)(112

||

σν

8.13. Проверка допущений МНК.

Изучая уравнение линейной регрессии мы предполагали,что реальная взаимосвязь фактора Х и отклика Y линейна, аотклонения от прямой регрессии случайны, независимы междусобой, имеют нулевое математическое ожидание и постояннуюдисперсию. Если это не так, то статистический анализпараметров регрессии некорректен и оценки этих параметров необладают свойствами несмещенности и состоятельности.Например, это может быть, если в действительности связьмежду переменными нелинейна. Поэтому после полученияуравнения регрессии необходимо исследовать его ошибки.

Page 123: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

123

Ошибки метода наименьших квадратов, то есть величиныkkk fye −= должны обладать следующими свойствами:

1) Ошибки должны являться реализацией нормально распреде-ленной случайной переменной.

2) Математическое ожидание ошибки должно быть равно ну-лю: 0)( =keM .

3) Дисперсия ошибки должна быть постоянна: 2)( σ=keD .4) Ошибки должны быть независимыми, то есть

=

≠=

jkjk

ee jk 2

0),cov(

σ

После того, как получено уравнение регрессии ebxay ++= ,каждое из этих допущений должно быть проверено.

Проверка гипотезы о том, что ошибки нормально распреде-лены

Идентификация закона распределения случайной величиныизучена в главе 6, поэтому здесь мы не будем подробнорассматривать этот вопрос. Кратко можно сказать, что проверкагипотезы о том, что ошибки МНК нормально распределены,проводится в два этапа:1) По выборке ),...,,( 21 Neee строится гистограмма

распределения случайной величины е.2) Полученная гистограмма проверяется на соответствие

нормальному распределению с помощью критерия согласияПирсона.

Проверка гипотезы о том, что математическое ожиданиеошибки равно нулю

Пусть ошибка МНК е имеет математическое ожидание eµ и

генеральную дисперсию 2eσ . Состоятельными и несмещенными

оценками математического ожидания и дисперсии ошибкибудут выборочная средняя и выборочная дисперсия:

∑=

−−=N

kkk bxay

Ne

1)(1

Page 124: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

124

∑=

−−−

=N

kkke bxay

N 1

22)(

21σ

Мы должны проверить гипотезу

0:

0:

1

0

=

eH

eH

Проверка этой гипотезы осуществляется по следующей схеме:1) Априорные предположения

Математическое ожидание ошибки равно нулю0=eµ

2) Результаты испытанияВыборочная средняя ошибки и выборочное с.к.о. ошибки

ee σ,при объеме выборки N.

3) Гипотеза

0:

0:

1

0

=

eH

eH

4) Принятая величина уровня значимости05.0=q или 01.0=q

5) Критерий проверки

ee

e eetσσ

µ=

−=

6) Правило принятия решенияПринять Н0 , если νν ,2/1,2/1 qq ttt −− ≤≤−В противном случае принять Н1 , то есть Н1 принимается, когдакритерий проверки t попадает в критическую область

ν,2/1|| qtt −> .7) Проверка гипотезы- Если νν ,2/1,2/1 qq ttt −− ≤≤− то критерий проверки t не попада-

ет в критическую область и мы принимаем гипотезу Н0 . Этоозначает, что при заданном уровне значимости выборочнаясредняя ошибки e статистически незначимо отличается от ну-ля.

Page 125: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

125

- В противном случае мы принимаем гипотезу Н1 . Это означает,что при заданном уровне значимости в уравнении регрессииприсутствует систематическая ошибка, и это уравнение должнобыть уточнено.

Проверка гипотезы о том, что дисперсия ошибки постоянна

Упорядочим исходную выборку Nkyx kk ,...,1,),( = по воз-

растанию величины x . Обозначим как 2/1N половину от объема

выборки, то есть )2/(2/1 NЦЕЛОЕN = . Выберем число

2/1NM ≤ . После этого по упорядоченной по возрастанию величи-ны x выборке рассчитаем отклонения от линии регрессии, первоедля Mk ,...,1= (для меньших значений x ), второе для

NMNk ,...,1+−= (для больших значений x ). Для лучшегоразграничения между двумя группами наблюдений число М можновыбрать таким образом, чтобы исключить до 20% серединныхточек.

В случае постоянства дисперсии ошибок МНК необъясненнаядисперсия для меньших значений x должна быть приблизительноравна необъясненной дисперсии для больших значений x , то естьдолжно быть справедливым следующее равенство:

∑∑+−==

≈N

MNkk

M

kk ee

1

2

1

2

Обозначим большую из этих сумм как 21S , а меньшую как 2

2S .

Чем ближе к единице отношение 22

21 / SS , тем больше оснований

рассчитывать на то, что дисперсия ошибок МНК постоянна. Слу-чайная величина 2

22

1 / SSF = подчиняется F -распределениюФишера с 2,2 21 −=−= MM νν степенями свободы. Проверкагипотезы о постоянстве дисперсии ошибок осуществляется по сле-дующей схеме:

1) Гипотеза

22

211

22

210

:

:

SSH

SSH

>

=

2) Принятая величина уровня значимости

Page 126: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

126

05.0=q или 01.0=q3) Критерий проверки

22

21

SSF =

4) Правило принятия решенияПринять Н0 , если 2,1,1 ννqFF −≤В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки F попадает в критическую об-ласть 2,1,1 ννqFF −> .

5) Проверка гипотезы- Если 2,1,1 ννqFF −≤ , то критерий проверки F не попадает в

критическую область и мы принимаем гипотезу Н0 . Это оз-начает, что при заданном уровне значимости дисперсияошибок уравнения регрессии постоянна.

- В противном случае мы принимаем гипотезу Н1 . Это озна-чает, что при заданном уровне значимости уравнении рег-рессии не является наилучшим приближением исходныхданных.

Непостоянство дисперсии ошибок МНК возникает как правило втом случае, если неправильно выбран вид математической моделизависимости фактора Х и отклика Y. Например, если нелинейнуюзависимость пытаются аппроксимировать линейной функцией.

Проверка гипотезы о том, что ошибки независимы

Одним из предполагаемых свойств уравнения регрессииebxay ++= является то, что ошибки е независимы между

собой. На практике проверяется не независимость, анекоррелированность этих величин, которая являетсянеобходимым, но недостаточным признаком независимости.При этом проверяется некоррелированность не любых, асоседних величин ошибок, которые можно получить, если ис-ходная выборка Nkyx kk ,...,1),( = упорядочена по возраста-нию величины х.

Рассмотрим например корреляцию ошибок, сдвинутых друготносительно друга на один шаг.

Page 127: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

127

NNk

Nk

eeeeeeeeee

1121

321

−− KK

KK

Тогда значение выборочного коэффициента корреляции между вы-боркой ),...,,( 32 Neee и выборкой ),...,,( 121 −Neee запишется ввиде:

∑∑

∑−

=+

=

=+

+

−−

−−=

1

1

21

1

1

2

1

11

1,

)()(

))((

N

kk

N

kk

N

kkk

kk

eeee

eeeeρ

Эту величину называют еще коэффициентом автокорреляциипервого порядка. Так как согласно допущениям МНКматематическое ожидание ошибки равно нулю, то формулу можноупростить:

∑∑

∑−

=+

=

=+

+ =1

1

21

1

1

2

1

11

1, N

kk

N

kk

N

kkk

kk

ee

eeρ

Мы можем считать, что автокорреляция отсутствует, есливыборочный коэффициент автокорреляции незначимо отличаетсяот нуля, то есть в данном случае мы должны проверить гипотезу:

0:

0:

1,1

1,0

=

+

+

kk

kk

H

H

ρ

ρ

В случае однофакторной линейной регрессии случайная

величина 2

1,

1,

13

+

+

−⋅−=

kk

kkNtρ

ρ будет подчиняться

распределению Стьюдента с 2)1( −−= Nν степенями свободы.Поэтому гипотеза будет проверяться следующим образом:1) Гипотеза

0:

0:

1,1

1,0

=

+

+

kk

kk

H

H

ρ

ρ

Page 128: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

128

2) Принятая величина уровня значимости05.0=q или 01.0=q

3) Критерий проверки

2

1,

1,

13

+

+

−⋅−=

kk

kkNtρ

ρ

4) Правило принятия решенияПринять Н0 , если νν ,2/1,2/1 qq ttt −− ≤≤− .В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки t попадает в критическую область

ν,2/1|| qtt −> .5) Проверка гипотезы- Если νν ,2/1,2/1 qq ttt −− ≤≤− , то критерий проверки t не попа-

дает в критическую область и мы принимаем гипотезу Н0 .Это означает, что при заданном уровне значимости выбо-рочный коэффициент автокорреляции первого порядка

1, +kkρ статистически незначимо отличается от нуля. Следо-вательно, автокорреляция первого порядка ошибок МНК от-сутствует.

- В противном случае мы принимаем гипотезу Н1 . Это можетозначать, что нужно принять другую аналитическую модельзависимости между переменными Х и Y.

8.14. Сведение нелинейной функциональной зависимости клинейной путем преобразования данных.

До сих пор мы обсуждали линейную зависимость междуфактором Х и откликом Y. Когда истинная взаимосвязь междуними носит нелинейный характер, в ряде случаев ее можносвести к линейной путем соответствующего преобразованияданных. После этого к преобразованным данным может бытьприменена линейная регрессия. Преобразованные переменные ипараметры мы будем отмечать символом ∩ (например x) ).

В этом параграфе мы рассмотрим несколько наиболееупотребительных видов нелинейной зависимости.

Page 129: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

129

1) Экспоненциальная функция axbey =Экспоненциальная функция используется, когда при увели-чении фактора Х отклик Y растет )0( >a или снижается

)0( <a с постоянной относительной скоростью.Приведение к линейной зависимости bxay

)))) +=осуществляется путем следующего преобразования данных:

)ln()ln( bbaaxxyy ====))))

2) Логарифмическая функция )ln(xaby +=Логарифмическая функция используется, когда при увели-чении фактора Х отклик Y растет )0( >a или снижается

)0( <a с уменьшающейся скоростью при отсутствиипредельно возможного значения. Преобразование данных:

bbaaxxyy ====)))) )ln(

3) Степенная функция abxy =Степенная функция используется когда при увеличениифактора Х отклик Y растет или снижается с разной меройпропорциональности. Преобразование данных:

)ln()ln()ln( bbaaxxyy ====))))

4) Логистическая функция abxey /)(1

1−+

=

Логистическая кривая имеет вид положенной на бок латин-ской буквы S. Она описывает случай когда при увеличениифактора Х отклик Y изменяется (снижается при 0>a илирастет при 0<a ) в пределах от 0 до 1. При этом измененияпроисходят при bx < с увеличивающейся скоростью и при

bx > с уменьшающейся скоростью. Преобразованиеданных:

abbaaxxyy //1)1/1ln( −===−=))))

5) Гиперболическая функция bx

acy+

+=

Page 130: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

130

Во многих случаях для аппроксимации нелинейной зависи-мости очень удобно использовать гиперболу, однако зачас-тую об этом трудно догадаться. Дело в том, что мы легкоузнаем только простую гиперболу, асимптотами которойявляются оси координат, то есть xay /= . Если эта гипер-бола сдвинута вдоль одной из осей или вдоль обеих осей, тоее как правило не узнают.Проверка того, является ли данная кривая гиперболой сосдвигом только вдоль оси х, то есть )/( bxay += , прово-дится путем следующего преобразования данных:

abbaaxxyy //1/1 ====))))

Проверка того, является ли данная кривая гиперболой сосдвигом только вдоль оси у, то есть xacy /+= , проводит-ся путем преобразования данных:

cbaaxxyy ====)))) /1

Особенно сложным является случай, когда гипербола сдви-нута одновременно по обеим осям, то есть имеет вид

bxacy+

+= . В этом случае нужно двигаться методом по-

следовательных приближений, то есть - задавать ряд значений параметра b,- вычислять значения )/(1 bx + ,- строить графики, где по оси абсцисс откладывать

)/(1 bx + , по оси ординат у,- выбрать то значение параметра b, при котором график

наиболее близок к прямой линии.

8.15. Функция регрессии как комбинация нескольких функ-ций.

На практике может оказаться, что функцию регрессии не-возможно описать удовлетворительным образом ни линейнойзависимостью, ни любой из перечисленных в предыдущем пара-графе нелинейных функций. Тогда стоит попытаться аппрокси-мировать ее комбинацией этих функций. Делается это следую-щим образом:

Page 131: Булашев. Статистика для трейдеров

Глава 8. Регрессионный анализ

С.В. Булашев. Статистика для трейдеров (электронная версия).

131

- В общем случае считаем, что зависимость между факторомХ и откликом Y нелинейна. Тогда, используя результаты изпредыдущего параграфа, преобразуем исходную выборку

Nkyx kk ,...,1),,( = таким образом, чтобы в первом при-ближении можно было считать, что связь между преобразо-ванными данными Nkyx kk ,...,1),,( =)) носит линейный ха-рактер.

- Вычисляем параметры линейной регрессии.- Вычисляем ошибки МНК Nkek ,...,1, = .- Проверяем свойства ошибок МНК. Если ошибки не удовле-

творяют допущениям МНК, то полученная аппроксимацияявляется слишком грубой.

- Дальнейшее уточнение модели можно сделать, если в каче-стве зависимой переменной использовать полученныеошибки, то есть выборка приобретает вид

Nkex kk ,...,1),,( =) . Эту выборку необходимо обработать потой же схеме. Процесс продолжается до тех пор, пока на оп-ределенном шаге ошибки не станут удовлетворять допуще-ниям МНК. При этом надо помнить, что нельзя излишне пе-реусложнять модель, и что полученные по модели результа-ты должны разумным образом интерпретироваться.

Page 132: Булашев. Статистика для трейдеров

Глава 9. Анализ Фурье

С.В. Булашев. Статистика для трейдеров (электронная версия).

132

9. АНАЛИЗ ФУРЬЕ

9.1. Введение.

В этой главе излагается метод аппроксимации эмпириче-ской зависимости тригонометрическим рядом Фурье. Даныформулы, позволяющие по реальной выборке вычислить коэф-фициенты Фурье, амплитуду и фазу гармоник. Рассказано, какстроится амплитудно-частотная характеристика разложения, икак она используется для выделения гармоник с максимальнойамплитудой.

9.2. Численный анализ Фурье.

Пусть выборка значений фактора Х и отклика Y задана в ви-де массива Nnyx nn ,...,0),,( = , содержащего 1+N точку,причем все значения фактора Х упорядочены по возрастанию иравноотстоят друг от друга. Будем считать, что величина Х из-меняется в интервале ),0( maxX , следовательно выборка фактораХ задается рядом NnXxn /max ⋅= .

Если принято решение о том, что связь переменных Х и Yносит периодический характер, то аппроксимировать зависи-мость Y от Х на интервале ),0( maxX необходимо тригонометри-ческим рядом, то есть функцией вида:

∑=

+

+=

M

mmm X

xmbX

xmaaxf1 maxmax

0 2sin2cos2

)( ππ

Данная функция зависит от (2М+1) параметра),...,,,...,,( 110 MM bbaaa . Так как количество неизвестных пара-

метров 12 +M не должно превышать объем выборки 1+N , то2/NM ≤ .

Наилучшим приближением будет тригонометрический ряд стаким набором параметров, который минимизирует сумму квадра-тов отклонений этого ряда от выборочных значений отклика Y, тоесть

∑=

→−=N

nnn xfyS

1

2 min)]([

Page 133: Булашев. Статистика для трейдеров

Глава 9. Анализ Фурье

С.В. Булашев. Статистика для трейдеров (электронная версия).

133

Без доказательства приведем формулы для определенияискомых параметров:

MmN

nmyN

b

MmN

nmyN

a

N

nnm

N

nnm

≤≤

=

≤≤

=

∑−

=

=

12sin2

02cos2

1

0

1

0

π

π

Определенные по этим формулам параметры называюткоэффициентами Фурье, а тригонометрический ряд с такимикоэффициентами является рядом Фурье. Тогда аппроксимациявеличины Y рядом Фурье в точке NnXxn /max= будет равна:

∑=

+

+=

M

mmmn N

nmbN

nmaaf1

0 2sin2cos2

ππ

При увеличении количества гармоник М эта аппроксимациявсе точнее описывает выборочные значения величины Y, инаконец при 2/NM = для любого n становится справедливымравенство nn fy = .

Однако, наша задача состоит не в том, чтобы с абсолютнойточностью аппроксимировать исходную выборку, то естьвключить в математическую модель все наблюдающиеся осо-бенности конкретной выборки, в том числе и те, которые в дей-ствительности носят случайный характер. Нам нужно найти все-го несколько наиболее значимых гармоник, то есть гармоник,имеющих максимальную амплитуду. Для этого необходимо по-строить и проанализировать амплитудно-частотную характери-стику разложения.

9.3. Амплитудно-частотная характеристика.

Введем параметры ),( mmR θ , которые назовем амплитуда ифаза соответственно. Эти величины связаны с параметрами

),( mm ba следующими соотношениями:

mmmmmm

mm

mmmmm

RbRaabarctgbaR

θθ

πθπθ

sincos

22

−==

≤<−−=+=

Page 134: Булашев. Статистика для трейдеров

Глава 9. Анализ Фурье

С.В. Булашев. Статистика для трейдеров (электронная версия).

134

Тогда, заменив параметры ),( mm ba , разложение Фурье можнопереписать в виде

=

=

++=

+=

M

mmmn

M

mmmmmn

NnmRaf

NnmR

NnmRaf

1

0

1

0

2cos2

2sinsin2coscos2

θπ

πθπθ

Назовем частотой колебаний величину Nmm /=ω . Полныйнабор частот называется спектром разложения. Тогда оконча-тельно получаем

( )∑=

++=M

mmmmn nRaf

1

0 2cos2

θπω

Смысл приведенных выше преобразований состоит в том, чтобыперейти от ряда из синусов и косинусов к ряду из одних косину-сов. Если теперь построить график, где по оси абсцисс отложеначастота, а по оси ординат отложена амплитуда, то есть график вкоординатах ),( mm Rω , то наглядно будет видно, при каких зна-чениях частоты наблюдаются максимумы амплитуды. Такойграфик называется амплитудно-частотной характеристикой(АЧХ). С помощью АЧХ мы получаем возможность выбрать изразложения Фурье только самые значимые гармоники и пренеб-речь остальными. Заметим, что период колебания связан счастотой соотношением mmT ω/1= .

При необходимости аналогичным образом можно построитьфазочастотную характеристику (ФЧХ), то есть график в коор-динатах ),( mm θω .

9.4. Пример выделения основной гармоники с помощьюанализа Фурье.

Рассмотрим выделение основной гармоники с помощьюанализа Фурье на примере выборки, состоящей из 256-ти точек

255,...,0),,( =nyx nn . График исходных данных приведен нарисунке.

Page 135: Булашев. Статистика для трейдеров

Глава 9. Анализ Фурье

С.В. Булашев. Статистика для трейдеров (электронная версия).

135

-6

-4

-2

0

2

4

6

0 50 100 150 200 250 300

Исходные данные

Этот график дает основания предположить, что связь перемен-ных Х и Y носит периодический характер. По методике, изло-женной в предыдущих 2-х параграфах, представим аппроксими-рующую функцию рядом Фурье и построим амплитудно-частотную характеристику.

АЧХ

0

50

100

150

200

250

300

0 0.1 0.2 0.3 0.4 0.5

частота

ампл

итуд

а

Максимум амплитуды находится в начальной части спектра.Рассмотрим подробнее этот участок.

Page 136: Булашев. Статистика для трейдеров

Глава 9. Анализ Фурье

С.В. Булашев. Статистика для трейдеров (электронная версия).

136

АЧХ

0

50

100

150

200

250

300

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

частота

ампл

итуд

а

При ближайшем рассмотрении оказывается, что максимумамплитуды приходится на частоту 01.0≈ω (период 100≈T ).Учитывая, что Nmm /=ω , рассчитаем для этого значения час-тоты коэффициенты разложения Фурье:

8918.2)(1049.0)(

−==−==

mm

mm

bbaaωω

Используя эти данные, вычисляем амплитуду и фазу основнойгармоники:

6070.18934.2

==

m

mRθТаким образом, Фурье-аппроксимация исходных данных иошибки модели будут вычисляться по формулам

( ) ( )nnn

mmmn

fyennRf

−=+⋅⋅⋅=+= 607.101.02cos8934.22cos πθπω

Приведем график исходных данных вместе с Фурье-аппроксимацией и график остатков (ошибок модели).

Page 137: Булашев. Статистика для трейдеров

Глава 9. Анализ Фурье

С.В. Булашев. Статистика для трейдеров (электронная версия).

137

-6

-4

-2

0

2

4

6

0 50 100 150 200 250 300

Исходные данные

Фурье-аппроксимация

-6

-4

-2

0

2

4

6

0 50 100 150 200 250 300

Остатки

Очевидно, что ошибки аппроксимации носят непериодиче-ский характер. В противном случае нужно было бы повторитьвсю процедуру, используя в качестве исходной выборки этиошибки, и повторять ее до тех пор, пока не будут выделены всезначимые гармоники.

Па практике, при изучении динамики цен активов не реко-мендуется использовать для аппроксимации этих рядов болеетрех гармоник Фурье.

Page 138: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

138

10. ПРИМЕНЕНИЕ МНК ПРИ ИЗУЧЕНИИ ДИНАМИ-ЧЕСКИХ РЯДОВ

10.1. Введение.

Аналитическая аппроксимация динамического временногоряда, содержащего цены некоторого актива в последовательныемоменты времени, представляет собой математическую модельразвития во времени этого динамического ряда и описываетприсущие ему статистические характеристики.

Аналитическая аппроксимация содержит в себе некоторуюусловность, связанную с тем, что цена актива рассматриваетсякак функция времени. На самом деле цена зависит не от того,сколько времени прошло с начального момента, а от того, какиефакторы на нее влияли, в каком направлении и с какой интен-сивностью они действовали. Зависимость от времени можнорассматривать как внешнее выражение суммарного воздействияэтих факторов. Удовлетворительным образом аппроксимироватьдинамический ряд с помощью метода наименьших квадратоввозможно лишь тогда, когда воздействие всех влияющих факто-ров однородно на всем рассматриваемом промежутке времени.

В случае, если динамический ряд цены актива удается ап-проксимировать аналитической функцией времени с соблюде-нием допущений МНК, становится возможной экстраполяцияэтой функции, то есть прогноз цены в будущие моменты време-ни. Однако при этом стоит помнить, что при прогнозе неявнымобразом предполагается, что те же самые условия, в которыхформировались цены в прошлом, будут существовать и в буду-щем. Использование экстраполяции в изменившихся условияхбудет приводить к ошибкам, выходящим за рамки обычных дляМНК погрешностей, связанных с шириной полосы неопреде-ленности линии регрессии. Долгосрочные прогнозы сопряженыс большими ошибками, чем краткосрочные. Во-первых, это свя-зано с расширением полосы неопределенность линии регрессиипри удалении от центра тяжести эмпирических данных, по кото-рым эта линия была получена. Во-вторых, это связано с возрас-танием влияния новых факторов при увеличении периода про-гноза.

Page 139: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

139

Для того, чтобы динамический ряд можно было эффектив-ным образом аппроксимировать с применением МНК, этот ряддолжен удовлетворять следующим условиям:- быть достаточно длинным,- быть как можно менее волатильным.При этом следует сказать, что применение МНК при изучениивременных рядов имеет следующие особенности:- для адаптирования регрессионной модели к изменяющимся

условиям необходимо периодически пересчитывать пара-метры модели с учетом новых данных, а иногда возможнопересматривать саму модель,

- при расчете параметров регрессии все эмпирические данныевходят с одинаковым весом, хотя интуитивно понятно, чтоболее поздние данные имеют большую ценность.

10.2. Модель динамики цен активов.

Биржевые цены активов формируются как результат совме-стных действий большого количества участников рынка и, какследствие этого, в них присутствует случайная составляющая.

Рассмотрим временной ряд, состоящий из последователь-ных значений цены некоторого актива tPPP ,...,, 21 . Цена не мо-жет быть отрицательной, но может принимать сколь угоднобольшие положительные значения. Следовательно, и отношениецен в последовательные моменты времени 1/ −kk PP также неможет оказаться ниже нуля, но может быть сколь угодно боль-шим. Значит плотность вероятности цен активов и плотностьвероятности отношения цен должны иметь положительнуюасимметрию.

Ситуация меняется при переходе к логарифмам отношенияцен, то есть к величине )/ln( 1−=∆ kkk PPy . Распределение лога-рифмов уже может быть симметрично и возможна его аппрок-симация одним из аналитических законов распределения, кото-рые были рассмотрены во второй главе (как правило обобщен-ным экспоненциальным распределением). При этом логарифмцены в произвольный момент времени складывается из лога-рифма цены в начальный момент времени (эта величина пред

Page 140: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

140

полагается нестохастической) и суммы логарифмов отношенияцен:

∑=

−+=t

kkkt PPPP

110 )/ln()ln()ln(

Если величины )/ln( 1−=∆ kkk PPy независимы и имеют конеч-ную дисперсию, то согласно центральной предельной теоремевеличина )ln( tt Py = будет нормально распределена при любомзаконе распределения ky∆ . Так как логарифм цены распределеннормально, то цена подчиняется логнормальному распределе-нию.

Итак, если все случайные величины ky∆ независимы и под-чиняются одному и тому же закону распределения с математи-ческим ожиданием µ и дисперсией 2σ , то случайная величина

)ln( tP будет иметь нормальное распределение с математиче-

ским ожиданием tµ и дисперсией t2σ . Следовательно, лога-рифм цены в произвольный момент времени можно записать как

zttPPt σµ ++= )ln()ln( 0

где случайная величина z подчиняется стандартному нормаль-ному распределению.

Рисковые активы имеют положительное математическоеожидание дохода, следовательно 0>µ . Величина µ определя-ет тренд актива, то есть воздействие на цену постоянно дейст-вующих систематических факторов.

Величина σ определяет волатильность актива, то есть воз-действие на цену множества случайных факторов.

Отношение ожидаемого дохода к ожидаемому риску за еди-ницу времени σµ / характеризует степень устойчивости ростацены актива. Чем выше это отношение, тем привлекательнеепри прочих равных условиях инвестиции в данный актив.

Наряду с влиянием постоянно действующих факторов ислучайных колебаний, цена актива может испытывать воздейст-вие причин, характеризующихся циклическими колебаниями.Возникновение циклов связано с изменением оценки инвесто

Page 141: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

141

рами ожидаемого дохода актива. С учетом периодических ком-понент модель динамики цены можно представить в виде

ztTtRtPPM

mmmmt σθπµ ++++= ∑

=10 )/2cos()ln()ln(

где mT - период колебания, mR - амплитуда колебания, mθ - на-чальная фаза. Существует эмпирическое правило, которое назы-вают принципом пропорциональности, согласно которому ам-плитуды колебаний прямо пропорциональны их периодам. Длявыделения отдельных гармоник из временного ряда цены активаиспользуют анализ Фурье.

С учетом вышесказанного, исследование динамики ценыактива должно включать в себя следующие этапы:- определение тренда,- определение циклических компонент,- составление прогноза цены актива.

10.3. Определение тренда.

В качестве исходных данных рассмотрим цены закрытия поиндексу Доу Джонса на последний торговый день месяца за пе-риод с 1932 по 1999 год.

Индекс Доу Джонса

0

2000

4000

6000

8000

10000

12000

июн.

31

апр.

38

мар

.45

янв.

52

ноя.

58

сен.

65

июл.

72

май

.79

мар

.86

янв.

93

дек.

99

Рассмотрим тот же график в полулогарифмическом масштабе.

Page 142: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

142

Индекс Доу Джонса

10

100

1000

10000

100000ию

н.31

апр.

38

мар

.45

янв.

52

ноя.

58

сен.

65

июл.

72

май

.79

мар

.86

янв.

93

дек.

99

Полулогарифмический график дает основания полагать, что трендлогарифма цены закрытия можно в первом приближении описатьлинейной функцией времени.

Для построения регрессионной модели в качестве фактора (не-зависимой переменной) будем использовать номер месяца. Приэтом первый месяц в выборке (январь 1932 года) получает номер 0,последний месяц в выборке (декабрь 1999 года) получает номер815, то есть 815,...,0=kt . Объем выборки 816=N точек.

Откликом (зависимой переменной) является логарифм ценызакрытия )ln( kk Py = . Эмпирическая зависимость отклика от фак-тора приведена на рисунке:

Эмпирическая зависимость

3.00

4.00

5.00

6.00

7.00

8.00

9.00

10.00

0

100

200

300

400

500

600

700

800

900

Page 143: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

143

Оценка параметров линейной регрессии

Примем гипотезу о том, что связь фактора и отклика выражает-ся линейной функцией battf +=)( . Оценки параметровлинейной регрессии проводятся по формулам:

TaYbTNt

YTNyta N

kk

N

kkk

⋅−=⋅−

⋅⋅−=

=

=

2

1

2

1

где

∑∑==

==N

kk

N

kk y

NYt

NT

11

11

Вычисленные значения параметров составляют:402.4,005.0 == ba

Эмпирическая зависимость и линейная аппроксимация изобра-жены на рисунке:

Эмпирическая зависимость и линейная аппроксимация

3.00

4.00

5.00

6.00

7.00

8.00

9.00

10.00

0

100

200

300

400

500

600

700

800

900

При этом график ошибок аппроксимации402.4005.0 −−=−−= kkkkk tybatye

имеет вид:

Page 144: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

144

Ошибки линейной аппроксимации

-1.00

-0.80

-0.60-0.40

-0.20

0.00

0.20

0.400.60

0.80

1.000

100

200

300

400

500

600

700

800

900

Дисперсия оценок параметров линейной регрессии

Оценка дисперсии случайных отклонений отклика Y от линиирегрессии (необъясненная дисперсия) вычисляется по формуле:

∑∑==

−−−

=−

=N

kkk

N

kke baty

Ne

N 1

2

1

22 )(2

12

Вычисленные значения необъясненной дисперсии и соответст-вующее с.к.о. равны:

313.0098.02 == ee σσОценка дисперсии параметров a и b выражаются формулами:

∑=

−= N

kk

ea

Xx1

2

22

)(

σσN

x

Xx

N

kk

N

kk

eb

∑=

=

⋅−

= 1

2

1

2

22

)(

σσ

Расчетные значения этих величин по выборке составляют:

242

592

102.2108.4

107.4102.2−−

−−

⋅=⋅=

⋅=⋅=

bb

aa

σσ

σσ

Коэффициент детерминации

Качество линии регрессии характеризуется коэффициентом де-терминации:

Page 145: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

145

=

=

−−= N

kk

N

kk

Yy

eR

1

2

1

2

2

)(1

В рассматриваемом случае эта величина равна 9348.02 =R . Таккак среднеквадратичные отклонения отклика Y и ошибок аппрок-

симации e связаны соотношением ye R σσ ⋅−= 21 , то получаем,что с.к.о. ошибок приблизительно в четыре раза меньше с.к.о. от-клика: ye σσ 255.0= .

10.4. Статистические выводы о величине параметров рег-рессии.

Необходимо убедиться, что значения параметров регрессиизначимо отличаются от нуля. Для проверки этого выдвигаютсягипотезы:

0:0:0:0:

11

00

≠≠==

bHaHbHaH

1) Примем величину уровня значимости05.0=q

2) Рассчитаем критерии проверки

4.106107.4

005.05 =⋅

== −a

aatσ

200102.2

402.42 =⋅

== −b

bbtσ

3) Правило принятия решенияПринять Н0 , если νν ,2/1,2/1 qq ttt −− ≤≤−В противном случае принять Н1 , то есть Н1 принимается, когдакритерий проверки t попадает в критическую область

ν,2/1|| qtt −> .4) Расчет границ критической области

Page 146: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

146

96.1)814,05.0(

)2,(,2/1

==

=−=−

БРСТЬЮДРАСПО

NqБРСТЬЮДРАСПОt q ν

5) Проверка гипотезыТак как критерии проверки для обоих параметров регрессиинаходятся в критической области, мы принимаем гипотезу Н1.Это означает, что при заданном уровне значимости параметрырегрессии статистически значимо отличаются от нуля.

Статистические выводы о величине коэффициента детерми-нации

Убедимся в том, что коэффициент детерминации значимоотличается от нуля. Для проверки этого выдвигается гипотеза:

0:

0:2

1

20

>

=

RH

RH

1) Примем величину уровня значимости05.0=q

2) Рассчитаем критерий проверки

11671814/)9348.01(

9348.0)2/()1( 2

2

=−

=−−

=NR

RF

3) Правило принятия решенияПринять Н0 , если 2,1,1 ννqFF −≤ .В противном случае принять Н1 , то есть Н1 принимается, когдакритерий проверки F попадает в критическую область

2,1,1 ννqFF −> .

2,1,1 ννqF − - это квантиль F -распределения, соответствующая

уровню значимости q с 11 =ν степенями свободы длячислителя и 22 −= Nν степенями свободы для знаменателя.

4) Расчет границ критической области

85.3)814,1,05.0(

),,( 212,1,1

==

==−

FРАСПОБР

qFРАСПОБРF q νννν

5) Проверка гипотезыТак как критерий проверки для коэффициента детерминациинаходится в критической области, мы принимаем гипотезу Н1.

Page 147: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

147

Это означает, что при заданном уровне значимости измененияотклика y объясняются изменением фактора t .

10.5. Полоса неопределенности рассеяния эмпирическихданных относительно линии регрессии.

Дисперсия случайной величины efy += в произвольной точке tвычисляется по формуле:

−++⋅=

∑=

+ N

kk

eef

Tt

TtN

1

2

222

)(

)(11σσ

где

∑=

=−

===N

kk

e

Tt

TN

1

2 14027845)(

5.407816313.0σ

В данном случае на большом диапазоне изменения t безсущественной потери точности вторым и третьим слагаемым вскобках можно пренебречь, то есть 22

eef σσ ≈+ .

Величина efqty +−=∆ σν,2/12 называется шириной полосынеопределенности. Зададимся доверительной вероятностью

95.0=P ( 05.0=q ). Тогда квантиль распределения Стьюдентаравна

96.1)814,05.0(

),(,2/1

==

==−

БРСТЬЮДРАСПО

qБРСТЬЮДРАСПОt q νν

Ширина полосы неопределенности составит 226.1313.096.12 =⋅⋅=∆y

Следовательно, с вероятностью 95.0=P случайная величинаefy += будет лежать в пределах:

613.0)402.4005.0(613.0)402.4005.0(2/2/

++≤≤−+∆+≤≤∆−

tytyfyyf

Эмпирическая зависимость и ее полоса неопределенности изобра-жены на рисунке:

Page 148: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

148

Эмпирическая зависимость и полоса неопределенности

3.00

4.00

5.00

6.00

7.00

8.00

9.00

10.000

100

200

300

400

500

600

700

800

900

Приведем также график ошибок МНК и его полосу неопреде-ленности:

Ошибки лин е йной апп ро к симации и полоса н е опре де ле нн ости

-1 .00-0.80-0.60-0.40-0.200.000.200.400.600.801.00

0

100

200

300

400

500

600

700

800

900

Количество точек, находящееся внутри полосы неопределенно-сти, равно 774, что составляет %85.94%100)816/774( =⋅ отобъема выборки. Это соответствует доверительной вероятности

95.0=P .

10.6. Проверка допущений МНК.

Для того, чтобы мы могли сказать, что модель адекватнаэмпирическим данным, ошибки е должны обладать следующи-ми свойствами:1) Ошибки должны являться реализацией нормально распреде-

ленной случайной переменной.2) Математическое ожидание ошибки должно быть равно ну-

лю: 0)( =keM .

Page 149: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

149

3) Дисперсия ошибки должна быть постоянна: 2)( σ=keD .4) Ошибки должны быть независимыми, то есть

=

≠=

jkjk

ee jk 2

0),cov(

σ

Проверка гипотезы о том, что ошибки нормально распреде-лены

Оценки основных параметров распределения величины еприведены в таблице:

Наименование оценки Величина

Центр распределения e 0.01

Среднеквадратичное отклонение eσ 0.313

Коэффициент асимметрии γ 0.063

С.к.о. коэффициента асимметрии γσ 0.085

Для проверки гипотезы о том, что ошибки нормальнораспределены, нам необходимо построить гистограммувыборочного распределения величины е.

Оптимальное число столбцов гистограммы можно найти,округлив вниз до ближайшего большего или равного пятинечетного целого величину, определенную по формуле:

4.0

65.1 NL +

Вычисленное значение 9=L . Таким образом, областьизменения величины е разбивается на 9 интервалов, в каждом изкоторых необходимо рассчитать эмпирические частотыпопадания в соответствующий интервал.

При использовании критерия согласия Пирсона необходимовычислить величину:

∑=

−=

L

i i

ii

TsT

1

22 )(χ

гдеL - количество столбцов гистограммы,

Page 150: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

150

is - эмпирическая частота попадания в i-й столбец,

iT - теоретическая частота попадания в i-й столбец.

Приведем таблицу эмпирических частот.

Номер ин-тервала

Леваяграница

Праваяграница

Эмпирическаячастота is

1 -0.8732 -0.6791 52 -0.6791 -0.4851 463 -0.4851 -0.2911 874 -0.2911 -0.0970 1665 -0.0970 0.0970 2066 0.0970 0.2911 1397 0.2911 0.4851 1248 0.4851 0.6791 229 0.6791 0.8732 21

Так как отношение коэффициента асимметрии к егосреднеквадратичному отклонению меньше трех

3738.0085.0/063.0/ <==γσγто несимметричность носит случайный характер ираспределение частот можно расчетным образомсимметрировать относительно центрального пятого столбца:

Номер ин-тервала

Леваяграница

Праваяграница

Эмпирическаячастота is

1 -0.8732 -0.6791 13.002 -0.6791 -0.4851 34.003 -0.4851 -0.2911 105.504 -0.2911 -0.0970 152.505 -0.0970 0.0970 206.006 0.0970 0.2911 152.507 0.2911 0.4851 105.508 0.4851 0.6791 34.009 0.6791 0.8732 13.00

Вычислим теоретические частоты попадания всоответствующий интервал для нормального распределения с

)313.0,01.0( == σµ и рассчитаем величину 2χ :

Page 151: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

151

Номер ин-тервала

Леваяграница

Праваяграница

Эмпирическаячастота is

Теоретическаячастота iT

i

ii

TsT 2)( −

1 -0.8732 -0.6791 13.00 10.03 0.882 -0.6791 -0.4851 34.00 37.08 0.263 -0.4851 -0.2911 105.50 94.29 1.334 -0.2911 -0.0970 152.50 165.03 0.955 -0.0970 0.0970 206.00 198.88 0.256 0.0970 0.2911 152.50 165.03 0.957 0.2911 0.4851 105.50 94.29 1.338 0.4851 0.6791 34.00 37.08 0.269 0.6791 0.8732 13.00 10.03 0.88

ИТОГО 09.72 =χ

Зададимся уровнем значимости 05.0=q . Тогда с учетом того, чтоколичество степеней свободы равно

62191 =−−=−−= rLνграница критической области вычисляется как:

59.12)6,05.0(22,1 ==− ОБРХИq νχ

Так как 2,1

2νχχ q−≤ , то распределение отклонений от линии

регрессии можно аппроксимировать нормальным распределениемпри заданном уровне значимости.

Проверка гипотезы о том, что математическое ожиданиеошибки равно нулю

Проверка гипотезы осуществляется по схеме:1) Априорные предположения

Математическое ожидание ошибки равно нулю0=eµ

2) Результаты испытанияВыборочная средняя ошибки и выборочное с.к.о. ошибки

313.001.0

==

e

eσпри объеме выборки 816=N .

3) Гипотеза

Page 152: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

152

0:

0:

1

0

=

eH

eH

4) Принятая величина уровня значимости05.0=q

5) Расчет критерия проверки

032.0313.001.0

==−

=e

eetσµ

6) Правило принятия решенияПринять Н0 , если νν ,2/1,2/1 qq ttt −− ≤≤−В противном случае принять Н1.

7) Расчет границ критической области

96.1)814,05.0(

)2,(,2/1

==

=−=−

БРСТЬЮДРАСПО

NqБРСТЬЮДРАСПОt q ν

8) Проверка гипотезыТак как νν ,2/1,2/1 qq ttt −− ≤≤− то мы принимаем гипотезу Н0,то есть при заданном уровне значимости выборочная средняяошибки e статистически незначимо отличается от нуля.

Проверка гипотезы о том, что дисперсия ошибки постоянна

Для проверки этой гипотезы разделим эмпирическиеданные на две группы по 350 точек: с 1-й по 350-ю и с 467-й по816-ю точки. Серединные точки с 351-й по 466-ю (14.2% отобъема выборки) исключаем для лучшего разграничения междугруппами. Рассчитаем суммы квадратов ошибок для каждой изэтих групп:

67.1937.50350

1

22

816

467

21 ==== ∑∑

== kk

kk eSeS

Проверка гипотезы о постоянстве дисперсии осуществляетсяпо схеме:1) Гипотеза

22

211

22

210

:

:

SSH

SSH

>

=

2) Принятая величина уровня значимости

Page 153: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

153

01.0=q3) Расчет критерия проверки

561.267.1937.50

22

21 ===

SSF

4) Правило принятия решенияПринять Н0 , если 2,1,1 ννqFF −≤В противном случае принять Н1 , то есть Н1 принимается,когда критерий проверки F попадает в критическую об-ласть 2,1,1 ννqFF −> .

5) Расчет границ критической области

284.1)2350,2350,01.0(

),,( 212,1,1

=−−=

==−

FРАСПОБР

qFРАСПОБРF q νννν

6) Проверка гипотезыДаже при уровне значимости 01.0=q критерий проверкиF попадает в критическую область 2,1,1 ννqFF −> , то естьмы отклоняем гипотезу Н0 и принимаем гипотезу Н1 . Сле-довательно дисперсия ошибок регрессии не постоянна.

Проверка гипотезы о том, что ошибки независимы

На практике проверяется не независимость, анекоррелированность ошибок, которая является необходимым,но недостаточным условием независимости. Для этого нужнорассчитать коэффициент автокорреляции первого порядка

∑∑

∑−

=+

=

=+

+ =1

1

21

1

1

2

1

11

1, N

kk

N

kk

N

kkk

kk

ee

eeρ

Для рассматриваемого здесь случая эта величина равна987.01, =+kkρ . Очевидно, что коэффициент автокорреляции

значимо отличается от нуля и ошибки уравнения высококорре-лированы.

Page 154: Булашев. Статистика для трейдеров

Глава 10. Применение МНК при изучении динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

154

Выводы

Следует признать, что аппроксимация линейной функциейлогарифма цены актива является неудовлетворительной, так какне соблюдаются два из четырех допущений МНК.

Не приводя доказательств скажем, что попытка уточнитьмодель путем введения циклических компонент не приводит кулучшению качества ошибок регрессии.

На практике при изучении динамических рядов цен активовиспользуют методы адаптивного моделирования, о которыхбудет рассказано в следующих главах.

Page 155: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

155

11. СГЛАЖИВАНИЕ ДИНАМИЧЕСКИХ РЯДОВ

11.1. Введение.

Целью сглаживания динамического ряда является фильтра-ция случайных колебаний уровней этого ряда и выявление наи-более устойчивой тенденции движения. Мы будем рассматри-вать методы сглаживания, базирующиеся на вычислении сколь-зящих средних. Любое скользящее среднее - это метод опреде-ления среднего уровня динамического ряда за некоторый пери-од времени. Термин "скользящее" подразумевает, что среднеезначение каждый раз заново вычисляется в последовательныемоменты времени. В этой главе под динамическим рядом мы,как правило, будем понимать ряд, состоящий из цен активов.

11.2. Типы скользящих средних.

В общем виде формула для вычисления любой скользящейсредней (moving average) имеет вид:

∑=k

kk ywMA

где }{ ky - массив цен актива,}{ kw - массив весов, с которыми цены входят в формулу.

При этом для набора весов должно соблюдаться правило нор-мирования:

1=∑k

kw

Скользящая средняя характеризуется:- объектом вычисления, то есть тем динамическим рядом, кото-

рый необходимо сгладить,- периодом скользящей средней,- типом скользящей средней, который определяет алгоритм вы-

числения набора весов }{ kw .Различают три основных типа скользящих средних:- простая скользящая средняя (SMA - simple moving average),- взвешенная скользящая средняя (WMA - weighted moving aver-

age),- экспоненциальная скользящая средняя (EMA - exponential

moving average).

Page 156: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

156

11.3. Простая скользящая средняя.

Простая скользящая средняя порядка T - это средняяарифметическая цен за период времени ],1[ tTt +− , то есть

∑+−=

=t

Ttkkt y

TSMA

1

1

Внутри интервала tkTt ≤≤+− 1 все веса, с которымивходят цены при расчете скользящей средней одинаковы иравны Twk /1= . За пределами этого интервала, то есть при

1+−< Ttk веса равны нулю. Первым недостатком SMA является равенство весов в

пределах интервала расчета, так как интуитивно понятно, чтопоследние данные должны иметь большую ценность, то естьвходить в формулу для расчета с большим весом.

Второй недостаток SMA становится понятным прирассмотрении рекуррентной формулы для ее вычисления:

Ttttt yT

yT

SMASMA −− −+=11

1

Очевидно, что SMA на каждую цену реагирует дважды: первыйраз, когда цена входит в интервал расчета, и второй раз, когдацена выбывает из него. Вторая реакция никак не связана стекущей динамикой и, следовательно, нежелательна.

Традиционно, скользящую среднюю соотносят с последнейточкой интервала расчета, то есть с моментом времени t , хотя,строго говоря, это некорректно. Вычисленное значение SMAнужно ставить в соответствие с точкой на оси времени,имеющей координату

2)1(1

1

−−== ∑

+−=

TtkT

tt

Ttk

то есть с точкой, сдвинутой влево по оси времени от момента tна величину 2/)1( −=∆ Tt .

11.4. Взвешенная скользящая средняя.

Взвешенная скользящая средняя придает больший вес по-следним данным. Она рассчитывается путем умножения каждой

Page 157: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

157

цены в пределах периода времени ],1[ tTt +− насоответствующий вес. В простейшем случае при линейноубывающих весах от момента t до момента 1+−Tt формулаимеет вид:

∑+−=

⋅−−+

=t

Ttkkt yTtk

TTWMA

1)]([

)1(2

Цена в момент времени tk = входит в формулу для расчетас максимальным весом )1/(2 += Tw , а цена в момент времени

1+−= Ttk входит в формулу для расчета с минимальнымвесом ))1(/(2 +⋅= TTw .

При отсутствии специализированных программтехнического анализа, для расчета линейно взвешеннойскользящей средней может быть полезна рекуррентная формула

tTtttt SMAT

yTT

yT

WMAWMA)1(

2)1(

221 +

−+

−+= −−

Из этой формулы следует, что реакция WMA на выбытие ценыиз интервала расчета менее выражена, чем у SMA, и эта реакциятем меньше, чем больше период скользящей средней.

11.5. Экспоненциальная скользящая средняя.

Как и в случае взвешенной средней, экспоненциальнаяскользящая средняя придает больший вес последним данным,однако при расчете используется вся история цен. Рекуррентнаяформула для ее вычисления имеет вид:

10)1( 1

≤<⋅−+⋅= −

ααα ttt EMAyEMA

Показательный процент α определяет степень сглаживания. Чембольше α , тем меньше степень сглаживания. При 1=α экспо-ненциальная скользящая средняя равна цене.

EMA лишена недостатка, присущего SMA и WMA, связанногос фиксированным интервалом расчета скользящей средней.

Формулу для вычисления EMA можно записать в явномвиде, если предположить, что в нулевой момент временискользящая средняя совпадает с ценой ( 00 yEMA = ):

Page 158: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

158

022

1

33

22

1

22

1

1

)1()1()1(

)1()1()1(

)1()1(

)1(

yyyy

EMAyyy

EMAyy

EMAyEMA

tttt

tttt

ttt

ttt

⋅−++⋅−⋅+⋅−⋅+⋅=

=⋅−+⋅−⋅+⋅−⋅+⋅=

=⋅−+⋅−⋅+⋅=

=⋅−+⋅=

−−

−−−

−−

αααααα

αααααα

αααα

αα

K

Следовательно

0

1

0)1()1( yyEMA t

t

iit

it ⋅−+⋅−= ∑

=− ααα

или (эквивалентная форма записи)

01

)1()1( yyEMA tt

kk

ktt ⋅−+⋅−= ∑

=

− ααα

Вычисленное значение ЕMA нужно ставить в соответствие сточкой на оси времени, имеющей координату

∑∑∑−

=

=

=

−−−=−−=1

0

1

0

1

0)1()1()()1(

t

i

it

i

it

i

i ititt αααααα

Суммы в последней формуле вычисляются как

2

1

0

1

0

)1)(1()1()1(

)1(1)1(

αααααα

ααα

tt

i

i

tt

i

i

ti −−+−−=⋅−

−−=−

∑−

=

=

После несложных преобразований получаем, что

αα

αα 1)1()1( +−

+−

−=t

tt

При достаточно большом t , т.к. 1)1( <−α , то 0)1( 1 ≈− +tα ,значит можно пренебречь последним слагаемым и написатьприближенное выражение αα /)1( −−≈ tt .

Период ЕМА

Момент времени t сдвинут влево по оси времени отмомента t на величину αα /)1( −=∆t . Если по аналогии спростой скользящей средней обозначить эту величину как

Page 159: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

159

2/)1( −=∆ Tt , где T является периодом, то связь периода ипоказательного процента задается выражением:

2)1()1( −

=− Tαα

Отсюда следуют формулы для конвертирования показательногопроцента в период и наоборот:

1212+

=−=T

T αα

С учетом этих соотношений можно переписать рекуррентнуюформулу для ЕМА:

111

12

−⋅+−

+⋅+

= ttt EMATTy

TEMA

ЕМА произвольного порядка

До сих пор мы рассматривали экспоненциальную скользящуюсреднюю первого порядка, то есть сглаживанию подвергалсянепосредственно исходный динамический ряд:

)1(1

)1( )1( −⋅−+⋅= ttt EMAyEMA ααПри обозначении ЕМА первого порядка верхний индекс обычноопускается.

Экспоненциальная скользящая средняя произвольного n -гопорядка задается формулой:

)(1

)1()( )1( nt

nt

nt EMAEMAEMA −

− ⋅−+⋅= αα

DEMA

Рассмотрим ошибку ЕМА, то есть величину ttt EMAye −= .Если прибавить к значению экспоненциальной скользящей среднейцены значение экспоненциальной скользящей средней ошибки, тотакая величина называется двойной экспоненциальной скользящейсредней:

)2()1(2)(2

)()(

tttt

tttttt

EMAEMAEMAEMAEMA

EMAyEMAEMAeEMAEMADEMA

−⋅≡−⋅=

=−+=+=

Page 160: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

160

TEMA

Рассмотрим ошибку DЕМА, то есть величинуttt DEMAye −= . Тогда тройная экспоненциальная скользящая

средняя вычисляется по формуле:)()( tttttt DEMAyEMADEMAeEMADEMATEMA −+=+=

После преобразований получим, что

)3()2()1( 33

))(()(33

ttt

tttt

EMAEMAEMA

EMAEMAEMAEMAEMAEMATEMA

+⋅−⋅≡

≡+⋅−⋅=

11.6. Точки пересечения экспоненциально сглаженных кри-вых.

Часто в момент времени t ("сегодня") необходимо знать,какая цена должна быть в момент времени 1+t ("завтра"), что-бы произошло пересечение цены y с какой-либо экспоненци-ально сглаженной кривой или пересечение двух различных экс-поненциально сглаженных кривых. Приведем соответствующиеформулы для некоторых наиболее важных случаев.1) Пересечение цены y и ЕМА 1-го порядка

)1(1 tt EMAy =+

2) Пересечение цены y и ЕМА 2-го порядка

αα+

⋅+=+ 1

)1()2(

1tt

tEMAEMAy

3) Пересечение цены y и DЕМА

( ))2(1

)2()1( )2()1(

1 αααα

−⋅−−⋅−⋅−

=+tt

tEMAEMAy

или( )

)2(1)1( )1(

1 αααα

−⋅−⋅−⋅−

=+tt

tEMADEMAy

4) Пересечение двух ЕМА 1-го порядка различных периодов

21

)1(1

)1(2

11)1(2)1(

αααα

−⋅−−⋅−

=+tt

tEMAEMAy

Page 161: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

161

)1(1tEMA характеризуется показательным процентом 1α ,)1(2 tEMA характеризуется показательным процентом 2α .

5) Пересечение двух ЕМА 2-го порядка различных периодов

]/[]1)1(1)1(

2)1(2)1([22

21

)2(1

)1(11

)2(2

)1(221

ααααα

ααα

−⋅−−⋅−⋅−

−⋅−+⋅−⋅=+

tt

ttt

EMAEMA

EMAEMAy

)1(1tEMA и )2(1tEMA характеризуются показательным про-центом 1α ,

)1(2 tEMA и )2(2 tEMA характеризуются показательным про-центом 2α .

6) Пересечение ЕМА 1-го порядка (показательный процент 1α )и ЕМА 2-го порядка (показательный процент 2α )

]/[]1)1(

2)1(2)1([221

)1(1

)2(2

)1(221

ααα

ααα

−⋅−−

−⋅−+⋅−⋅=+

t

ttt

EMA

EMAEMAy

11.7. Выбор величины показательного процента для экспо-ненциальной скользящей средней.

Для того, чтобы оценить, насколько хорошо подобрана ве-личина показательного процента α , необходимо рассмотретьошибки, возникающие при прогнозировании уровня цены в мо-мент времени 1+t ("завтра") значением ЕМА в момент времениt ("сегодня"). Введем обозначения:- ty - цена в момент времени t ,- α - показательный процент сглаживания ряда цен,- tY - ЕМА для ряда цен, т.е. 1)1( −⋅−+⋅= ttt YyY αα ,- tf - прогноз цены, причем tt Yf =+1 ,- te - ошибка прогноза, т.е. ttt fye −= ,- β - показательный процент сглаживания ряда квадратов

ошибок прогноза,- tQ - ЕМА для ряда квадратов ошибок прогноза, т.е.

12 )1( −⋅−+⋅= ttt QeQ ββ .

Page 162: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

162

Оптимизация величины показательного процента α - это под-бор такого его значения, чтобы при фиксированном β добитьсятого, чтобы min→tQ . Обычно величину β выбирают в пре-делах от 0.1 до 0.2, что приблизительно соответствует периодусглаживания в пределах от 10 до 20.

11.8. Экспоненциальная скользящая средняя с переменнымпоказательным процентом.

На нестабильных рынках имеет смысл использовать ЕМА спеременным показательным процентом, который по мере полу-чения новых данных постоянно подстраивается к текущей ры-ночной ситуации. Введем обозначения:- ty - цена в момент времени t ,- tα - переменный показательный процент сглаживания ряда

цен,- tY - ЕМА для ряда цен, т.е. 1)1( −⋅−+⋅= ttttt YyY αα ,- tf - прогноз цены, причем tt Yf =+1 ,- te - ошибка прогноза: ttt fye −= ,- β - показательный процент сглаживания ошибок прогноза

и модулей ошибок прогноза,- tE - ЕМА ошибок прогноза: 1)1( −⋅−+⋅= ttt EeE ββ ,- tA - ЕМА модулей ошибок : 1)1(|| −⋅−+⋅= ttt AeA ββ .Значение переменного показательного процента в каждый мо-мент времени вычисляют по формуле |/| ttt AE=α . Величинуβ выбирают в пределах от 0.1 до 0.2.

11.9. Дисперсия скользящих средних.

Рассмотрим на качественном уровне вопрос о том, как со-относится дисперсия значений исходного динамического ряда сдисперсией скользящей средней этого ряда. Для простоты будемпредполагать, что исходный динамический ряд состоит из слу-чайных величин, имеющих одинаковую дисперсию 2σ , причемв пределах интервала сглаживания средняя величина коэффици

Page 163: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

163

ента корреляции между значениями исходного ряда в различныемоменты времени равна ρ .

В общем виде формула для вычисления любой скользящейсредней имеет вид:

∑=k

kk ywY

Дисперсия случайной величины, являющейся линейнойкомбинацией коррелированных случайных величин равна:

∑∑∑>

+=k ki

kiikkik

kkY www σσρσσ 2222

Используя допущения о постоянстве дисперсий и коэффициен-тов корреляций, эту формулу можно упростить:

∑∑∑>

+=k ki

kik

kY www 2222 2ρσσσ

Следовательно

∑∑∑>

+=k ki

kik

kY www ρ

σσ 22

2

2

Согласно правилу нормирования весов справедливо равенство

122 =+ ∑∑∑>k ki

kik

k www

Отсюда можно сделать вывод, что так как 1≤ρ , то 22 σσ ≤Y .

Дисперсия простой скользящей средней

Формула для простой скользящей средней имеет вид:

∑+−=

=t

Ttkky

TY

1

1

Найдем суммы весов, входящие формулу для вычисленияотношения дисперсии скользящей средней к дисперсииисходного ряда:

TTw

t

Ttk

t

Ttkk

1)/1(1

2

1

2 == ∑∑+−=+−=

TTTww

t

Ttk

t

ki

t

Ttk

t

kiki

1)/1(221 1

2

1 1

−== ∑ ∑∑ ∑

+−= +=+−= +=

Page 164: Булашев. Статистика для трейдеров

Глава 11. Сглаживание динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

164

В итоге получаем: T

TT

Y 112

2 −⋅+= ρ

σσ

Дисперсия экспоненциальной скользящей средней

Формула для экспоненциальной скользящей средней имеет вид:

0

1

0)1()1( yyY t

t

iit

i ⋅−+⋅−= ∑−

=− ααα

Приведем выражения для сумм весов, входящие в формулу длявычисления отношения дисперсии скользящей средней кдисперсии исходного ряда:

tt

k

ktt

kkw 2

1

222

0

2 )1(2

222

)1()1( ααα

ααααα −

−−

+−

=−+−= ∑∑==

tt

k

t

kikiww 2

0 1)1(

222

2222 α

αα

αα

−−−

−−−

=∑ ∑= +=

При достаточно большом t , так как 1)1( <−α , то 0)1( 2 ≈− tα .

Следовательно T

TT

Y 112

2222

2 −⋅+=

−−

+−

= ρααρ

αα

σσ

Page 165: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

165

12. АДАПТИВНОЕ МОДЕЛИРОВАНИЕ ДИНАМИЧЕС-КИХ РЯДОВ

12.1. Введение.

Аналитическая аппроксимация динамического ряда какой-либо моделью с помощью МНК имеет ряд особенностей, кото-рые накладывают ограничения на ее применение:- динамический ряд, к которому применяется аппроксимация,

должен быть достаточно длинным,- применение аналитической аппроксимации эффективно

только в случае, если уровни динамического ряда меняютсядостаточно плавно и медленно, то есть ряд должен быть не-волатильным,

- аналитическая аппроксимация не адаптируется к появлениюновых данных, то есть при появлении новых данных необ-ходимо пересчитать параметры модели, а иногда возможнопересмотреть саму модель,

- при расчете параметров модели все эмпирические данныевходят с одинаковым весом, хотя понятно, что более позд-ние данные имеют большую ценность.

Однако ряды цен активов как правило подвержены значитель-ным колебаниям, которые аппроксимация не может предвидеть.Поэтому на практике применительно к таким рядам используютметоды адаптивного моделирования, которые базируются наэкспоненциальном сглаживании динамического ряда (экспонен-циальной скользящей средней).

Основным преимуществом методов, основанных на экспо-ненциальном сглаживании, является учет временной ценностиданных и, следовательно, постоянное адаптирование к изме-няющимся уровням динамического ряда, что имеет решающеезначение при моделировании и прогнозировании волатильныхрядов.

12.2. Адаптивное моделирование линейного тренда с помо-щью экспоненциальных скользящих средних.

Пусть есть основания полагать, что исходный динамиче-ский ряд }{ ty можно описать линейной функцией

Page 166: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

166

taatf ⋅+= )1()0()( . Наличие случайных отклонений приведет ктому, что связь между рассчитанными по модели значениями tfи реальными уровнями динамического ряда ty будет выражать-ся в виде:

tttt etaaefy +⋅+=+= )1()0(

где te - это расхождения между моделью и реальнымиуровнями. Используя экспоненциальные скользящие средниевычислим неизвестные параметры ),( )1()0( aa .

Обозначения

Введем следующие обозначения:- )1(

tY - ЕМА 1-го порядка исходного динамического ряда,

- )2(tY - ЕМА 2-го порядка исходного динамического ряда,

- )1(tE - ЕМА 1-го порядка ошибок модели,

- )2(tE - ЕМА 2-го порядка ошибок модели,

- α - показательный процент ЕМА.

Вычисление )1(tY

( )

−+−+

+−+−−−+=

=+−++−+−=

=−+−=

∑∑

=−

=

=

=−

=−

0

1

0

)0(1

0

)1(1

0

)1()0(

0)0(

1

0

)1()0(

0

1

0

)1(

)1()1(

)1()1()1()(

)()1()()1(

)1()1(

ee

aiataa

eaeitaa

yyY

tt

iit

i

tt

i

it

i

i

tt

iit

i

tt

iit

it

ααα

ααααα

ααα

ααα

Суммы в последней формуле вычисляются как

ααα

tt

i

i )1(1)1(1

0

−−=−∑

=

Page 167: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

167

2

1

0

)1)(1()1()1(α

αααααtt

i

i ti −−+−−=−∑

=

При достаточно большом t , так как 1)1( <−α , то 0)1( ≈− tα иможно написать приближенные выражения:

2

1

0

1

0

)1()1(

1)1(

ααα

αα

−≈−

≈−

∑−

=

=

t

i

i

t

i

i

i

Выражение в квадратных скобках равно )1(tE .

С учетом всего вышесказанного формула для )1(tY примет вид:

)1()1()1()0()1( )1(tt EataaY +

−−+=

αα

или)1()1()1( )1(

ttt EafY +−

−=αα

Очевидно, что между ЕМА 1-го порядка )1(tY и моделью tf суще-

ствует постоянный сдвиг, равный αα /)1()1( −⋅− a . Величина это-го сдвига пока неизвестна, так как она выражается через неизвест-ный параметр )1(a .

Вычисление )2(tY

+

−−−+

+

+

−−−+−=

=−+−=

∑−

=−

=−

)1(0

)1()0(

1

0

)1()1()1()0(

)1(0

1

0

)1()2(

)1()1(

)1()()1(

)1()1(

Eaa

Eaitaa

YYY

t

t

iit

i

tt

iit

it

ααα

αααα

ααα

Дальнейшие выкладки полностью аналогичны тем, которые былисделаны при вычислении )1(

tY . Приведем сразу конечный резуль-тат:

Page 168: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

168

)2()1()1()0()2( )1(2 tt EataaY +−

−+=αα

или)2()1()2( )1(2 ttt EafY +

−−=

αα

Вычисление параметров линейного тренда

Имеем систему уравнений с двумя неизвестными ),( )1()0( aa :

+−

−+=

+−

−+=

)2()1()1()0()2(

)1()1()1()0()1(

)1(2

)1(

tt

tt

EataaY

EataaY

αα

αα

Решая эту систему находим неизвестные параметры ),( )1()0( aa

( ) ( )[ ]

( ) ( )[ ])2()1()2()1()1(

)1()2()1()2()1()1()0(

1

11

tttt

tttttt

EEYYa

EtEEYYYa

−−−⋅−

=

−−⋅−−−+=

αα

αα

При переносе начала отсчета в точку t получим( ) ( )

( ) ( )[ ])2()1()2()1()1(

)2()1()2()1()0(

1

22

ttttt

ttttt

EEYYa

EEYYa

−−−⋅−

=

−−−=

αα

В разные моменты времени t значения коэффициентов будутразличны. Поэтому в формулах они отмечены соответствующимимоменту времени индексами.

Прогноз уровней динамического ряда

Прогнозное значение динамического ряда в момент времениτ+t равно ττ ⋅+=+

)1()0(ttt aaf .

Замечание

В формулах для вычисления параметров линейной регрессии),( )1()0(

tt aa присутствуют величины )1(tE и )2(

tE , которые являют

Page 169: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

169

ся ЕМА от ошибок уравнения регрессии ttt fye −= , то есть при

вычислении ),( )1()0(tt aa возникает перекрестная ссылка. Поэтому

на первом этапе нужно использовать упрощенные формулы, неучитывающие скользящих средних ошибок.

Алгоритм вычисления параметров линейного тренда

1) Рассчитать ЕМА 1-го и 2-го порядка исходного ряда:)1(

tY и )2(tY

2) Вычислить в первом приближении параметры линейного трен-да:

( ))2()1()1(

)2()1()0(

1

2

ttt

ttt

YYa

YYa

−⋅−

=

−=

αα

3) Для каждого момента времени t найти прогнозное значение наτ шагов вперед ( 1≥τ ) согласно уравнению регрессии:

ττ ⋅+=+)1()0(

ttt aaf4) Рассчитать ошибки прогноза:

ttt fye −=5) Вычислить ЕМА 1-го и 2-го порядка ошибок прогноза:

)1(tE и )2(

tE6) Определить окончательные значения параметров линейного

тренда:( ) ( )

( ) ( )[ ])2()1()2()1()1(

)2()1()2()1()0(

1

22

ttttt

ttttt

EEYYa

EEYYa

−−−⋅−

=

−−−=

αα

ЕМА ошибок могут ухудшить качество прогноза. В этом слу-чае при расчете параметров линейного тренда нужно остано-виться на шаге 2 этого алгоритма.

12.3. Адаптивное моделирование параболического тренда спомощью экспоненциальных скользящих средних.

Пусть исходный динамический ряд }{ ty можно описать пара-

болой 2)2()1()0()( tataatf ++= . Наличие случайных отклонений

Page 170: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

170

приведет к тому, что связь между рассчитанными по модели значе-ниями tf и реальными уровнями динамического ряда ty будетвыражаться в виде:

tttt etataaefy +++=+= 2)2()1()0(

где te - это расхождения между моделью и реальными уровнями.Используя экспоненциальные скользящие средние вычислим неиз-вестные параметры ),,( )2()1()0( aaa .

Обозначения

Введем обозначения:- )1(

tY - ЕМА 1-го порядка исходного динамического ряда,

- )2(tY - ЕМА 2-го порядка исходного динамического ряда,

- )3(tY - ЕМА 3-го порядка исходного динамического ряда,

- )1(tE - ЕМА 1-го порядка ошибок модели,

- )2(tE - ЕМА 2-го порядка ошибок модели,

- )3(tE - ЕМА 3-го порядка ошибок модели,

- α - показательный процент ЕМА.

Вычисление )1(tY , )2(

tY и )3(tY

( ))()1(

)()()1(

)1()1(

0)0(

1

0

2)2()1()0(

0

1

0

)1(

ea

eitaitaa

yyY

t

t

iit

i

tt

iit

it

+−+

++−+−+−=

=−+−=

∑−

=−

=−

α

αα

ααα

−+−+−+−+

+−+−−++=

∑∑

∑∑−

=−

=

=

=

0

1

0

)0(1

0

2)2(

1

0

)2()1(1

0

2)2()1()0()1(

)1()1()1()1(

)1()2()1()(

eeaia

itaatataaY

tt

iit

itt

i

i

t

i

it

i

it

αααααα

αααα

При достаточно большом t , так как 1)1( <−α , то 0)1( ≈− tα .Следовательно:

Page 171: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

171

3

1

0

2

2

1

0

1

0

)2)(1()1(

)1()1(

1)1(

αααα

ααα

αα

−−≈−

−≈−

≈−

=

=

=

t

i

i

t

i

i

t

i

i

i

i

Выражение в квадратных скобках равно )1(tE .

С учетом всего вышесказанного формула для )1(tY примет вид:

)1(2)2()1()0()1(tt EtatbbY +++=

где

αα

ααα

αα

−−=

−−+

−−=

12

)2)(1(1

)2()1()1(

2)2()1()0()0(

aab

aaab

Расчет )2(tY и )3(

tY проводятся по той же схеме. Приведем сразуконечный результат.

)2(2)2()1()0()2(tt EtatccY +++=

где

αα

ααα

αα

−−=

−−+

−−=

12

)2)(1(1

)2()1()1(

2)2()1()0()0(

abc

abbc

)3(2)2()1()0()3(tt EtatddY +++=

где

αα

ααα

αα

−−=

−−+

−−=

12

)2)(1(1

)2()1()1(

2)2()1()0()0(

acd

accd

Page 172: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

172

Вычисление параметров параболического тренда

Используя эти результаты найдем неизвестные параметрыпараболического тренда ),,( )2()1()0( aaa . Перенеся начало сис-темы отсчета в точку t после довольно громоздкихпреобразований можно получить:

( ) ( ))3()2()1()3()2()1()0( 3333 ttttttt EEEYYYa +−−+−=

( )

( ))34()810()56()1(2

)34()810()56()1(2

)3()2()1(2

)3()2()1(2

)1(

αααα

α

αααα

α

−+−−−−

−−+−−−−

=

ttt

tttt

EEE

YYYa

( )

( ))3()2()1(2

2

)3()2()1(2

2)2(

2)1(2

2)1(2

ttt

tttt

EEE

YYYa

+−−

−+−−

=

αα

αα

Прогноз уровней динамического ряда

Прогнозное значение динамического ряда в момент времениτ+t равно 2)2()1()0( τττ ⋅+⋅+=+ tttt aaaf .

Замечание

В формулах для вычисления параметров параболическойрегрессии ),,( )2()1()0(

ttt aaa присутствуют величины )1(tE , )2(

tE и)3(

tE , которые являются ЕМА от ошибок уравнения регрессии

ttt fye −= , то есть при вычислении ),,( )2()1()0(ttt aaa возникает

перекрестная ссылка. Поэтому на первом этапе нужно использо-вать упрощенные формулы, не учитывающие скользящих сред-них ошибок.

Алгоритм вычисления параметров параболического тренда

1) Рассчитать ЕМА 1-го, 2-го и 3-го порядков исходного ряда:)1(

tY , )2(tY и )3(

tY

Page 173: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

173

2) Вычислить в первом приближении параметры параболическоготренда:

)3()2()1()0( 33 tttt YYYa +−=

( ))34()810()56()1(2

)3()2()1(2

)1( αααα

α−+−−−

−= tttt YYYa

( ))3()2()1(2

2)2( 2

)1(2 tttt YYYa +−−

α

3) Для каждого момента времени t найти прогнозное значение наτ шагов вперед ( 1≥τ ) согласно уравнению регрессии:

2)2()1()0( τττ ⋅+⋅+=+ tttt aaaf4) Рассчитать ошибки прогноза:

ttt fye −=5) Вычислить ЕМА 1-го, 2-го и 3-го порядков ошибок прогноза:

)1(tE , )2(

tE и )3(tE

6) Определить окончательные значения параметров параболиче-ского тренда:

( ) ( ))3()2()1()3()2()1()0( 3333 ttttttt EEEYYYa +−−+−=

( )

( ))34()810()56()1(2

)34()810()56()1(2

)3()2()1(2

)3()2()1(2

)1(

αααα

α

αααα

α

−+−−−−

−−+−−−−

=

ttt

tttt

EEE

YYYa

( ) ( ))3()2()1(2

2)3()2()1(

2

2)2( 2

)1(22

)1(2 ttttttt EEEYYYa +−−

−+−−

αα

α

ЕМА ошибок могут ухудшить качество прогноза. В этом случаепри расчете параметров параболического тренда нужно остано-виться на шаге 2 этого алгоритма.

12.4. Выбор величины показательного процента при адап-тивном моделировании.

Для того, чтобы оценить, насколько хорошо подобрана ве-личина показательного процента α , необходимо рассмотреть

Page 174: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

174

ошибки, возникающие при прогнозировании уровня цены в мо-мент времени τ+t моделью:

ττ ⋅+=+)1()0(

ttt aaf или 2)2()1()0( τττ ⋅+⋅+=+ tttt aaafВведем обозначения:- tε - ошибка прогноза ( ttt fy −=ε ):

для линейной модели )( )1()0( τε ττ ⋅+−= −− tttt aay ,

для параболы )( 2)2()1()0( ττε τττ ⋅+⋅+−= −−− ttttt aaay .Заметим, что ошибки прогноза зависят не только от α , но иот интервала прогнозирования τ .

- β - показательный процент сглаживания ряда квадратовошибок прогноза,

- tQ - ЕМА для ряда квадратов ошибок прогноза:

12 )1( −⋅−+⋅= ttt QQ βεβ .

Оптимизация величины показательного процента α - это под-бор такого его значения, чтобы при фиксированном β добитьсятого, чтобы min→tQ . Обычно величину β выбирают в пре-делах от 0.1 до 0.2, что приблизительно соответствует периодусглаживания в пределах от 10 до 20.

12.5. Адаптивное моделирование с переменным показатель-ным процентом.

На нестабильных рынках имеет смысл использовать адап-тивное моделирование с переменным показательным процентом

tα , который по мере получения новых данных постоянно под-страивается к текущей рыночной ситуации.Введем обозначения:- tε - ошибка прогноза ( ttt fy −=ε ):

для линейной модели )( )1()0( τε ττ ⋅+−= −− tttt aay ,

для параболы )( 2)2()1()0( ττε τττ ⋅+⋅+−= −−− ttttt aaay .- β - показательный процент сглаживания ошибок прогноза

и модулей ошибок прогноза,- tΕ - ЕМА ошибок прогноза:

Page 175: Булашев. Статистика для трейдеров

Глава 12. Адаптивное моделирование динамических рядов

С.В. Булашев. Статистика для трейдеров (электронная версия).

175

1)1( −Ε⋅−+⋅=Ε ttt βεβ ,- tA - ЕМА модулей ошибок прогноза,

1)1(|| −⋅−+⋅= ttt AA βεβ .Значение переменного показательного процента в каждый мо-мент времени вычисляют по формуле |/| ttt AΕ=α . Величинуβ выбирают в пределах от 0.1 до 0.2.

Page 176: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

176

13. МЕХАНИЧЕСКИЕ ТОРГОВЫЕ СИСТЕМЫ

13.1. Введение.

Определим инвестирование как вложение свободных де-нежных средств в различные виды финансовых активов с цельюполучения прибыли. При формировании инвестиционногопортфеля выбирается такой набор активов и такой способуправления ими, которые бы обеспечивали ожидаемый доход нениже заранее заданного минимального значения при риске по-лучения дохода не выше заранее заданного максимального зна-чения. Существуют два основных способа управления портфе-лем ценных бумаг: активный и пассивный.

Суть пассивного управления состоит в создании хорошо ди-версифицированного, состоящего из большого количества акти-вов портфеля, и продолжительного удерживания его в неизмен-ном состоянии. Пассивный портфель характеризуется низкимоборотом и малым уровнем накладных расходов.

Мы сконцентрируем внимание на рассмотрении активногоуправления портфелем, которое нацелено на получение доходавыше среднерыночного уровня. Активное управление подразу-мевает:- выбор небольшого количества высоколиквидных активов

для формирования портфеля,- определение правил открытия и закрытия позиций по каж-

дому из активов,- определение объема открываемых позиций,- оптимизацию портфеля, то есть методы снижения рисков.

Определим некоторые понятия, которые будем использоватьв дальнейшем.

Механическая торговая система (MTС) - набор правил, од-нозначно определяющих моменты открытия и закрытия пози-ций, то есть MTС задает правила входа в позицию, правилавыхода из выигрывающей позиции, правила выхода изпроигрывающей позиции.

Управление капиталом - набор правил, определяющихобъем открываемых позиций в момент поступлениясоответствующих сигналов от MTС.

Page 177: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

177

Оптимизация портфеля - методы, позволяющие выбратьтакой состав портфеля активов и торгующих эти активымеханических систем, которые бы в наибольшей степенисоответствовали инвестиционным предпочтениям конкретноготрейдера.

13.2. Механический и интуитивный подход к торговле.

Динамику биржевых цен активов можно представить какстохастический и нестационарный процесс. Однако, это не ис-ключает возможность нахождения такого набора эмпирическихправил, что проведение в соответствии с ними торговых опера-ций позволяет увеличить доходность и/или уменьшить рисквложения в данный актив по сравнению с пассивной стратегией"купил и держи".

Создание механической торговой системы - это полнаяформализация таких правил. При этом нужно понимать, что таккак правила открытия и закрытия позиций разрабатываются наоснове прошлой истории цен, то не существует гарантии того,что МТС на их основе будет успешно работать и в будущем. Ночем более качественно проведено тестирование МТС, тем боль-ше оснований надеяться на то, что ее результаты при реальнойторговле будут находиться в приемлемых для трейдера преде-лах.

У механического подхода есть два преимущества по сравне-нию с часто практикуемым интуитивным подходом к торговле:- при принятии торговых решений исключается эмоциональный

фактор,- принятые торговые решения не являются субъективными, сле-

довательно оправдано формальное статистическое исследова-ние результатов работы МТС, позволяющее найти и скорректи-ровать ее слабые места.

Следует еще раз подчеркнуть, что для любой механической систе-мы существует вероятность того, что по истечении любого интер-вала времени в результате проведения торговых операций по еесигналам будет получен убыток. Однако, для достаточно хорошейсистемы эта вероятность тем меньше, чем больше время торговли.Поэтому считается, что для того, чтобы МТС смогла реализоватьсвое статистическое преимущество, необходимо не менее 2-3 лет.

Page 178: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

178

13.3. Свойства MTС.

Показатели механической торговой системы характеризуютрезультаты ее работы. Величина, разброс и устойчивость пока-зателей определяют качество системы. Подробно показателиМТС и методы их статистического исследования будут рас-смотрены ниже.

Параметрами механической торговой системы называютсяпеременные, присутствующие в правилах открытия и закрытияпозиций. В результате тестирования и оптимизации МТС опре-деляется такой набор параметров, при котором величина, раз-брос и устойчивость важнейших показателей системы находятсяв оптимальных для конкретного трейдера пределах. ХорошаяМТС должна обладать следующими свойствами:- иметь небольшое количество оптимизируемых параметров,- иметь удовлетворительные показатели работы при реальных

рыночных комиссиях,- обладать устойчивостью показателей работы в области оп-

тимальности параметров,- должно существовать по крайней мере несколько активов,

на которых система имеет приемлемые результаты без по-вторной оптимизации.

Число оптимизируемых параметров

Чем больше оптимизируемых параметров имеет МТС, темменьше вероятность того, что она будет удовлетворительно ра-ботать при реальной торговле. Это связано с тем, что при боль-шом числе параметров система подгоняется под историческийряд цен, на котором происходило тестирование. Но ряды цен ак-тивов в большой степени носят случайный характер. Задачей жехорошей системы является не учет всех особенностей конкрет-ной случайной выборки, а выявление более или менее постоян-но действующих на рынке закономерностей. Здесь уместна ана-логия с регрессионным анализом, где также нужно с осторожно-стью относиться к излишнему переусложнению модели.

Величина комиссии

Важным моментом при тестировании МТС является вели-чина комиссии, которая должна соответствовать реальным на

Page 179: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

179

кладным расходам при совершении сделки, то есть она должнаучитывать следующие величины:- комиссию с оборота (брокерскую и биржевую),- спрэд (разницу между котировками на покупку и продажу),- проскальзывание (разницу между величиной сигнала МТС и

реальной ценой исполнения сделки).Если биржевая и брокерская комиссии не зависят от вида акти-ва, то на величины спрэдов и проскальзываний существенноевлияние оказывает ликвидность конкретного актива. В целомможно сказать, что при тестировании МТС суммарную комис-сию следует выбирать не менее чем 0.5% от суммы сделки дажедля наиболее ликвидных активов.

Устойчивость показателей в области оптимальности

Устойчивость показателей МТС в области оптимальностипараметров проще всего проиллюстрировать графически длясистемы, зависящей от единственного параметра. Рассмотримграфик зависимости одного из показателей системы (доходно-сти в % годовых) от величины оптимизируемого параметра.

0%10%20%30%40%50%60%70%80%90%

100%

0 2 4 6 8 10 12 14 16 18 20

Параметр

Дох

одно

сть

А

В

В данном случае выбор в качестве оптимальной величины па-раметра значение, соответствующее точке А (параметр=6, доход-ность≈95%год.), не является правильным, так как в районе этойточки величина доходности является неустойчивой и столь резкийпик вероятнее всего объясняется особенностями конкретной слу-чайной выборки, на которой происходило тестирование.

Page 180: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

180

Более разумным представляется выбор в качестве оптимальнойвеличины параметра значение, соответствующее точке В (пара-метр=13, доходность≈35%год.), так как в области этой точки до-ходность устойчива к изменению параметра в достаточно широкихпределах.

На устойчивость следует проверять все важные для трейдерапоказатели работы системы. У разных показателей области устой-чивости будут вообще говоря разными. В качестве оптимальногоследует выбрать такое значение параметра, которое находится вобласти устойчивости большинства наиболее важных для трейдерапоказателей системы.

Удовлетворительные результаты на различных активах

Механическая система как правило создается, тестируется иоптимизируется на историческом ряде цен одного актива. Одной изглавных задач создания хорошей МТС является предотвращение ееподгонки под конкретные исторические данные, которые навернякане повторятся в будущем. Эффективным способом проверки МТСна излишнюю подгонку является переход на другие активы без из-менения параметров системы. Если при переходе на историческиеряды цен других активов без повторной оптимизации параметровсистема продолжает показывать удовлетворительные результаты,то это повышает вероятность того, что она окажется прибыльной вреальной торговле. При этом надо иметь в виду, что если активывысококоррелированы, то это существенно снижает ценность такойпроверки. Если же при переходе с ряда цен исходного актива (накотором МТС создавалась и оптимизировалась) на ряд цен высоко-коррелированного с ним актива система разваливается, то это слу-жит веским основанием для отказа от нее.

13.4. Минимальное число сделок.

Для достоверной оценки величины и разброса показателей ме-ханической торговой системы количество сделок на периоде тести-рования не должно быть меньше некоторого минимального значе-ния. Считая, что результат отдельной сделки (например размерприбыли) является случайной величиной, оценим минимальныйобъем выборки для идентификации закона распределения этой ве-личины. Для идентификации закона распределения необходимо по-строить гистограмму эмпирических частот и провести сравнениеэмпирических и теоретических частот по критерию хи-квадрат.

Page 181: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

181

Напомним, что минимальное количество столбцов гистограммыдолжно равняться пяти.

Так как приводимые ниже выкладки будут носить оценочныйхарактер, предположим заранее, что исследуемая случайная вели-чина подчиняется нормальному закону распределения.

Примем в качестве интервала возможных значений этой вели-чины промежуток )2,2( σµσµ +− . Вероятность оказаться внут-ри этого интервала 95.45%. Ширину столбца гистограммы можнонайти, разделив ширину интервала возможных значений, то естьσ4 , на минимальное количество столбцов гистограммы, то есть

число 5. В итоге получим, что ширина столбца равна σ8.0 . В таб-лице приведены значения нормированных теоретических частотпопадания в соответствующие столбцы гистограммы для стандарт-ной нормальной величины )1,0( == σµ .

Номер интервала Левая граница Правая граница Нормированнаячастота

1 -2.0 -1.2 0.09232 -1.2 -0.4 0.22953 -0.4 0.4 0.31084 0.4 1.2 0.22955 1.2 2.0 0.0923

ИТОГО 0.9545

Для проверки закона распределения по критерию хи-квадрат втаблице должны присутствовать ненормированные частоты, при-чем минимальное значение частоты не должно быть меньше пяти.Следовательно, переход к ненормированной частоте можно сделатьпутем умножения на коэффициент 16.540923.0/5 = и округливрезультат до целого. В итоге таблица частот примет вид:Номер интервала Левая граница Правая граница Частота

1 -2.0 -1.2 52 -1.2 -0.4 123 -0.4 0.4 174 0.4 1.2 125 1.2 2.0 5

ИТОГО 51

Page 182: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

182

Таким образом мы получили, что для оценки показателей механи-ческой торговой системы объем выборки (количество сделок на пе-риоде тестирования) не должен быть меньше 51. Заметим, что привычислении этого значения мы использовали минимально возмож-ное число столбцов гистограммы (5 столбцов) и не очень широкийдоверительный интервал (95%). С увеличением количества столб-цов (уменьшением ширины столбца) и увеличением доверительно-го интервала минимально необходимый объем выборки может су-щественно вырасти.

13.5. Тестирование МТС.

Целью тестирования механической торговой системы являетсяпроверка ее работы на историческом ряде цен. Тестирование какправило проводят, используя пакеты технического анализа. По ре-зультатам тестирования программа формирует отчеты, на основа-нии которых делаются выводы о качестве МТС.

При оптимизации системы, в правилах, описывающих откры-тие и закрытие позиций, постоянные параметры заменяются на оп-тимизируемые переменные (ОРТ-переменные), для которых зада-ются диапазон и шаг изменения. Затем программа проводит рядтестов для всех возможных сочетаний ОРТ-переменных и форми-рует соответствующие отчеты. По результатам анализа этих отче-тов выбирается такой набор параметров, при котором величина,разброс и устойчивость показателей системы являются оптималь-ными для трейдера.

Тестирование и оптимизацию системы рекомендуется прово-дить раздельно для длинных и коротких сделок.

Мы будем рассматривать следующие отчеты о тестированиисистемы: отчет о величине торгового счета (equity report), сгруппи-рованный отчет о величине торгового счета, отчет о сделках (tradesreport), сводный отчет (results report).

ПРИМЕЧАНИЕ: далее в тексте содержание отчетов, а такжеобозначения показателей МТС и формулы для их вычисления мо-гут отличаться от принятых в пакетах технического анализа.

13.6. Отчет о величине торгового счета.

Отчет о величине торгового счета показывает изменениестоимости портфеля на каждом ценовом баре. Отчет содержитследующие поля:

Page 183: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

183

bar number Порядковый номер текущего временногопериода (бара).

date Дата/время текущего бара.

position Торговая позиция на конец текущегобара. Возможны следующие типыпозиций:"OUT" - вне рынка,"LONG" - длинная позиция,"SHORT" - короткая позиция.

price Текущая цена актива.

net change price Изменение цены актива за текущийпериод.

% change price Процентное изменение цены актива затекущий период.

equity Текущая величина торгового счета.

net change equity Изменение величины торгового счета затекущий период.

% change equity Процентное изменение величиныторгового счета за текущий период.

13.7. Сгруппированный отчет о величине торгового счета.

Сгруппированный отчет о величине торгового счета формиру-ется на основе отчета о торговом счете и показывает изменениестоимости портфеля по укрупненным периодам времени. Отчет со-держит следующие поля:period grp Период группировки:

"D" - день,"W" - неделя,"M" - месяц,"Q" - квартал,"Y" - год.

period number Порядковый номер текущего временногопериода.

first date Первая дата/время текущего периода.

Page 184: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

184

last date Последняя дата/время текущего периода.

price Цена актива на конец текущего периода.

net change price Изменение цены актива за текущийпериод.

% change price Процентное изменение цены актива затекущий период.

equity Величина торгового счета на конецтекущего периода.

net change equity Изменение величины торгового счета затекущий период.

% change equity Процентное изменение величиныторгового счета за текущий период.

13.8. Отчет о сделках.

Отчет о сделках формируется на основе отчета о торговом сче-те и описывает каждую торговую операцию, сгенерированную сис-темой. Приведем список полей отчета о сделках и некоторые фор-мулы для вычисления показателей системы:Общая информация о сделке

trade number Порядковый номер сгенерированной притестировании сделки.

trade type Тип сделки:"LONG" - длинная сделка,"SHORT" - короткая сделка.

bars in trade Количество баров, в течение которых былаоткрыта данная позиция.

days in trade Число календарных дней, в течение кото-рых была открыта данная позиция.

max price in trade Максимальная цена актива от момента от-крытия позиции до момента ее закрытия.

min price in trade Минимальная цена актива от момента от-крытия позиции до момента ее закрытия.

Page 185: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

185

Показатели, характеризующие вход в позицию

enter bar Номер бара, на котором была открыта по-зиция.

enter date Дата входа в позицию.

enter price Цена актива, по которой была открыта по-зиция.

enter equity Величина торгового счета до входа в пози-цию.

enter comission Сумма уплаченной комиссии за открытиепозиции.

enter efficiency Эффективность входа в позицию.

Показатели, характеризующие выход из позиции

exit bar Номер бара, на котором была закрыта по-зиция.

exit date Дата выхода из позиции.

exit price Цена актива, по которой была закрыта по-зиция.

exit equity Величина торгового счета после выхода изпозиции.

exit comission Сумма уплаченной комиссии за закрытиепозиции.

exit efficiency Эффективность выхода из позиции.

Показатели, характеризующие сделку

net profit Величина дохода по данной сделке (в день-гах).

% profit Величина дохода по данной сделке (в %).

net drawdown Наибольшее снижение торгового счета втечение данной операции относительновхода в позицию (в деньгах).

% drawdown Наибольшее снижение торгового счета втечение данной операции относительновхода в позицию (в %).

Page 186: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

186

comission in trade Сумма уплаченной комиссии за открытие изакрытие позиции.

trade efficiency Эффективность сделки.

Эффективность входа в позицию показывает, насколько хо-рошо МТС в ходе конкретной сделки реализует потенциальнуюприбыль относительно цены входа в позицию и вычисляется поформулам:- для длинных позиций

tradeinpricemiпtradeinpricemaхpriceentertradeinpricemaхefficiencyenter

−−

=

- для коротких позиций

tradeinpricemiпtradeinpricemaхtradeinpricemiпpriceenterefficiencyenter

−−

=

Эффективность входа может принимать значения от 0 до 1.Эффективность выхода из позиции показывает, насколько хо-

рошо МТС в ходе конкретной сделки реализует потенциальнуюприбыль относительно цены выхода из позиции и вычисляется поформулам:- для длинных позиций

tradeinpricemiпtradeinpricemaхtradeinpricemiпpriceexitefficiencyexit

−−

=

- для коротких позиций

tradeinpricemiпtradeinpricemaхpriceexittradeinpricemaхefficiencyexit

−−

=

Эффективность выхода может принимать значения от 0 до 1.Эффективность сделки показывает, насколько хорошо МТС в

ходе конкретной сделки реализует общую потенциальную прибыльи вычисляется по формулам:- для длинных позиций

tradeinpricemiпtradeinpricemaхpriceenterpriceexitefficiencytrade

−−

=

- для коротких позиций

tradeinpricemiпtradeinpricemaхpriceexitpriceenterefficiencytrade

−−

=

Page 187: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

187

- общая формула1−+= efficiencyexitefficiencyenterefficiencytrade

Эффективность сделки может принимать значения от -1 до 1.Считается что у МТС средняя эффективность входов и средняя

эффективность выходов должна быть больше 0.6, то есть средняяэффективность сделки должна превышать 0.2. Анализ эффективно-стей наглядно показывает направления усовершенствования систе-мы, так как позволяет раздельно оценить качество сигналов на входв позицию и сигналов на выход из нее.

13.9. Сводный отчет.

Сводный отчет формируется на основе отчета о торговомсчете и отчета о сделках и дает общую информацию о результа-тах тестирования системы. Приведем список полей сводного от-чета и некоторые формулы для вычисления показателей систе-мы:Показатели, характеризующие линию торгового счета на периодетестирования.

start date Дата начала тестирования.

start equity Величина торгового счета на начало тести-рования (начальные инвестиции).

finish date Дата окончания тестирования.

finish equity Величина торгового счета после окончаниятестирования.

total bars Количество баров, в течение которых про-исходило тестирование.

total days Число календарных дней, в течение кото-рых происходило тестирование.

net system drawdown Наибольшее снижение торгового счета от-носительно начальных инвестиций (в день-гах).

% system drawdown Наибольшее снижение торгового счета от-носительно начальных инвестиций (%).

Page 188: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

188

Показатели, характеризующие доходность стратегии "купил и дер-жи" на периоде тестирования.

buy&hold net profit Доход стратегии "купил и держи" на пе-риоде тестирования (в деньгах).

buy&hold % profit Доход стратегии "купил и держи" на пе-риоде тестирования (%).

buy&hold % profit in year Доходность стратегии "купил и держи" напериоде тестирования (в % годовых поформуле сложного процента).

Показатели, характеризующие доходность МТС на периоде тестиро-вания.

total net profit Доход на периоде тестирования (в деньгах).

total % profit Доход на периоде тестирования (%).

total % profit in year Доходность на периоде тестирования (в %годовых по формуле сложного процента).

Показатели, характеризующие сделки.

total trades Общее число сделок.

% in trade Доля времени на периоде тестирования, втечение которого система имела открытыепозиции.

% out trade Доля времени на периоде тестирования, втечение которого система была вне рынка.

avg net profit Средний доход сделок (в деньгах).

stdev net profit Среднеквадратичное отклонение доходасделок (в деньгах).

avg % profit Средний доход сделок (%).

stdev % profit Среднеквадратичное отклонение доходасделок (%).

avg net drawdown Среднее наибольших снижений торговогосчета (в деньгах).

stdev net drawdown Среднеквадратичное отклонение наиболь-ших снижений торгового счета (в деньгах).

Page 189: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

189

avg % drawdown Среднее наибольших снижений торговогосчета (%).

stdev % drawdown Среднеквадратичное отклонение наиболь-ших снижений торгового счета (%).

max net drawdown Наибольшее снижение торгового счета заотдельную сделку (в деньгах).

max % drawdown Наибольшее снижение торгового счета заотдельную сделку (%).

avg net win / |avg net loss| Отношение средней прибыли выигрышныхсделок к среднему убытку проигрышныхсделок.

total comission Общая сумма уплаченной комиссии.

Показатели, характеризующие выигрышные сделки.

win trades Количество выигрышных сделок.

win trades % Процент выигрышных сделок.

win amount Общая прибыль всех выигрышных сделок.

avg net win Средняя прибыль выигрышных сделок (вденьгах).

stdev net win Среднеквадратичное отклонение прибыливыигрышных сделок (в деньгах).

max net win Максимальная прибыль выигрышной сдел-ки (в деньгах).

avg % win Средняя прибыль выигрышных сделок (%).

stdev % win Среднеквадратичное отклонение прибыливыигрышных сделок (%).

max % win Максимальная прибыль выигрышной сдел-ки (%).

avg bars win Средняя продолжительность выигрышныхсделок (в барах).

stdev bars win Среднеквадратичное отклонение продол-жительности выигрышных сделок (в ба-рах).

Page 190: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

190

max bars win Максимальная продолжительность выиг-рышной сделки (в барах).

max consecutive wins Наибольшее количество выигрышных сде-лок, следовавших одна за другой.

Показатели, характеризующие проигрышные сделки.

loss trades Количество проигрышных сделок.

loss trades % Процент проигрышных сделок.

loss amount Общий убыток всех проигрышных сделок.

avg net loss Средний убыток проигрышных сделок (вденьгах).

stdev net loss Среднеквадратичное отклонение убыткапроигрышных сделок (в деньгах).

max net loss Максимальный убыток проигрышной сдел-ки (в деньгах).

avg % loss Средний убыток проигрышных сделок (%).

stdev % loss Среднеквадратичное отклонение убыткапроигрышных сделок (%).

max % loss Максимальный убыток проигрышной сдел-ки (%).

avg bars loss Средняя продолжительность проигрышныхсделок (в барах).

stdev bars loss Среднеквадратичное отклонение продол-жительности проигрышных сделок (в ба-рах).

max bars loss Максимальная продолжительность проиг-рышной сделки (в барах).

max consecutive losses Наибольшее количество проигрышныхсделок, следовавших одна за другой.

Показатели, характеризующие эффективность сделок.

avg enter efficiency Средняя эффективность открытия позиции.

stdev enter efficiency Среднеквадратичное отклонение эффек-тивности открытия позиции.

Page 191: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

191

avg exit efficiency Средняя эффективность закрытия позиции.

stdev exit efficiency Среднеквадратичное отклонение эффек-тивности закрытия позиции.

avg trade efficiency Средняя эффективность сделок.

stdev trade efficiency Среднеквадратичное отклонение эффек-тивности сделок.

Приведем некоторые формулы для вычисления показателеймеханической торговой системы:

- показатели доходности системы:

∑=

=tradestotal

iiprofitnetprofitnettotal

1)(

( ) 1)(%1%1

−+= ∏=

tradestotal

i

iprofitprofittotal

( ) 1%1% /365 −+= daystotalprofittotalyearinprofittotal- среднее значение и с.к.о. дохода сделок (в деньгах)

∑=

=tradestotal

iiprofitnet

tradestotalprofitnetavg

1)(1

( )∑=

−−

=

=tradestotal

iprofitnetavgiprofitnet

tradestotal

profitnetstdev

1

2)(1

1

- среднее значение и с.к.о. дохода сделок (в %)

( )

( ) 1)(%1ln1exp

1)(%1%

1

/1

1

+=

=−

+=

=

=

tradestotal

i

tradestotaltradestotal

i

iprofittradestotal

iprofitprofitavg

∑=

+−

−+−

×

×+=

tradestotal

i profitavgiprofit

tradestotal

profitavgprofitstdev

1

2

)%1ln())(%1ln(

11

)%1(%

Page 192: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

192

- среднее значение и с.к.о. наибольших снижений торговогосчета (в деньгах)

∑=

=tradestotal

iidrawdownnet

tradestotaldrawdownnetavg

1)(1

( )∑=

−−

=

=tradestotal

idrawdownnetavgidrawdownnet

tradestotal

drawdownnetstdev

1

2)(1

1

- среднее значение и с.к.о. наибольших снижений торговогосчета (в %)

( )

( ) 1)(%1ln1exp

1)(%1%

1

/1

1

+=

=−

+=

=

=

tradestotal

i

tradestotaltradestotal

i

idrawdowntradestotal

idrawdowndrawdownavg

∑=

+−

−+−

×

×+=

tradestotal

i drawdownavgidrawdown

tradestotal

drawdownavgdrawdownstdev

1

2

)%1ln())(%1ln(

11

)%1(%

Показатели МТС, характеризующие только прибыльные и толькоубыточные сделки, вычисляются аналогичным образом.

13.10. Математическое ожидание дохода сделки.

Важнейшим показателем, характеризующим качество МТС,является математическое ожидание дохода отдельной сделки. Уприбыльной системы эта величина больше нуля. Задача состоит втом, чтобы по выборке сделок оценить математическое ожиданиедохода и убедиться в том, что полученная оценка положительна изначимо отличается от нуля. Выборками случайных величин, наоснове которых можно рассчитать выборочную среднюю и выбо-рочное с.к.о. являются:- в денежном выражении net profit,- в процентах % profit.Будем считать, что величина торгового счета не может упасть ниженуля. Следовательно убыток по сделке не может быть меньше

Page 193: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

193

торгового счета перед проведением сделки. С другой стороны,прибыль по сделке может быть неограничено большой. Значитплотность вероятности дохода и в денежном и в процентном выра-жении имеет положительную асимметрию. Для проверки гипотезыо величине математического ожидания дохода отдельной сделкиправильнее будет перейти к случайной величине

)%1ln( profitx += .Пусть случайная величина х имеет математическое ожидание

µ и генеральную дисперсию 2σ . Оценками математическогоожидания и дисперсии по выборке ),...,,( 21 Nxxx будутвыборочная средняя и выборочная дисперсия:

2

1

2

1)(

111 Xx

Nx

NX

N

kk

N

kk −

−== ∑∑

==

σ

где tradestotalN = .При достаточно большом числе сделок доверительный интервалдля µ , характеризующийся доверительной вероятностью P ,задается в виде:

NtX

NtX qq

σµσνν ,2/1,2/1 −− +≤≤−

где 1−= Nν , Pq −=1 .Гипотеза о том, что оценка математического ожидания дохода от-дельной сделки больше нуля формулируется в виде:

0:

0:

1

0

>

=

XH

XH

Проверка подобных гипотез подробно рассмотрена ранее в этойкниге. Для более жесткой проверки гипотезы выборку

),...,,( 21 Nxxx усекают справа, то есть из нее исключают значения,превосходящие правую границу доверительного интервала, послечего пересчитывают величины X и σ .

При изучении математического ожидания дохода отдельнойсделки полезно рассмотреть вопрос о том, что определяет эту вели-чину. Вернемся к формуле для вычисления среднего значения до-хода сделок:

Page 194: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

194

∑=

=tradestotal

iiprofitnet

tradestotalprofitnetavg

1)(1

Эту формулу можно записать в другом виде, разделив сделки наприбыльные и убыточные:

tradestotallossnetavgtradeslosswinnetavgtradeswin

profitnetavg||×−×

=

=

Так как

%1%

%

tradeswintradeslosstradestotaltradesloss

tradeswintradestotaltradeswin

−==

=

то

||%)1(%

lossnetavgtradeswinwinnetavgtradeswinprofitnetavg

×−−−×=

Из последней формулы следует, что система может быть прибыль-ной либо за счет увеличения процента прибыльных сделок, либо засчет увеличения отношения средней прибыли выигрышных сделокк среднему убытку проигрышных сделок. У прибыльной системысреднее значение дохода больше нуля, то есть отношение среднейприбыли выигрышных сделок к среднему убытку проигрышныхсделок соотносится с процентом выигрышных сделок следующимобразом:

||||%

lossnetavgwinnetavglossnetavgtradeswin

+>

или

%%1

|| tradeswintradeswin

lossnetavgwinnetavg −

>

Аналогичное соотношение для процентных показателей можно по-лучить, используя формулу для вычисления среднего значения до-хода сделок в %:

tradeslosstradeswin

tradestotal

lossavgwinavgprofitavg

)%1()%1()%1(

+×+=

=+

Page 195: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

195

Из этого выражения следует, что

|)%1ln(|%)1()%1ln(%)%1ln(

lossavgtradeswinwinavgtradeswinprofitavg

+×−−−+×=+

Для прибыльной системы выполняется условие

%%1

|)%1ln(|)%1ln(

tradeswintradeswin

lossavgwinavg −

>++

Связь между процентом выигрышных сделок и отношениемсредней прибыли выигрышных сделок к среднему убытку проиг-рышных сделок можно представить графически.

0.0

2.0

4.0

6.0

8.0

10.0

0 0.2 0.4 0.6 0.8 1

win trades %

avg

net w

in /

|avg

net

loss

|

Линия на графике соответствует системам с нулевой доходно-стью. Прибыльные системы находятся выше этой линии, причемчем выше, тем больше у них запас прочности, то есть больше веро-ятность того, что МТС будет продолжать оставаться прибыльной вреальной торговле.

Соотношение между процентом выигрышных сделок и отно-шением средней прибыли выигрышных сделок к среднему убыткупроигрышных сделок можно ужесточить, используя показателирассеяния:

%%1

|||||| 2

tradeswintradeswin

lossnetavglossnetstdevwinnetavg

lossnetavgwinnetstdev

lossnetavgwinnetavg

−>

>

×+×−δ

Page 196: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

196

где δ - неотрицательное число, характеризующее запас прочностиМТС - чем больше δ , тем выше запас прочности. У хороших сис-тем последнее неравенство справедливо при 5.0≥δ .

13.11. Кумулятивная кривая дохода сделок.

Кумулятивная кривая дохода сделок показывает изменениеторгового счета от сделки к сделке. При оценке качества торго-вой системы полезно изучить эту кривую в полулогарифмиче-ском масштабе. Для исключения влияния величины начальныхинвестиций кривую можно нормировать. После этого получен-ная зависимость исследуется с применением регрессионногоанализа. Зависимость величины торгового счета от номера сдел-ки можно получить непосредственно из отчета о сделках.

Рассмотрим результаты работы МТС, тестирование которойпроводилось на временном ряде цен закрытия по индексу РТС впериод с января 1996 г. по сентябрь 2002 г. За это время системасовершила 65 сделок, то есть объем выборки равен 66: результа-ты после 65 сделок + результат до первой сделки (начальныеинвестиции). На рисунке изображен логарифм эмпирическойнормированной кумулятивной кривой дохода сделок ( y ), ли-нейная аппроксимация ( f ) и 95%-ный доверительный интерваллинии регрессии.

0

1

2

3

4

5

6

0 10 20 30 40 50 60 70x = trade number

y =

ln (e

xit e

quity

/ st

art e

quity

yff minf max

Показателем, характеризующим доходность МТС, являетсяугол наклона линии регрессии к оси абсцисс. Чем выше угол на-клона, тем более доходна МТС. Риск МТС характеризует необъ

Page 197: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

197

ясненная дисперсия рассеяния эмпирических данных вокруг ли-нии регрессии. Чем выше необъясненная дисперсия, тем большеразброс эмпирических точек, то есть выше риск системы. От-ношение тангенса угла наклона линии регрессии к величине не-объясненного с.к.о. является сводным показателем, характери-зующим и доходность и риск системы.

Кумулятивная кривая дохода сделок показывает изменениеторгового счета от сделки к сделке. Для анализа поведения счетаво времени используют сгруппированный отчет о величине тор-гового счета. Изучение поведения счета по укрупненным перио-дам времени полностью аналогично изучению кумулятивнойкривой дохода сделок. Для той же механической системы на ри-сунке изображен логарифм эмпирической нормированной вели-чины торгового счета на конец каждого квартала на периодетестирования ( y ), линейная аппроксимация ( f ) и 95%-ный до-верительный интервал линии регрессии. Как правило, для ана-лиза линии торгового счета выбираются месячные или квар-тальные данные.

0

1

2

3

4

5

6

1996 1997 1998 1999 2000 2001 2002 2003x = last date

y =

ln (e

quity

/ st

art e

quity y

ff minf max

13.12. Вероятность получения убытка в серии последова-тельных сделок.

В этом параграфе будет показано, как на основании показа-телей МТС оценить вероятность получения убытка в серии по-следовательных сделок.

Для упрощенного расчета вероятности убытка используемтри показателя МТС, которые приведены в сводном отчете:

Page 198: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

198

%tradeswin - процент прибыльных сделок системы,winavg % - средняя величина выигрыша (%),lossavg % - средняя величина проигрыша (%).

Введем обозначения:N - заданная длина серии сделок,n - количество выигрышных сделок в серии,

)( nN − - количество проигрышных сделок в серии,p - вероятность выигрыша ( %tradeswinp ≡ ),

profittotal % - доход по итогам серии сделок.Будем приближенно считать, что все выигрышные сделки

будут приносить одинаковый доход winavg % , а все проиг-рышные сделки будут приносить одинаковый убыток

lossavg % . Тогда, если задано количество сделок и вероят-ность выигрыша, то доход является функцией от числа выиг-рышных сделок и равен

1|)%|1()%1()(% −−×+= −nNn lossavgwinavgnprofittotalВероятность появления в серии определенного числа выиг-

рышных сделок описывается биномиальным распределением:

NnppnNn

NnРrob nNn ...,,1,0)1()!(!

!)( =−−

= −

Количество всех возможных комбинаций числа выигрыш-ных и числа проигрышных сделок в серии длиной N будетравно 1+N . Для всех этих комбинаций необходимо рассчитатьвеличину дохода )(% nprofittotal и соответствующую ей веро-ятность )(nРrob . Тогда вероятность убытка можно найти как:

∑=

=N

nnРroblossРrob

0)(

где соответствующее слагаемое входит в сумму при условии,что 0)(% ≤nprofittotal .

Приведем пример такого расчета для торговой системы придлине серии последовательных сделок равной 20=N . Пустьвеличина показателей системы составляет

Page 199: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

199

%5%%8%%45%

−===≡

lossavgwinavgtradeswinp

Эта система имеет положительное математическое ожиданиедохода в расчете на одну сделку

1|)%|1()%1(% 1 −−×+= − pp lossavgwinavgprofitavg%64.0% =profitavg

В приведенной ниже таблице содержатся все возможные ком-бинации числа выигрышных и числа проигрышных сделок, атакже соответствующие этим комбинациям величины дохода поитогам серии сделок и вероятности.

n (N - n) total % profit Prob Prob loss

0 20 -64.15% 0.0006% 0.0006%1 19 -59.25% 0.0105% 0.0105%2 18 -53.67% 0.0816% 0.0816%3 17 -47.33% 0.4006% 0.4006%4 16 -40.12% 1.3930% 1.3930%5 15 -31.93% 3.6471% 3.6471%6 14 -22.61% 7.4600% 7.4600%7 13 -12.02% 12.2072% 12.2072%8 12 0.02% 16.2300%9 11 13.70% 17.7055%

10 10 29.26% 15.9349%11 9 46.95% 11.8524%12 8 67.06% 7.2731%13 7 89.92% 3.6620%14 6 115.91% 1.4981%15 5 145.46% 0.4903%16 4 179.05% 0.1254%17 3 217.23% 0.0241%18 2 260.64% 0.0033%19 1 309.99% 0.0003%20 0 366.10% 0.00001%

ИТОГО 100% 25%

В результате получаем, что вероятность убытка в серии сделок%25=lossРrob .

Page 200: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

200

В данном случае система с положительным математическиможиданием дохода после достаточно длинной серии сделок свероятностью 25% принесет убыток. Можно привести другиепримеры, где МТС с отрицательным математическим ожидани-ем после серии сделок с достаточно высокой вероятностью при-носит прибыль. То есть при биржевой торговле в силу естест-венных законов статистики правильные решения не всегда со-провождаются прибылью, а неправильные - убытком.

Следует помнить, что приведенная выше оценка вероятно-сти убытка после серии сделок строилась на том, что все выиг-рышные сделки приносят одинаковый доход winavg % , а всепроигрышные сделки приносят одинаковый убыток lossavg % .Это является достаточно грубым приближением, которое неучитывает разброс результатов конкретной сделки. Более точ-ная оценка вероятности убытка основана на многократном чис-ленном моделировании результатов серии сделок по методуМонте-Карло. Принципиальная схема такого алгоритма имеетвид:

1) Задание входных данных1.1) Из отчета о сделках массив значений доходов сделок

tradestotalkkprofit

,...,1)}({%

=1.2) Количество розыгрышей M (чем больше розыгрышей,

тем достовернее результат).1.3) Длина серии сделок N .

2) Вычисление вспомогательного массива )}({ kx

tradestotalkkprofitkx

,...,1))(%1ln()(

=+=

3) Вычисление в табличном виде гистограммы плотности вероят-ности значений величины x (методика подробно изложена вглаве 6).

4) Вычисление в табличном виде интегральной функции распре-деления значений величины x на основании полученной впредыдущем пункте гистограммы.

5) Задаем стартовое значение номера текущего розыгрыша0=m .

Page 201: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

201

6) Задаем стартовые значения количества розыгрышей, приводя-щих к убытку 0=lossN

7) Номер текущего розыгрыша 1+= mm8) Проводим отдельный розыгрыш результатов сделок:

8.1) Генерируем набор случайных чисел в количестве N , рав-номерно распределенных в интервале от 0 до 1.

8.2) Из равномерно распределенного набора случайных чисел спомощью полученной на шаге 4 интегральной функцииполучаем набор случайных чисел, распределенных как ве-личина x . Обозначим этот набор как Niiy ,...,1)},({ = .

8.3) Находим сумму массива случайных чисел y

∑=

=N

iiyS

1)(

8.4) Находим текущее значение количества розыгрышей, при-водящих к убытку:если 0≤S , то 1+= lossNlossN

9) Если номер текущего розыгрыша m меньше, чем общее числорозыгрышей M , то переходим на шаг 7.

10) После того, как сделаны все розыгрыши (то есть Mm = ), вы-числяем вероятность убытка

MlossNlossРrob =

13.13. Вероятность разорения в серии последовательныхсделок.

Вероятность разорения - это вероятность того, что в сериипоследовательных сделок по сигналам МТС величина убытков всилу естественных законов статистики превысит заранее задан-ное критическое значение. Это может привести к остановке тор-говли и ошибочному отказу от на самом деле прибыльной МТС.

Аналитический расчет вероятности разорения связан созначительными трудностями ввиду того, что получение крити-ческого убытка зависит не только от показателей системы (про-цента прибыльных сделок, средней величины выигрыша, сред-ней величины проигрыша), но и от очередности прибыльных иубыточных сделок. В результате неблагоприятной последова

Page 202: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

202

тельности сделок при работе с прибыльной системой разорениеможет наступить раньше, чем система докажет свое статистиче-ское преимущество.

Так как критический убыток может быть получен до окон-чания серии сделок, то аналитический расчет вероятности разо-рения приводит к необходимости учета не только всех возмож-ных сочетаний числа прибыльных и числа убыточных сделок всерии, но и анализу для каждого такого сочетания всех возмож-ных последовательностей сделок. Это весьма трудоемкая задача,особенно для длинных серий.

В данном случае вычисление вероятности разорения гораз-до проще можно провести численно путем многократного моде-лирования результатов серии сделок по методу Монте-Карло.Изложим принципиальную схему алгоритма:

1) Задание входных данных1.1) Из отчета о сделках массив значений доходов сделок

tradestotalkkprofit

,...,1)}({%

=1.2) Количество розыгрышей M (чем больше розыгрышей, тем

достовернее результат).1.3) Длина серии сделок N .1.4) Критическое значение убытка lossmaх% .

2) Вычисление вспомогательного массива )}({ kx

tradestotalkkprofitkx

,...,1))(%1ln()(

=+=

3) Вычисление в табличном виде гистограммы плотности вероят-ности значений величины x (методика подробно изложена вглаве 6).

4) Вычисление в табличном виде интегральной функции распре-деления значений величины x на основании полученной впредыдущем пункте гистограммы.

5) Задаем стартовое значение номера текущего розыгрыша0=m .

6) Задаем стартовые значения количества розыгрышей, приводя-щих к разорению 0=lossmaхN

7) Номер текущего розыгрыша 1+= mm

Page 203: Булашев. Статистика для трейдеров

Глава 13. Механические торговые системы

С.В. Булашев. Статистика для трейдеров (электронная версия).

203

8) Проводим отдельный розыгрыш результатов сделок:8.1) Генерируем набор случайных чисел в количестве N , рав-

номерно распределенных в интервале от 0 до 1.8.2) Из равномерно распределенного набора случайных чисел с

помощью полученной на шаге 4 интегральной функции по-лучаем набор случайных чисел, распределенных как вели-чина x . Обозначим этот набор как Niiy ,...,1)},({ = .

8.3) Задаем стартовое значение суммы (нарастающим итогом)массива случайных чисел y : 0=S

8.4) Задаем стартовое значение номера случайного числа измассива y : 0=i

8.5) Номер текущего случайного числа из массива y : 1+= ii8.6) Находим текущее значение суммы массива случайных чи-

сел y : )(iySS +=8.7) Проверяем, наступило ли разорение:

если |)%|1ln( lossmaхS −≤то разорение достигнуто, поэтому находим текущее значе-ние количества розыгрышей, приводящих к разорению

1+= lossmaхNlossmaхN и переходим на шаг 7.

8.8) Если номер текущего случайного числа i меньше, чемдлина серии N , то переходим на шаг 8.5. В противномслучае переходим на шаг 9.

9) Если номер текущего розыгрыша m меньше, чем общее числорозыгрышей M , то переходим на шаг 7.

10) После того, как сделаны все розыгрыши (то есть Mm = ), вы-числяем вероятность разорения

MlossmaхNlossmaхРrob =

Page 204: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

204

14. УПРАВЛЕНИЕ КАПИТАЛОМ

14.1. Введение.

Управление капиталом - это набор правил, определяющихобъем открываемых позиций в момент поступлениясоответствующих сигналов от механической торговой системы.Так как метод управления капиталом непосредственно влияет надинамику торгового счета, то при его выборе нужно четкоопределить свои инвестиционные цели.

Технически задача сводится к тому, чтобы задать такойалгоритм вычисления доли участвующего в конкретной сделкекапитала, чтобы максимизировать один из показателейдинамики торгового счета. Этими показателями могут бытьсредний доход на одну сделку, соотношение дохода и рискасделок, средний прирост торгового счета по фиксированнымпромежуткам времени (например по месяцам) и т.д.

Как и торговая система, метод управления капиталомдолжен быть тщательным образом протестирован. При этомтребования к нему схожи с требованиями к торговой системе:- небольшое количество оптимизируемых параметров,- устойчивость в области оптимальности параметров,- должно существовать по крайней мере несколько активов,

на которых совокупность из торговой системы и методауправления капиталом имеет удовлетворительные результа-ты без повторной оптимизации.

14.2. Ограничение суммы убытка в сделке.

Пусть торговая система дала сигнал о покупке актива по ценеpriceenter , причем величина риска по сделке составляет risk% ,

то есть в случае движения против открытой позиции сделка должнабыть закрыта по цене

)%1( riskpriceenterpriceexit −×= .Рассмотрим вопрос о том, как выбрать долю участвующего в

сделке капитала таким образом, чтобы в случае неблагоприятногоразвития ситуации убыток не превысил заранее заданного значе-ния. Размер капитала до и после проигрышной сделки и величинамаксимального убытка (в деньгах) связаны соотношением

Page 205: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

205

equityenterequityexitlossnetmaх −=Обозначим как α долю участвующего в сделке капитала, при-

чем 10 <<α . Тогда количество покупаемых ценных бумаг (ло-тов) равно

)%1( comissionpriceenterequityentervolume

+××

После закрытия сделки величина капитала будет равна

volumecomissionpriceexitequityenterequityexit

×−×++×−=

)%1()1( α

Подставляя в последнюю формулу написанные ранее соотношенияпосле несложных преобразований получаем выражение для долиучаствующего в сделке капитала

)%1(%%2%1||

comissionriskcomissioncomission

equityenterlossnetmaх

−×+×+

×=α

При определенном соотношении между equityenter ,lossnetmaх и risk% вычисленная по этой формуле величина α

может оказаться больше 1. В этом случае в данной сделке участву-ет весь капитал. Выражение для количества покупаемых бумаг (ло-тов) имеет вид

×=

)%1( comissionpriceenterequityenterЦЕЛОЕvolume α

Данный метод управления капиталом имеет очень простойсмысл - ограничить предельно допустимый убыток по конкретнойсделке не ограничивая при этом возможную прибыль. Оптимизацияметода проводится по величине предельно допустимого убытка

lossnetmaх .Основным недостатком этого метода является отсутствие

адаптации к текущей величине торгового счета. При существенномизменении капитала относительно начальных инвестиций величинупредельно допустимого убытка нужно пересматривать и заново оп-тимизировать.

14.3. Ограничение процента убытка в сделке.

В отличие от рассмотренного в предыдущем параграфе, ме-тод риска фиксированным процентом капитала в каждой сделке

Page 206: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

206

автоматически адаптируется к текущей величине торгового сче-та.

Размер капитала до и после проигрышной сделки и величинамаксимального убытка (в %) связаны соотношением

1% −=equityenter

equityexitlossmaх

Проведя выкладки, аналогичные сделанным в предыдущем пара-графе, можно получить выражение для доли участвующего в сдел-ке капитала

)%1(%%2%1|%|

comissionriskcomissioncomissionlossmaх

−×+×+

×=α

При определенном соотношении между lossmaх% и risk% вы-численная по этой формуле величина α может оказаться больше 1.В этом случае в данной сделке участвует весь капитал. Выражениедля количества покупаемых бумаг (лотов) имеет вид

×=

)%1( comissionpriceenterequityenterЦЕЛОЕvolume α

Этот метод позволяет автоматически реинвестировать прибыльвыигрышной МТС. С другой стороны, в случае попадания в полосуубыточности, величина предельно допустимых потерь в денежномвыражении постоянно уменьшается после каждой проигрышнойсделки.

14.4. Максимизация средней величины дохода МТС.

Рассмотрим формулу для вычисления среднего значениядохода сделок (в %) для случая, когда в каждой сделкеучаствует весь капитал:

( ) 1)(%1%/1

1

+= ∏

=

tradestotaltradestotal

i

iprofitprofitavg

Если в каждой сделке участвует только доля капитала α ,причем 10 <<α , и эта доля одинакова для всех сделок, то

( ) 1)(%1)(%/1

1

×+= ∏

=

tradestotaltradestotal

i

iprofitprofitavg αα

Page 207: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

207

В отдельных случаях выбором соответствующего значения αможно максимизировать величину )(% αprofitavg так, чтобы

profitavgprofitavg %)(% >α . В общем случае для произвольной последовательности сделокзадача решается численно путем перебора всех значений α снебольшим шагом изменения (например 0.01). Однако, так какэта операция достаточно трудоемка, то хотелось бы найтипростые характеристики торговых систем, которые быопределяли возможность такой оптимизации.

Вернемся к формуле среднего значения дохода сделок. Ееможно записать, используя средние значения выигрышных ипроигрышных сделок, а также процент выигрышных сделок дляслучая, когда в каждой сделке участвует весь капитал:

%1% |)%|1()%1(%1

tradeswintradeswin lossavgwinavgprofitavg

−−×+=

=+

Будем приближенно считать, что

%1% |)%|1()%1()(%1

tradeswintradeswin lossavgwinavgprofitavg

−×−××+≈

≈+

αα

α

Последнее равенство не является строгим, однако для оновполне пригодно для оценочных вычислений оптимальнойвеличины α .

Введем функцию ))(%1ln()( αα profitavgS += . Так какнатуральный логарифм является монотонно возрастающейфункцией, то максимум функции )(αS соответствуетмаксимуму функции )(% αprofitavg .Запишем )(αS в явном виде:

|)%|1ln(%)1()%1ln(%)(

lossavgtradeswinwinavgtradeswinS

×−×−++×+×=

ααα

Возьмем производную )(αS по α :

|%|1|%|%)1(

%1%%)(

lossavglossavgtradeswin

winavgwinavgtradeswin

ddS

×−×−

−×+

×=

αααα

Приравняв производную к нулю, получим формулу для вычис-ления оптимального значения α (в том случае, если экстремумсуществует):

Page 208: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

208

|%|%|%|%)1(%%

lossavgwinavglossavgtradeswinwinavgtradeswin

opt ××−−×

Так как 0>optα то miпtradeswintradeswin %% >где

|%|%|%|%

lossavgwinavglossavgmiпtradeswin

+=

Если последнее неравенство не соблюдается, то экстремума несуществует и 0=optα , то есть по такой МТС торговать нельзя.

Так как 1<optα , то maхtradeswintradeswin %% <где

)%1(|%|%

|%|% winavglossavgwinavg

lossavgmaхtradeswin +⋅+

=

Если последнее неравенство не соблюдается, то экстремума несуществует и 1=optα , то есть по такой МТС нужно торговатьвсем капиталом в каждой сделке.

Приведем несколько примеров решения задачи оптимизациидоходности МТС.

Неоптимизируемая система с положительным матема-тическим ожиданием дохода

Результаты тестирования МТС:

%10%%15%%50%

−===

lossavgwinavgtradeswin

Неоптимизированная прибыль на сделку:%73.1% =profitavg

Границы области оптимизации:%46%%40% == maхtradeswinmiпtradeswin

Так как maхtradeswintradeswin %% > , то функция)(% αprofitavg не имеет экстремума и монотонно возрастает

при увеличении α .

Page 209: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

209

0.00%

0.50%

1.00%

1.50%

2.00%

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

alpha

avg

%pr

ofit

(alp

ha)

По такой МТС нужно торговать всем капиталом в каждой сделке.

Неоптимизируемая система с отрицательным матема-тическим ожиданием дохода

Результаты тестирования МТС:

%10%%15%%35%

−===

lossavgwinavgtradeswin

Неоптимизированная прибыль на сделку:%94.1% −=profitavg

Границы области оптимизации:%46%%40% == maхtradeswinmiпtradeswin

-2.50%

-2.00%

-1.50%

-1.00%

-0.50%

0.00%0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

alpha

avg

%pr

ofit

(alp

ha)

Так как miпtradeswintradeswin %% < , то функция)(% αprofitavg не имеет экстремума и монотонно убывает

при увеличении α . По такой МТС торговать нельзя.

Page 210: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

210

Оптимизируемая система с положительным математи-ческим ожиданием дохода

Результаты тестирования МТС:

%10%%15%%44%

−===

lossavgwinavgtradeswin

Неоптимизированная прибыль на сделку:%25.0% =profitavg

Границы области оптимизации:%46%%40% == maхtradeswinmiпtradeswin

В данном случае возможна оптимизация системы, так какmaхtradeswintradeswinmiпtradeswin %%% << .

Функция )(% αprofitavg имеет экстремум в точке67.0=optα , при этом %33.0)(% =optprofitavg α .

0.00%0.05%0.10%0.15%0.20%0.25%0.30%0.35%

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

alpha

avg

%pr

ofit

(alp

ha)

Мы получили, что в результате оптимизации повышается до-ходность прибыльной системы.

Оптимизируемая система с отрицательным математи-ческим ожиданием дохода

Результаты тестирования МТС:

%10%%15%%5.42%

−===

lossavgwinavgtradeswin

Неоптимизированная прибыль на сделку:%12.0% −=profitavg

Границы области оптимизации:

Page 211: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

211

%46%%40% == maхtradeswinmiпtradeswinВ данном случае возможна оптимизация системы, так как

maхtradeswintradeswinmiпtradeswin %%% << .Функция )(% αprofitavg имеет экстремум в точке

42.0=optα , при этом %13.0)(% =optprofitavg α .

-0.15%

-0.10%

-0.05%

0.00%

0.05%

0.10%

0.15%

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

alpha

avg

%pr

ofit

(alp

ha)

Мы получили, что в результате оптимизации убыточная системастановится прибыльной.

14.5. Оптимизация соотношения дохода и риска МТС.

Для оптимизации соотношения дохода и риска МТС нужнонайти такую долю α участвующего в сделке капитала, котораямаксимизировала бы следующую функцию:

1)%1(|)%|1()%1()(

%1

%

−×−××−×

××+=− risklossavgwinavgQ

tradeswin

tradeswin

αα

αα

В данной формуле risk% - это один из показателей риска МТС,который в зависимости от предпочтений конкретного трейдераможет принимать, например, следующие значения:

|%|%|%|%

%%

drawdownmaхriskdrawdownavgrisk

profitstdevrisk

===

Перейдем к функции ))(1ln()( αα QS += , экстремум которой,если он существует, совпадает с экстремумом )(αQ .

Page 212: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

212

)%1(|)%|1ln(%)1()%1ln(%)(

risklossavgtradeswinwinavgtradeswinS

×−+×−×−++×+×=

αααα

Взяв производную )(αS по α и приравняв ее к нулю получим:

2

20211

24

aaaaa

opt

−−=α

где

risklossavgtradeswinwinavgtradeswina

%|%|%)1(%%0

−−×−−×=

|%|%2|)%|%(%%

|)%|(%%1

lossavgrisklossavgwinavgrisktradeswin

lossavgriskwinavga

××−−+××+

++×=

risklossavgwinavga %|%|%22 ×××=

Так как 0>optα то miпtradeswintradeswin %% >где

|%|%|%|%%

lossavgwinavglossavgriskmiпtradeswin

++

=

Так как 1<optα , то maхtradeswintradeswin %% <где

riskwinavg

lossavgwinavglossavgrisklossavgriskmaхtradeswin

%1%1

|%|%|%|%2|%|%%

−+

×

×+

××−+=

Если не соблюдается двойное неравенствоmaхtradeswintradeswinmiпtradeswin %%% << ,

то экстремума не существует, то есть по данной методике нель-зя формальным образом выбрать наилучшее соотношение дохо-да и риска.

Приведем пример решения задачи оптимизации соотношениядоходности и риска МТС.

Результаты тестирования МТС:

Page 213: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

213

%5%%15%

%64%

−==

=

lossavgwinavg

tradeswin

Неоптимизированная прибыль на сделку:%36.7% =profitavg

Принятая величина риска:%7% =risk

Найдем показатели, характеризующие соотношение дохода ириска до оптимизации:

0016.01)07.01()0736.01(1)%1()%1(

−=−−×+==−−×+ riskprofitavg

0509.1736.7

%%

==risk

profitavg

Границы области оптимизации:

%70%%60%

==

maхtradeswinmiпtradeswin

В данном случае возможна оптимизация системы, так какmaхtradeswintradeswinmiпtradeswin %%% << .

Функция )(αQ имеет экстремум в точке 41.0=optα , при этом

%12.3)(% =optprofitavg α ,

%87.241.0%7%)(% =×=×= optopt riskrisk αα

-0.0020

-0.0015-0.0010

-0.00050.0000

0.0005

0.00100.0015

0.0020

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

alpha

Q(a

lpha

)

Page 214: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

214

Соотношения дохода и риска после оптимизации:

0016.01)0287.01()0312.01(

1))(%1())(%1()(

=−−×+=

=−−×+= optoptopt riskprofitavgQ ααα

0878.187.212.3

)(%)(%

==opt

opt

riskprofitavg

αα

Как видно из полученных результатов, после оптимизации доволь-но существенно снизился доход на одну сделку, однако улучши-лись соотношения дохода и риска. Кроме того, небольшая величи-на доли капитала, участвующего в сделках, позволяет чувствоватьсебя более комфортно на волатильных рынках.

14.6. Анализ соотношения скользящих средних от кумуля-тивной кривой дохода сделок.

В предыдущих параграфах рассматривались методы оптимиза-ции доли участвующего в сделках капитала в зависимости от пока-зателей МТС (процента прибыльных сделок, средней величинывыигрыша, средней величины проигрыша). Однако, не была учтенавозможность корреляции между результатами последовательныхсделок, то есть возможность возникновения серий из прибыльныхили убыточных сделок.

Формально, наличие корреляции в доходах сделок можно вы-явить, найдя коэффициент автокорреляции динамического ряда

)(% numbertradeprofit , где numbertrade - номер сделки,profit% - величина дохода по данной сделке (%). После этого

нужно проверить гипотезу о том, значимо ли отличается вычислен-ная по выборке величина коэффициента автокорреляции от нуля.

Высокая положительная корреляция свидетельствует о том,что за выигрышем чаще следует очередной выигрыш и реже следу-ет проигрыш и наоборот. При высокой отрицательной корреляцииза выигрышем чаще следует проигрыш и реже - очередной выиг-рыш и наоборот.

Наличие корреляции между результатами сделок можно ис-пользовать в торговле двумя способами. Во-первых, модификациейрешающих правил торговой системы, однако это может привести кее излишнему переусложнению. Во-вторых, использованием мето-дов управления капиталом, что представляется более предпочти-тельным. Как правило, если корреляция присутствует, то она по

Page 215: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

215

ложительна, следовательно возможны достаточно длинные сериииз прибыльных или убыточных сделок. Очевидно, что в полосеприбыльности нужно увеличивать долю участвующего в сделке ка-питала, а в полосе убыточности - уменьшать.

При наличии высокой положительной корреляции доходовсделок очень простым и достаточно эффективным способомуправления величиной участвующего в сделке капитала являет-ся метод, основанный на соотношении скользящих средних раз-личных порядков от размера торгового счета после каждойсделки )( numbertradeequityexit .

Обозначим как lineshort и linelong короткую и длиннуюпростую скользящую среднюю от величины equityexit .

Если linelonglineshort > , то в среднем в настоящее вре-мя торговая система показывает лучшие результаты, чем в сред-нем в прошлом. Следовательно, система находится а полосеприбыльности и нужно увеличивать объемы сделок. Самое про-стое решение - участвовать всем капиталом в каждой сделке.

Если linelonglineshort < , то в среднем в настоящее вре-мя торговая система показывает худшие результаты, чем в сред-нем в прошлом. Следовательно, система находится а полосеубыточности и нужно уменьшать объемы сделок. Самое простоерешение - вообще не открывать позиции.

Однако, возможны ситуации, когда единственная не прове-денная прибыльная сделка по упущенной выгоде перекрываетэкономию от нескольких не проведенных убыточных сделок.Для исключения таких случаев можно предложить следующуюметодику:

1) Рассчитаем набор случайных величин }{ kxгде )/ln( linelonglineshortx = .

2) По полученной выборке найдем оценки среднего значения ис.к.о. величины x . Так как эти величины должны пересчи-тываться после каждой закрытой сделки, то обозначим ихкак kX и kσ .

3) Если приближенно считать, что случайная величина x под-чиняется нормальному распределению, то в качестве доли

Page 216: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

216

участвующего в очередной сделке капитала можно выбратьзначение интегральной функции распределения в последнейперед планируемой сделкой точке выборки. Используяфункции Microsoft Excel можно найти долю капитала поформуле:

−=+

k

kkk

XxНОРМСТРАСПσ

α 1

Возможны следующие варианты

1

15.0

5.0

5.00

0

1

1

1

1

1

≈⇒>>

<<⇒>

=⇒=

<<⇒<

≈⇒<<

+

+

+

+

+

kkk

kkk

kkk

kkk

kkk

Xx

Xx

Xx

Xx

Xx

α

α

α

α

α

Таким образом, при linelonglineshort = доля участвую-щего в сделке капитала будет равна 50%, при

linelonglineshort > доля будет возрастать от 50% вплоть до100%, а при linelonglineshort < доля будет уменьшаться от50% вплоть до 0%.

Метод управления капиталом по соотношению скользящихсредних может может быть оптимизирован по двум параметрам:периоду короткой скользящей средней и периоду длиннойскользящей средней.

14.7. Критерий серий.

Одним из важнейших показателей механической торговойсистемы является доля выигрышных сделок %tradeswin . Од-нако, эта величина никак не характеризует наличие или отсутст-вие корреляции между результатами сделок. Возможны сле-дующие варианты:1) Исходы последовательных сделок независимы друг от друга,

то есть выигрыши и проигрыши чередуются случайным об-разом. В этом случае мы имеем нулевую корреляцию междурезультатами сделок.

Page 217: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

217

2) За выигрышем чаще следует выигрыш, за проигрышем –проигрыш, то есть возникают полосы прибыльности и убы-точности. В этом случае мы имеем положительную корреля-цию между результатами сделок.

3) За выигрышем чаще следует проигрыш, за проигрышем –выигрыш. В этом случае мы имеем отрицательную корреля-цию между результатами сделок

Рассмотрим результаты последовательных сделок торговойсистемы. Назовем серией несколько следующих подряд при-быльных сделок или несколько следующих подряд убыточныхсделок. В случае положительной корреляции количество серийна периоде тестирования будет меньше, чем количество серийпри независимом чередовании прибылей и убытков. При отри-цательной корреляции ситуация будет обратной. Заметим, чтопри расчете серий учитывается только знак дохода по сделке, ане его абсолютная величина, при этом сделки с нулевым дохо-дом учитываются как убыточные.

Критерий серий позволяет определить, насколько значимо от-личие полученного по выборке сделок эмпирического значениячисла серий от ожидаемого числа серий при независимом распре-делении прибылей и убытков. Введем обозначения:N - количество сделок ( tradestotalN = ).p - вероятность прибыльной сделки ( %tradeswinp = ).R - эмпирическое значение числа серий по выборке сделок.При достаточно большом N (больше 50) и при отсутствии корре-ляции между результатами сделок случайная величина R будетподчиняться нормальному распределению с параметрами:

Npp )1(2 − - ожидаемое значение числа серий.

Npp )1(2 − - с.к.о. числа серий.Для приведения случайной величины R к стандартному виду(то есть к величине с нулевым математическим ожиданием иединичной дисперсией) нужно сделать преобразование

NppNppRZ

)1(2)1(2

−−−

=

Полученную таким образом нормированную случайную ве-личину называют Z -счетом. Положительный Z -счет возника

Page 218: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

218

ет, если количество серий больше ожидаемого, то есть при от-рицательной корреляции. Отрицательный Z -счет возникает, ес-ли количество серий меньше ожидаемого, то есть при положи-тельной корреляции.

Вероятность того, что стандартная нормальная величинанаходится в интервале от || Z− до || Z , или соответствующуювеличине Z -счета доверительную вероятность, можно вычис-лить с помощью таблиц Microsoft Excel:

1|)(|2)( −⋅= ZНОРМСТРАСПZP . Как правило считают, что при 96.1|| ≤Z ( %95)( ≤ZP ),

отклонение эмпирического числа серий от ожидаемого незна-чимо и объясняется случайностью выборки. В этом случае не-целесообразно модифицировать торговую стратегию на основа-нии Z -счета.

Если же мы имеем систему, у которой 96.1|| >Z( %95)( >ZP ), то можно использовать полученную закономер-ность следующим образом:1) При большом по модулю и положительном по знаку Z -счете

за прибыльной сделкой скорее всего последует убыточная, а заубыточной - прибыльная. Следовательно, после выигрышейнужно уменьшать объем следующей сделки, а после проигры-шей - увеличивать.

2) При большом по модулю и отрицательном по знаку Z -счете заприбыльной сделкой скорее всего последует очередная при-быльная сделка, а за убыточной - очередная убыточная. Следо-вательно, после выигрышей нужно увеличивать объем сле-дующей сделки, а после проигрышей - уменьшать.

Отметим, что критерий серий может служить фильтром для рас-смотренного в предыдущем параграфе метода скользящих сред-них.

14.8. Увеличение объема выигрывающей позиции.

В этом параграфе будет изложен метод увеличения объемавыигрывающей длинной позиции для трендовых систем. Какправило такие торговые системы имеют сравнительно неболь-шой процент выигрышных сделок и высокое отношение среднейприбыли к среднему убытку.

Page 219: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

219

Пусть торговая система дала сигнал о покупке актива в мо-мент времени 1t по цене 1P . В этом случае проводится перваяпокупка, причем сумма сделки равна 1α процентов от текущейвеличины свободных денежных средств. Если цена продолжаетрост, то в момент времени 2t делается вторая покупка по цене

2P на сумму 2α процентов от текущей величины свободныхденежных средств. Наращивание объема бумаг продолжается дотех пор, пока растет рыночная цена. Заметим, что начиная совторой сделки средняя цена покупки меньше текущей цены ак-тива. При развороте рынка и достижении ценой некоторого кри-тического уровня все позиции закрываются.

Изложим эту методику формальным образом. Введем обо-значения:

0X - начальная величина свободных денежных средств,N - общее число проведенных сделок,

kP - цена, по которой проводится k -я сделка (рыночная цена),c - комиссия за проведение сделки (%),

NX - величина свободных денежных средств после N сделок,)(B

NY - общие затраты на покупку после N сделок (балансоваястоимость бумаг),

NV - количество бумаг в портфеле после N сделок,)(B

NP - средняя цена покупки актива после N сделок (балансо-вая цена).

После проведения N сделок, где сумма k -й сделки состав-ляет kα процентов от текущей величины свободных денежныхсредств, перечисленные выше переменные будут выражатьсяформулами:

∏=

−⋅=N

kkN XX

10 )1( α

−−⋅=−= ∏

=

N

kkN

BN XXXY

100

)( )1(1 α

Page 220: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

220

∑ ∏=

=

−⋅⋅

+=

N

k

k

ii

k

kN Pc

XV1

1

1

0 )1(1

αα

∑ ∏

=

=

=

−⋅

−−⋅+==

N

k

k

ii

k

k

N

kk

N

BNB

N

P

cVYP

1

1

1

1)(

)(

)1(

)1(1)1(

αα

α

Для последующих рассуждений эти формулы нужно разумнымобразом упростить. Сделаем два допущения:1) Все kα одинаковы и равны α .2) Все покупки, начиная со второй, происходят при определен-

ном процентном приросте рыночной цены относительно це-ны предыдущей сделки, то есть

11 )1( −+⋅= k

k PP βПосле этих упрощений формулы примут вид:

NN XX )1(0 α−⋅=

( )NBN XY )1(10

)( α−−⋅=

+−

−⋅++

⋅+⋅

⋅=

N

N cPXV

βα

βαβα

1111

)1(1

0

N

NB

N cPP

+−

−−⋅

++

⋅⋅+⋅=

βα

αββα

α

111

)1(11

1)1(1)(

Рассмотрим зависимость этих переменных от количества сделокN на примере. Примем следующие значения входящих в фор-мулы параметров:

0001001

%2.0%5%30

0

1

==

===

XP

cβα

Результаты расчетов с этими значениями параметров приведеныв таблице:

Page 221: Булашев. Статистика для трейдеров

Глава 14. Управление капиталом

С.В. Булашев. Статистика для трейдеров (электронная версия).

221

N 1 2 3 4 5

NP 1.000 1.050 1.103 1.158 1.216

NX 70 000 49 000 34 300 24 010 16 807)(B

NY 30 000 51 000 65 700 75 990 83 193

NV 29 940 49 900 63 207 72 078 77 992)(B

NP 1.002 1.022 1.039 1.054 1.067

При работе по такой методике закрытие позиций может осуществ-ляться следующим образом:1) Если после первой сделки рынок пошел против открытой пози-

ции, то выход осуществляется по сигналу lossstop , причемтак как объем сделки сравнительно невелик, то убыток будетнебольшим.

2) После второй сделки цену выхода можно поставить на границубезубыточности (с учетом комиссии), то есть

)1/()(2

)(2 cPP Bexit −= .

Для данного примера 024.1)002.01/(0022.1)(2 =−=exitP .

После второй сделки, если не произойдут форс-мажорные со-бытия, портфель застрахован от убытков при неограниченномпотенциале прибыли.

3) Начиная с третьей сделки цена выхода может равняться ценевхода для предыдущей сделки. Например, цена выхода послепятой сделки равна цене входа по четвертой сделке, то есть1.158, при этом средняя цена покупки с учетом комиссии равна1.067.

Если открытие позиций осуществляется частями, то выход проис-ходит всем объемом единовременно. Выход частями может бытьцелесообразен только в случае, когда разница между текущей ры-ночной ценой и средней ценой покупки достаточно велика, то естьесли входы были сделаны на сильном и продолжительном восхо-дящем тренде.

Page 222: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

222

15. УПРАВЛЕНИЕ РИСКОМ ПОРТФЕЛЯ НА ОСНОВЕАНАЛИЗА КОВАРИАЦИЙ АКТИВОВ

15.1. Введение.

В этой главе рассматриваются вопросы, связанные с опти-мизацией портфеля активов. Изучается влияние корреляции ме-жду отдельными парами активов на общий риск портфеля, приэтом в качестве меры риска принимается дисперсия (или сред-неквадратичное отклонение). Рассказано о том, что такое эф-фективная диверсификация и как общий риск портфеля, состав-ленного из произвольного количества активов, можно разделитьна несистематический (диверсифицируемый) риск и рыночный(недиверсифицируемый) риск. Дано понятие границы эффек-тивности на примере портфеля из двух активов и приведеныформулы, которые позволяют выбрать на границе эффективно-сти портфель с минимальным ожидаемым риском и портфель смаксимальным отношением ожидаемого дохода к ожидаемомуриску. Поставлена задача по оптимизации портфеля из произ-вольного количества активов с учетом ограничений на состав ивеса активов в портфеле (лимитов), и приведен алгоритм поискарешений этой задачи методом Монте-Карло.

15.2. Корреляция активов и риск портфеля.

Результаты решения об инвестировании в тот или иной финан-совый инструмент (актив) всегда имеют некоторую неопределен-ность. В большинстве случаев реально полученный доход от вло-жения в некий финансовый инструмент не совпадает с ожидаемымдоходом по этому инструменту на момент принятия решения обинвестировании, то есть инвестирование - это сфера деятельности,связанная с риском.

Меру рассеяния реально полученных доходов относительноожидаемого дохода, то есть риск актива, будем характеризоватьдисперсией (или среднеквадратичным отклонением) доходов поданному активу.

Рассмотрим случай, когда инвестирование проводится в не-сколько активов (портфель). Портфель является линейной ком-бинацией активов, каждый из которых имеет собственное мате-матическое ожидание дохода и дисперсию дохода.

Page 223: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

223

Вспомним формулы для вычисления математическогоожидания и дисперсии многомерной случайной величины y ,являющейся линейной комбинацией коррелированных случайныхвеличин:

∑ ∑∑

= +==

=

=

+=

=

=

N

k

N

kikiikki

N

kkky

N

kkky

N

kkk

aaa

a

xay

1 11

222

1

1

2 σσρσσ

µµ

Поэтому для математического ожидания и дисперсии дохода порт-феля активов можно использовать следующие формулы:

∑ ∑∑

= +==

=

+=

=

N

k

N

kikiikki

N

kkky

N

kkky

www

w

1 11

222

1

2 σσρσσ

µµ

где w - веса активов в портфеле.В отличие от произвольной линейной комбинации случайных

величин, веса активов подчиняются правилу нормирования:

11

=∑=

N

kkw

Следовательно:- математическое ожидание дохода портфеля - это взвешенная

сумма математических ожиданий доходов по отдельным акти-вам,

- риск дохода портфеля - это взвешенная сумма ковариаций всехпар активов в портфеле, при этом вес каждой ковариации равенпроизведению весов соответствующей пары активов, а кова-риация актива с самим собой является дисперсией данного ак-тива.

15.3. Понижение риска портфеля. Диверсификация.

Из формулы для дисперсии портфеля активов очевидно, чториск портфеля можно разделить на две группы слагаемых.

Page 224: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

224

Слагаемые вида 22kkw σ , которые характеризуют риск от-

дельных активов, всегда положительны. Следовательно они мо-гут только увеличивать риск портфеля.

Слагаемые вида kiikki ww σσρ , которые характеризуют ко-вариацию различных пар активов в портфеле, могут быть поло-жительными, равными нулю и отрицательными. Все зависит отвеличины коэффициента корреляции между активами. Следова-тельно, эти слагаемые могут уменьшить риск портфеля в целомпо сравнению с риском отдельных активов.

Проиллюстрируем этот эффект диверсификации на примерепортфеля, состоящего из двух активов. Рассмотрим три случая,в каждом из которых математические ожидания и дисперсии ак-тивов одинаковы, а различными являются коэффициенты корре-ляции между ними:1) Активы полностью коррелированны

В этом случае коэффициент корреляции между активами ра-вен 1. Следовательно для дисперсии и с.к.о. портфеля полу-чаем

( )2211

222112121

22

22

21

21

2 2σσσ

σσσσσσσ

wwwwwwww

y

y

+=

+=++=

Следовательно, с.к.о. портфеля равно средней взвешеннойс.к.о. отдельных активов, то есть понижение риска портфеляот диверсификации отсутствует.

2) Активы не коррелированныКоэффициент корреляции между активами равен 0.

22

22

21

21

22

22

21

21

2

σσσ

σσσ

ww

ww

y

y

+=

+=

В этом случае с.к.о. портфеля меньше средней взвешеннойс.к.о. отдельных активов, то есть присутствует понижениериска портфеля от диверсификации, однако с.к.о. портфелябольше нуля при любых ненулевых дисперсиях отдельныхактивов.

3) Активы антикоррелированныКоэффициент корреляции между активами равен -1.

Page 225: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

225

( )2211

222112121

22

22

21

21

2 2

σσσ

σσσσσσσ

ww

wwwwww

y

y

−=

−=−+=

В этом случае эффект диверсификации наиболее значителен,с.к.о. портфеля может быть сведено к нулю соответствую-щим выбором весов отдельных активов в портфеле, то естьможет быть получен безрисковый портфель.

Заметим, что во всех трех случаях математическое ожиданиедохода портфеля одинаково и равно 2211 µµµ wwy += .

Можно сказать, что эффективная диверсификация - это до-бавление таких активов в портфель, доходы по которым имеютнаименьший коэффициент корреляции с активами, уже имею-щимися в портфеле.

Рассмотрим теперь портфель, состоящий из большого коли-чества активов N, каждый из которых входит в портфель с оди-наковым весом 1/N. В случае более 2-х активов невозможно до-биться того, чтобы каждая пара активов имела бы коэффициенткорреляции, равный -1. Пусть все активы имеют вообще говоряразличные конечные дисперсии и каждая пара активов имеетвообще говоря разные коэффициенты корреляции. Тогда фор-мула для дисперсии портфеля примет вид:

∑∑∑= +==

+=N

k

N

kikiik

N

kky NN 1 1

21

22

2 121 σσρσσ

Преобразуем эту формулу:

∑∑∑= +== −

−+=

N

k

N

ki

ikN

k

ky NNN

NNN 1 11

22

2/)1(11 σσσ

Первая сумма - это средняя дисперсия активов, вторая (удвоен-ная) сумма - это средняя ковариация всех пар различных акти-вов, следовательно:

ikky NN

Nσσσ ⋅

−+⋅=

11 22

Поэтому, при достаточно большом количестве активов N первымслагаемым можно пренебречь и для дисперсии портфеля можнонаписать приближенное выражение iky σσ ≈2 , то есть дисперсияпортфеля приближенно равна средней ковариации активов.

Page 226: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

226

Таким образом, общий риск портфеля можно разделить надве части:- несистематический риск, определяемый средней дисперси-

ей активов, который может быть исключен путем формиро-вания портфеля из большого количества активов (диверси-фикацией),

- систематический (рыночный) риск, определяемый среднейковариацией пар различных активов, который не можетбыть исключен путем формирования портфеля из большогоколичества активов (диверсификацией).

При этом математическое ожидание дохода портфеля равносреднему математическому ожиданию дохода входящих в порт-фель активов:

k

N

k

ky N

µµµ ==∑=1

15.4. Граница эффективности.

В предыдущем параграфе было показано, что в случае, ко-гда коэффициент корреляции между активами меньше 1, дивер-сификация портфеля может улучшить соотношение между ожи-даемым доходом и ожидаемым риском. Это связано с тем, чтоожидаемый доход портфеля является линейной комбинациейожидаемых доходов по входящим в портфель активам, а дис-персия портфеля является квадратичной функцией от с.к.о. вхо-дящих в портфель активов.

При заданных математических ожиданиях и дисперсиях ак-тивов, а также коэффициентах корреляции между различнымипарами активов, путем оптимизации весов активов в портфелеможно добиться улучшения соотношения между доходом и рис-ком портфеля.

Рассмотрим портфель, состоящий из двух активов, с коэф-фициентом корреляции между ними равным 5.0=ρ :- 1-й актив

ожидаемый доход %101 =µс.к.о. ожидаемого дохода (риск) %151 =σ

- 2-й актив

Page 227: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

227

ожидаемый доход %132 =µс.к.о. ожидаемого дохода (риск) %162 =σ

Ожидаемый доход и среднеквадратичное отклонение портфеляиз двух активов вычисляются по формулам:

212122

22

21

21

22211 2 σσρσσσµµµ wwwwww yy ++=+=

Расчетные значения этих величин при различном соотношениивесов активов представлены в таблице.

Вес 1-го актива

1wВес 2-го актива

2wС.к.о. портфеля

yσДоход портфеля

0.0 1.0 16.00 13.000.1 0.9 15.21 12.700.2 0.8 14.54 12.400.3 0.7 14.01 12.100.4 0.6 13.64 11.800.5 0.5 13.44 11.500.6 0.4 13.41 11.200.7 0.3 13.56 10.900.8 0.2 13.89 10.600.9 0.1 14.37 10.301.0 0.0 15.00 10.00

Зависимость ожидаемого дохода портфеля от с.к.о. портфеля(риска) приведена на рисунке

Граница эффективности

8.00

9.00

10.00

11.00

12.00

13.00

14.00

13.00 13.50 14.00 14.50 15.00 15.50 16.00 16.50

с.к.о. портфеля (риск)

дохо

д по

ртфел

я

A

B

CT1

T2

Page 228: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

228

На линии АВС лежат все возможные комбинации дохода ириска портфеля. Точка А соответствует портфелю, состоящемутолько из 1-го актива, точка С соответствует портфелю,состоящему только из 2-го актива, точка В соответствуетпортфелю с наименьшим риском.

Аналитически координаты точки В в случае портфеля из 2-хактивов можно найти из следующих соображений. Так как весаактивов связаны соотношением 12 1 ww −= , то математическоеожидание и дисперсию портфеля можно представить как функ-цию только от 1w :

211122

21

21

21

2

2111

)1(2)1(

)1(

σσρσσσ

µµµ

wwww

ww

y

y

−+−+=

−+=

Точку с минимальным значением дисперсии (с.к.о.) портфеляможно найти, взяв производную величины 2

yσ по 1w и прирав-

няв ее к нулю. Решив уравнение относительно 1w получим:

2122

21

2122

1 2 σρσσσσρσσ

−+−

=w

Подставив это выражение в формулы для yµ и yσ , можнонайти ожидаемый доход и риск портфеля (с.к.о.) в точке В. Длярассмотренного здесь примера получим:

%39.13%32.1144.056.0 21 ==== yyww σµ

Линия АВС:- вогнута влево при коэффициенте корреляции 1<ρ , при этом

вогнутость тем сильнее, чем меньше коэффициент корреляции,- является отрезком прямой, соединяющим точки А и С, при

коэффициенте корреляции 1=ρ .Верхняя часть линии АВС (линия ВС) является границейэффективности. Линия ВС является эффективной в томсмысле, что на ней невозможно повысить доход без повышенияриска и снизить риск без снижения дохода (в отличие от линииАВ). Выше линии ВС находятся недостижимо привлекательныекомбинации дохода и риска. Ниже линии ВС находятся худшиекомбинации дохода и риска, которые могут быть улучшены

Page 229: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

229

переходом на линию ВС. Например, переход из точки Т2 вточку Т1 приводит к увеличению дохода портфеля принеизменном уровне риска.

На границе эффективности не существует наилучшегопортфеля. Выбор точки на этой линии зависит отинвестиционных предпочтений портфельного менеджера, тоесть какую плату, выражаемую в единицах риска, он готов нестиза добавочную единицу дохода.

Распространенным методом выбора точки на границеэффективности является выбор такого портфеля, для которогоотношение ожидаемого дохода к ожидаемому риску являетсямаксимальным. Аналитически в случае портфеля из 2-х активовэту точку можно найти, приравняв к нулю производную по 1wот функции

211122

21

21

21

2111

)1(2)1()1(

σσρσσ

µµσµ

wwwwww

y

y

−+−+

−+=

Решив полученное уравнение относительно 1w найдем, что:

)()( 221212

212211

221212

1 σµσρσµσµσρσµσµσρσµ

−+−−

=w

Для рассмотренного здесь примера точка с максимальнымотношением дохода к риску:

%72.13%89.1163.037.0 21 ==== yyww σµ

15.5. Постановка задачи по оптимизации портфеля.

Под оптимизацией портфеля, состоящего из произвольногоколичества активов, мы будем понимать поиск таких набороввесов активов, которые обеспечивали бы:- ожидаемый доход портфеля больший или равный наперед

заданному минимальному значению дохода,- ожидаемый риск портфеля меньший или равный наперед за-

данному максимальному значению риска.Следовательно, если предполагаются известными ожидаемыедоходы по каждому из активов, ожидаемые дисперсии (с.к.о.)дохода по каждому из активов, ковариации (коэффициенты кор

Page 230: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

230

реляции) между каждой парой различных активов, то задача оп-тимизации портфеля сводится к тому, чтобы найти такие наборывесов активов, которые бы удовлетворяли системе

1

2

1

2max

1 11

222

min1

=

≤+=

≥=

∑∑∑

=

= +==

=

N

kk

N

k

N

kikiikki

N

kkky

N

kkky

w

www

w

σσσρσσ

µµµ

Будем предполагать, что в составе портфеля в качестве од-ного из активов могут находиться денежные средства, то естьбезрисковый актив, имеющий нулевое ожидание дохода, нуле-вую дисперсию дохода и нулевой коэффициент корреляции слюбым другим активом, поэтому равенство единице суммы ве-сов всех активов является строгим.

Ожидаемый доход портфеля и ожидаемая дисперсия портфеляявляются целевыми функциями. Целевые функции определяют за-дачу которая должна быть решена в процессе оптимизации. В дан-ном случае задачей является максимизировать линейную функцию

yµ при одновременной минимизации квадратичной функции 2yσ с

учетом заданных ограничений.

15.6. Введение ограничений на состав и веса активов впортфеле (лимитов).

В постановке задачи по оптимизации портфеля активов,сделанной в предыдущем параграфе, неявным образом предпо-лагалось, что:- портфельный менеджер имеет возможность инвестировать в

любые активы, обращающиеся на рынке, то есть отсутству-ют ограничения на состав активов в портфеле,

- отсутствуют ограничения на вес отдельного актива в порт-феле.

Как правило присутствуют оба вида ограничений (лимиты). До-полним задачу оптимизации введением лимитов, то есть будемпредполагать, что:

Page 231: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

231

- в формулах для целевых функций присутствуют только раз-решенные активы,

- вводятся ограничения на вес каждого конкретного актива впортфеле.

Ограничения на вес любого актива будем вводить как сверху,так и снизу. На практике низкое ограничение сверху вводят напотенциально очень доходные, но и очень рискованные активы.Самые низкие ограничения сверху вводят на веса активов, инве-стиции в которые с высокой вероятностью могут быть потеряныполностью. В лучшем случае эти активы могут принести доходза пределами горизонта инвестирования. Ограничение сверхуне может превышать 1. Ненулевые ограничения снизу вводятсякак правило для создания в составе портфеля "подушки безо-пасности" из низкодоходных, но и низкорискованных активов.Ограничение снизу не может быть меньше 0. Кроме того, и на-бор ограничений сверху, и набор ограничений снизу имеют своиправила нормирования.

Итак, ограничения на веса активов в портфеле вводятся сле-дующим образом:

11

1010

1(max)

1(min)

(max)(min)

(max)(min)

≥≤

≤<<≤

≤≤

∑∑==

N

kk

N

kk

kk

kkk

ww

wwwww

15.7. Численное решение задачи оптимизации портфеля сучетом лимитов методом Монте-Карло.

Итак, задачу об оптимизации портфеля активов с учетомлимитов можно сформулировать в виде:

2max

1 11

222

min1

2 σσσρσσ

µµµ

≤+=

≥=

∑ ∑∑

= +==

=

N

k

N

kikiikki

N

kkky

N

kkky

www

w

11

==∑=

N

kkwS

Page 232: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

232

11

1010

1(max)(max)

1(min)(min)

(max)(min)

(max)(min)

≥=≤=

≤<<≤

≤≤

∑∑==

N

kk

N

kk

kk

kkk

wSwS

wwwww

В этой задаче искомыми величинами являются наборы ве-сов активов }{ kw , удовлетворяющие всем уравнениям и нера-венствам. Решить такую задачу оптимизации аналитическимиметодами достаточно трудно, особенно в случае большого ко-личества активов. Поэтому есть смысл попробовать найти еерешение численно методом Монте-Карло, генерируя случайнымобразом на компьютере удовлетворяющие ограничениям набо-ры весов активов и проверяя эти наборы на соответствие целе-вым функциям.

Разумеется, в конечной последовательности розыгрышей(генераций наборов весов) скорее всего не удастся найти всерешения задачи оптимизации. Однако, каждое найденное реше-ние будет удовлетворять всем условиям задачи, то есть порт-фель, построенный с помощью этого набора весов будет "доста-точно оптимальным". Если решений будет несколько, из нихможно выбрать то, при котором отношение ожидаемого доходапортфеля к ожидаемому риску будет максимальным.

Алгоритм решения задачи оптимизации

1) Задаем входные данные1.1) Набор ожидаемых доходов по активам:

Nkk ,...,1},{ =µ1.2) Набор среднеквадратичных отклонений активов:

Nkk ,...,1},{ =σ1.3) Набор коэффициентов корреляций между различны-

ми активами

NkiNk

ik

,...,1,...,1

}{

+==ρ

1.4) Минимально ожидаемый доход портфеля: minµ

Page 233: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

233

1.5) Максимально ожидаемаый риск портфеля: maxσ1.6) Набор ограничений снизу на веса активов:

Nkw k ,...,1},{ (min) =1.7) Набор ограничений сверху на веса активов:

Nkw k ,...,1},{ (max) =1.8) Количество розыгрышей (генераций наборов весов):

М1.9) Точность нормирования (малое положительное чис-

ло): δ2) Задаем стартовое значение номера текущего розыгрыша

0=m3) Номер текущего розыгрыша 1+= mm4) Разыгрываем случайным образом набор весов, соответст-

вующий набору ограничений на веса активов4.1) Задаем начальные минимально возможные значе-

ния весовNkww kk ,...,1,(min) ==

4.2) Вычисляем текущую сумму весов

∑=

=N

kkwS

1

4.3) 0=k4.4) 1+= kk4.5) Разыгрываем приращение веса к-го актива

)),1(,0(_

(max) kk wwSМИНИМУМЧИСЛОСЛУЧАЙНОЕdW

−−=

4.6) Вычисляем текущий вес к-го активаdWww kk +=

4.7) Вычисляем текущую сумму весовdWSS +=

4.8) Если k<N, то переходим на шаг 4.44.9) Если не соблюдается точность нормирования, то

есть δ>− )1( S , то переходим на шаг 4.3

Page 234: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

234

5) Проверяем, соответствует ли портфель, составленный из полу-ченных на шаге 4 весов, ограничениям на минимально ожидае-мый доход и максимально ожидаемый риск портфеля

2max

1 11

222

min1

2 σσσρσσ

µµµ

≤+=

≥=

∑ ∑∑

= +==

=

N

k

N

kikiikki

N

kkky

N

kkky

www

w

Если решение соответствует этим неравенствам, то фиксируемего, то есть запоминаем текущий набор весов и соответствую-щие ему ожидаемый доход, ожидаемый риск, отношение дохо-да к риску. Текущий розыгрыш за номером m завершен.

6) Если номер текущего розыгрыша m меньше, чем общее числорозыгрышей М, то переходим на шаг 3

7) После того, как сделаны все розыгрыши (то есть m=М), средивсех найденных решений выбираем то, при котором отношениеожидаемого дохода портфеля к ожидаемому риску портфелябудет максимальным.

Если не было найдено ни одного решения, то необходимо:- либо увеличить количество розыгрышей,- либо ослабить ограничения по целевым функциям, то есть

уменьшить ожидаемый доход и/или увеличить ожидаемый рискпортфеля,

- либо пересмотреть ограничения на веса активов в портфеле всторону расширения интервалов разрешенных значений весов.

Пример решения задачи оптимизации

Рассмотрим портфель, состоящий из трех активов:- 1-й актив

ожидаемый доход 10%с.к.о. ожидаемого дохода (риск) 15%отношение доход/риск = 0.67минимальный вес в портфеле 0максимальный вес в портфеле 0.50

- 2-й активожидаемый доход 13%с.к.о. ожидаемого дохода (риск) 20%отношение доход/риск = 0.65

Page 235: Булашев. Статистика для трейдеров

Глава 15. Управление риском портфеля на основе анализа ковариаций ак-тивов

С.В. Булашев. Статистика для трейдеров (электронная версия).

235

минимальный вес в портфеле 0максимальный вес в портфеле 0.50

- 3-й активожидаемый доход 18%с.к.о. ожидаемого дохода (риск) 30%отношение доход/риск = 0.60минимальный вес в портфеле 0максимальный вес в портфеле 0.50

Коэффициенты корреляции между активами:- 1-й и 2-й активы: 5.012 =ρ- 1-й и 3-й активы: 5.013 −=ρ- 2-й и 3-й активы: 023 =ρ

Зададим минимально ожидаемый доход портфеля 15%, макси-мальный ожидаемый риск портфеля 18%, количество розыгрышейвесов активов 10000.

Тогда решение задачи оптимизации по приведенному в этомпараграфе алгоритму с выбором среди полученных решений того,которое обеспечивает максимальное отношение ожидаемого дохо-да к ожидаемому риску следующее:- вес 1-го актива 1141.01 =w- вес 2-го актива 3859.02 =w- вес 3-го актива 5000.03 =w- ожидаемый доход портфеля %16.15=yµ- ожидаемый риск портфеля %58.16=yσ- отношение доход/риск = 0.91Мы получили доход портфеля больше среднего арифметическогодоходов активов (13.67%), риск портфеля меньше среднего ариф-метического рисков активов (21.67%), и существенно улучшилисоотношение дохода и риска по сравнению с этим соотношениемдля любого отдельного актива. Следует еще раз подчеркнуть, чтоэто решение наверняка не является оптимальным. Более длинныесерии розыгрышей вероятно способны его улучшить. Однако, дан-ное решение является "достаточно оптимальным", так как удовле-творяет всем поставленным условиям.

Page 236: Булашев. Статистика для трейдеров

Глава 16. Управление риском портфеля на основе анализа квантильныхмер риска

С.В. Булашев. Статистика для трейдеров (электронная версия).

236

16. УПРАВЛЕНИЕ РИСКОМ ПОРТФЕЛЯ НА ОСНОВЕАНАЛИЗА КВАНТИЛЬНЫХ МЕР РИСКА

16.1. Введение.

В предыдущей главе были рассмотрены вопросы, связанныес управлением риском портфеля, при этом в качестве меры рас-сеяния ожидаемого дохода по конкретному активу и по портфе-лю, то есть в качестве меры риска, была использована дисперсия(или среднеквадратичное отклонение).

Широкое использование дисперсии в качестве оценки рас-сеяния ожидаемого дохода портфеля связано с тем, что ее мож-но вычислить аналитически, если известны дисперсии каждогоактива и коэффициенты корреляции между активами. Действи-тельно, дисперсия ожидаемого дохода портфеля - это взвешен-ная сумма ковариаций всех пар активов в портфеле, причем вескаждой ковариации равен произведению весов соответствую-щей пары активов, а ковариация актива с самим собой являетсядисперсией данного актива. При этом суммирование проводитсябезотносительно к разнообразию законов распределений каждо-го из слагаемых и возможной деформации законов распределе-ния при суммировании.

Ситуация существенным образом усложняется, если в каче-стве меры рассеяния ожидаемого дохода портфеля необходимоуказать квантильное отклонение с заданной доверительной ве-роятностью, так как это невозможно сделать, если неизвестензакон распределения доходов портфеля. Теоретически, законраспределения доходов портфеля можно найти, если известнызаконы распределения доходов входящих в него активов. Одна-ко на практике аналитическое решение такой задачи сопряженосо значительными трудностями даже для малого числа активов(за исключением некоторых частных случаев). Это происходитпотому, что, во-первых, доходы по входящим в портфель акти-вам могут быть коррелированны между собой, во-вторых, присуммировании доходов активов законы их распределения могутсущественным образом деформироваться, поэтому распределе-ние дохода портфеля может сильно отличаться от распределе-ний доходов составляющих его активов.

Page 237: Булашев. Статистика для трейдеров

Глава 16. Управление риском портфеля на основе анализа квантильныхмер риска

С.В. Булашев. Статистика для трейдеров (электронная версия).

237

В этой главе будут рассмотрены практические методы вы-числения квантильных мер риска дохода портфеля из произ-вольного количества активов и управления риском портфеля наоснове их анализа.

16.2. Понятие Value-at-risk и Shortfall-at-risk.

Допустим, что предполагается сформировать портфель,состоящий из некоторого набора активов. Введем обозначения:N - количество активов в портфеле,T - промежуток времени, в течение которого предполагаетсяподдерживать портфель в неизменном состоянии,

}{ nw - набор весов, с которыми активы входят в портфель намомент его формирования,

}{ nx - набор случайных величин, равных доходам по каждомуиз активов, которые будут реально получены по истечениипромежутка времени T ,y - случайная величина, равная реально полученному доходупортфеля по истечении промежутка времени T ,

}{ nµ - набор ожидаемых значений доходов по каждому изактивов,

yµ - ожидаемое значение дохода портфеля.Реально полученный доход портфеля и ожидаемое значениедохода портфеля за время T можно вычислить по формулам:

∑=

=N

nnnxwy

1∑=

=N

nnny w

1µµ

В большинстве случаев оказывается, что величины y и yµне равны друг другу. В частности, по истечении промежуткавремени T результатом инвестирования может оказатьсяубыток, то есть 0<y .

В качестве квантильной меры риска портфеля используетсявеличина Value-at-risk (VAR), то есть VAR - это мера риска порт-феля с заданной доверительной вероятностью.

Утверждение о том, что портфель имеет определенное зна-чение VAR фактически означает следующее: в течение проме

Page 238: Булашев. Статистика для трейдеров

Глава 16. Управление риском портфеля на основе анализа квантильныхмер риска

С.В. Булашев. Статистика для трейдеров (электронная версия).

238

жутка времени T с доверительной вероятностью P абсолютнаявеличина убытка по портфелю не может быть больше, чем VAR(доход по портфелю не может быть меньше -VAR), при этом аб-солютная величина убытка, превосходящая VAR, также не ис-ключена, однако такой убыток может случиться лишь с малойвероятностью P−1 .

Пусть случайная величина y (доход портфеля) имеет плот-ность распределения )(yp и функцию распределения )(yF .Зададим доверительную вероятность P . Обозначим как Py −1

такую квантиль распределения переменной y , что- вероятность того, что случайная величина y окажется

меньше или равной Py −1 , равна P−1 , т.е.PyyРrоb P −=≤ − 1}{ 1

- вероятность того, что случайная величина y окажетсябольше Py −1 , равна P , т.е.

PyyРrоb P => − }{ 1

Доверительную вероятность P как правило выбирают в преде-лах от 0.95 до 0.99. В этом случае квантиль Py −1 является отри-цательным числом. Тогда величина VAR равна модулю этогочисла:

|| 1 PyVAR −=Для того, чтобы найти VAR случайной величины y , нужно ре-шить уравнение

)(1 VARFP −=−или (эквивалентная форма записи)

∫−

∞−

=−VAR

dyypP )(1

VAR является достаточно распространенной мерой риска порт-феля, которая имеет однако ряд существенных недостатков:1) В отличие от дисперсии, VAR не обладает свойством адди-

тивности. Это означает, что даже если известны величиныVAR составляющих портфель активов и коэффициенты кор-реляции между активами, то в общем случае на основании

Page 239: Булашев. Статистика для трейдеров

Глава 16. Управление риском портфеля на основе анализа квантильныхмер риска

С.В. Булашев. Статистика для трейдеров (электронная версия).

239

этих данных невозможно рассчитать VAR портфеля. Это свя-зано с тем, что VAR является квантильной оценкой, поэтомуее нельзя вычислить без знания закона распределения дохо-да портфеля. Но при суммировании доходов активов законыих распределения могут деформироваться, поэтому распре-деление дохода портфеля может сильно отличаться от рас-пределений доходов составляющих его активов.

2) VAR не учитывает возможных больших убытков, которыемогут произойти с малыми вероятностями.

3) При указании в качестве меры риска только величины VAR,мы не имеем информации о виде распределения доходовпортфеля. При этом, если распределение доходов портфеляявляется островершинным (эксцесс больше 3), то рискпортфеля будет недооцениваться, а если распределение до-ходов является плосковершинным (эксцесс меньше 3), ториск будет переоцениваться.

Исходя из перечисленных выше недостатков VAR, хотелось быиметь характеристику риска портфеля, которая описывает реа-лизующиеся с малыми вероятностями аномально большиеубытки. Такой мерой риска является Shortfall-at-risk (SAR). SAR -это ожидаемое значение убытка портфеля, при условии, что аб-солютная величина убытка превосходит VAR. Исходя из данногоопределения, значение SAR может быть вычислено по формуле:

∫−

∞−

⋅=VAR

dyypySAR )(

Совместное использование в качестве мер риска VAR и SAR по-зволяет иметь более полную информацию о хвостах распреде-ления доходов портфеля. При этом представляется целесообраз-ным рассчитывать эти величины одновременно для несколькихразличных значений доверительной вероятности P (например0.950, 0.975, 0.990, 0.999).

16.3. Вычисление Value-at-risk и Shortfall-at-risk.

Прежде всего рассмотрим, каким образом можно найти зна-чения VAR и SAR для отдельного актива. Для расчета этих вели-чин необходима информация о плотности распределения дохо

Page 240: Булашев. Статистика для трейдеров

Глава 16. Управление риском портфеля на основе анализа квантильныхмер риска

С.В. Булашев. Статистика для трейдеров (электронная версия).

240

дов, которая может быть найдена по эмпирической выборке ры-ночных цен данного актива. Введем обозначения:

max,...,0 t - интервал времени, на котором производится выборкацен,

tРrice - цена актива в момент времени t ( max0 tt ≤≤ ).Тогда величиной, характеризующей однодневный доход от вло-жения в данный актив от момента 1−t до момента t будет

( )1ln −= ttt РriceРricex , где max1 tt ≤≤ .Значения VAR и SAR могут быть определены по выборке слу-чайных величин }{ tx следующими способами:

1) Непосредственно по выборке }{ tx .При использовании этого способа выборка }{ tx должнабыть упорядочена по возрастанию. После этого нужно найтиномер M в упорядоченной по возрастанию выборке, соот-ветствующий доверительной вероятности P :

( ))1()1(1 max −⋅−+= tPЦЕЛОЕMТогда

∑=

==M

ttM x

tSARxVAR

1max

1

Данный метод является самым простым и самым грубым.Он исключительно чувствителен к конкретной случайнойреализации цен на интервале max,...,0 t . Кроме того, этотспособ сильно зависит от объема выборки. Действительно,при малой величине maxt мы можем для различных значенийP получать один и тот же номер M , и как следствие этого,одни и те же величины VAR и SAR.

2) Путем идентификации закона распределения случайной ве-личины х.Для этого по выборке }{ tx , используя изложенную в главе 6методику, необходимо построить эмпирическую гистограм-му распределения случайной величины x , после чего ап-проксимировать эту гистограмму одним из аналитических

Page 241: Булашев. Статистика для трейдеров

Глава 16. Управление риском портфеля на основе анализа квантильныхмер риска

С.В. Булашев. Статистика для трейдеров (электронная версия).

241

законов распределения, которые описаны в главе 2. Тем са-мым будет найдена формула для плотности распределения

)(xp . Для заданной доверительной вероятности P величи-ны VAR и SAR могут быть найдены из уравнений

∫−

∞−

=−VAR

dxxpP )(1 ∫−

∞−

⋅=VAR

dxxpxSAR )(

Решение этих уравнений проводится как правило численно,методика приведена в главе 2.

3) Путем многократного моделирования методом Монте-КарлоКак и в предыдущем случае, по эмпирической выборке }{ txнеобходимо найти аналитическую формулу для плотностираспределения )(xp . Далее, используя генератор псевдо-случайных чисел, нужно провести многократное моделиро-вание случайной величины x (методика подробно изложенав главе 2). После этого величины VAR и SAR определяютсяуже по смоделированной выборке.

ПРИМЕЧАНИЕ. Таким образом мы нашли однодневные VAR иSAR. Если необходимо вычислить например пятидневные зна-чения этих величин, то вместо дневных баров цен используютсянедельные бары и т.д.

После того как известно, каким образом можно найти зна-чения VAR и SAR для отдельного актива, можно описать проце-дуру поиска этих величин для портфеля.

Проще всего VAR и SAR для портфеля можно найти, если наинтервале времени max,...,0 t рассмотреть поведение виртуаль-ного портфеля, сформированного в момент 0=t из интере-сующих нас активов, каждый из которых входит в портфель сзаданным весом. Если считать, что tРrice - это стоимость вир-туального портфеля в момент времени t , то вся процедура по-иска VAR и SAR для него уже описана выше. Такой подход об-ладает следующими достоинствами:- отсутствует необходимость учета корреляции между входя-

щими в портфель активами (это происходит автоматически),

Page 242: Булашев. Статистика для трейдеров

Глава 16. Управление риском портфеля на основе анализа квантильныхмер риска

С.В. Булашев. Статистика для трейдеров (электронная версия).

242

- отсутствует необходимость учета законов распределениявходящих в портфель активов, так как нас интересует толькозакон распределения результирующего виртуального порт-феля, а его можно определить по выборке }{ tРrice .

Существенным недостатком такого подхода является то, что те-кущие веса активов в портфеле равны заданному набору весов

}{ nw только в начальный момент времени 0=t . Это происхо-дит потому, что динамика цен входящих в виртуальный порт-фель активов различна для разных активов, результатом чегоявляется постоянное изменение соотношения текущих весов ак-тивов в виртуальном портфеле в различные моменты времени(каждый актив учитывается по его текущей рыночной цене).Действительно, если считать, что в момент 0=t стоимостьвиртуального портфеля 10 =Рrice , то в последующие моментывремени его стоимость выражается формулой:

∑=

==N

n n

tnnt ttРriceРrice

wРrice1

max0,

, ,...,1

где tnРrice , - это цена n -го актива в момент времени t .Из этой ситуации может быть два выхода. Во-первых, можнопренебречь изменением соотношения весов. Во-вторых, послекаждого торгового дня приводить текущие веса активов в соот-ветствие с заданным набором }{ nw . В этом случае стоимостьвиртуального портфеля в произвольный момент времени будетравна:

max1 1 1,

,

0

,...,1

1

ttРriceРrice

wРrice

Рricet

i

N

n tn

tnnt =

=

=

∏ ∑= = −

Более удобно использовать рекуррентную формулу

∑= −

− ⋅=N

n tn

tnntt РriceРrice

wРriceРrice1 1,

,1

В некоторых частных случаях VAR портфеля можно найти ана-литически, если известен набор }{ nVAR входящих в портфель

Page 243: Булашев. Статистика для трейдеров

Глава 16. Управление риском портфеля на основе анализа квантильныхмер риска

С.В. Булашев. Статистика для трейдеров (электронная версия).

243

активов и коэффициенты корреляции между активами. Этоследующие случаи:1) Если доходы всех активов распределены нормально, то их

сумма (доход портфеля), также распределен нормально, тоесть не происходит деформации закона распределения присуммировании.

2) Если при не обязательно нормальном распределениидоходов активов выбран уровень доверительнойвероятности 95.0=P . Дело в том, что для большого числанаиболее употребительных законов распределения 5%-наяквантиль распределения выражается через математическоеожидание и с.к.о. по единой формуле σµ 6.105.0 −≈x .

В обоих случаях VAR портфеля вычисляется по формуле,аналогичной формуле для дисперсии портфеля:

∑∑∑= +==

⋅⋅+⋅=N

k

N

kikiikki

N

kkky VARVARwwVARwVAR

1 11

222 2 ρ

16.4. Оптимизация портфеля с учетом Value-at-risk и Short-fall-at-risk.

Алгоритм численного решения задачи оптимизации порт-феля по соотношению математического ожидания дохода исреднеквадратичного отклонения дохода приведен в главе 15параграфе 15.7 этой книги. Введение в рассмотрение мер рискапортфеля VAR и SAR лишь дополняет этот алгоритм. Выборконкретного решения из множества решений задачи оптимиза-ции портфеля (то есть оптимальное соотношение величин yµ ,

yσ , yVAR и ySAR ), каждый портфельный менеджер осуществ-ляет с учетом своих инвестиционных предпочтений.

Page 244: Булашев. Статистика для трейдеров

Рекомендуемая литература

С.В. Булашев. Статистика для трейдеров (электронная версия).

244

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА

1. Гнеденко Б.В., Курс теории вероятностей, "Наука", 1971.

2. Крамер Г., Математические методы статистики, "Мир",1975.

3. Новицкий П.В., Зограф И.А., Оценка погрешностей резуль-татов измерений, "Энергоатомиздат", 1985.

4. Корн Г., Корн Т., Справочник по математике для научныхработников и инженеров, "Наука", 1984.

5. Прудников А.П., Брычков Ю.А., Маричев О.И., Интегралы иряды, "Наука", 1981.