СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ ar...

6
84 Образец цитирования: Рудаковская А. В., Харин Ю. С. Статистическое оценивание параметров AR-временных рядов при наличии классифика- ции наблюдений // Вестн. БГУ. Сер. 1, Физика. Математика. Информатика. 2016. № 1. С. 84 –89. For citation: Rudakouskaya H. V., Kharin Y. S. Statistical estimation of parameters of autoregressive time series observed under classification. Vestnik BGU. Ser. 1, Fiz. Mat. Inform. 2016. No. 1. P. 84–89 (in Russ.). Авторы: Анна Вячеславовна Рудаковская – магистрант кафедры математического моделирования и анализа данных факуль- тета прикладной математики и информатики. Юрий Семенович Харин – член-корреспондент НАН Бе- ларуси, доктор физико-математических наук, профессор, директор. Authors: Hanna Rudakouskaya, master’s degree student at the de- partment of mathematical modeling and data analysis, school of applied mathematics and computer science. [email protected] yuriy Kharin, corresponding member of the National academy of sciences of Belarus, doctor habilitatus of physics and mathematics, full professor; director. УДК 519.2 СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ AR-ВРЕМЕННЫХ РЯДОВ ПРИ НАЛИЧИИ КЛАССИФИКАЦИИ НАБЛЮДЕНИЙ А. В. РУДАКОВСКАЯ 1 , Ю. С. ХАРИН 2 1 Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Республика Беларусь 2 Учреждение БГУ «Научно-исследовательский институт прикладных проблем математики и информатики», пр. Независимости, 4, 220030, г. Минск, Республика Беларусь Рассмотрена модель авторегрессионного временного ряда при наличии специального типа искажений гипотетической модели – классификации наблюдений. Вместо истинных значений процесса авторегрессии в каждый момент времени ре- гистрируется лишь номер класса (числового промежутка), в который попало значение. Таким образом, задача заключается в оценивании параметров скрытой авторегрессионной модели по наблюдаемой реализации искаженного (классифицирован- ного) временного ряда. Найдены одномерные и многомерные распределения вероятностей классифицированного временного ряда. Задача оценивания параметров решается при помощи построения частотных статистик. По наблюдаемой реализации классифицированного временного ряда строятся частотные статистики – состоятельные оценки одномерных и многомерных распределений вероятностей. Составляя соответствующую систему нелинейных уравнений и решая ее, получаем статистиче- ские оценки параметров. В качестве практического примера рассматривается модель AR 1 () с классификацией на 2 числовых промежутка. Найден вид нелинейной системы для построения оценок, имеющей единственное решение. Представлены ре- зультаты численных экспериментов, которые иллюстрируют состоятельность построенных оценок. Ключевые слова: авторегрессионный временной ряд; неполные данные; классификация; статистические оценки; смеще- ние; вариация.

Upload: nguyenque

Post on 11-Feb-2018

242 views

Category:

Documents


0 download

TRANSCRIPT

84

О б р а з е ц ц и т и р о в а н и я:Рудаковская А. В., Харин Ю. С. Статистическое оценивание параметров AR-временных рядов при наличии классифика-ции наблюдений // Вестн. БГУ. Сер. 1, Физика. Математика. Информатика. 2016. № 1. С. 84 –89.

F o r c i t a t i o n:Rudakouskaya H. V., Kharin Y. S. Statistical estimation of parameters of autoregressive time series observed under classification. Vestnik BGU. Ser. 1, Fiz. Mat. Inform. 2016. No. 1. P. 84–89 (in Russ.).

А в т о р ы:Анна Вячеславовна Рудаковская – магистрант кафедры математического моделирования и анализа данных факуль-тета прикладной математики и информатики.Юрий Семенович Харин – член-корреспондент НАН Бе-ларуси, доктор физико-математических наук, профессор, директор.

A u t h o r s:Hanna Rudakouskaya, master’s degree student at the de-partment of mathematical modeling and data analysis, school of applied mathematics and computer [email protected] Kharin, corresponding member of the National academy of sciences of Belarus, doctor habilitatus of physics and mathematics, full professor; director.

УДК 519.2

СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ AR-ВРЕМЕННЫХ РЯДОВ ПРИ НАЛИЧИИ

КЛАССИФИКАЦИИ НАБЛЮДЕНИЙ

А. В. РУДАКОВСКАЯ 1, Ю. С. ХАРИН  2

1Белорусский государственный университет, пр. Независимости, 4, 220030, г. Минск, Республика Беларусь 2Учреждение БГУ «Научно-исследовательский институт прикладных проблем математики и информатики»,

пр. Независимости, 4, 220030, г. Минск, Республика Беларусь

Рассмотрена модель авторегрессионного временного ряда при наличии специального типа искажений гипотетической модели – классификации наблюдений. Вместо истинных значений процесса авторегрессии в каждый момент времени ре-гистрируется лишь номер класса (числового промежутка), в который попало значение. Таким образом, задача заключается в оценивании параметров скрытой авторегрессионной модели по наблюдаемой реализации искаженного (классифицирован-ного) временного ряда. Найдены одномерные и многомерные распределения вероятностей классифицированного временного ряда. Задача оценивания параметров решается при помощи построения частотных статистик. По наблюдаемой реализации классифицированного временного ряда строятся частотные статистики – состоятельные оценки одномерных и многомерных распределений вероятностей. Составляя соответствующую систему нелинейных уравнений и решая ее, получаем статистиче-ские оценки параметров. В качестве практического примера рассматривается модель AR 1( ) с классификацией на 2 числовых промежутка. Найден вид нелинейной системы для построения оценок, имеющей единственное решение. Представлены ре-зультаты численных экспериментов, которые иллюстрируют состоятельность построенных оценок.

Ключевые слова: авторегрессионный временной ряд; неполные данные; классификация; статистические оценки; смеще-ние; вариация.

Математика и информатика

85

STATISTICAL ESTIMATION OF PARAMETERS OF AUTOREgRESSIVE

TIME SERIES ObSERVED UNDER CLASSIFICATION

H. V. RUDAKOUSKAyAa, y. S. KHARIN b

aBelarusian State University, Nezavisimosti avenue, 4, 220030, Minsk, Republic of Belarus bResearch Institute for Applied Problems of Mathematics and Informatics, Belarusian State University,

Nezavisimosti avenue, 4, 220030, Minsk, Republic of Belarus

The model of autoregressive time series under the special type of hypothetic model distortion – the distortion of classification type – is considered. Instead of the true values of the autoregression process we register only a number of the class (interval on the real number line) at every moment of observation. The problem is to estimate parameters of the hidden autoregression model having known the classified time series values only. Univariate and multivariate probability distributions of the classified time series are found. The problem of estimating the parameters is solved using the frequency statistics calculated on the values of observed time series which are the consistent estimates of univariate and multivariate probabilities. Estimators of the parameters are the solution of the appropriate system of nonlinear equations composed with estimates of probabilities and their analytical forms. We study the model of the AR 1( )time series classified by 2 intervals as a practical example. An explicit form of the nonlinear system for estimation is found. The system is one-value solvable. The results of numerical experiments illustrate the consistency of the constructed estimators.

Key words: autoregressive time series; incomplete data; classification; statistical estimator; bias; mean squared error.

Введение и математическая модельМодель авторегрессионных временных рядов для реальных процессов часто встречается в матема-

тической статистике [1, 2]. Однако обычно на практике временной ряд имеет некоторые искажения. Одним из типов искажений авторегрессионных временных рядов является классификация наблюде-ний [3]: регистрация в каждый момент времени вместо истинного значения временного ряда лишь некоторого классифицированного значения – номера класса (интервала), в который попало исходное наблюдение. Такой тип искажений изучался применительно к процессам скользящего среднего [4]; исследовалась модель целочисленной авторегрессии 1-го порядка [5]; в [6] изучалась модель авторег-рессионного временного ряда в случае регистрации знака отсчетов; множественная регрессия при наличии классификации наблюдений рассматривалась в [7]. В настоящей работе исследуется модель авторегрессии p-го порядка AR p( ) при наличии классификации наблюдений.

Пусть на вероятностном пространстве W, , P( ) определен авторегрессионный временной ряд по-рядка p (AR p( )) [1]

x x x x tt t t p t p t= + + … + + ∈- - -q q q x10

1 20

20 , , (1)

где p ∈ – порядок авторегрессии; q q0 0= ( ) ∈ip – вектор коэффициентов авторегрессии; qp

0 0≠ ; xt{ } – дискретный «белый шум» (последовательность независимых одинаково распределенных гаус-

совских случайных величин, L Nx st{ } = ( )120, ); коэффициенты q0 удовлетворяют условию стацио-

нарности модели [1].Пусть задано борелевское разбиение числовой прямой на 2 <≤ +∞L числовых промежутков:

==

-

i

L

iA0

1

, (2)

A a a a a a ai i i L L= ( -∞ = … = +∞+ -; , < < < <1 0 1 1 .

Вместо исходного временного ряда xt{ } наблюдается классифицированный временной ряд yt{ }, в котором

y x iI x A B B Lt ti

L

t i= ( ) = ∈{ } ∈ = … -{ }=

-

∑class :: 0 1 10

1

, , , , , (3)

Вестник БГУ. Сер. 1. 2016. № 1. С. 84 –89

86

где I ⋅{ } – индикатор события, указанного в фигурных скобках; yt – номер класса, в который попало значение xt.

Пусть наблюдается реализация Y y yT= …{ }1, , классифицированного временного ряда yt дли-тельностью T при известных интервалах классификации (2). Порядок авторегрессии p предпола- га ется известным. Задача состоит в построении статистической оценки составного вектора параметров q q q q s0

10

20 0= …( ), , , , :p

q s q s , , .( ) = ( ) ( )( )Y Y s q s q s , , .( ) = ( ) ( )( )Y Y sq s q s , , .( ) = ( ) ( )( )Y Y (4)

Вероятностное распределение наблюдаемого дискретного временного рядаДля построения оценки (4) по неполным данным – наблюдаемой реализации дискретного временного

ряда Y y yT= …{ }1, , – нам понадобятся одномерные и многомерные распределения вероятностей yt{ }.Обозначим: Φ ⋅( ) ⋅( ), j – функция распределения и плотность распределения вероятностей стан-

дартного нормального закона 1 0, 1( ) соответственно.Теорема 1. Если скрытый авторегрессионный процесс xt соответствует модели (1), то наблюдае-

мый процесс yt имеет следующее дискретное распределение вероятностей на множестве B:

p P y i P x a aa j

i t t i i

i jj

p

q sr q

s, ;( ) = ={ } = ∈( { } =

- ( )

+

+=

∑1

11

-- ( )

=∑

Φa ji j

j

p

11

r q

s, (5)

где r ⋅( ) – автокорреляционная функция исходного (неискаженного) временного ряда AR p( ); i B∈ .Д о к а з а т е л ь с т в о. Доказательство теоремы непосредственно следует из описания модели (1) – (3)

и вероятностных свойств авторегрессионных временных рядов [1, c. 70 –80; 8, c. 431– 449].Теорема 2. Если скрытый авторегрессионный процесс xt соответствует модели AR 1( ), то дву-

мерное распределение вероятностей биграмм y yt t, +( )1 наблюдаемого процесса yt имеет вид

p P y i y j x a xij t t

a

aj

i

i

q s qs

j qs

qs

, ,( ) = = ={ } = - -

-+

++

∫1

2 211 11

Φ

--

∈Φ

a xdx i j Bj q

s, , . (6)

Д о к а з а т е л ь с т в о. По определению

p P y i y j P x a a x a aij t t t i i t j jq s, , ; , ;( ) = = ={ } = ∈( ∈( { } =

=

+ + + +1 1 1 1

nn x dx dx n x dx p x xa

a

a

a

a

a

i

i

j

j

j

j

2 2 1 2 1 1 11 1 2 1

11 1

0O , ,Σ( ) = ( ) ( )++ +

∫∫ s ∫∫∫+

a

a

i

i

dx1

2.

(7)

Из свойств авторегрессионных временных рядов [1, 8] следует, что

s s sq11 22

2

21= = { } =

-D xt ; (8)

s s qs qs12 21 1 11 22= = { } = =+cov , .x xt t (9)Согласно [9, c. 33]

E x x E x x E x x x x2 1 212

111 1

12

111

22

111 1{ } = { } - - { }( ) = = =

ss

ss

qss

q ; (10)

Математика и информатика

87

D x x2 1 22122

22

2{ } = - =sss

s . (11)

Подставляя выражения (8) – (11) в (7), получаем

p n x dx n x x dxija

a

a

a

i

i

j

j

q s sq

q s, , ,( ) =-

( )

+ +

∫ 1 1

2

2 1 1 2 12

201

1 1

∫∫

=

=- -

-

--

++1 12 21

1qs

jq

sq

sq

sx a x a x

a

aj j

i

i

Φ Φ

dx,

(12)

таким образом, (12) совпадает с (6).Следствие. Если скрытый авторегрессионный процесс xt соответствует модели AR 1( ) с класси-

фикацией наблюдений на L = 2 класса A a A a0 1= -∞( ] = + ∞( )( ), , , , то вероятность биграммы 0 1,( ) ( , )y yt t= =( )+0 11 наблюдаемого процесса yt имеет вид

p P y y P x a x at t t t01 1 1

2

0 1

1 1

q s

qs

j

, , ; , ;( ) = = ={ } = ∈ -∞( ] ∈ +∞( ){ } =

= - -

+ +

qqs

qs

2

1x a x dxa

- -

-∞

∫ Φ .

(13)

Теорема 3. Если скрытый авторегрессионный процесс xt соответствует модели (1), то распреде-ление вероятностей k-грамм, k ≥ 2, наблюдаемого процесса yt имеет вид

p n x dx dxi i i k ka

a

a

a

a

a

k

i

i

i

i

ik

ik

1 2

1

1 1

2

2 11

1 2… ( ) = … ( ) …+++

∫∫∫q s, , Σ ddxk , (14)

где nk ⋅( ) – k-мерная плотность нормального распределения; Σ = ( ) = -( ) ⋅( )s s s sij ij i j, , – автокова-риационная функция неискаженного временного ряда xt , i1, i2, …, ik ∈ B.

Метод оценивания параметров модели на основе частотных статистикДля построения оценки предлагается использовать тот факт, что по наблюдаемой реализации

Y y y yT= …{ }1 2, , , можно построить состоятельные оценки одномерных и многомерных распределе-ний вероятностей (5), (6), (13), (14) дискретного временного ряда yt{ }:

ppT

I y i i Li tt

T

= ={ } = … -=∑1 1 11

, , , ; (15)

ppT

I y i y jij t tt

T

=-

= ={ }+=

-

∑11 1

1

1

, ; (16)

ppT

I y i y i y ii i i t t t k kt

T

k1 2

11 1 1 2 1

1

1

… + + -=

-

=-

= = … ={ }∑ , , , .

С другой стороны, одномерные и многомерные распределения вероятностей (5), (6), (13), (14) для yt{ } найдены в теоремах 1–3 и следствии. Тогда относительно параметров q, s с помощью (15), (16)

может быть построена система нелинейных уравнений вида

p p i Bp p i j B

p p i j k B

i i

ij ij

ijk ijk

q s

q s

q s

, , ,

, , , ,

, , , , ,

( ) = ∈

( ) = ∈

( ) = ∈

… ..

(17)

ˆ

ˆ

ˆ

Вестник БГУ. Сер. 1. 2016. № 1. С. 84 –89

88

Выбираем из системы (17) p + 1 уравнений с тем, чтобы гарантировать однозначную разрешимость системы. Решая систему, получаем оценки q , s. Состоятельность построенных оценок следует из сос-тоятельности оценок pi , pij , …, pp p pi ij i i ik

, , ,1 2

… … и теоремы о функциональном преобразовании сходящихся по-следовательностей [10].

Проиллюстрируем применение этого метода для AR 1( )-временного ряда с классификацией наблю-дений при L = 2:

x x Nt t t t= + { } = ( ) --q x x s q01 1

2 0; 0, ; 1 < < 1 ; (18)

y x I x A A a A at t t= ( ) = ∈{ } = -∞( ] = +∞( )class 1 0 1, , , , , (19)или, что эквивалентно,

yx ax att

t=

0,1, > .

, (20)

Частный случай (18) – (20) представляет значительный интерес для рассмотрения, поскольку про-цессы авторегрессии 1-го порядка имеют большое практическое значение [1], а классификация все-го по двум интегралам дает предельный случай неполноты информации об исходном (неискаженном) процессе xt{ }.

Согласно представленному выше общему методу оценивания на основе частотных статистик в част-ном случае (18) – (20) из (17) имеем систему двух уравнений относительно q, s:

P pP p0 0

01 01

q s

q s

, ,

, .( ) =

( ) =

(21)

С использованием теоремы 1 и следствия из теоремы 2 (21) примет вид

s q

qs

j qs

qs

Φ

Φ

-

-∞

( ) = -

- -

- -

10

2

2 2

1

1 1 1

p a

x a x da

,

xx p=

01

(22)

и имеет единственное решение при a ≠ 0.

Численные результатыРезультаты численных экспериментов по методу Монте-Карло для оценок параметров в случае

(18) – (20) представлены на рисунке. Эксперименты проводились для длин реализаций временного ряда T = 500, 520, …, 2340. Для каждой длины реализации T проводилось K = 100 повторений эксперимента, состоящих в имитации xt{ }, yt{ } согласно (18) – (20) и вычислении оценок параметров q , s  согласно (22). Численные результаты иллюстрируют состоятельность построенных оценок.

Таким образом, в рассмотренной модели авторегрессионных временных рядов при наличии искаже-ния типа классификации найдено распределение вероятностей для наблюдаемого дискретного времен-ного ряда. При помощи частотных оценок одномерных и многомерных распределений вероятностей дискретного временного ряда построены оценки параметров скрытой авторегрессионной модели и ис-следованы их свойства.

ˆ

ˆ

ˆ

p01

Зависимость среднеквадратической ошибки оценивания параметров от длины временного ряда: а – q (окончание см. на с. 89)

Математика и информатика

89

БИБЛИОГРАФИЧЕСКИЙ СПИСОК (REFERENCES )

1. Бокс Дж., Дженкинс Г. Анализ временных рядов, прогноз и управление : в 2 т. М., 1974. Т. 1.2. Weber R. A course of 8 lectures to Cambridge M. Phil in Statistics students, course notes [Electronic resource]. Cambridge,

1999. URL: http://www.statslab.cam.ac.uk/~ rrw1/timeseries (date of access: 10.11.2015).3. Харин Ю. С. Оптимальность и робастность в статистическом прогнозировании. Минск, 2008.4. Dosla S. Estimation of parameters of a clipped MA(1) process // Commun. in Stat. – Theory and Methods. 2010. Vol. 40.

P. 2437–2454 [Dosla S. Estimation of parameters of a clipped MA(1) process. Commun. in Stat. – Theory and Methods. 2010. Vol. 40. P. 2437–2454 (in Engl.)].

5. Yao J. F., Kachour M. First-order rounded integer-valued autoregressive (RINAR(1)) process // J. of Time Ser. Anal. 2009. Vol. 30. P. 417– 448 [Yao J. F., Kachour M. First-order rounded integer-valued autoregressive (RINAR(1)) process. J. of Time Ser. Anal. 2009. Vol. 30. P. 417– 448 (in Engl.)].

6. Kedem B. Spectral analysis and discrimination by zero-crossings // Proc. IEEE. 1986. № 11 (74). P. 1477–1493 [Kedem B. Spectral analysis and discrimination by zero-crossings. Proc. IEEE. 1986. No. 11 (74). P. 1477–1493 (in Engl.)].

7. Ageeva H., Kharin Y. ML estimation of multiple regression parameters under classification of the dependent variable // Lith. Math. J. 2015. Vol. 55, № 1. P. 48–60 [Ageeva H., Kharin Y. ML estimation of multiple regression parameters under classification of the dependent variable. Lith. Math. J. 2015. Vol. 55, No. 1. P. 48–60 (in Engl.)].

8. Суслов В. И., Ибрагимов Н. М., Талышева Л. П., Цыплаков А. А. Эконометрия : учеб. пособие. Новосибирск, 2005.9. Андерсон Т. Введение в многомерный статистический анализ. М., 1963.

10. Боровков А. А. Математическая статистика. М., 1984.

Статья поступила в редколлегию 01.10.2015. Received by editorial board 01.10.2015.

Окончание (начало см. на с. 88): б – s