Асимптотические критерии выбора. Асимптотически оптимальный

1 Энтропия и информационное расстояние

1.1 Основные определения и обозначения.

1.2 Энтропия дискретных распределений с ограниченным математическим ожиданием.

1.3 Логарифмическая обобщенная метрика на множестве дискретных распределений.

1.4 Компактность функций от счетного множества аргументов

1.5 Непрерывность информационного расстояния Кульбака - Лейблера - Санова

1.6 Выводы.

2 Вероятности больших уклонений

2.1 Вероятности больших уклонений функций от числа ячеек с заданным заполнением.

2.1.1 Локальная предельная теорема.

2.1.2 Интегральная предельная теорема.

2.1.3 Информационное расстояние и вероятности больших уклонений разделимых статистик

2.2 Вероятности больших уклонений разделимых статистик, не удовлетворяющих условию Крамера.

2.3 Выводы.

3 Асимптотические свойства критериев согласия

3.1 Критерии согласия для схемы выбора без возвращения

3.2 Асимптотическая относительная эффективность критериев согласия.

3.3 Критерии, основанные на числе ячеек в обобщенных схемах размещения.

3.4 Выводы.

Рекомендованный список диссертаций

  • Асимптотическая эффективность критериев согласия, основанных на характеризационных свойствах распределений 2011 год, кандидат физико-математических наук Волкова, Ксения Юрьевна

  • Большие уклонения и предельные теоремы для некоторых функционалов от случайного блуждания 2011 год, кандидат физико-математических наук Шкляев, Александр Викторович

  • Предельные теоремы и большие уклонения для приращений случайных блужданий 2004 год, кандидат физико-математических наук Козлов, Андрей Михайлович

  • О скорости сходимости статистик критериев согласия со степенными мерами расхождения к хи-квадрат распределению 2010 год, кандидат физико-математических наук Зубов, Василий Николаевич

  • Вероятности больших уклонений асимптотически однородных в пространстве эргодических цепей Маркова 2004 год, доктор физико-математических наук Коршунов, Дмитрий Алексеевич

Введение диссертации (часть автореферата) на тему «Асимптотические свойства критериев согласия для проверки гипотез в схеме выбора без возвращения, основанных на заполнении ячеек в обобщенной схеме размещения»

Объект исследования и актуальность темы. В теории статистического анализа дискретных последовательностей особое местозанимают критерии согласия для проверки, возможно, сложной нулевой гипотезы, которая заключается в том, что для случайной последовательности такой, что

Xi е hi,i = 1, ,п, где hi = {0,1,. ,М}, для любых i = 1,., п, и для любого к £ 1м вероятность события

Xi = к} не зависит от г. Это означает, что последовательность в некотором смысле стационарна.

В ряде прикладных задач в качестве последовательности (Хг-)™=1 рассматривается последовательность цветов шаров при выборе без возвращения до исчерпания из урны, содержащей щ - 1 > 0 шаров цвета к, к € 1м-Будем обозначать множество таких выборок ОЯ(п0 - 1, .,пм - 1). Пусть всего в урне содержится п - 1 шаров, м к=0

Обозначим через r(k) (fc) Jk) rw - Г! , . . . , последовательность номеров шаров цвета А; в выборке. Рассмотрим последовательность где к)

Кк-п- ГПк1.

Последовательность h^ определена при помощи расстояний между местами соседних шаров цвета к таким образом, что

Пк Кf = п. 1>=1

Совокупность последовательностей h(fc) для всех к £ 1м однозначно определяет последовательность Последовательности hk для разных к зависимы между собой. В частности, любая из них однозначно определяется всеми остальными. Если мощность множества 1м равна 2, то последовательность цветов шаров однозначно определяется последовательностью расстояний между местами соседних шаров одного фиксированного цвета. Пусть в урне, содержащей п - 1 шаров двух различных цветов, находится N - 1 шар цвета 0. Можно установить взаимнооднозначное соответствие между множеством ffl(N- l,n - N) и множеством 9\n,N векторов h(n, N) = (hi,., hjf) с положительными целочисленными компонентами таких, что К = П. (0.1)

Множество 9ЯП)дг соответствует множеству всех различных разбиений целого положительного числа п на N упорядоченных слагаемых.

Задав на множестве векторов £Нп,дг некоторое вероятностное распределение, мы получим соответствующее вероятностное распределение на множестве Wl(N - 1 ,п - N). Множество является подмножеством множества векторов с неотрицательными целочисленными компонентами, удовлетворяющими (0.1). В качестве вероятностных распределений на множестве векторов в диссертационной работе будут рассматриваться распределения вида

Р{%,N) = (п,.,rN)} = Р{£„ = ru,v = l,.,N\jr^ = n}, (0.2) где. ,£дг - независимые неотрицательные целочисленные случайные величины.

Распределения вида (0.2) в /24/ получили название обобщенных схем размещения п частиц по N ячейкам. В частности, если случайные величины £ь. ,£лг в (0.2) распределены по законам Пуассона с параметрами Ai,., Лдг соответственно, то вектор h(n,N) имеет полиномиальное распределение с вероятностями исходов

Ри = . , Л" ,V = \,.,N.

Л\ + . . . + AN

Если случайные величины £ь >&v в (0-2) одинаково распределены по геометрическому закону где р - любое в интервале 0 < р < 1, то, как отмечено в /25/,/26/, получающаяся обобщенная схема размещения соответствует равномерному распределению на множестве В силу взаимнооднозначного соответствия между множеством dft(N - 1 ,п - N) и множеством tRn,N получаем равномерное распределение на множестве выборов без возвращения. При этом, вектору расстояний между местами шаров одного цвета взаимно однозначно соответствует вектор частот в обобщенной схеме размещения, и, соответственно, числу расстояний длины г - число ячеек, содержащих ровно г частиц. Для проверки по единственной последовательности гипотезы о том, что она получена как результат выбора без возвращения, и каждая такая выборка имеет одну и ту же вероятность можно проверить гипотезу о том, что вектор расстояний между местами шаров цвета 0 распределен как вектор частот в соответствующей обобщенной схеме размещения п частиц по N ячейкам.

Как отмечалось в /14/,/38/, особое место при проверке гипотез о распределении векторов частот h(n, N) = (hi,., /гдг) в обобщенных схемах размещения п частиц по N ячейкам, занимают критерии, построенные на основе статистик вида 1 m{N -l,n-N)\ N

LN{h{n,N))=Zfv(hv)

Фн = Ф{-Т7, flQ Hi II-

0.4) где fu, v = 1,2,. и ф - некоторые действительнозначные функции, N

Mr = Е = г}, г = 0,1,. 1/=1

Величины в /27/ были названы числом ячеек, содержащих ровно по г частиц.

Статистики вида (0.3) в /30/ получили название разделимых (аддитивно разделимых) статистик. Если функции /„ в (0.3) не зависят от и, то такие статистики были названы в /31/ симметричными разделимыми статистиками.

Для любого г статистика /хг является симметричной разделимой статистикой. Из равенства

Е ДМ = Е ДФг (0.5) следует, что класс симметричных разделимых статистик от hv совпадает с классом линейных функций от fir. При этом класс функций вида (0.4) шире класса симметричных разделимых статистик.

Но = (#o(n, N)) последовательность простых нулевых гипотез, заключающихся в том, что распределение вектора h(n,N) есть (0.2), где случайные величины,. в (0.2) одинаково распределены и к} = pk,k = 0,1,2,., параметры п, N изменяются в центральной области.

Рассмотрим некоторое Р £ (0,1) и последовательность, вообще говоря, сложных альтернатив

Н = (Н(п, N)) таких,что существует - максимальное число, для которого при для любой простой гипотезы Н\ € Н(п, N) выполнено неравенство

РШ > an,N(P)} > Р

Будем отвергать гипотезу Hq(ti,N), если фм > ащм({3). Если существует предел

Шп ~1пР{0лг > an,N(P)}=u(p,Н), где вероятность для каждого N вычисляется при гипотезе Нц(п, N), то значение ^(/З, Н) названо в /38/ индексом критерия ф в точке {j3, Н). Последний предел может, вообще говоря, и не существовать. Поэтому в диссертационной работе кроме индекса критерия рассматривается величина

Иш (~1пР{фм > ал(/?)})

JV->oo N-юо означают соответственно нижний и верхний пределы последовательности (одг) при N -> оо,

Если индекс критерия существует, то нижний индекс критерия совпадает с ним. Нижний индекс критерия существует всегда. Чем больше значения индекса критерия (нижнего индекса критерия), тем лучше в рассматриваемом смысле статистический критерий. В /38/ была решена задача построения критериев согласия для обобщенных схем размещения с наибольшим значением индекса критерия в классе критериев, которые отклоняют гипотезу Ho(n,N) при /МО Ml Мтч ГЧ iV" iV""""" ~yv" " ^ " где m > 0 - некоторое фиксированное число, последовательность постоянных едг выбирается, исходя из заданного значения мощности критерия при последовательности альтернатив, фт - действительная функция от т + 1 аргументов.

Индексы критериев определяются вероятностями больших уклонений. Как было показано в /38/, грубая (с точностью до логарифмической эквивалентности) асимптотика вероятностей больших уклонений разделимых статистик при выполнении условия Крамера для случайной величины /(£) определяется соответствующим информационным расстоянием Куль-бака - Лейблера - Санова (случайная величина rj удовлетворяет условию Крамера, если для некоторого Я > 0 производящая функция моментов Metr] конечна в интервале \t\ < Н /28/).

Вопрос о вероятностях больших уклонений статистик от неограниченного числа fir, а также произвольных разделимых статистик, не удовлетворяющих условию Крамера, оставался открытым. Это не позволяло окончательно решить задачу построения критериев для проверки гипотез в обобщенных схемах размещения с наибольшей скоростью стремления к нулю вероятности ошибки первого рода при иесближающихся альтернативах в классе критериев, основанных на статистиках вида (0.4). Актуальность диссертационного исследования определяется необходимостью завершить решение указанной задачи.

Целью диссертационной работы является построение критериев согласия с наибольшим значением индекса критерия (нижнего индекса критерия) для проверки гипотез в схеме выбора без возращения в классе критериев, которые отклоняют гипотезу Щ{п, N) при $.<>,■ ■)><*. (0-7) где ф - функция от счетного количества аргументов, и параметры п, N изменяются в центральной области.

В соответствии с целью исследования были поставлены следующие задачи:

Исследовать свойства энтропии и информационного расстояния Куль-бака - Лейблера - Санова для дискретных распределений со счетным количеством исходов;

Исследовать вероятности больших уклонений статистик вида (0.4);

Исследовать вероятности больших уклонений симметричных разделимых статистик (0.3), не удовлетворяющих условию Крамера;

Найти такую статистику, что построенный на ее основе критерий согласия для проверки гипотез в обобщенных схемах размещения имеет наибольшее значение индекса в классе критериев вида (0.7).

Научная новизна:

Научная и практическая ценность. В работе решен ряд вопросов о поведении вероятностей больших уклонений в обобщенных схемах размещения. Полученные результаты могут быть использованы в учебном процессе по специальностям математическая статистика и теория информации, при исследовании статистических процедур анализа дискретных последовательностях и были использованы в /3/, /21/ при обосновании защищенности одного класса информационных систем. Положения, выносимые на защиту:

Сведение задачи проверки по единственной последовательности цветов шаров гипотезы от том, что эта последовательность получена в результате выбора без возвращения до исчерпания шаров из урны, содержащей шары двух цветов, и каждый такой выбор имеет одинаковую вероятность, к построению критериев согласия для проверки гипотез в соответствующей обобщенной схеме размещения;

Непрерывность функций энтропии и информационного расстояния Кульбака - Лейблера - Санова па бесконечномерном симплексе с введенной логарифмической обобщенной метрикой;

Теорема о грубой (с точностью до логарифмической эквивалентности) асимптотике вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера в обобщенной схеме размещения в семиэксионенциалыюм случае;

Теорема о грубой (с точностью до логарифмической эквивалентности) асимптотике вероятностей больших уклонений для статистик вида (0.4);

Построение критерия согласия для проверки гипотез в обобщенных схемах размещения с наибольшим значением индекса в классе критериев вида (0.7).

Апробация работы. Результаты докладывалась на семинарах Отдела дискретной математики Математического института им. В. А. Стек-лова РАН, отделения информационной безопасности ИТМиВТ им. С. А. Лебедева РАН и на:

Пятом Всероссийском симпозиуме по прикладной и промышленной математике. Весенняя сессия, Кисловодск, 2 - 8 мая 2004;

Шестой Международной Петрозаводской конференция "Вероятностные методы в дискретной математике" 10 - 16 июня 2004;

Второй Международной конференции "Информационные системы и технологии (IST"2004)", Минск, 8-10 ноября 2004;

Международной конференции "Modern Problems and new Trends in Probability Theory", Черновцы, Украина, 19 - 26 июня 2005.

Основные результаты работы использовались в НИР "Апология", выполняемой ИТМиВТ РАН им. С. А. Лебедева в интересах Федеральной службы по техническому и экспортному контролю РФ, и вошли в отчет об исполнении этапа НИР /21/. Отдельные результаты диссертации вошли в отчет но НИР "Разработка математических проблем криптографии" Академии криптографии РФ за 2004 г. /22/.

Автор выражает глубокую благодарность научному руководителю доктору физико-математических наук Ронжину А. Ф. и научному консультанту доктору физико-математических наук старшему научному сотруднику Князеву А. В. Автор выражает признательность доктору физико-математических наук профессору Зубкову А. М. и кандидату физико-математических наук Круглову И. А. за внимание, оказанное работе, и ряд ценных замечаний.

Структура и содержание работы.

В первой главе исследуются свойства энтропии и информационного расстояния для распределений на множестве неотрицательных целых чисел.

В первом параграфе первой главы вводятся обозначения и даются необходимые определения. В частности, используются следующие обозначения: х = (xq,x\, . ) - бесконечномерный вектор со счетным количеством компонент;

Н{х) - -Ex^oXvlnx,-, truncm(x) = (x0,x1,.,xm,0,0,.)] f2* = {х, хи > 0, zy = 0,1,., о х„ < 1}; Q = {х, х, > 0,и = 0,1,., о xv = 1}; = {х G О, ££L0 = 7};

Ml = о Ue>1|5 € о < Ml - 7МГ1 < 00}. Понятно, что множество £1 соответствует семейству вероятностных распределений на множестве неотрицательных целых чисел, П7 - семейству вероятностных распределений на множестве неотрицательных целых чисел с математическим ожиданием 7.

Если у 6Е П, то для е > 0 через Ое(у) будет обозначаться множество

Ое(у) - {х ^ < уие£ для всех v = 0,1,.}.

Во втором параграфе первой главы доказывается теорема об ограниченности энтропии дискретных распределений с ограниченным математическим ожиданием.

Теорема 1. Об ограниченности энтропии дискретных распределений с ограниченным математическим ожиданием.

Для любого ж 6 П7

H(x)

Если х € fly соответствует геометрическому распределению с математическим оэюиданием 7, то есть 7 х„ = (1- р)р\ v = 0,1,., где р = --,

1 + 7 то имеет место равенство

H(x) = F(<7).

На утверждение теоремы можно смотреть как на результат формальv ного применения метода условных множителей Лагранжа в случае бесконечного количества переменных. Теорема о том, что единственное распределение на множестве {к, к + 1, к + 2,.} с данным математическим ожиданием и максимальной энтропией есть геометрическое распределение с данным математическим ожиданием, приведена (без доказательства) в /47/. Автором, тем не менее, дано строгое доказательство.

В третьем параграфе первой главы дается определение обобщенной метрики - метрики, допускающей бесконечные значения.

Для х,у € Q определяется функция р(х,у) как минимальное е > О со свойством уие~£ <хи< уиее для всех и = 0,1,. Если такого е не существует, то полагается, что р(х,у) = оо.

Доказывается, что функция р{х,у) - обобщенная метрика на семействе распределений на множестве неотрицательных целых чисел, а также на всем множестве Cl*. Вместо е в определении метрики р{х,у) можно использовать любое другое положительное,число, отличное от 1. Получающиеся при этом метрики будут отличаться на мультипликативную константу. Обозначим через J(x, у) информационное расстояние

00 £ J(x,y) = Е In-.

Здесь и далее полагается, что 0 In 0 = 0,0 In jj = 0. Информационное расстояние определено для таких х, у, что х„ = 0 для всех и таких, что уи = 0. Если это условие не выполнено, то будем полагать J(x,ij) = оо. Пусть Л СП. Тогда будем обозначать

J (А У) = |nf J(x,y).

В четвертом параграфе первой главы дается определение компактности функций, заданных на множестве Q*. Компактность функции от счетного числа аргументов означает, что с любой степенью точности значение функции может быть приближено значениями этой функции в точках, где лишь конечное количество аргументов отлично от нуля. Доказывается компактность функций энтропии и информационного расстояния.

1. Для любого 0 < 7 < оо функция Н(х) компактна на

2. Если для некоторого 0 < 70 < оо

Р е то для любых 0<7<оо,г>0 функция х) = J(x,p) компактна на множестве Ц7] П Ог(р).

В пятом параграфе первой главы рассматриваются свойства информационного расстояния, задаваемого на бесконечномерном пространстве. По сравнению с конечномерным случаем ситуация с непрерывностью функции информационного расстояния качественно меняется. Показывается, что функция информационного расстояния не является непрерывной на множестве ни в одной из метрик

Pl&V) = Е \Хи~У»\, и=0

Е {xv - Уи)2 v=Q

Рз{х,у) = 8Up\xu-yv\. v

Доказывается справедливость следующих неравенств для функций энтропии Н{х) и информационного расстояния J(x,p):

1. Для любых х, х" € fi

Н{х) - Н(х")\ < - 1){Н{х) + Н{х")).

2. Если для некоторых х,р е П существует е > 0 такое, что х 6 0£(р), то для любого х" £ Q J{x,p) - J(x",p)| < (е"М - 1){Н{х) + Н{х") + ееН(р)).

Из этих неравенств с учетом теоремы 1 следует равномерная непрерывность функций энтропии и информационного расстояния на соответствующих подмножествах Q в метрике p(x,y)t а именно,

1. Для любого 7 такого, что 0 < 7 < оо, функция Н(х) равномерно непрерывна на Г2 в метрике р(ж,у);

2. Если для некоторого 70, 0 < 70 < оо

ТО для любых 0<7<оои£>0 функция

Л р{х) = J(x,p) равномерно непрерывна на множестве П Ое(р) в метрике р{х,у).

Дается определение неэкстремальности функции. Условие неэкстремальности означает то, что функция не имеет локальных экстремумов, либо функция принимает в локальных минимумах (локальных максимумах) одинаковые значения. Условие неэкстремальности ослабляет требование отсутствия локальных экстремумов. Например, функция sin х на множестве действительных чисел имеет локальные экстремумы, но удовлетворяет условию неэкстремальности.

Пусть для некоторого 7 > 0, область А задается условием

А = {х € VLv4>(x) > а}, (0.9) где ф(х) - действительнозначная функция, а - некоторая действительная константа, inf ф(х) < а < inf ф(х).

Изучался вопрос, при каких условиях на функцию ф при изменении параметров n,N в центральной области, ^ -; 7, при всех достаточно больших их значениях найдутся такие неотрицательные целые ко, к\,., кп, что к0 + ki + . + кп = N, к\ + 2к2. + пкп - N и

Ф(ко к\ кп

-£,0,0 ,.)>а.

Доказывается, что для этого от функции ф достаточно потребовать неэкстремальное™, компактности и непрерывности в метрике р(х,у), а также того, что хотя бы для одной точки х, удовлетворяющей (0.9), для некоторого е > 0 существует конечный момент степени 1 + е и х„ > 0 для любого v = 0,1,.

Во второй главе исследуется грубая (с точностью до логарифмической эквивалентности) асимптотика вероятности больших уклонений функций от Д = (^0) ■ ) Ц"п, 0, .) - числа ячеек с заданным заполнением в центральной области изменения параметров N,n. Грубой асимптотики вероятностей больших уклонений достаточно для изучения индексов критериев согласия.

Пусть случайные величины ^ в (0.2) одинаково распределены и

P(z) - производящая функция случайной величины - сходится в круге радиуса 1 < R < оо. Следуя /38/, для 0 < z < R обозначим через £(z) случайную величину такую, что

Ml+£ = £ i1+ex„ < 00.

0.10) к] = Рк, к = 0,1,.

Обозначим

Если существует решение уравнения м Z(z) = ъ то оно единственно /38/. Всюду в дальнейшем будем предполагать, что рк > О,А; = 0,1,.

В первом пункте первого параграфа второй главы находится асимптотика логарифмов вероятностей вида

1пР{/х0 = ко,.,цп = кп}.

Доказывается следующая теорема.

Теорема 2. Грубая локальная теорема о вероятностях больших уклонений. Пусть п, N -» оо так, что jj ->7,0 <7 < оо, существует z7 - корень уравнения M£(z) = 7, с. в. £(г7) имеет положительную дисперсию. Тогда для любого k G Cl(n,N)

1пР{Д = к} = JftpK)) + O(^lniV).

Утверждение теоремы следует непосредственно из формулы для совместного распределения fii,. fin в /26/ и следующей оценки: если неотрицательные целочисленные величины , Нп удовлетворяют условию

Hi + 2д2 + + ПНп = п, то число ненулевых величин среди них есть 0(л/п). Это грубая оценка, не претендующая на новизну. Число ненулевых цг в обобщенных схемах размещения не превосходит величины максимального заполнения ячеек, которое в центральной области с вероятностью, стремящейся к 1, не превосходит величины O(lnn) /25/,/27/. Тем не менее, полученная оценка 0(у/п) выполняется с вероятностью 1 и ее достаточно для получения грубой асимптотики.

Во втором пункте первого параграфа второй главы находится значение предела где адг - последовательность действительных чисел, сходящаяся к некоторому a G R, ф(х) - действительнозначная функция. Доказывается следующая теорема.

Теорема 3. Грубая интегральная теорема о вероятностях больших уклонений. Пусть выполнены условия теоремы 2, для некоторых г >0,С> 0 действительная функция ф(х) компактна, равномерно непрерывна в метрике р на множестве

А = 0r+<;(p(z7)) П Ц7+с] и удовлетворяет условию неэкстремальности на множестве fly. Если для некоторой константы а такой, что inf ф(х) < а < sup ф(х). xeily существует вектор ра € fi7 П 0r(p(z7)); такой, что

Ф{ра) > а и j({(x) >а,хе П7},р(2;7)) = 7(ра,р(*у)) mo для любой последовательности а^, сходящейся к а,

Jim -vbPW%%,.)>aN} = J(pa,p(2h)). (0.11)

При дополнительных ограничениях на функцию ф(х) информационное расстояние J(pa,p{z7)) в (2.3) удается вычислить более конкретно. А именно, справедлива следующая теорема. Теорема 4. Об информационном расстоянии. Пусть для некоторого 0 < 7 < оо для некоторвх г > 0, С > 0 действительная функция ф(х) и ее частные производные первого порядка компактны и равномерно непрерывны в обобщенной метрике р(х, у) на множестве р G

А = Ог(р) П %+с] существуют Т > 0, R > 0, такие, что для всех \t\ <Т,0 < z < R,x е А

Е^ехр^-ф(х)} < оо,

0(a;)exp{t-< со, i/=o oxv 0X1/ для некоторого е > О оо Q pvv1+£zu exp{t-ф{х)} < оо, (0.13) и существует единственный вектор x(z,t), удовлетворяющий системе уравнений xv(z, t) = pvzv ехр {Ь-ф(х(г, t))}, v = 0,1,. функция ф(х) удовлетворяет на множестве А условию неэкстремальности, а - некоторая константа, ф(р) < а < sup ф(:x)(z,t),

0

00 vpv{za,ta) = 7, 1/=0

0(р(*аЛ)) = а, где

Тогда p(za, ta) € и

J({x e А,ф(х) = а},р) = J(p{za, ta),p)

00 д 00 д = l\nza + taYl ir-(x(za,ta)) - In Е^г/ехр{ta-z-(p(zatta))}. j/=0 C^i/ t^=0

Если функция ф(х) - линейная функция, и функция f(x) определена при помощи равенства (0.5), то условие (0.12) превращается в условие Крамера для случайной величины f{£{z)). Условие (0.13) есть форма условия (0.10) и используется при доказательстве наличия в областях вида {х G ф(х) > а} хотя бы одной точки из 0(n, N) при всех достаточно больших п, N.

Пусть^)(п, N) = (hi,., /гдг) - вектор частот в обобщенной схеме размещения (0.2). В качестве следствия из теорем 3, 4 формулируется следующая теорема.

Теорема 5. Грубая интегральная теорема о вероятностях больших уклонений симметричных разделимых статистик в обобщенной схеме размещения.

Пусть п, N -» оо так, что ^ - 7, 0 < 7 < оо, существует z1 - корень уравнения М£(,г) = 7, с. в. £(27) имеет положительную дисперсию и максимальный шаг распределения 1, а - некоторая константа, f(x) - действительная функция, а < Mf(^(z1)), существуют Т > 0,R > 0 такие, что для всех |t| <Т,0 < z < R,

00 оо, и=0 существуют такие ta\

Е vVi/(«01 ta) = Ъ где f{v)p»{za,ta) = а, 1/=0

Тогда для любой последовательности адг, сходящейся к а,

Jim - - InF»{- £ f(h„) > aN} = J(p{za,ta),p{z7))

00 7 In 2a + taa - In £ p^/e^M i/=0

Эта теорема впервые была доказана А. Ф. Ронжиным в /38/ с использованием метода перевала.

Во втором параграфе второй главы исследуются вероятности больших уклонений разделимых статистик в обобщенных cxj^iax разме- ^ ^ щения в случае невыполнения условию Крамера для случайной величины f(€(z)). Условие Крамера для случайной величины f(£(z)) не выполняется, в частности, если £(z) - пуассоновская случайная величина, a f(x) - х2. Заметим, что условие Крамера для самих разделимых статистик в обобщенных схемах размещения выполняется всегда, так как при любых фиксированных п, N число возможных исходов в этих схемах конечно.

Как отмечено в /2/, если условие Крамера не выполнено, то для отыскания асимптотики вероятностей больших уклонений сумм одинаково расq пределенных случайных величин требуется выполнение дополнительных. f

V и. . I условий правильного изменения на распределение слагаемого. В работе j

О, 5 рассматривается случай, соответствующий выполнению условия (3) в /2/, то есть семиэкспоненциальный случай. Пусть P{£i = к} > 0 для всех к = 0,1,. и функцию р(к) = -\пР{^ = к}, можно продолжить до функции непрерывного аргумента - правильно меняющейся функции порядка р, 0 < р < со /45/, то есть положительной функции такой, что при t -> оо p{tx) хр.

Пусть функция f(x) при достаточно больших значениях аргумента - положительная строго возрастающая, правильно меняющаяся функция порядка Определим функцию ср(х), положив для достаточно больших х ф)=р(Г\х)).

На остальной числовой оси ip(x) может быть задана произвольным ограниченным измеримым образом.

Тогда с. в. /(£i) имеет моменты любого порядка и не удовлетворяет условию Крамера, р(х) = о(х) при х -> со, и справедлива следующая Теорема 6. Пусть при достаточно больших х функция ip(x) монотонно не убывает, фг^кция монотонно не возрастает, п, N -> оо так, что jj - А, 0 < Л < оо; гд - единственный корень уравнения M^i(^) = Л, тогда для любого с > b(z\), где b(z) = M/(£i(.z)), существует предел CN} = -(с - b(z\))4.

Из теоремы б следует, что ири невыполнении условия Крамера предел lim 1 InP{LN(h(n, N)) > cN} = 0, ^ ^ iv-too iv что доказывает справедливость гипотезы, высказанной в /39/. Таким образом, значение индекса критерия согласия в обобщенных схемах размещения ири невыполнении условия Крамера всегда равно нулю. При этом в классе критериев, когда условие Крамера выполняется, строятся критерии с ненулевым значением индекса. Отсюда можно сделать вывод, что использовать критерии, статистика которых не удовлетворяет условию Крамера, например, критерий хи-квадрат в полиномиальной схеме, для построения критериев согласия для проверки гипотез при несближающихся альтернативах в указанном смысле асимптотически неэффективно. Подобный вы-вод^был сделан в /54/ по результатам сравнения статистик хи-квадрат и отношения максимального правдоподобия в полиномиальной схеме.

В третьей главе решается задача построения критериев согласия с наибольшим значением индекса критерия (наибольшим значением нижнего индекса критерия) для проверки гипотез в обобщенных схемах размещения. На основе результатов первой и второй глав о свойствах функций энтропии, информационного расстояния и вероятностей больших уклонений в третьей главе находится функция вида (0.4) такая, что критерий согласия, построенный на ее основе, имеет наибольшее значение точного нижнего индекса в рассматриваемом классе критериев. Доказывается следующая теорема.

Теорема 7. О существовании индекса. Пусть выполнены условия теоремы 3, 0 < /3 < 1, Н = Hp(i),Hp(2>,. - последовательность альтернативных распределений, а,ф((3, N) - максимальное число, для которого при гипотезе Нр<ло выполнено неравенство существует предел lim^-оо о>ф{Р, N) - а. Тогда в точке (/3, Н) существует индекс критерия ф

Зфф, Н) = 3{{ф(х) >а,х£ ^.PW).

Шй)<ШН)> где w/fo fh ч v^l ^

В Заключении излагаются полученные результаты в их соотношении с общей целью и конкретными задачами, поставленными в диссертации, формулируются выводы но результатам диссертационного исследования, указываются научная новизна, теоретическая и практическая ценность работы, а также конкретные научные задачи, которые выявлены автором и решение которых представляется актуальным.

Краткий обзор литературы по теме исследования. В диссертационной работе рассматривается задача построения критериев согласия в обобщенных схемах размещения с наибольшим значением индекса критерия в классе функций вида (0.4) при несближающихся альтернативах.

Обобщенные схемы размещения были введены В. Ф. Колчиным в /24/. Величины в полиномиальной схеме были названы числом ячеек с г дробинками и подробно изучены в монографии В. Ф. Колчина, Б. А. Севастьянова, В. П. Чистякова /27/. Величины fir в обобщенных схемах размещения исследовались В. Ф. Колчиным в /25/,/26/. Статистики вида (0.3) впервые были рассмотрены Ю. И. Медведевым в /30/ и получили название разделимых (аддитивно разделимых) статистик. Если функции /„ в (0.3) не зависят от и, такие статистики были названы в /31/ симметричными разделимыми статистиками. Асимптотика моментов разделимых статистик в обобщенных схемах размещения была получена Г. И. Ивченко в /9/. Предельные теоремы для обобщенной схемы размещения рассматривались также в /23/. Обзоры результатов предельных теоремах и критериях согласия в дискретных вероятностых схемах типа (0.2) были даны В. А. Ивановым, Г. И. Ивченко, Ю. И. Медведевым в /8/ и Г. И. Ивченко, Ю. И. Медведевым, А. Ф. Ронжиным в /14/. Критерии согласия для обобщенных схем размещения были рассмотрены А. Ф. Ронжиным в /38/.

Сравнение свойств статистических критериев в указанных работах проводилось с точки зрения относительной асимптотической эффективности. Рассматривались случае сближающихся (контигуальных) гипотез - эффективность в смысле Питмена и несближающихся гипотез - эффективность в смысле Бахадура, Ходжеса - Лемана и Чернова. Связь между различными видами относительной эффективности статистических критериев обсуждается, например, в /49/. Как следует из результатов 10. И. Медведева в /31/ о распределении разделимых статистик в полиномиальной схеме, наибольшую асимптотическую мощность при сближающихся гипотезах в классе разделимых статистик от частот исходов в полиномиальной схеме имеет критерий, основанный на основе статистики хи-квадрат. Данный результат был обобщен А. Ф. Ронжиным для схем типа (0.2) в /38/. И. И. Викторовой и В. П. Чистяковым в /4/ построен оптимальный критерий для полиномиальной схемы в классе линейных функций от /хг. А. Ф. Ронжин в /38/ построил критерий, который при последовательности несближающихся с нулевой гипотезой альтернатив минимизирует логарифмическую скорость стремления вероятности ошибки первого рода к нулю, в классе статистик вида (0.6). Сравнение относительной эффективности статистик хи-квадрат и отношения максимального правдоподобия при сближающихся и несближающихся гипотезах было проведено в /54/.

В диссертационной работе рассматривался случай несближающися гипотез. Изучение относительной статистической эффективности критериев при несближающихся гипотезах требует исследования вероятностей сверхбольших уклонений - порядка 0(i/n). Впервые такая задача для полиномиального распределения с фиксированным количеством исходов решалась И. Н. Сановым в /40/. Асимптотическая оптимальность критериев согласия для проверки простых и сложных гипотез для полиномиального распределения в случае конечного числа исходов при несближающихся альтернативах рассматривалась в /48/. Свойства информационного расстояния ранее рассматривались Кульбаком, Лейблером /29/,/53/ и И. II. Сановым /40/, а также Хеффдингом /48/. В указанных работах непрерывность информационного расстояния рассматривалась на конечномерпых пространствах в евклидовой метрике. Рядом автором рассматривалась последовательность пространств с растущей размерностью, например, в работе Ю. В. Прохорова /37/ или в работе В. И. Богачева, А. В. Колесникова /1/. Грубые (с точностью до логарифмической эквивалентности) теоремы о вероятностях больших уклонений разделимых статистик в обобщенных схемах размещения при выполнении условия Крамера были получены А. Ф. Ронжиным в /38/. А. Н. Тимашевым в /42/,/43/ получены точные (с точностью до эквивалентности) многомерные интегральные и локальные предельные теоремы о вероятностях больших уклонений вектора fir^n, N),., iir.{n,N), где s, г\,., rs - фиксированные целые числа,

О <П < .

Исследование вероятностей больших уклонений при невыполнении условия Крамера для случая независимых случайных величин проведено в работах А. В. Нагаева /35/. Метод сопряженных распределений описан у Феллера /45/.

Статистические задачи проверки гипотез и оценивания параметров в схеме выбора без возвращения в несколько иной постановке рассматривались Г. И. Ивченко, В. В. Левиным, Е. Е. Тимониной /10/, /15/, где решались задачи оценивания для конечной совокупности, когда число ее элементов является неизвестной величиной, доказывалась асимптотическая нормальность многомерных S - статистик от s независимых выборок в схеме выбора без возвращения. Задача изучения случайных величин, связанных с повторениями в последовательностях независимых испытаний исследовалась А. М. Зубковым, В. Г. Михайловым, А. М. Шойтовым в /6/, /7/, /32/, /33/, /34/. Анализ основных статистических задач оценивания и проверки гипотез в рамках общей модели Маркова-Пойа проведен Г. И. Ивченко, Ю. И. Медведевым в /13/, вероятностный анализ которой был дан в /11/. Способ задания неравновероятпых мер на множестве комбинаторных объектов, не сводимый к обобщенной схеме размещения (0.2) был описан в Г. И. Ивченко, Ю. И. Медведевым /12/. Ряд задач теории вероятностей, в которых ответ может быть получен в результате вычислений ио рекуррентным формулам, указан А. М. Зубковым в /5/.

Неравенства для энтропии дискретных распределений были получены в /50/ (цитируется по реферату А. М. Зубкова в РЖМат). Если {pn}^Lo - распределение вероятностей, оо

Рп = Е Рк, к=тг

А = supp^Pn+i < оо (0.14) п> 0 и

F{x) = (х + 1) In (ж + 1) - х In х, то для энтропии Я этого вероятностного распределения

00 я = - 5Z Рк^Рк к=0 справедливы неравенства -L 1 00 00 Р

Я + (In -f-) £ (Арп - Рп+1) < F(А) < Я + £ (АРп - P„+i)(ln

Л D п=П -t п.4-1 и неравенства превращаются в равенства, если

Рп= {xf1)n+vn>Q. (0.15)

Заметим, что экстремальное распределение (0.15) есть геометрическое распределение с математическим ожиданием Л, а функция F(А) от параметра (0.14) совпадает с функцией от математического ожидания в теореме 1.

Похожие диссертационные работы по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК

  • Асимптотическая эффективность критериев экспоненциальности, свободных от параметра масштаба 2005 год, кандидат физико-математических наук Чирина, Анна Владимировна

  • Некоторые задачи теории вероятностей и математической статистики, связанные с распределением Лапласа 2010 год, кандидат физико-математических наук Лямин, Олег Олегович

  • Предельные теоремы в задачах о плотном вложении и плотных сериях в дискретных случайных последовательностях 2009 год, кандидат физико-математических наук Меженная, Наталья Михайловна

  • Предельные теоремы для числа пересечений полосы траекториями случайного блуждания 2006 год, кандидат физико-математических наук Орлова, Нина Геннадьевна

  • Оптимизация структуры моментных оценок точности нормальной аппроксимации для распределений сумм независимых случайных величин 2013 год, доктор физико-математических наук Шевцова, Ирина Геннадьевна

Заключение диссертации по теме «Теория вероятностей и математическая статистика», Колодзей, Александр Владимирович

3.4. Выводы

В настоящей главе на основе результатов предыдущих глав удалость построить критерий согласия для проверки гипотез в обобщенных схемах размещения с наибольшей логарифмической скоростью стремления^нулю вероятностей ошибок первого рода^ри фиксированной вероятности ошибки первого рода и несближающихся альтернативах. ~ "

Заключение

Целью диссертационной работы было построения критериев согласия для проверки гипотез в схеме выбора без возвращения из урны, содержащей шары 2 цветов. Автором было решено изучать статистики, построенные на основе частот расстояний между шарами одного цвета. В такой постановке задача была сведена, к задаче проверки гипотез в подходящей обобщенной схеме размещения.

В диссертационной работе были

Исследованы свойства энтропии и информационного расстояния дискретных распределений с неограниченным количеством исходов при ограниченном математическом ожидании;

Получена грубая (с точностью до логарифмической эквивалентности) асимптотика вероятностей больших уклонений широкого класса статистик в обобщенной схеме размещения;

На основе полученных результатов построена функция критерия с наибольшей логарифмической скоростью стремления к нулю вероятности ошибки первого рода при фиксированной вероятности ошибки второго рода и несближающихся альтернативах;

Доказано, что статистики, не удовлетворяющие условию Крамера, имеют меньшую скорость стремления к нулю вероятностей больших уклонений по сравнению со статистиками, удовлетворяющими такому условию.

Научная новизна работы заключается в следующем.

Дано понятие обобщенной метрики - функции, допускающей бесконечные значения и удовлетворяющей аксиомам тождества, симметрии и неравенства треугольника. Найдена обобщенная метрика и указаны множества, на которых функции энтропии и информационного расстояния, заданные на семействе дискретных распределений со счетным числом исходов, непрерывны в этой метрике;

В обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений статистик вида (0.4), удовлетворяющих соответствующей форме условия Крамера;

В обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера;

В классе критериев вида (0.7) построен критерий с наибольшим значением индекса критерия.

В работе решен ряд вопросов о поведении вероятностей больших уклонений в обобщенных схемах размещения. Полученные результаты могут быть использованы в учебном процессе по специальностям математическая статистика и теория информации, при исследовании статистических процедур анализа дискретных последовательностях и были использованы в /3/, /21/ при обосновании защищенности одного класса информационных систем.

Однако, ряд вопросов остается открытым. Автор ограничился рассмотрением центральной зоны изменения параметров n,N обобщенных схем размещения п частиц по N ячейкам. Если носитель распределения случайных величин, порождающие обобщенную схему размещения (0.2), не есть множество вида г, г +1, г + 2,., то при доказательстве непрерывности функции информационного расстояния и исследовании вероятностей больших уклонений требуется учитывать арифметическую структуру такого носителя, что в работе автора не рассматривалось. Для практического применения критериев, построенных на основе предлагаемой функции с максимальным значением индекса, требуется изучение ее распределения как при нулевой гипотезе, так и при альтернативах, в том числе и сближающихся. Интерес представляет также перенос разработанных методов и обобщение полученных результатов на другие вероятностные схемы, отличные от обобщенных схем размещения.

Если - частоты расстояний между номерами исхода 0 в биномиальной схеме с вероятностями исходов ро> 1- Ро, то можно показать, что в этом случае

РЬ = kh.t fin = кп} = I(± iki = n){kl + --, (3.3) v=\ K\ \ . Kn\ где

О* = Ро~1(1 ~Po),v =

Из анализа формулы для совместного распределение величин цг в обобщенной схеме размещения, доказанной в /26/, следует, что распределение (3.3), вообще говоря, не может быть представлено в общем случае как совместное распределение величин цг в какой-либо обобщенной схеме размещения частиц по ячейкам. Данное распределение является частным случаем распределений па множестве комбинаторных объектов, введенных в /12/. Представляется актуальной задачей перенос результатов диссертационной работы для обобщенных схем размещения на этот случай, что и обсуждалось в /52/.

Если число исходов в схеме выбора без возвращения или в полиномиальной схеме размещения больше двух, то совместное распределение частот расстояний между соседними одинаковыми исходами уже не может быть представлено таким простым образом. Пока удается подсчитать только математическое ожидание и дисперсию числа таких расстояний /51/.

Список литературы диссертационного исследования кандидат физико-математических наук Колодзей, Александр Владимирович, 2006 год

1. Богачев В. И., Колесников А. В. Нелинейные преобразования выпуклых мер и энтропия плотностей Радона-Никодима // Доклады Академии наук. - 2004. - Т. 207. - 2. - С. 155 - 159.

2. Видякин В. В., Колодзей А. В. Статистическое обнаружение скрытых каналов в сетях передачи данных // Тез. докл. II Междунар. конф. "Информационные системы и технологии IST"2004"(Минск, 8- 10 окт. 2004 г.) Минск: БГУ, 2004. - Ч. 1. - С. 116 - 117.

3. Викторова И. И., Чистяков В. П. Некоторые обобщения критерия пустых ящиков // Теория вероятн. и ее примен. - 1966. - Т. XI. - 2. С. 306-313.

4. Зубков А. М. Рекуррентные формулы для вычисления функционалов од дискретных случайных величин // Обозрение прикл. и промышл. матем. 1996. - Т. 3. - 4. - С. 567 - 573.

5. G. Зубков A. M., Михайлов В. Г. Предельные распределения случайных величин, связанных с длинными повторениями в последовательности независимых испытаний // Теория вероятн. и ее примен. - 1974. - Т. XIX. 1. - С. 173 - 181.

6. Зубков А. М., Михайлов В. Г. О повторениях s - цепочек в последовательности независимых величин // Теория вероятн. и ее примен.- 1979. Т. XXIV. - 2. - С. 267 - 273.

7. Иванов В. А., Ивченко Г. И., Медведев Ю. И. Дискретные задачи в теории вероятностей // Итоги науки и техники. Сер. теория вероятн., матем. статист., теор. киберн. Т. 23. - М.: ВИНИТИ, 1984. С. 3 -60.

8. Ивченко Г. И. О моментах разделимых статистик в обобщенной схеме размещения // Мат. заметки. 1986. - Т. 39. - 2. - С. 284 - 293.

9. Ивченко Г. И., Левин В. В. Асимптотическая нормальность в схеме выбора без возвращения // Теория вероятн. и ее применен. - 1978.- Т. XXIII. 1. - С. 97 - 108.

10. Ивченко Г. И., Медведев Ю. И. Об урновой схеме Маркова-Пойа: от 1917 до наших дней // Обозрение прикл. и промышл. матем. - 1996.- Т. 3. 4. - С. 484-511.

11. Ивченко Г. И., Медведев Ю. И. Случайные комбинаторные объекты // Доклады Академии наук. 2004. - Т. 396. - 2. - С. 151 - 154.

12. Ивченко Г. И., Медведев Ю. И. Статистические задачи, связанные с организацией контроля за процессами генерации дискретных случайных последовательностей // Дискретн. матем. - 2000. - Т. 12. - 2. С. 3 - 24.

13. Ивченко Г. И., Медведев Ю. И., Ронжин А. Ф. Разделимые статистики и критерии согласия для полиномиальных выборок // Труды Математ. ин-та АН СССР. 1986. - Т. 177. - С. 60 - 74.

14. Ивченко Г. И., Тимонина Е. Е. Об оценивании при выборе из конечной совокупности // Мат. заметки. - 1980. - Т. 28. - 4. - С. 623 - 633.

15. Колодзей А. В. Теорема о вероятностях больших уклонений для разделимых статистик, не удовлетворяющих условию Крамера // Дискретн. матем. 2005. - Т. 17. - 2. - С. 87 - 94.

16. Колодзей А. В. Энтропия дискретных распределений и вероятности больших уклонений функций от заполнения ячеек в обобщенных схемах размещения // Обозрение прикл. и промышл. матем. - 2005. - Т. 12. 2. - С. 248 - 252.

17. Колодзей А. В. Статистические критерии выявления скрытых каналов, основанных на изменении порядка следования сообщений // Научно-исследовательская работа "Апология": Отчет / ФСТЭК РФ, Руководитель А. В. Князев. Инв. 7 дсп. - М., 2004. - С. 96 - 128.

18. Колодзей А. В., Ронжин А. Ф О некоторых статистиках, связанных с проверкой однородности случайных дискретных последовательностей // Научно-исследовательская работа "Разработка математических проблем криптографии" N 4 2004.: Отчет / АК РФ, - М., 2004.

19. Колчин А. В. Предельные теоремы для обобщенной схемы размещения // Дискретн. матем. 2003. - Т. 15. - 4. - С. 148 - 157.

20. Колчин В. Ф. Один класс предельных теорем для условных распределений // Лит. матем. сб. - 1968. - Т. 8. - 1. - С. 111 - 126.

21. Колчин В. Ф. Случайные графы. 2-е изд. - М.: ФИЗМАТЛИТ, 2004. - 256с.

22. Колчин В. Ф. Случайные отображения. - М.: Наука, 1984. - 208с.

23. Колчин В. Ф., Севастьянов Б. А., Чистяков В. П. Случайные размещения. М.: Наука, 1976. - 223с.

24. Крамер Г. // Успехи матем. науки. - 1944. - выи. 10. - С. 166 - 178.

25. Кульбак С. Теория информации и статистика. - М.: Наука, 1967. - 408с.

26. Медведев Ю. И. Некоторые теоремы об асимптотическом распределении статистики хи-квадрат // Докл. АН СССР. - 1970. - Т. 192. 5. - С. 997 - 989.

27. Медведев Ю. И. Разделимые статистики в полиномиальной схеме I; II. // Теория вероятн. и ее нримен. - 1977. - Т. 22. - 1. - С. 3 - 17; 1977. Т. 22. - 3. - С. 623 - 631.

28. Михайлов В. Г. Предельные распределения случайных величин, связанных с многократными длинными повторениями в последовательности независимых испытаний // Теория вероятн. и ее примен. - 1974. Т. 19. - 1. - С. 182 - 187.

29. Михайлов В. Г. Центральная предельная теорема для числа неполных длинных повторений // Теория вероятн. и ее примен. - 1975. - Т. 20. 4. - С. 880 - 884.

30. Михайлов В. Г., Шойтов А. М. Структурная эквивалентность s - цепочек в случайных дискретных последовательностях // Дискретп. матем. 2003. - Т. 15, - 4. - С. 7 - 34.

31. Нагаев А.В. Интегральные предельные теоремы с учетом вероятностей больших уклонений. I. // Теория вероятн. и ее применен. -1969. Т. 14. 1. - С. 51 - 63.

32. Петров В. В. Суммы независимых случайных величин. - М.: Наука, 1972. 416с.

33. Прохоров Ю. В. Предельные теоремы для сумм случайных векторов, размерность которых стремится к бесконечности // Теория вероятн. и ее примен. 1990. - Т. 35. - 4. - С. 751 - 753.

34. Ронжин А.Ф. Критерии для обобщенных схем размещения частиц // Теория вероятн. и ее примен. - 1988. - Т. 33. - 1. - С. 94 - 104.

35. Ронжин А.Ф. Теорема о вероятностях больших уклонений для разделимых статистик и ее статистическое приложение // Мат. заметки. 1984. - Т. 36. - 4. - С. 610 - 615.

36. Санов И. Н. О вероятностях больших отклонений случайных величин // Мат. сб. 1957. - Т. 42. - 1 (84). - С. И - 44.

37. Сенета Е. Правильно меняющиеся функции. М.: Наука, 1985. - 144с.

38. Тимашев А. Н. Многомерная интегральная теорема о больших уклонениях в равновероятной схеме размещения // Дискрета, матем. - 1992. Т. 4. - 4. - С. 74 - 81.

39. Тимашев А. Н. Многомерная локальная теорема о больших уклонениях в равновероятной схеме размещения // Дискретн. матем. - 1990. Т. 2. - 2. - С. 143 - 149.

40. Федорюк М.В. Метод перевала. М.: Наука, 1977. 368с.

41. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 2. - М.: Мир, 1984. 738с.

42. Шеннон К. Математическая теория связи // Работы по теории информации и кибернетике: Пер. с англ. / М., ИЛ, 1963, с. 243 - 332.

43. Conrad К. Probability Distribution and Maximum Entropy // http://www.math.uconn.edu/~kconrad/blurbs/entropypost.pdf

44. Hoeffding W. Asymptotically optimal tests for multinomial distribution // Ann. Math. Statist. 1965. - T. 36. - C. 369 - 408.

45. Inglot T,. Rallenberg W. С. M., Ledwina T. Vanishing shortcoming and asymptotic relative efficiency // Ann. Statist. - 2000. - T. 28. - C. 215 238.

46. Jurdas C., Pecaric J., Roki R., Sarapa N., On an inequality for theentropy of probability distribution // Math. Inequal. and Appl. - 2001. T. 4. - 2. - C. 209 - 214. (РЖМат. - 2005. - 05.07-13B.16).

47. Kolodzey А. V., Ronzhin A. F., Goodness of Fit Tests for Random Combinatoric Objects // Тез. докл. межд. конф. Modern Problems and new Trends in Probability Theory, (Черновцы, 19 - 26 июн. 2005 г.) - Киев: Институт математики, 2005. Ч. 1. С. 122.

48. Kullback S. and Leibler R. A. On information and sufficiency // Ann. Math. Statist. 1951. - T. 22. - C. 79 - 86.

49. Quine M.P., Robinson J. Efficience of chi-square and likelihood ratio goodness of fit tests // Ann. Statist. 1985. - T. 13. - 2. - C. 727 -742.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Как отмечено в предыдущем разделе, изучение классических алгоритмов во многих случаях может быть проведено с помощью асимптотических методов математической статистики, в частности, с помощью ЦПТ и методов наследования сходимости . Отрыв классической математической статистики от нужд прикладных исследований проявился, в частности, в том, что в распространенных монографиях недостает математического аппарата, необходимого, в частности, для изучения двухвыборочных статистик. Суть в том, что переходить к пределу приходится не по одному параметру, а по двум – объемам двух выборок. Пришлось разработать соответствующую теорию – теорию наследования сходимости, изложенную в нашей монографии .

Однако применять результаты подобного изучения придется при конечных объемах выборок. Возникает целый букет проблем, связанных с таким переходом. Часть из них обсуждалась в в связи с изучением свойств статистик, построенных по выборкам из конкретных распределений.

Однако при обсуждении влияния отклонений от исходных предположений на свойства статистических процедур возникают дополнительные проблемы. Какие отклонения считать типичными? Ориентироваться ли на наиболее "вредные" отклонения, в наибольшей степени искажающие свойства алгоритмов, или же сосредоточить внимание на "типичных" отклонениях?

При первом подходе получаем гарантированный результат, но "цена" этого результата может быть излишне высокой. В качестве примера укажем на универсальное неравенство Берри-Эссеена для погрешности в ЦПТ . Совершенно справедливо подчеркивает А.А. Боровков , что "скорость сходимости в реальных задачах, как правило, оказывается лучше."

При втором подходе возникает вопрос, какие отклонения считать "типичными". Попытаться ответить на этот вопрос можно, анализируя большие массивы реальных данных. Вполне естественно, что ответы различных исследовательских групп будут различаться, как это видно, например, по результатам, приведенным в статье .

Одна из ложных идей - использование при анализе возможных отклонений только какого-либо конкретного параметрического семейства – распределений Вейбулла-Гнеденко, трехпараметрического семейства гамма - распределений и др. Еще в 1927 г. акад. АН СССР С.Н. Бернштейн обсуждал методологическую ошибку, состоящую в сведении всех эмпирических распределений к четырехпараметрическому семейству Пирсона . Однако и до сих пор параметрические методы статистики весьма популярны, особенно среди прикладников, и вина за это заблуждение лежит прежде всего на преподавателях статистических методов (см. ниже, а также статью ).

15. Выбор одного из многих критериев для проверки конкретной гипотезы

Во многих случаях для решения конкретной практической задачи разработано много методов, и специалист по математическим методам исследования стоит перед проблемой: какой из них предложить прикладнику для анализа конкретных данных?

В качестве примера рассмотрим задачу проверки однородности двух независимых выборок. Как известно , для ее решения можно предложить массу критериев: Стьюдента, Крамера-Уэлча, Лорда, хи - квадрат, Вилкоксона (Манна-Уитни), Ван – дер - Вардена, Сэвиджа, Н.В.Смирнова, типа омега-квадрат (Лемана-Розенблатта), Г.В.Мартынова и др. Какой выбрать?

Естественным образом приходит в голову идея "голосования": провести проверку по многим критериям, а затем принять решение "по большинству голосов". С точки зрения статистической теории такая процедура приводит попросту к построению еще одного критерия, который априори ничем не лучше прежних, но более труден для изучения. С другой стороны, если совпадают решения по всем рассмотренным статистическим критериям, исходящим из различных принципов, то в соответствии с концепцией устойчивости это повышает доверие к полученному общему решению.

Распространено, особенно среди математиков, ложное и вредное мнение о необходимости поиска оптимальных методов, решений и т.д. Дело в том, что оптимальность обычно исчезает при отклонении от исходных предпосылок. Так, среднее арифметическое в качестве оценки математического ожидания является оптимальной только тогда, когда исходное распределение - нормальное , в то время как состоятельной оценкой - всегда, лишь бы математическое ожидание существовало. С другой стороны, для любого произвольно взятого метода оценивания или проверки гипотез обычно можно так сформулировать понятие оптимальности, чтобы рассматриваемый метод стал оптимальным – с этой специально выбранной точки зрения. Возьмем, например, выборочную медиану как оценку математического ожидания. Она, разумеется, оптимальна, хотя и в другом смысле, чем среднее арифметическое (оптимальное для нормального распределения). А именно, для распределения Лапласа выборочная медиана является оценкой максимального правдоподобия, а потому оптимальной (в смысле, уточненном в монографии ).

Критерии однородности были проанализированы в монографии . Естественных подходов к сравнению критериев несколько - на основе асимптотической относительной эффективности по Бахадуру, Ходжесу-Леману, Питмену. И выяснилось, что каждый критерий является оптимальным при соответствующей альтернативе или подходящем распределении на множестве альтернатив. При этом математические выкладки обычно используют альтернативу сдвига, сравнительно редко встречающуюся в практике анализа реальных статистических данных (в связи с критерием Вилкоксона эта альтернатива обсуждалась и критиковалась нами в ). Итог печален - блестящая математическая техника, продемонстрированная в , не позволяет дать рекомендации для выбора критерия проверки однородности при анализе реальных данных. Другими словами, с точки зрения работы прикладника, т.е. анализа конкретных данных, монография бесполезна. Блестящее владение математикой и огромное трудолюбие, продемонстрированные автором этой монографии, увы, ничего не принесли практике.

Конечно, каждый практически работающий статистик так или иначе решает для себя проблему выбора статистического критерия. На основе ряда методологических соображений мы остановили свой выбор на состоятельном против любой альтернативы критерии типа омега-квадрат (Лемана-Розенблатта). Однако остается чувство неудовлетворенности в связи с недостаточной обоснованностью этого выбора.

480 руб. | 150 грн. | 7,5 долл. ", MOUSEOFF, FGCOLOR, "#FFFFCC",BGCOLOR, "#393939");" onMouseOut="return nd();"> Диссертация - 480 руб., доставка 10 минут , круглосуточно, без выходных и праздников

Колодзей Александр Владимирович. Асимптотические свойства критериев согласия для проверки гипотез в схеме выбора без возвращения, основанных на заполнении ячеек в обобщенной схеме размещения: диссертация... кандидата физико-математических наук: 01.01.05.- Москва, 2006.- 110 с.: ил. РГБ ОД, 61 07-1/496

Введение

1 Энтропия и информационное расстояние 36

1.1 Основные определения и обозначения 36

1.2 Энтропия дискретных распределений с ограниченным математическим ожиданием 39

1.3 Логарифмическая обобщенная метрика на множестве дискретных распределений 43

1.4 Компактность функций от счетного множества аргументов. 46

1.5 Непрерывность информационного расстояния Кульбака - Лейблера - Санова 49

1.6 Выводы 67

2 Вероятности больших уклонений 68

2.1 Вероятности больших уклонений функций от числа ячеек с заданным заполнением 68

2.1.1 Локальная предельная теорема 68

2.1.2 Интегральная предельная теорема 70

2.1.3 Информационное расстояние и вероятности больших уклонений разделимых статистик 75

2.2 Вероятности больших уклонений разделимых статистик, не удовлетворяющих условию Крамера 81

2.3 Выводы 90

3 Асимптотические свойства критериев согласия 92

3.1 Критерии согласия для схемы выбора без возвращения. 92

3.2 Асимптотическая относительная эффективность критериев согласия 94

3.3 Критерии, основанные на числе ячеек в обобщенных схемах размещения 95

3.4 Выводы 98

Заключение 99

Литература 103

Введение к работе

Объект исследования и актуальность темы. В теории статистического анализа дискретных последовательностей особое место занимают критерии согласия для проверки, возможно, сложной нулевой гипотезы, которая заключается в том, что для случайной последовательности pQ)?=i такой, что

Хі Є Ім,і= 1,...,n, Ім = {о, і,..., M}, для любых і = 1,..., п, и для любого к Є їм вероятность события {Хі = к} не зависит от г. Это означает, что последовательность (Хі)f =1 в некотором смысле стационарна.

В ряде прикладных задач в качестве последовательности (Х{) =1 рассматривается последовательность цветов шаров при выборе без возвращения до исчерпания из урны, содержащей rik - 1 > 0 шаров цвета к, к Є їм-Будем обозначать множество таких выборок Т(п 0 - 1, ...,пд/ - 1). Пусть всего в урне содержится п - 1 шаров, м n-l= (n fc -l).

Обозначим через г (к) _ r (fc) r (fc) последовательность номеров шаров цвета к в выборке. Рассмотрим последовательность h« = (^,...,)). M fc) =ri fc) , ^ = ^-^ = 2,...,^-1, _ (fc)

Последовательность h^ определена при помощи расстояний между местами соседних шаров цвета к таким образом, что *Ф = п.

Совокупность последовательностей h(fc) для всех к Є їм однозначно определяет последовательность (Х{)^ =1 . Последовательности h k для разных к зависимы между собой. В частности, любая из них однозначно определяется всеми остальными. Если мощность множества 1м равна 2, то последовательность цветов шаров однозначно определяется последовательностью h() расстояний между местами соседних шаров одного фиксированного цвета. Пусть в урне, содержащей п - 1 шаров двух различных цветов, находится N - 1 шар цвета 0. Можно установить взаимнооднозначное соответствие между множеством M(N-l,n - N) и множеством 9\ Пі м векторов h(n, N) = (hi,..., /i#) с положительными целочисленными компонентами таких, что

Множество 9\ п,м соответствует множеству всех различных разбиений целого положительного числа п на N упорядоченных слагаемых.

Задав на множестве векторов 9Я п д некоторое вероятностное распределение, мы получим соответствующее вероятностное распределение на множестве Wl(N - l,n - N). Множество У\ п,ы является подмножеством множества 2J n ,iv векторов с неотрицательными целочисленными компонентами, удовлетворяющими (0.1). В качестве вероятностных распределений на множестве векторов ЯЗ п д в диссертационной работе будут рассматриваться распределения вида

Р{%, N) = (г ь..., r N)} = Р{& = г„, и = 1,..., N\ & = п}, (0.2) где 6 > , лг - независимые неотрицательные целочисленные случайные величины.

Распределения вида (0.2) в /24/ получили название обобщенных схем размещения п частиц но N ячейкам. В частности, если случайные величины ь... ,лг в (0.2) распределены по законам Пуассона с параметрами Аі,...,Алг соответственно, то вектор h(n,N) имеет полиномиальное распределение с вероятностями исходов

Ри = т--~т~> ^ = 1,---,^-

Лі + ... + л^

Если случайные величины i> >&v в (0.2) одинаково распределены по геометрическому закону V{Zi = k}= P k - 1 (l-p),k=l,2,..., где р - любое в интервале 0

Как отмечалось в /14/,/38/, особое место при проверке гипотез о распределении векторов частот h(n, N) = (hi,..., h^) в обобщенных схемах размещения п частиц по N ячейкам, занимают критерии, построенные на основе статистик вида ад%,ло) = Л(и (о.з)

Фк «%,%..;$, (0.4) где /j/, v = 1,2,... и ф - некоторые действительнозначные функции,

Мг= Е 1{К = г}, г = 0,1,.... 1/=1

Величины // г в /27/ были названы числом ячеек, содержащих ровно по г частиц.

Статистики вида (0.3) в /30/ получили название разделимых (аддитивно разделимых) статистик. Если функции /„ в (0.3) не зависят от и, то такие статистики были названы в /31/ симметричными разделимыми статистиками.

Для любого г статистика /х г является симметричной разделимой статистикой. Из равенства

ДМ = ДФг (0.5) следует, что класс симметричных разделимых статистик от h u совпадает с классом линейных функций от fi r . При этом класс функций вида (0.4) шире класса симметричных разделимых статистик.

Н 0 = (Яо(п,Л0) последовательность простых нулевых гипотез, заключающихся в том, что распределение вектора h(n,N) есть (0.2), где случайные величины i,... ,лг и (0.2) одинаково распределены и P{ti = k}=p k ,k = 0,l,2,..., параметры п, N изменяются в центральной области.

Рассмотрим некоторое Р Є (0,1) и последовательность, вообще говоря, сложных альтернатив n = (H(n,N)) таких,что существует а п

Р{Фм > ОпАР)} >: 0-Будем отвергать гипотезу Hq(ti,N), если фм > а щ м({3). Если существует предел jim ~1пР{0лг > a n , N (P)} = ШН), где вероятность для каждого N вычисляется при гипотезе #o(n,iV), то значение j (fi,lcl) названо в /38/ индексом критерия ф в точке (/?,Н). Последний предел может, вообще говоря, и не существовать. Поэтому в диссертационной работе кроме индекса критерия рассматривается величина lim (_IlnP{tor > a N (J3)}) =іф(Р,П), которая автором диссертационной работы по аналогии была названа нижним индексом критерия ф в точке (/3,Н). Здесь и далее lim адг, lim а# jV-юо ЛГ-юо означают соответственно нижний и верхний пределы последовательности (одг) при N -> сю,

Если индекс критерия существует, то нижний индекс критерия совпадает с ним. Нижний индекс критерия существует всегда. Чем больше значения индекса критерия (нижнего индекса критерия), тем лучше в рассматриваемом смысле статистический критерий. В /38/ была решена задача построения критериев согласия для обобщенных схем размещения с наибольшим значением индекса критерия в классе критериев, которые отклоняют гипотезу Ho(n,N) при где т > 0 - некоторое фиксированное число, последовательность постоянных едг выбирается, исходя из заданного значения мощности критерия при последовательности альтернатив, ф т - действительная функция от т + 1 аргументов.

Индексы критериев определяются вероятностями больших уклонений. Как было показано в /38/, грубая (с точностью до логарифмической эквивалентности) асимптотика вероятностей больших уклонений разделимых статистик при выполнении условия Крамера для случайной величины /() определяется соответствующим информационным расстоянием Куль-бака - Лейблера - Санова (случайная величина ц удовлетворяет условию Крамера, если для некоторого # > 0 производящая функция моментов Me f7? конечна в интервале \t\

Вопрос о вероятностях больших уклонений статистик от неограни- ченного числа fi r , а также произвольных разделимых статистик, не удовлетворяющих условию Крамера, оставался открытым. Это не позволяло окончательно решить задачу построения критериев для проверки гипотез в обобщенных схемах размещения с наибольшей скоростью стремления к нулю вероятности ошибки первого рода при пссближающихся альтернативах в классе критериев, основанных на статистиках вида (0.4). Актуальность диссертационного исследования определяется необходимостью завершить решение указанной задачи.

Целью диссертационной работы является построение критериев согласия с наибольшим значением индекса критерия (нижнего индекса критерия) для проверки гипотез в схеме выбора без возращения в классе критериев, которые отклоняют гипотезу Щ{п, N) при 0(iv"iv"-""" o """)>CiV " (0 " 7) где ф - функция от счетного количества аргументов, и параметры п, N изменяются в центральной области.

В соответствии с целью исследования были поставлены следующие задачи: исследовать свойства энтропии и информационного расстояния Куль-бака - Лейблера - Санова для дискретных распределений со счетным количеством исходов; исследовать вероятности больших уклонений статистик вида (0.4); исследовать вероятности больших уклонений симметричных разделимых статистик (0.3), не удовлетворяющих условию Крамера; - найти такую статистику, что построенный на ее основе критерий со гласия для проверки гипотез в обобщенных схемах размещения имеет наибольшее значение индекса в классе критериев вида (0.7).

Научная новизна: дано понятие обобщенной метрики - функции, допускающей бесконечные значения и удовлетворяющей аксиомам тождества, симметрии и неравенства треугольника. Найдена обобщенная метрика и указаны множества, на которых функции энтропии и информационного расстояния, заданные на семействе дискретных распределений со счетным числом исходов, непрерывны в этой метрике; в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений статистик вида (0.4), удовлетворяющих соответствующей форме условия Крамера; в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера; в классе критериев вида (0.7) построен критерий с наибольшим значением индекса критерия.

Научная и практическая ценность. В работе решен ряд вопросов о поведении вероятностей больших уклонений в обобщенных схемах размещения. Полученные результаты могут быть использованы в учебном процессе по специальностям математическая статистика и теория информации, при исследовании статистических процедур анализа дискретных последовательностях и были использованы в /3/, /21/ при обосновании защищенности одного класса информационных систем. Положения, выносимые на защиту: сведение задачи проверки по единственной последовательности цветов шаров гипотезы от том, что эта последовательность получена в результате выбора без возвращения до исчерпания шаров из урны, содержащей шары двух цветов, и каждый такой выбор имеет одинаковую вероятность, к построению критериев согласия для проверки гипотез в соответствующей обобщенной схеме размещения; непрерывность функций энтропии и информационного расстояния Кульбака - Лейблера - Санова на бесконечномерном симплексе с введенной логарифмической обобщенной метрикой; теорема о грубой (с точностью до логарифмической эквивалентности) асимптотике вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера в обобщенной схеме размещения в семиэксионенциалыюм случае; теорема о грубой (с точностью до логарифмической эквивалентности) асимптотике вероятностей больших уклонений для статистик вида (0.4); - построение критерия согласия для проверки гипотез в обобщенных схемах размещения с наибольшим значением индекса в классе крите риев вида (0.7).

Апробация работы. Результаты докладывалась на семинарах Отдела дискретной математики Математического института им. В. А. Стек-лова РАН, отделения информационной безопасности ИТМиВТ им. С. А. Лебедева РАН и на: пятом Всероссийском симпозиуме по прикладной и промышленной математике. Весенняя сессия, Кисловодск, 2 - 8 мая 2004; шестой Международной Петрозаводской конференция "Вероятностные методы в дискретной математике" 10 - 16 июня 2004; второй Международной конференции "Информационные системы и технологии (IST"2004)", Минск, 8 - 10 ноября 2004;

Международной конференции "Modern Problems and new Trends in Probability Theory", Черновцы, Украина, 19 - 26 июня 2005.

Основные результаты работы использовались в НИР "Апология", выполняемой ИТМиВТ РАН им. С. А. Лебедева в интересах Федеральной службы по техническому и экспортному контролю РФ, и вошли в отчет об исполнении этапа НИР /21/. Отдельные результаты диссертации вошли в отчет но НИР "Разработка математических проблем криптографии" Академии криптографии РФ за 2004 г. /22/.

Автор выражает глубокую благодарность научному руководителю доктору физико-математических наук Ронжину А. Ф. и научному консультанту доктору физико-математических наук старшему научному сотруднику Князеву А. В. Автор выражает признательность доктору физико-математических наук профессору Зубкову А. М. и кандидату физико-математических наук Круглову И. А. за внимание, оказанное работе, и ряд ценных замечаний.

Структура и содержание работы.

В первой главе исследуются свойства энтропии и информационного расстояния для распределений на множестве неотрицательных целых чисел.

В первом параграфе первой главы вводятся обозначения и даются необходимые определения. В частности, используются следующие обозначения: х = (:ro,i, ---) - бесконечномерный вектор со счетным количеством компонент;

Н{х) - -Ex^oXvlnx,; trunc m (x) = (х 0 ,х 1 ,...,х т,0,0,...); SI* = {х, х и > 0, и = 0,1,..., Е~ о х„ 0,v = 0,l,...,E? =Q x v = 1}; fi 7 = {х Є О, L 0 vx v = 7}; %] = {хЄП,Ео»х и

16 мі = e о ** v \ &c = Ue>1 | 5 є Q 7) о

Понятно, что множество Vt соответствует семейству вероятностных распределений на множестве неотрицательных целых чисел, П 7 - семейству вероятностных распределений на множестве неотрицательных целых чисел с математическим ожиданием 7-Если у Є Q, то для є > 0 через О е (у) будет обозначаться множество

Оє(у) - {х eO,x v

Во втором параграфе первой главы доказывается теорема об ограниченности энтропии дискретных распределений с ограниченным математическим ожиданием.

Теорема 1. Об ограниченности энтропии дискретных распределений с ограниченным математическим ожиданием. Для любого жбП 7

Если х Є fi 7 соответствует геометрическому распределению с математическим ооісиданием 7 ; то есть

7 х„ = (1- р)р\ v = 0,1,..., где р = --,

1 + 7 то имеет место равенство H(x) = F(1).

На утверждение теоремы можно смотреть как на результат формаль- ного применения метода условных множителей Лагранжа в случае бесконечного количества переменных. Теорема о том, что единственное распределение на множестве {к, к + 1, к + 2,...} с данным математическим ожиданием и максимальной энтропией есть геометрическое распределение с данным математическим ожиданием, приведена (без доказательства) в /47/. Автором, тем не менее, дано строгое доказательство.

В третьем параграфе первой главы дается определение обобщенной метрики - метрики, допускающей бесконечные значения.

Для х,у Є Гі определяется функция р(х,у) как минимальное є > О со свойством y v e~ e

Если такого є не существует, то полагается, что р{х,у) = оо.

Доказывается, что функция р{х,у) - обобщенная метрика на семействе распределений на множестве неотрицательных целых чисел, а также на всем множестве Сі*. Вместо е в определении метрики р{х,у) можно использовать любое другое положительное,число, отличное от 1. Получающиеся при этом метрики будут отличаться на мультипликативную константу. Обозначим через J(x, у) информационное расстояние

Здесь и далее полагается, что 0 In 0 = 0,01п ^ = 0. Информационное расстояние определено для таких х, у, что x v - 0 для всех и таких, что y v = 0. Если это условие не выполнено, то будем полагать J(S,y) = со. Пусть А С $1. Тогда будем обозначать J{Ay)="mU(x,y).

Положим J(Jb,y) = 00.

В четвертом параграфе первой главы дается определение компактности функций, заданных на множестве П*. Компактность функции от счетного числа аргументов означает, что с любой степенью точности значение функции может быть приближено значениями этой функции в точках, где лишь конечное количество аргументов отлично от нуля. Доказывается компактность функций энтропии и информационного расстояния.

Для любого 0

Если для некоторого 0 0 функция \{x) = J(x,p) компактна на множестве Ц 7 ] П О г (р).

В пятом параграфе первой главы рассматриваются свойства информационного расстояния, задаваемого на бесконечномерном пространстве. По сравнению с конечномерным случаем ситуация с непрерывностью функции информационного расстояния качественно меняется. Показывается, что функция информационного расстояния не является непрерывной на множестве Г2 ни в одной из метрик pi(,y)= E|z„-i/„|, (

00 \ 2 р 2 {х,у) = sup {x^-ij^.

Доказывается справедливость следующих неравенств для функций энтропии Н(х) и информационного расстояния J(x,p):

1. Для любых х, х" Є fi \Н{х) - Н{х")\

2. Если для некоторых х,р є П существует є > 0 такое, что х є О є (р), то для любого X і Є Q \J{x,p) - J(x",p)\

Из этих неравенств с учетом теоремы 1 следует равномерная непрерывность функций энтропии и информационного расстояния на соответствующих подмножествах fi в метрике р(х,у), а именно,

Для любого 7 такого, что 0

Если для некоторого 7о, О

20 то для любых 0 0 функция \p{x) = J(x t p) равномерно непрерывна на множестве Ц 7 ] П О є (р) в метрике р(ж,у).

Дается определение неэкстремальности функции. Условие неэкстремальности означает то, что функция не имеет локальных экстремумов, либо функция принимает в локальных минимумах (локальных максимумах) одинаковые значения. Условие неэкстремальности ослабляет требование отсутствия локальных экстремумов. Например, функция sin х на множестве действительных чисел имеет локальные экстремумы, но удовлетворяет условию неэкстремалыюсти.

Пусть для некоторого 7 > 0, область А задается условием

А = {хЄЇ1 1 ,ф(х) >а}, (0.9) где ф(х) - действительнозначная функция, а - некоторая действительная константа, inf ф(х)

И 3у,ался вопрос, п Р „ каких условиях „а ф„ ф при и_ „ара- q метров п, N в центральной области, ^ -> 7, при всех достаточно больших их значениях найдутся такие неотрицательные целые ко, к\,..., к п, что ко + hi + ... + к п = N,

21 k\ + 2/... + nk n - N

Kq k\ k n . ^"iv"-"iv" 0 " 0 "-")>a -

Доказывается, что для этого от функции ф достаточно потребовать неэкстремальное, компактности и непрерывности в метрике р(х,у), а также того, что хотя бы для одной точки х, удовлетворяющей (0.9), для некоторого є > 0 существует конечный момент степени 1 + є Ml + = і 1+є х и 0 для любого и = 0,1,....

Во второй главе исследуется грубая (с точностью до логарифмической эквивалентности) асимптотика вероятности больших уклонений функций от Д = (fio,..., ц п, 0,...) - числа ячеек с заданным заполнением в центральной области изменения параметров N,n. Грубой асимптотики вероятностей больших уклонений достаточно для изучения индексов критериев согласия.

Пусть случайные величины ^ в (0.2) одинаково распределены и

Р{Сі = к}=р ь к = 0,1,... > P(z) - производящая функция случайной величины i - сходится в круге радиуса 1

22 Обозначим р(.) = (р{ад = о},Р№) = і},...).

Если существует решение z 1 уравнения

М(*) = 7, то оно единственно /38/. Всюду в дальнейшем будем предполагать, что Pjfc>0,fc = 0,l,....

В первом пункте первого параграфа второй главы находится асимптотика логарифмов вероятностей вида -т^1пР{й) = ^,...,/ = К}-

Доказывается следующая теорема.

Теорема 2. Грубая локальная теорема о вероятностях больших уклонений. Пусть п, N -* со так, что - ->7>0

Утверждение теоремы следует непосредственно из формулы для совместного распределения /to, А*ь / в /26/ и следующей оценки: если неотрицательные целочисленные величины fii,fi2,/ удовлетворяют условию /І1 + 2// 2 + ... + 71/ = 71, то число ненулевых величин среди них есть 0(л/п). Это грубая оценка, не претендующая на новизну. Число ненулевых ц г в обобщенных схемах размещения не превосходит величины максимального заполнения ячеек, которое в центральной области с вероятностью, стремящейся к 1, не превосходит величины 0(\пп) /25/,/27/. Тем не менее, полученная оценка 0(у/п) выполняется с вероятностью 1 и ее достаточно для получения грубой асимптотики.

Во втором пункте первого параграфа второй главы находится значение предела где адг - последовательность действительных чисел, сходящаяся к некоторому а Є R, ф(х) - действительнозначная функция. Доказывается следующая теорема.

Теорема 3. Грубая интегральная теорема о вероятностях больших уклонений. Пусть выполнены условия теоремы 2, для некоторых г > 0, (> 0 действительная функция ф{х) компактна, равномерно непрерывна в метрике р на мноэюестве

А = О гН (р{г 1))пП ьн] и удовлетворяет условию неэкстремальности на множестве Г2 7 . Если для некоторой константы а такой, что inf ф(х)

24 существует вектор р а fi 7 П 0 r (p(z 7)) ; такой, что

Ф{ра) > а J{{ {x) >а,хЄ П 7 },р(2; 7)) = J(p a ,p(^y)), mo длл любой последовательности а^, сходящейся к а, ^-^\пР{ф(^,^,...)>а м } = Пр а,р(г,)). (0.11)

При дополнительных ограничениях на функцию ф(х) информационное расстояние J{pa,P{zy)) в (2.3) удается вычислить более конкретно. А именно, справедлива следующая теорема. Теорема 4. Об информационном расстоянии. Пусть для некоторого 0

Ли некоторвх г > 0, С > 0 действительная функция ф{х) и ее частные производные первого порядка компактны и равномерно непрерывны в обобгценной метрике р{х, у) на множестве

А = О г {р)ПП ьн] , существуют Т > 0, R > 0, такие, что для всех \t\ О p v v 1+ z u ехр{і--ф{х)}

0(р(гаЛ)) = а, / ч X v \Z,t) T, u= oX LJ {Z,t)

Тогда p(z a , t a) Є ft, u J({z Є Л,0(ж) = а},р) = J(p(z a ,t a),p) д _ 9 = 7111 + t a «-^ОФаЛ)) - In 2Wexp{ a --0(р(г а,і а))}. j/=0 CnEi/ ^_o CX(/

Если функция ф(х) - линейная функция, и функция fix) определена при помощи равенства (0.5), то условие (0.12) превращается в условие Крамера для случайной величины f{,{z)). Условие (0.13) есть форма условия (0.10) и используется при доказательстве наличия в областях вида {х Є Г2, ф(х) > а} хотя бы одной точки из 0(n, N) при всех достаточно больших п, N.

Пусть v («)(n,iV) = (/гі,... ,/ijv) - вектор частот в обобщенной схеме размещения (0.2). В качестве следствия из теорем 3, 4 формулируется следующая теорема.

Теорема 5. Грубая интегральная теорема о вероятностях больших уклонений симметричных разделимых статистик в обобщенной схеме размещения.

Пусть п, N -> со так, что jfr - 7» 0 0,R > 0 такие, что для всех \t\ Тогда для любой последовательности а#, сходящейся к а, 1 і iv =

Эта теорема впервые была доказана А. Ф. Ронжиным в /38/ с использованием метода перевала.

Во втором параграфе второй главы исследуются вероятности больших уклонений разделимых статистик в обобщенных cxj^iax разме- v ^ щения в случае невыполнения условию Крамера для случайной величины /((z)). Условие Крамера для случайной величины f{,(z)) не выполняется, в частности, если (z) - пуассоновская случайная величина, а /(х) = х 2 . Заметим, что условие Крамера для самих разделимых статистик в обобщенных схемах размещения выполняется всегда, так как при любых фиксированных п, N число возможных исходов в этих схемах конечно.

Как отмечено в /2/, если условие Крамера не выполнено, то для отыскания асимптотики вероятностей больших уклонений сумм одинаково рас- пределеипых случайных величин требуется выполнение дополнительных, fусловий правильного изменения на распределение слагаемого. В работе (рассматривается случай, соответствующий выполнению условия (3) в /2/, то есть семиэкспоненциальный случай. Пусть P{i = к} > О для всех

28 к = 0,1,... и функцию р(к) = -\пР{^ = к}, можно продолжить до функции непрерывного аргумента - правильно меняющейся функции порядка р, 0 оо P(tx) , r v P(t)

Пусть функция f(x) при достаточно больших значениях аргумента - положительная строго возрастающая, правильно меняющаяся функция порядка д>1,^На остальной числовой оси

Тогда с. в. /(i) имеет моменты любого порядка и не удовлетворяет условию Крамера, ip(x) = о(х) при х -> оо, и справедлива следующая Теорема 6. Пусть при достаточно больших х функция ip(x) монотонно не убывает, функция ^р монотонно не возрастает, п, N --> оо так, что jf - А, 0 b{z\), где b(z) = М/(1(2)), существует предел &Щ 1пР{ь " (л(п,лг)) > cN] = " (с ~ b{zx))l Ь»"ї

Из теоремы б следует, что при невыполнении условия Крамера предел (^ lim ~\nP{L N (h(n,N)) > cN} = 0, "" Dv

Л/-too iV и что доказывает справедливость гипотезы, высказанной в /39/. Таким обра- ъ зом, значение индекса критерия согласия в обобщенных схемах размещения -^ при невыполнении условия Крамера всегда равно нулю. При этом в классе критериев, когда условие Крамера выполняется, строятся критерии с ненулевым значением индекса. Отсюда можно сделать вывод, что использовать критерии, статистика которых не удовлетворяет условию Крамера, например, критерий хи-квадрат в полиномиальной схеме, для построения критериев согласия для проверки гипотез при несближающихся альтернативах в указанном смысле асимптотически неэффективно. Подобный вывод был сделан в /54/ по результатам сравнения статистик хи-квадрат и отношения максимального правдоподобия в полиномиальной схеме.

В третьей главе решается задача построения критериев согласия с наибольшим значением индекса критерия (наибольшим значением нижнего индекса критерия) для проверки гипотез в обобщенных схемах размещения. На основе результатов первой и второй глав о свойствах функций энтропии, информационного расстояния и вероятностей больших уклонений в третьей главе находится функция вида (0.4) такая, что критерий согласия, построенный на ее основе, имеет наибольшее значение точного нижнего индекса в рассматриваемом классе критериев. Доказывается следующая теорема. Теорема 7. О существовании индекса. Пусть выполнены условия теоремы 3, 0 ,... - последовательность альтернативных распределений, 0^(/3, iV) - максимальное число, для которого при гипотезе Н Р (ло выполнено неравенство

Р{ф(^^,...)>а ф (Р,М)}>(3, существует предел limjv-»oo о>ф{Р, N) - а. Тогда в точке (/З, Н) существует индекс критерия ф

Зфф,К) = 3{{ф{х) >а,хе ЗД.Р^)).

При этом зф(0,й)N NP{e(2 7) = fc}"

В Заключении излагаются полученные результаты в их соотношении с общей целью и конкретными задачами, поставленными в диссертации, формулируются выводы но результатам диссертационного исследования, указываются научная новизна, теоретическая и практическая ценность работы, а также конкретные научные задачи, которые выявлены автором и решение которых представляется актуальным.

Краткий обзор литературы по теме исследования.

В диссертационной работе рассматривается задача построения критериев согласия в обобщенных схемах размещения с наибольшим значением индекса критерия в классе функций вида (0.4) при несближающихся альтернативах.

Обобщенные схемы размещения были введены В. Ф. Колчиным в /24/. Величины fi r в полиномиальной схеме были названы числом ячеек с г дробинками и подробно изучены в монографии В. Ф. Колчина, Б. А. Севастьянова, В. П. Чистякова /27/. Величины \і г в обобщенных схемах размещения исследовались В. Ф. Колчиным в /25/,/26/. Статистики вида (0.3) впервые были рассмотрены Ю. И. Медведевым в /30/ и получили название разделимых (аддитивно разделимых) статистик. Если функции /„ в (0.3) не зависят от и, такие статистики были названы в /31/ симметричными разделимыми статистиками. Асимптотика моментов разделимых статистик в обобщенных схемах размещения была получена Г. И. Ивченко в /9/. Предельные теоремы для обобщенной схемы размещения рассматривались также в /23/. Обзоры результатов предельных теоремах и критериях согласия в дискретных вероятностых схемах типа (0.2) были даны В. А. Ивановым, Г. И. Ивченко, Ю. И. Медведевым в /8/ и Г. И. Ивченко, Ю. И. Медведевым, А. Ф. Ронжиным в /14/. Критерии согласия для обобщенных схем размещения были рассмотрены А. Ф. Ронжиным в /38/.

Сравнение свойств статистических критериев в указанных работах проводилось с точки зрения относительной асимптотической эффективности. Рассматривались случае сближающихся (контигуальных) гипотез - эффективность в смысле Питмена и несближающихся гипотез - эффективность в смысле Бахадура, Ходжеса - Лемана и Чернова. Связь между различными видами относительной эффективности статистических критериев обсуждается, например, в /49/. Как следует из результатов Ю. И. Медведева в /31/ о распределении разделимых статистик в полиномиаль- ной схеме, наибольшую асимптотическую мощность при сближающихся гипотезах в классе разделимых статистик от частот исходов в полиномиальной схеме имеет критерий, основанный на основе статистики хи-квадрат. Данный результат был обобщен А. Ф. Ронжиным для схем типа (0.2) в /38/. И. И. Викторовой и В. П. Чистяковым в /4/ построен оптимальный критерий для полиномиальной схемы в классе линейных функций от fi r . А. Ф. Ронжин в /38/ построил критерий, который при последовательности несближающихся с нулевой гипотезой альтернатив минимизирует логарифмическую скорость стремления вероятности ошибки первого рода к нулю, в классе статистик вида (0.6). Сравнение относительной эффективности статистик хи-квадрат и отношения максимального правдоподобия при сближающихся и несближающихся гипотезах было проведено в /54/. В диссертационной работе рассматривался случай несближающися гипотез. Изучение относительной статистической эффективности критериев при несближающихся гипотезах требует исследования вероятностей сверхбольших уклонений - порядка 0(у/п). Впервые такая задача для полиномиального распределения с фиксированным количеством исходов решалась И. Н. Сановым в /40/. Асимптотическая оптимальность критериев согласия для проверки простых и сложных гипотез для полиномиального распределения в случае конечного числа исходов при несближающихся альтернативах рассматривалась в /48/. Свойства информационного расстояния ранее рассматривались Кульбаком, Лейблером /29/,/53/ и И. II. Сановым /40/, а также Хеффдингом /48/. В указанных работах непрерывность информационного расстояния рассматривалась на конечномер- ных пространствах в евклидовой метрике. Рядом автором рассматривалась последовательность пространств с растущей размерностью, например, в работе Ю. В. Прохорова /37/ или в работе В. И. Богачева, А. В. Колесникова /1/. Грубые (с точностью до логарифмической эквивалентности) теоремы о вероятностях больших уклонений разделимых статистик в обобщенных схемах размещения при выполнении условия Крамера были получены А. Ф. Роижиным в /38/. А. Н. Тимашевым в /42/,/43/ получены точные (с точностью до эквивалентности) многомерные интегральные и локальные предельные теоремы о вероятностях больших уклонений вектора fir^n, N),..., fi rs (n,N), где s, гі,..., r s - фиксированные целые числа,

Статистические задачи проверки гипотез и оценивания параметров в схеме выбора без возвращения в несколько иной постановке рассматривались Г. И. Ивченко, В. В. Левиным, Е. Е. Тимониной /10/, /15/, где решались задачи оценивания для конечной совокупности, когда число ее элементов является неизвестной величиной, доказывалась асимптотическая нормальность многомерных S - статистик от s независимых выборок в схеме выбора без возвращения. Задача изучения случайных величин, свя- занных с повторениями в последовательностях независимых испытаний исследовалась А. М. Зубковым, В. Г. Михайловым, А. М. Шойтовым в /6/, /7/, /32/, /33/, /34/. Анализ основных статистических задач оценивания и проверки гипотез в рамках общей модели Маркова-Пойа проведен Г. И. Ивченко, Ю. И. Медведевым в /13/, вероятностный анализ которой был дан в /11/. Способ задания неравновероятиых мер на множестве комбинаторных объектов, не сводимый к обобщенной схеме размещения (0.2) был описан в Г. И. Ивченко, Ю. И. Медведевым /12/. Ряд задач теории вероятностей, в которых ответ может быть получен в результате вычислений но рекуррентным формулам, указан А. М. Зубковым в /5/.

Неравенства для энтропии дискретных распределений были получены в /50/ (цитируется но реферату А. М. Зубкова в РЖМат). Если {p n }Lo - распределение вероятностей,

Рп = Е Рк, к=п A = supp^Pn+i

Я + (In -f-) (Х Рп - Р п+1)

Рп= {x f 1)n+v n>Q. (0.15)

Заметим, что экстремальное распределение (0.15) есть геометрическое распределение с математическим ожиданием Л, а функция F(X) от параметра (0.14) совпадает с функцией от математического ожидания в теореме 1.

Энтропия дискретных распределений с ограниченным математическим ожиданием

Если индекс критерия существует, то нижний индекс критерия совпадает с ним. Нижний индекс критерия существует всегда. Чем больше значения индекса критерия (нижнего индекса критерия), тем лучше в рассматриваемом смысле статистический критерий. В /38/ была решена задача построения критериев согласия для обобщенных схем размещения с наибольшим значением индекса критерия в классе критериев, которые отклоняют гипотезу Ho(n,N) при где т 0 - некоторое фиксированное число, последовательность постоянных едг выбирается, исходя из заданного значения мощности критерия при последовательности альтернатив, фт - действительная функция от т + 1 аргументов.

Индексы критериев определяются вероятностями больших уклонений. Как было показано в /38/, грубая (с точностью до логарифмической эквивалентности) асимптотика вероятностей больших уклонений разделимых статистик при выполнении условия Крамера для случайной величины /() определяется соответствующим информационным расстоянием Куль-бака - Лейблера - Санова (случайная величина ц удовлетворяет условию Крамера, если для некоторого # 0 производящая функция моментов Mef7? конечна в интервале \t\ Н /28/).

Вопрос о вероятностях больших уклонений статистик от неограни ченного числа fir, а также произвольных разделимых статистик, не удовлетворяющих условию Крамера, оставался открытым. Это не позволяло окончательно решить задачу построения критериев для проверки гипотез в обобщенных схемах размещения с наибольшей скоростью стремления к нулю вероятности ошибки первого рода при пссближающихся альтернативах в классе критериев, основанных на статистиках вида (0.4). Актуальность диссертационного исследования определяется необходимостью завершить решение указанной задачи.

Целью диссертационной работы является построение критериев согласия с наибольшим значением индекса критерия (нижнего индекса критерия) для проверки гипотез в схеме выбора без возращения в классе критериев, которые отклоняют гипотезу Щ{п, N) при где ф - функция от счетного количества аргументов, и параметры п, N изменяются в центральной области. В соответствии с целью исследования были поставлены следующие задачи: - исследовать свойства энтропии и информационного расстояния Куль-бака - Лейблера - Санова для дискретных распределений со счетным количеством исходов; - исследовать вероятности больших уклонений статистик вида (0.4); - исследовать вероятности больших уклонений симметричных разделимых статистик (0.3), не удовлетворяющих условию Крамера; - найти такую статистику, что построенный на ее основе критерий со гласия для проверки гипотез в обобщенных схемах размещения имеет наибольшее значение индекса в классе критериев вида (0.7). Научная новизна: - дано понятие обобщенной метрики - функции, допускающей бесконечные значения и удовлетворяющей аксиомам тождества, симметрии и неравенства треугольника. Найдена обобщенная метрика и указаны множества, на которых функции энтропии и информационного расстояния, заданные на семействе дискретных распределений со счетным числом исходов, непрерывны в этой метрике; - в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений статистик вида (0.4), удовлетворяющих соответствующей форме условия Крамера; - в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера; - в классе критериев вида (0.7) построен критерий с наибольшим значением индекса критерия. Научная и практическая ценность. В работе решен ряд вопросов о поведении вероятностей больших уклонений в обобщенных схемах размещения. Полученные результаты могут быть использованы в учебном процессе по специальностям математическая статистика и теория информации, при исследовании статистических процедур анализа дискретных последовательностях и были использованы в /3/, /21/ при обосновании защищенности одного класса информационных систем. Положения, выносимые на защиту: - сведение задачи проверки по единственной последовательности цветов шаров гипотезы от том, что эта последовательность получена в результате выбора без возвращения до исчерпания шаров из урны, содержащей шары двух цветов, и каждый такой выбор имеет одинаковую вероятность, к построению критериев согласия для проверки гипотез в соответствующей обобщенной схеме размещения; - непрерывность функций энтропии и информационного расстояния Кульбака - Лейблера - Санова на бесконечномерном симплексе с введенной логарифмической обобщенной метрикой; - теорема о грубой (с точностью до логарифмической эквивалентности) асимптотике вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера в обобщенной схеме размещения в семиэксионенциалыюм случае;

Непрерывность информационного расстояния Кульбака - Лейблера - Санова

Обобщенные схемы размещения были введены В. Ф. Колчиным в /24/. Величины fir в полиномиальной схеме были названы числом ячеек с г дробинками и подробно изучены в монографии В. Ф. Колчина, Б. А. Севастьянова, В. П. Чистякова /27/. Величины \іг в обобщенных схемах размещения исследовались В. Ф. Колчиным в /25/,/26/. Статистики вида (0.3) впервые были рассмотрены Ю. И. Медведевым в /30/ и получили название разделимых (аддитивно разделимых) статистик. Если функции /„ в (0.3) не зависят от и, такие статистики были названы в /31/ симметричными разделимыми статистиками. Асимптотика моментов разделимых статистик в обобщенных схемах размещения была получена Г. И. Ивченко в /9/. Предельные теоремы для обобщенной схемы размещения рассматривались также в /23/. Обзоры результатов предельных теоремах и критериях согласия в дискретных вероятностых схемах типа (0.2) были даны В. А. Ивановым, Г. И. Ивченко, Ю. И. Медведевым в /8/ и Г. И. Ивченко, Ю. И. Медведевым, А. Ф. Ронжиным в /14/. Критерии согласия для обобщенных схем размещения были рассмотрены А. Ф. Ронжиным в /38/.

Сравнение свойств статистических критериев в указанных работах проводилось с точки зрения относительной асимптотической эффективности. Рассматривались случае сближающихся (контигуальных) гипотез - эффективность в смысле Питмена и несближающихся гипотез - эффективность в смысле Бахадура, Ходжеса - Лемана и Чернова. Связь между различными видами относительной эффективности статистических критериев обсуждается, например, в /49/. Как следует из результатов Ю. И. Медведева в /31/ о распределении разделимых статистик в полиномиальной схеме, наибольшую асимптотическую мощность при сближающихся гипотезах в классе разделимых статистик от частот исходов в полиномиальной схеме имеет критерий, основанный на основе статистики хи-квадрат. Данный результат был обобщен А. Ф. Ронжиным для схем типа (0.2) в /38/. И. И. Викторовой и В. П. Чистяковым в /4/ построен оптимальный критерий для полиномиальной схемы в классе линейных функций от fir. А. Ф. Ронжин в /38/ построил критерий, который при последовательности несближающихся с нулевой гипотезой альтернатив минимизирует логарифмическую скорость стремления вероятности ошибки первого рода к нулю, в классе статистик вида (0.6). Сравнение относительной эффективности статистик хи-квадрат и отношения максимального правдоподобия при сближающихся и несближающихся гипотезах было проведено в /54/. В диссертационной работе рассматривался случай несближающися гипотез. Изучение относительной статистической эффективности критериев при несближающихся гипотезах требует исследования вероятностей сверхбольших уклонений - порядка 0(у/п). Впервые такая задача для полиномиального распределения с фиксированным количеством исходов решалась И. Н. Сановым в /40/. Асимптотическая оптимальность критериев согласия для проверки простых и сложных гипотез для полиномиального распределения в случае конечного числа исходов при несближающихся альтернативах рассматривалась в /48/. Свойства информационного расстояния ранее рассматривались Кульбаком, Лейблером /29/,/53/ и И. II. Сановым /40/, а также Хеффдингом /48/. В указанных работах непрерывность информационного расстояния рассматривалась на конечномерных пространствах в евклидовой метрике. Рядом автором рассматривалась последовательность пространств с растущей размерностью, например, в работе Ю. В. Прохорова /37/ или в работе В. И. Богачева, А. В. Колесникова /1/. Грубые (с точностью до логарифмической эквивалентности) теоремы о вероятностях больших уклонений разделимых статистик в обобщенных схемах размещения при выполнении условия Крамера были получены А. Ф. Роижиным в /38/. А. Н. Тимашевым в /42/,/43/ получены точные (с точностью до эквивалентности) многомерные интегральные и локальные предельные теоремы о вероятностях больших уклонений вектора

Исследование вероятностей больших уклонений при невыполнении условия Крамера для случая независимых случайных величин проведено в работах А. В. Нагаева /35/. Метод сопряженных распределений описан у Феллера /45/.

Статистические задачи проверки гипотез и оценивания параметров в схеме выбора без возвращения в несколько иной постановке рассматривались Г. И. Ивченко, В. В. Левиным, Е. Е. Тимониной /10/, /15/, где решались задачи оценивания для конечной совокупности, когда число ее элементов является неизвестной величиной, доказывалась асимптотическая нормальность многомерных S - статистик от s независимых выборок в схеме выбора без возвращения. Задача изучения случайных величин, связанных с повторениями в последовательностях независимых испытаний исследовалась А. М. Зубковым, В. Г. Михайловым, А. М. Шойтовым в /6/, /7/, /32/, /33/, /34/. Анализ основных статистических задач оценивания и проверки гипотез в рамках общей модели Маркова-Пойа проведен Г. И. Ивченко, Ю. И. Медведевым в /13/, вероятностный анализ которой был дан в /11/. Способ задания неравновероятиых мер на множестве комбинаторных объектов, не сводимый к обобщенной схеме размещения (0.2) был описан в Г. И. Ивченко, Ю. И. Медведевым /12/. Ряд задач теории вероятностей, в которых ответ может быть получен в результате вычислений но рекуррентным формулам, указан А. М. Зубковым в /5/.

Информационное расстояние и вероятности больших уклонений разделимых статистик

Когда условие Крамера не выполняется, большие уклонения разделимых статистик в обобщенной схеме размещения в рассмотренном семиэкспоненциальном случае определяются вероятностью уклонения одного независимого слагаемого. Когда условие Крамера выполняется, это, как подчеркивалось в /39/, не так. Замечание 10. Функция ф(х) такова, что математическое ожидание Ее АЫ) конечно при 0 t 1 и бесконечно при t 1. Замечание 11. Для разделимых статистик, не удовлетворяющих условию Крамера, предел (2.14) равен 0, что доказывает справедливость гипотезы, высказанной в /39/. Замечание 12. Для статистики хи-квадрат в полиномиальной схеме при п, ./V - со так, что - А, из теоремы непосредственно следует, что Этот результат был получен в /54/ непосредственно. В настоящей главе в центральной области изменения параметров обобщенных схем размещения частиц по ячейкам были найдены грубые (с точностью до логарифмической эквивалентности) асимптотики вероятностей больших уклонений аддитивно-разделимых статистик от заиолнеия ячеек и функций от числа ячеек с заданным заполнением.

Если условие Крамера выполняется, то грубая асимптотика вероятностей больших уклонений определяется грубой асимптотикой вероятностей попадания в последовательность точек с рациональными координатами, сходящихся в указанном выше смысле к точке, в которой достигается экстремум соответствующего информационного расстояния.

Был рассмотрен семиэкспоненциальный случай невыполнения услоия Крамера для случайных величины /(i),..., /(лг), где ъ, лг - независимые случайные величины, порождающие обобщенную схему размее-ния (0.2), f(k) - функция в определении симметричной аддитивно разделимой статистики в (0.3). То есть предполагалось, что функции р(к) = - lnP{i = к} и f(k) могут быть продолжены до правильно меняющихся функций непрерывного аргумента порядка р 0 и q 0 соответственно и р q . Оказалось, что основной вклад в грубую асимптотику вероятностей больших уклонений разделимых статистик в обобщенных схемах размещения аналогичнымобразом вносит грубая асимптотика вероятности ионадания в соответствующую последовательность точек. Интересно отметить, что ранее теорема о вероятностях больших уклонений для разделимых статистик доказывалась с использованием метода перевала, причем основной вклад в асимптотику вносила единственная точка перевала. Остался неисследованным случай, когда при невыполнении условия Крамера не выполняется условие 2-кН.

Если условие Крамера не выполняется, то указанное условие может не выполняться только в случае р 1. Как непосредственно следует из логариф-мироания соответствующих вероятностной, для распределения Пуассона и геометрического распределения р=1. Из результата об асимптотике вероятностей больших уклонений при невыполнении условия Крамера можно сделать вывод, что критерии, статистика которых не удовлетворяет условию Крамера, имеют существенно меньшую скорость стреимления к нулю вероятностей ошибок второго рода при фиксированной вероятности ошибки первого рода и несближающихся пльтернативах по сравнению с критериями, статистика которых удовлетворяет условию Крамера. Пусть из урны, содержащей N - 1 1 белых ип-JV 1 черных шаров производится выбор без возвращения до олпого исчерпания. Свяжем места белых шаров в выборе 1 i\ ... г -і п - 1 с последовательностью расстояний между соседними белыми шарами hi,..., h следующим образом: Тогда hv l,v =1,... ,N,M EjLi i/ - n- Зададим на множестве векторов h = (hi,..., Лдг) вероятностное распределение, положив V{hv = rv,v = l,...,N) где i,... ,лг - независимые неотрицательные целочисленные случайные величины (с. в.), то есть рассмотрим обобщенную схему размещения (0.2). Распределение вектора h зависит от n,N, но соответствующие индексы там, где это возможно, будут опускаться для упрощения записи. Замечание 14. Если каждому из (]) способов выбора шаров из урны приписана одна и та же вероятность { \) тп для любых г і,..., гдг таких, что г„ 1,и = l,...,N,T,v=\ru = п, вероятность того, что расстояния между соседними белыми шарами в выборе примут эти значения

Критерии, основанные на числе ячеек в обобщенных схемах размещения

Целью диссертационной работы было построения критериев согласия для проверки гипотез в схеме выбора без возвращения из урны, содержащей шары 2 цветов. Автором было решено изучать статистики, построенные на основе частот расстояний между шарами одного цвета. В такой постановке задача была сведена, к задаче проверки гипотез в подходящей обобщенной схеме размещения.

В диссертационной работе были - исследованы свойства энтропии и информационного расстояния дискретных распределений с неограниченным количеством исходов при ограниченном математическом ожидании; - получена грубая (с точностью до логарифмической эквивалентности) асимптотика вероятностей больших уклонений широкого класса статистик в обобщенной схеме размещения; - на основе полученных результатов построена функция критерия с наибольшей логарифмической скоростью стремления к нулю вероятности ошибки первого рода при фиксированной вероятности ошибки второго рода и несближающихся альтернативах; - доказано, что статистики, не удовлетворяющие условию Крамера, имеют меньшую скорость стремления к нулю вероятностей больших уклонений по сравнению со статистиками, удовлетворяющими такому условию. Научная новизна работы заключается в следующем. - дано понятие обобщенной метрики - функции, допускающей бесконечные значения и удовлетворяющей аксиомам тождества, симметрии и неравенства треугольника. Найдена обобщенная метрика и указаны множества, на которых функции энтропии и информационного расстояния, заданные на семействе дискретных распределений со счетным числом исходов, непрерывны в этой метрике; - в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений статистик вида (0.4), удовлетворяющих соответствующей форме условия Крамера; - в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера; - в классе критериев вида (0.7) построен критерий с наибольшим значением индекса критерия. В работе решен ряд вопросов о поведении вероятностей больших уклонений в обобщенных схемах размещения. Полученные результаты могут быть использованы в учебном процессе по специальностям математическая статистика и теория информации, при исследовании статистических процедур анализа дискретных последовательностях и были использованы в /3/, /21/ при обосновании защищенности одного класса информационных систем. Однако, ряд вопросов остается открытым. Автор ограничился рассмотрением центральной зоны изменения параметров n,N обобщенных схем размещения п частиц по./V ячейкам. Если носитель распределения случайных величин, порождающие обобщенную схему размещения (0.2), не есть множество вида г, г 4-1, г + 2,..., то при доказательстве непрерывности функции информационного расстояния и исследовании вероятностей больших уклонений требуется учитывать арифметическую структуру такого носителя, что в работе автора не рассматривалось. Для практического применения критериев, построенных на основе предлагаемой функции с максимальным значением индекса, требуется изучение ее распределения как при нулевой гипотезе, так и при альтернативах, в том числе и сближающихся. Интерес представляет также перенос разработанных методов и обобщение полученных результатов на другие вероятностные схемы, отличные от обобщенных схем размещения. Если //1,/ 2,-.. - частоты расстояний между номерами исхода 0 в биномиальной схеме с вероятностями исходов рої 1 -POj то можно показать, что в этом случае Из анализа формулы для совместного распределение величин \іт в обобщенной схеме размещения, доказанной в /26/, следует, что распределение (3.3), вообще говоря, не может быть представлено в общем случае как совместное распределение величин цг в какой-либо обобщенной схеме размещения частиц по ячейкам. Данное распределение является частным случаем распределений на множестве комбинаторных объектов, введенных в /12/. Представляется актуальной задачей перенос результатов диссертационной работы для обобщенных схем размещения на этот случай, что и обсуждалось в /52/.

Определение . Направление, определяемое ненулевым вектором называется асимптотическимнаправлением относительно линии второго порядка, если любая прямая этого направления (то есть параллельная вектору ) либо имеет с линией не более одной общей точки, либо содержится в этой линии.

? Сколько общих точек может быть у линии второго порядка и прямой асимптотического направления относительно этой линии?

В общей теории линий второго порядка доказывается, что если

То ненулевой вектор ( задаёт асимптотическое направление относительно линии

(общий критерий асимптотического направления ).

Для линий второго порядка

если , то нет асимптотических направлений,

если то существует два асимптотических направления,

если то существует только одно асимптотическое направление.

Полезной оказывается следующая лемма (критерий асимптотического направления линии параболического типа ).

Лемма . Пусть - линия параболического типа.

Ненулевой вектор имеет асимптотическое направление

относительно . (5)

(Задача. Доказать лемму.)

Определение . Прямая асимптотического направления называется асимптотой линии второго порядка, если эта прямая либо не пересекается с , либо содержится в ней.

Теорема . Если имеет асимптотическое направление относительно , то асимптота, параллельная вектору , определяется уравнением

Заполняем таблицу.

ЗАДАЧИ .

1. Найти векторы асимптотических направлений для следующих линий второго поря дка:

4 - гиперболического типа два асимптотических направления.

Воспользуемся критерием асимптотического направления:

Имеет асимптотическое направление относительно данной линии 4 .

Если =0, то =0, то есть - нулевой. Тогда Поделим на Получаем квадратное уравнение: , где t = . Решаем это квадратное уравнение и находим два решения: t = 4 и t = 1. Тогда асимптотические направления линии .

(Можно рассмотреть два способа, так как линия – параболического типа.)

2. Выясните, имеют ли оси координат асимптотические направления относительно линий второго порядка:

3. Напишите общее уравнение линии второго порядка, для которой

а) ось абсцисс имеет асимптотическое направление;

б) Обе оси координат имеют асимптотические направления;

в) оси координат имеют асимптотические направления и О – центр линии.

4. Напишите уравнения асимптот для линий:

а) ng w:val="EN-US"/>y=0"> ;

5. Докажите, что если линия второго порядка имеет две непараллельные асимптоты, то их точка пересечения является центром данной линии.

Указание: Так как есть две непараллельные асимптоты, то существует два асимптотических направления, тогда , а, значит, линия – центральная.

Запишите уравнения асимптот в общем виде и систему для нахождения центра. Всё очевидно.

6.(№920) Напишите уравнение гиперболы, проходящей через точку А(0, -5) и имеющей асимптоты х – 1 = 0 и 2х – y + 1 = 0.

Указание . Воспользуйтесь утверждением предыдущей задачи.

Домашнее задание . , №915(в,д,е), №916 (в,г,д), №920 (если не успели);

Шпаргалки;

Силаев, Тимошенко. Практические задания по геометрии,

1 семестр. С.67, вопросы 1-8, с.70, вопросы 1-3 (устно).

ДИАМЕТРЫ ЛИНИИ ВТОРОГО ПОРЯДКА.

СОПРЯЖЕННЫЕ ДИАМЕТРЫ.

Дана аффинная система координат .

Определение. Диаметром линии второго порядка, сопряженным вектору не асимптотического направления относительно , называется множество середин всех хорд линии , параллельных вектору .

На лекции доказано, что диаметр – это прямая и получено её уравнение

Рекомендации : Показать (на эллипсе), как строится (задаём не асимптотическое направление; проводим [две] прямые этого направления, пересекающие линию; находим середины отсекаемых хорд; проводим через середины прямую – это и есть диаметр).

Обсудить:

1. Почему в определении диаметра берётся вектор не асимптотического направления. Если не могут ответить, то попросите построить диаметр, например, для параболы.

2. Любая ли линия второго порядка имеет хотя бы один диаметр? Почему?

3. На лекции доказано, что диаметр – это прямая. Серединой какой хорды является точка М на рисунке?


4. Посмотрите на скобки в уравнении (7). Что они напоминают?

Вывод: 1) каждый центр принадлежит каждому диаметру;

2) если существует прямая центров, то существует единственный диаметр.

5. Какое направление имеют диаметры линии параболического типа? (Асимптотическое)

Доказательство (наверно, на лекции).

Пусть диаметр d, заданный уравнением (7`) сопряжен вектору не асимптотического направления. Тогда его направляющий вектор

(-(), ). Покажем, что этот вектор имеет асимптотическое направление. Воспользуемся критерием вектора асимптотического направления для линии параболического типа (см.(5)). Подставляем и убеждаемся (не забываем, что .

6. Сколько диаметров у параболы? Их взаимное расположение? Сколько диаметров у остальных линий параболического типа? Почему?

7. Как построить общий диаметр некоторых пар линий второго порядка (см. вопросы 30, 31 далее).

8. Заполняем таблицу, обязательно делаем рисунки.

1. . Напишите уравнение множества середин всех хорд, параллельных вектору

2. Напишите уравнение диаметра d, проходящего через точку К(1,-2) для линии .

Этапы решения :

1-й способ .

1. Определяем тип (чтобы знать, как ведут себя диаметры этой линии).

В данном случае линия центральная, тогда все диаметры проходят через центр С.

2. Составляем уравнение прямой, проходящей через две точки К и С. Это и есть искомый диаметр.

2-й способ .

1. Записываем уравнение диаметра d в виде (7`).

2. Подставив в это уравнение координаты точки К, находим зависимость между координатами вектора, сопряженного диаметру d.

3. Задаём этот вектор, учитывая найденную зависимость, и составляем уравнение диаметра d.

В данной задаче вычислять проще вторым способом.

3. . Напишите уравнение диаметра, параллельного оси абсцисс.

4. Найдите середину хорды, отсекаемой линией

на прямой x + 3y – 12 =0.

Указание к решению : Конечно, можно найти точки пересечения данных прямой и линии , а затем – середину полученного отрезка. Желание сделать так отпадает, если взять, к примеру, прямую с уравнением х +3у – 2009 =0.

Глоссарий

К разделу 7

Автоковариация (autocovariance) - для стационарного ряда Xt ковариация случайных величинXt9 Xt+T9 у(т) Cov(Xn Xt+T).

Автокорреляционная функция {autocorrelation Junction -ACF) - для стационарного рядаXt - последовательность его автокорреляций р(т) = Corr(Xt9 Xt+ г), г = 0,1, 2,...

Автокорреляция (autocorrelation), коэффициент автокорреляции (autocorrelation coefficient) - для стационарного ряда Xt коэффициент корреляции случайных величин Хп Xt+T, р(т) = Corr(Xt, Xt+T).

Белый шум (white noise), процесс белого шума (white noise process) - стационарный случайный процесс Xt с нулевым средним и ненулевой дисперсией,

для которого Corr(Xt, Xs) = 0 при t Ф s.

«Более экономные» модели (more parsimonious models) - среди некоторой совокупности альтернативных моделей временного ряда модели с наименьшим количеством коэффициентов, подлежащих оцениванию.

Временной ряд (time series) - ряд значений некоторой переменной, измеренных в последовательные моменты времени. Под временным рядом понимается также случайный процесс с дискретным временем (случайная последовательность), реализацией которого является наблюдаемый ряд значений.

Выборочная автокорреляционная функция (SACF - sample ACF) - последовательность выборочных автокорреляций г (к), & = 0, 1,2,строящихся по имеющейся реализации временного ряда. Анализ этой последовательности помогает идентифицировать процесс скользящего среднего и его порядок.

Выборочная частная автокорреляционная функция (SPACF-sample PACF) - последовательность выборочных частных автокорреляций rpart(k), к = 0, 1, 2, строящихся по имеющейся реализации временного ряда. Анализ этой последовательности помогает идентифицировать процесс скользящего среднего и его порядок.

Выборочные автокорреляции {sample autocorrelations) - оценки автокорреляций р(к) случайного процесса, построенные по имеющейся реализации временного ряда. Один из вариантов оценки автокорреляции р{к) имеет вид:

T-kf?x " И)У t+k И) у (к) 1 т

где p = x = - ^xt - оценка для р = E{Xt), ] т-к

у (к) = y](xt p)(xt+k р) - оценка для автоковариации у{к).

Выборочные частные автокорреляции {sample partial autocorrelations) - оценки частных автокорреляций ррап{т) случайного процесса, построенные по имеющейся реализации временного ряда.

Гауссовский белый шум {Gaussian white noise process) - процесс белого шума, одномерные распределения которого являются нормальными распределениями с нулевым математическим ожиданием.

Гауссовский случайный процесс {Gaussian process) - случайный процесс, у которого для любого целого m > О и любого набора моментов времени tx < t2 < ... < tm совместные распределения случайных величин Xti, Xtm являются m-мерными нормальными распределениями.

Инновация {innovation) - текущее значение случайной ошибки в правой части соотношения, определяющего процесс авторегрессии Хг Инновация не

коррелирована с запаздывающими значениямиXt_k9 к= 1, 2, ... Последовательные значения инноваций (инновационная последовательность) образуют процесс белого шума.

Информационный критерий Акаике {Akaike information criterion - АІС) - один из критериев выбора «наилучшей» модели среди нескольких альтернативных моделей. Среди альтернативных значений порядка модели авторегрессии выбирается значение, которое минимизирует величину

о 2к А1С(£) = 1п0£2+у,

Оценка дисперсии инноваций єг в AR модели к-то порядка.

Критерий Акаике асимптотически переоценивает (завышает) истинное значение к0 с ненулевой вероятностью.

Информационный критерий Хеннана - Куинна (Hannan-Quinn information criterion - HQC) - один из критериев выбора «наилучшей» модели среди нескольких альтернативных моделей. Среди альтернативных значений порядка модели авторегрессии выбирается значение, которое минимизирует величину

UQ(k) = In а2к + к - ,

где Т - количество наблюдений;

(т£ - оценка дисперсии инноваций st в AR модели А>го порядка.

Критерий обладает достаточно быстрой сходимостью к истинному значению к0 при Т -» оо. Однако при небольших значениях Т этот критерий недооценивает порядок авторегрессии.

Информационный критерий Шварца (Schwarz information criterion - SIC) - один из критериев выбора «наилучшей» модели среди нескольких альтернативных моделей. Среди альтернативных значений порядка модели авторегрессии выбирается значение, которое минимизирует величину

SIC(£) = lno>2+Ar-,

где Т - количество наблюдений;

а? - оценка дисперсии инноваций st в AR модели А:-го порядка.

Коррелограмма (correlogram) - для стационарного ряда: график зависимости значений автокорреляций р(т) стационарного ряда от т. Коррелограммой называют также пару графиков, приводящихся в протоколах анализа данных в различных пакетах статистического анализа: графика выборочной автокорреляционной функции и графика выборочной частной автокорреляционной функции. Наличие этих двух графиков помогает идентифицировать модель ARMA, порождающую имеющийся ряд наблюдений.

Обратный прогноз (backcasting) - прием получения более точной аппроксимации условной функции правдоподобия при оценивании модели скользящего среднего MA(q):

Xt = et + bxst_x + b2st_2 + ... + bqet_q9 bq Ф0,

по наблюдениям xl9 ..., хт. Результат максимизации (no bx, bl9 ..., bq) условной функции правдоподобия, соответствующей наблюдаемым значениям хХ9х29 ...9хт при фиксированных значениях є09 є_Х9 є_д+Х9 зависит от выбранных значений б*0, е_є_д+1. Если процесс MA(q) обратим, то можно положить 6*0 = є_х = ... = s_q+x = 0. Но для улучшения качества оценивания можно методом обратного прогноза «оценить» значения є09 е_Х9 є_д+х и использовать оцененные значения в условной функции правдоподобия. Оператор запаздывания (lag operator - L)9 оператор обратного сдвига (back-shift operator) - оператор, определяемый соотношением: LXt = Xt_x. Удобен для компактной записи моделей временных рядов и для формулирования условий, обеспечивающих те или иные свойства ряда. Например, с помощью этого оператора уравнение, определяющее модель ARMA(p, q)

Xt = Z ajxt-j + Z bj£t-j > <*Р*ъ>ъч* О,

может быть записано в виде: a(L) Xt = Ь(Ь)єп где

a(L) = 1 (axL + a2L2 + ... + apLp

b(L)=l+blL + b2L2 + ... + bqLq.

Проблема общих множителей (common factors) - наличие общих множителей у многочленов a(L) и b(L)9 соответствующих AR и МА составляющим модели ARMA:

Наличие общих множителей в спецификации модели ARMA затрудняет практическую идентификацию модели по ряду наблюдений.

Процесс авторегрессии первого порядка (first-order autoregressive process, AR(1)) - случайный процесс, текущее значение которого является суммой линейной функции от запаздывающего на один шаг значения процесса и случайной ошибки, не коррелированной с прошлыми значениями процесса. При этом последовательность случайных ошибок образует процесс белого шума.

Процесс авторегрессии порядка р (pth-order autoregressive process - AR(p)) - случайный процесс, текущее значение которого является суммой линейной функции от запаздывающих на р шагов и менее значений процесса и случайной ошибки, не коррелированной с прошлыми значениями процесса. При этом последовательность случайных ошибок образует процесс белого шума.

Процесс скользящего среднего порядка q (qth-order moving average process - MA(g)) - случайный процесс, текущее значение которого является линейной функцией от текущего значения некоторого процесса белого шума и запаздывающих на р шагов и менее значений этого процесса белого шума.

Разложение Вольда (Wold"s decomposition) - представление стационарного в широком смысле процесса с нулевым математическим ожиданием в виде суммы процесса скользящего среднего бесконечного порядка и линейно детерминированного процесса.

Сезонная авторегрессия первого порядка (SAR(l) - first order seasonal auto-regression) - случайный процесс, текущее значение которого является линейной функцией от запаздывающего на S шагов значения этого процесса и случайной ошибки, не коррелированной с прошлыми значениями процесса. При этом последовательность случайных ошибок образует процесс белого шума. Здесь S = 4 для квартальных данных, S = 12 для месячных данных.

Сезонное скользящее среднее первого порядка (SMA(l) - first order seasonal moving average) - случайный процесс, текущее значение которого равно сумме линейной функции от текущего значения некоторого процесса белого шума и запаздывающего на S шагов значения этого процесса белого шума. При этом последовательность случайных ошибок образует процесс белого шума. Здесь 5 = 4 для квартальных данных, 5=12 для месячных данных.

Система уравнений Юла - Уокера (Yule - Walker equations) - система уравнений, связывающая автокорреляции стационарного процесса авторегрессии порядка р с его коэффициентами. Система позволяет последовательно находить значения автокорреляций и дает возможность, используя первые р уравнений, выразить коэффициенты стационарного процесса авторегрессии через значения первых р автокорреляций, что можно непосредственно использовать при подборе модели авторегрессии к реальным статистическим данным.

Случайный процесс с дискретным временем (discrete-time stochastic process, discrete-time random process) - последовательность случайных величин, соответствующих наблюдениям, произведенным в последовательные моменты времени, имеющая определенную вероятностную структуру.

Смешанный процесс авторегрессии - скользящего среднего, процесс авторегрессии с остатками в виде скользящего среднего (autoregressive moving average, mixed autoregressive moving average - ARMA(p, q)) - случайный процесс, текущее значение которого является суммой линейной функции от запаздывающих на р шагов и менее значений процесса и линейной функции от текущего значения некоторого процесса белого шума и запаздывающих на q шагов и менее значений этого процесса белого шума.

Статистика Бокса - Пирса (Box-Pierce Q-statistic) - один из вариантов g-ста-тистик:

Є = г£г2(*),

Статистика Люнга - Бокса (Ljung-Box Q-statistic) - один из вариантов g-ста-тистик, более предпочтительный по сравнению со статистикой Бокса - Пирса:

где Т - количество наблюдений; г (к)- выборочные автокорреляции.

Используется для проверки гипотезы о том, что наблюдаемые данные являются реализацией процесса белого шума.

Стационарный в широком смысле (wide-sense stationary), слабо стационарный (weak-sense stationary, weakly stationary), стационарный второго порядка (second-order stationary), ковариационно стационарный (covari-ance-stationary) случайный процесс (stochastic process) - случайный процесс с постоянным математическим ожиданием, постоянной дисперсией и инвариантными по гковариациями случайных величинXt,Xt+T:

Cov(Xt,Xt+T) = r(r).

Строго стационарный, стационарный в узком смысле (strictly stationary, strict-sense stationary) случайный процесс (stochastic process) - случайный процесс с инвариантными по г совместными распределениями случайных величинXh+T, ...,+Т.

Условие обратимости процессов MA(q) и ARMA(p, q) (invertibility condition) - для процессов Xt вида MA(g): Xt = b(L)st или ARMA(p, q): a(L)(Xt ju) = = b(L)st - условие на корни уравнения b(z) = О, обеспечивающее существование эквивалентного представления процесса Xt в виде процесса авторегрессии бесконечного порядка AR(oo):

Условие обратимости: все корни уравнения b(z) = О лежат вне единичного круга |z| < 1.

Условие стационарности процессов AR(p) и ARMA(p, q) (stationarity condition) - для процессов Xt вида AR(p): a(L)(Xt ju) = et или ARMA(p, q) a(L)(Xt ju) = = b(L)st - условие на корни уравнения a(z) = 0, обеспечивающее стационарность процесса Хг Условие стационарности: все корни уравнения b(z) = О лежат вне единичного круга |z| < 1. Если многочлены a(z) и b(L) не имеют общих корней, то это условие является необходимым и достаточным условием стационарности процесса Хг

Частная автокорреляционная функция (PACF - partial autocorrelation function) - для стационарного ряда последовательность частных автокорреляций ррап(г), т = 0, 1,2,...

Частная автокорреляция (РАС - partial autocorrelation) - для стационарного ряда значение ppart(r) коэффициента корреляции между случайными величинами Xt nXt+k, очищенными от влияния промежуточных случайных величин Xt+l9...9Xt+k_Y.

Этап диагностики модели (diagnostic checking stage) - диагностика оцененной модели ARMA, выбранной на основании имеющегося ряда наблюдений.

Этап идентификации модели (identification stage) - выбор модели порождения ряда на основании имеющегося ряда наблюдений, определение порядков р и q модели ARMA.

Этап оценивания модели {estimation stage) - оценивание коэффициентов модели ARMA, подобранной на основании имеющегося ряда наблюдений.

(7-статистики (Q-statistics) - статистики критериев, используемых для проверки гипотезы о том, что наблюдаемые данные являются реализацией процесса белого шума.

К разделу 8

Векторная авторегрессия порядкар (ph-order vector autoregression - VAR(p)) - модель порождения группы временных рядов, в которой текущее значение каждого ряда складывается из постоянной составляющей, линейных комбинаций запаздывающих (до порядка р) значений данного ряда и остальных рядов и случайной ошибки. Случайные ошибки в каждом уравнении не коррелированы с запаздывающими значениями всех рассматриваемых рядов. Случайные векторы, образованные ошибками в разных рядах в один и тот же момент времени, являются независимыми, одинаково распределенными случайными векторами, имеющими нулевые средние.

Долговременная (long-run) связь - устанавливающаяся с течением времени определенная связь между переменными, по отношению к которой происходят достаточно быстрые осцилляции.

Долгосрочные мультипликаторы (long-run multipliers, equilibrum multipliers) - в динамической модели с авторегрессионно распределенными запаздываниями - коэффициенты сх,cs долгосрочной зависимости переменной от экзогенных переменных хи, xst. Коэффициент Cj отражает изменение значения yt при изменении на единицу текущего и всех предыдущих значений переменной xjt.

Импульсные мультипликаторы (impact multiplier, short-run multiplier) - в динамической модели с авторегрессионно распределенными запаздываниями - величины, показывающие влияние единовременных (импульсных) изменений значений экзогенных переменных хи, xst на текущее и последующие значения переменной jr

Кросс-ковариации (cross-covariances) - коэффициенты корреляции между значениями разных компонент векторного ряда в совпадающие или несовпадающие моменты времени.

Кросс-ковариационная функция (cross-covariance function) - последовательность кросс-корреляций двух компонент стационарного векторного ряда.

Модели с авторегрессионно распределенными запаздываниями (autoregressive distributed lag models - ADL) - модели, в которых текущее значение объясняемой переменной является суммой линейной функции от нескольких запаздывающих значений этой переменной, линейных комбинаций текущих и нескольких запаздывающих значений объясняющих переменных и случайной ошибки.

Передаточная функция (transfer function) - матричная функция, устанавливающая влияние единичных изменений в экзогенных переменных на эндогенные переменные.

Процесс порождения данных (data generating process - DGP) - вероятностная модель, в соответствии с которой порождаются наблюдаемые статистические данные. Процесс порождения данных, как правило, неизвестен исследователю, анализирующему данные. Исключением являются ситуации, когда исследователь сам выбирает процесс порождения данных и получает искусственные статистические данные, имитируя выбранный процесс порождения данных.

Статистическая модель (statistical model - SM) - выбранная для оценивания модель, структура которой предположительно соответствует процессу порождения данных. Выбор статистической модели производится на основании имеющейся экономической теории, анализа имеющихся в распоряжении статистических данных, анализа результатов более ранних исследований.

Стационарный векторный (АГ-мерный) ряд (K-dimensional stationary time series) - последовательность случайных векторов размерности К, имеющих одинаковые векторы математических ожиданий и одинаковые ковариационные матрицы, для которой перекрестные корреляции (кросс-корреляции) между значением к-й компоненты ряда в момент t и значением 1-й компоненты ряда в момент (t + s) зависят только от s.

К разделу 9

Гипотеза единичного корня (UR - unit root hypothesis) - гипотеза, формулируемая в рамках модели ARMA(^, q): a(L)Xt = b(L)cr Гипотеза о наличии у авторегрессионного полинома a(L) модели ARMA хотя бы одного корня, равного 1. При этом обычно предполагается, что у полинома a(L) отсутствуют корни, по модулю меньшие 1.

Дифференцирование (differencing) - переход от ряда уровней Xt к ряду разностей Xt Xt_v Последовательное дифференцирование ряда дает возможность устранить стохастический тренд, имеющийся в исходном ряде.

Интегрированный порядка к (integrated of order к) ряд - ряд Хп который не является стационарным или стационарным относительно детерминированного тренда (т.е. не является TS-рядом) и для которого ряд, полученный в результате ^-кратного дифференцирования ряда Хп является стационарным, но ряд, полученный в результате (к 1)-кратного дифференцирования рядаХг, не является ГЯ-рядом.

Коинтеграционная связь (cointegration) - долгосрочная связь между несколькими интегрированными рядами, характеризующая равновесное состояние системы этих рядов.

Модель коррекции ошибок (error-correction model) - комбинация краткосрочной и долгосрочной динамических регрессионных моделей при наличии коинтеграционной связи между интегрированными рядами.

Оператор дифференцирования (difference operator) - оператор А, переводящий ряд уровней Xt в ряд разностей:

Передифференцированный ряд (overdifferenced time series) - ряд, полученный в результате дифференцирования Г5-ряда. Последовательное дифференцирование ГО-ряда помогает устранить детерминированный полиномиальный тренд. Однако дифференцирование Г^-ряда имеет некоторые нежелательные последствия при подборе модели по статистическим данным и использовании подобранной модели для целей прогнозирования будущих значений ряда.

Разностно стационарные, ЛУ-ряды (DS - difference stationary time series) - интегрированные ряды различных порядков к= 1,2, ... Приводятся к стационарному ряду однократным или многократным дифференцированием, но не могут приводиться к стационарному ряду вычитанием детерминированного тренда.

Ряд типа ARIMA(p, A, q) (ARIMA - autoregressive integrated moving average) - временной ряд, который в результате ^-кратного дифференцирования приводится к стационарному ряду ARMA(p, q).

Ряды, стационарные относительно детерминированного тренда, Г5-ряды

(TS - trend-stationary time series) - ряды, становящиеся стационарными после вычитания из них детерминированного тренда. В класс таких рядов включаются и стационарные ряды без детерминированного тренда.

Случайное блуждание, процесс случайного блуждания (random walk) - случайный процесс, приращения которого образуют процесс белого шума: AXt st, так что Xt = Xt_ х + єг

Случайное блуждание со сносом, случайное блуждание с дрейфом (random walk with drift) - случайный процесс, приращения которого являются суммой константы и процесса белого шума: AXt = Xt Xt_ х = а + st, так что Xt = Xt_x + а + єг Константа а характеризует постоянно присутствующий при переходе к следующему моменту времени снос траекторий случайного блуждания, на который накладывается случайная составляющая.

Стохастический тренд (stochastic trend) - временной ряд Zt, для которого

Z, = єх + є2 + ... + et. Значение случайного блуждания в момент t равно t

Xt = Х0 + ^ є8, так что Xt Х0 = єх + є2 + ... + єг Иными словами, модель

стохастического тренда - процесс случайного блуждания, «выходящего из начала координат» (для него Х0 = 0).

Шок инновации (shock innovation) - единовременное (импульсное) изменение инновации.

Эффект Слуцкого (Slutsky effect) - эффект образования ложной периодичности при дифференцировании ряда, стационарного относительно детерминированного тренда. Например, если исходный ряд представляет собой сумму детерминированного линейного тренда и белого шума, то продифференцированный ряд не имеет детерминированного тренда, но оказывается автокоррелированным.

^-гипотеза (TS hypothesis) - гипотеза о том, что рассматриваемый временной ряд является стационарным или рядом, стационарным относительно детерминированного тренда.

К разделу 10

Долговременная дисперсия (long-run varance) - для ряда щ с нулевым математическим ожиданием определяется как предел

Var(ux +... + ит)

Г-юс Т T-+OD

Критерии Дики - Фуллера (Dickey-Fuller tests) - группа статистических критериев для проверки гипотезы единичного корня в рамках моделей, предполагающих нулевое или ненулевое математическое ожидание временного ряда, а также возможное наличие у ряда детерминированного тренда.

При применении критериев Дики - Фуллера чаще всего оцениваются статистические модели

рAxt = а + (3t + cpxt_x + +є*> t = P + h---,T,

Axt =a + cpxt_x + ^0jAxt_j +£*, t = /7 + 1,..., Г,

Axt = cpxt_x + ]T 6j Axt_j +єп t = p +1,..., T.

Полученные при оценивании этих статистических моделей значения /-статистик / для проверки гипотезы Н0: ср = О сравниваются с критическими значениями /крит, зависящими от выбора статистической модели. Гипотеза единичного корня отвергается, если f < /крит.

Критерий Квятковского - Филлипса - Шмидта - Шина (KPSS test) - критерий для различения DSи Г5-рядов, в котором в качестве нулевой берется га-гипотеза.

Критерий Лейбурна (Leybourne test) - критерий для проверки гипотезы единичного корня, статистика которого равна максимальному из двух значений статистики Дики - Фуллера, полученных по исходному ряду и по ряду с обращенным временем.

Критерий Перрона (Perron test) - критерий для проверки нулевой гипотезы о принадлежности ряда классу DS, обобщающий процедуру Дики - Фуллера на ситуации, когда на периоде наблюдений имеются структурные изменения модели в некоторый момент времени Тв в форме либо сдвига уровня (модель «краха»), либо изменения наклона тренда (модель «изменения роста»), либо сочетания этих двух изменений. При этом предполагается, что момент Тв определяется экзогенным образом - в том смысле, что он не выбирается на основании визуального исследования графика ряда, а связывается с моментом известного масштабного изменения экономической обстановки, существенно отражающегося на поведении рассматриваемого ряда.

Гипотеза единичного корня отвергается, если наблюдаемое значение статистики ta критерия оказывается ниже критического уровня, т.е. если

Асимптотические распределения и критические значения для статистик ta9 первоначально приведенные Перроном, верны для моделей с инновационными выбросами.

Критерий Филлипса - Перрона (Phillips-Perron test) - критерий, сводящий проверку гипотезы о принадлежности ряда xt классу DS-рядов к проверке гипотезы Я0: ср= О в рамках статистической модели

SM: kxt=a + f3t + (pxt_x+un t = 2,...,T,

где, как и в критерии Дики - Фуллера, параметры an рмогут быть взяты равными нулю.

Однако в отличие от критерия Дики - Фуллера к рассмотрению допускается более широкий класс временных рядов.

Критерий основывается на Г-статистике для проверки гипотезы Н0: <р = О, но использует вариант этой статистики Zn скорректированный на возможную автокоррелированность и гетероскедастичность ряда иг

Критерий Шмидта - Филлипса (Schmidt-Phillips test) - критерий для проверки гипотезы единичного корня в рамках модели

где wt = jSwt_x + st; t - 2,Г;

у/ - параметр, представляющий уровень; £ - параметр, представляющий тренд.

Критерий DF-GLS (DF-GLS test) - критерий, асимптотически более мощный, чем критерий Дики - Фуллера.

Куртозис (kurtosis) - коэффициент пикообразности распределения.

Модель аддитивного выброса (additive outlier) - модель, в которой при переходе через дату излома Тв ряд yt сразу начинает осциллировать вокруг нового уровня (или новой линии тренда).

Модель инновационного выброса (innovation outlier) - модель, в которой после перехода через дату излома Тв процесс yt лишь постепенно выходит на новый уровень (или к новой линии тренда), вокруг которого начинает происходить осцилляция траектории ряда.

Многовариантная процедура проверки гипотезы единичного корня (Dolado, Jenkinson, Sosvilla-Rivero) - формализованная процедура использования критериев Дики - Фуллера с последовательной проверкой возможности редукции исходной статистической модели, в качестве которой рассматривается модель

РAxt = а + fit + (pxt_x + ^0jAxt-j +£7> t = P + h---9T.

Предпосылкой для использования формализованной многовариантной процедуры является низкая мощность критериев единичного корня. В связи с этим в многовариантной процедуре предусмотрены повторные проверки гипотезы единичного корня в более простых моделях с меньшим числом оцениваемых параметров. Это увеличивает вероятность правильного отвержения гипотезы единичного корня, но сопровождается потерей контроля над уровнем значимости процедуры.

Обобщенный критерий Перрона (generalized Perron test) - предложенный Зиво-том и Эндрюсом (относящийся к инновационным выбросам) безусловный критерий, в котором датировка точки смены режима производится в «автоматическом режиме», путем перебора всех возможных вариантов датировки и вычисления для каждого варианта датировки /-статистики ta для проверки гипотезы единичного корня; в качестве оцененной даты берется такая, для которой значение ta оказывается минимальным.

Процедура Кохрейна, отношение дисперсий (variance ratio test) - процедура различения TSи /)5-рядов, основанная на специфике поведения для этих

рядов отношения VRk = -, где Vk = -D(Xt -Xt_k).

Стандартное броуновское движение (standard Brownian motion) - случайный процесс W(r) с непрерывным временем, являющийся непрерывным аналогом дискретного случайного блуждания. Это процесс, для которого:

приращения (W(r2) W(r{)),(W(rk) W(rk_x)) независимы в совокупности, если 0 < rx < г2 < ... < гк и W(s) W(r) ~ N(0, s г) при s > г;

реализации процесса W(r) непрерывны с вероятностью 1.

Ширина окна (window size) - количество выборочных автоковариаций ряда, используемых в оценке Ньюи - Веста для долговременной дисперсии ряда. Недостаточная ширина окна ведет к отклонениям от номинального размера критерия (уровня значимости). В то же время увеличение ширины окна, для того чтобы избежать отклонений от номинального размера критерия, ведет к падению мощности критерия.

Двумерный гауссовский белый шум (two-dimentional Gaussian white noise) - последовательность независимых, одинаково распределенных случайных векторов, имеющих двумерное нормальное распределение с нулевым математическим ожиданием.

Детерминистская коинтеграция (stochastic cointegration) - существование для группы интегрированных рядов их линейной комбинации, аннулирующей стохастический и детерминированный тренды. Ряд, представляемый этой линейной комбинацией, является стационарным.

Идентификация коинтегрирующих векторов (identification of the cointegrating vectors) - выбор базиса коинтеграционного пространства, состоящего из коинтегрирующих векторов, имеющих разумную экономическую интерпретацию.

Коинтеграционное пространство (cointegrating space) - совокупность всех возможных коинтегрирующих векторов для коинтегрированной системы рядов.

Коинтегрированные временные ряды, коинтегрированные в узком смысле временные ряды (cointegrated time series) - группа временных рядов, для которой существует нетривиальная линейная комбинация этих рядов, являющаяся стационарным рядом.

Коинтегрирующий вектор (cointegrating vector) - вектор коэффициентов нетривиальной линейной комбинации нескольких рядов, являющейся стационарным рядом.

Критерий максимального собственного значения (maximum eigenvalue test) - критерий, который в процедуре Йохансена оценивания ранга коинтеграции г системы интегрированных (порядка 1) рядов используется для проверки гипотезы Н0:г = г* против альтернативной гипотезы НА: г = г* + 1.

Критерий следа (trace test) - критерий, который в процедуре Йохансена оценивания ранга коинтеграции г системы интегрированных (порядка 1) рядов используется для проверки гипотезы Н0: г = г* против альтернативной гипотезы НА:г> г*.

Общие тренды (common trends) - группа рядов, управляющих стохастической нестационарностью системы коинтегрированных рядов.

Причинность по Грейнджеру (Granger causality) - факт улучшения качества прогноза значения yt переменной Y в момент t по совокупности всех прошлых значений этой переменной при учете прошлых значений некоторой другой переменной.

Пять ситуаций в процедуре Йохансена - пять ситуаций, от которых зависят критические значения статистик критериев отношения правдоподобий, используемых в процедуре Йохансена оценивания ранга коинтеграции системы интегрированных (порядка 1) рядов:

Н2(г): в данных нет детерминированных трендов, в СЕ не включаются ни константа, ни тренд;

Н*(г): в данных нет детерминированных трендов,

в СЕ включается константа, но не включается тренд;

Нх (г): в данных есть детерминированный линейный тренд, в СЕ включается константа, но не включается тренд;

Н*(г) в данных есть детерминированный линейный тренд, в СЕ включаются константа и линейный тренд;

Н(г): в данных есть детерминированный квадратичный тренд, в СЕ включаются константа и линейный тренд.

(Здесь СЕ - коинтеграционное уравнение.)

При фиксированном ранге г перечисленные 5 ситуаций образуют цепочку вложенных гипотез:

Н2(г) с Н*(г) с Я, (г) с Нг) с Н{г).

Это дает возможность, используя критерий отношения правдоподобий, проверять выполнение гипотезы, стоящей левее в этой цепочке, в рамках гипотезы, расположенной непосредственно справа.

Ранг коинтеграции (cointegrating rank) - максимальное количество линейно независимых коинтегрирующих векторов для заданной группы рядов, ранг коинтеграционного пространства.

Стохастическая коинтеграция (stochastic cointegration) - существование для группы интегрированных рядов линейной комбинации, аннулирующей стохастический тренд. Ряд, представляемый этой линейной комбинацией, не содержит стохастического тренда, но может иметь детерминированный тренд.

Треугольная система Филлипса (Phillips"s triangular system) - представление системы TV коинтегрированных рядов с рангом коинтеграции г в виде системы уравнений, первые г из которых описывают зависимость г выделенных переменных от остальных (N г) переменных (общих трендов), а остальные уравнения описывают модели порождения общих трендов.

TV-мерный гауссовский белый шум (N-dimentional Gaussian white noise) - последовательность независимых, одинаково распределенных случайных векторов, имеющих TV-мерное нормальное распределение с нулевым математическим ожиданием.