Нормальное распределение и центральная предельная теорема.

В вероятностно-статистических методах принятия решений часто идет речь о нормальном распределении. Иногда его пытаются использовать для моделирования распределения исходных данных (эти попытки не всегда являются обоснованными – см. ниже). Более существенно, что многие методы обработки данных основаны на том, что расчетные величины имеют распределения, близкие к нормальному.

Пусть X1, X2,…, Xn, …– независимые одинаково распределенные случайные величины с математическими ожиданиями M(Xi) = m и дисперсиями D(Xi) =

, i = 1, 2,…, n,… Как следует из результатов предыдущей главы,

Рассмотрим приведенную случайную величину Un для суммы

, а именно,

Как следует из формул (7), M(Un) = 0, D(Un) = 1.

Центральная предельная теорема (для одинаково распределенных слагаемых). Пусть X1, X2,…, Xn, …– независимые одинаково распределенные случайные величины с математическими ожиданиями M(Xi) = m и дисперсиями D(Xi) =

, i = 1, 2,…, n,… Тогда для любого х существует предел

где Ф(х) – функция стандартного нормального распределения.

Подробнее о функции Ф(х) – ниже (читается «фи от икс», поскольку Ф – греческая прописная буква «фи»).

Центральная предельная теорема (ЦПТ) носит свое название по той причине, что она является центральным, наиболее часто применяющимся математическим результатом теории вероятностей и математической статистики. История ЦПТ занимает около 200 лет – с 1730 г., когда английский математик А.Муавр (1667-1754) опубликовал первый результат, относящийся к ЦПТ (см. ниже о теореме Муавра-Лапласа), до двадцатых – тридцатых годов ХХ в., когда финн Дж.У. Линдеберг, француз Поль Леви (1886-1971), югослав В. Феллер (1906-1970), русский А.Я. Хинчин (1894-1959) и другие ученые получили необходимые и достаточные условия справедливости классической центральной предельной теоремы.

Развитие рассматриваемой тематики на этом отнюдь не прекратилось – изучали случайные величины, не имеющие дисперсии, т.е. те, для которых

(академик Б.В.Гнеденко и др.), ситуацию, когда суммируются случайные величины (точнее, случайные элементы) более сложной природы, чем числа (академики Ю.В.Прохоров, А.А.Боровков и их соратники), и т.д.

Функция распределения Ф(х) задается равенством

,

где

— плотность стандартного нормального распределения, имеющая довольно сложное выражение:

.

Здесь

=3,1415925… — известное в геометрии число, равное отношению длины окружности к диаметру, e = 2,718281828… — основание натуральных логарифмов (для запоминания этого числа обратите внимание, что 1828 – год рождения писателя Л.Н.Толстого). Как известно из математического анализа,

При обработке результатов наблюдений функцию нормального распределения не вычисляют по приведенным формулам, а находят с помощью специальных таблиц или компьютерных программ. Лучшие на русском языке «Таблицы математической статистики» составлены членами-корреспондентами АН СССР Л.Н. Большевым и Н.В.Смирновым.

Вид плотности стандартного нормального распределения

вытекает из математической теории, которую не имеем возможности здесь рассматривать, равно как и доказательство ЦПТ.

Для иллюстрации приводим небольшие таблицы функции распределения Ф(х) (табл.2) и ее квантилей (табл.3). Функция Ф(х) симметрична относительно 0, что отражается в табл.2-3.

Таблица 2.

Функция стандартного нормального распределения.

х Ф(х) х Ф(х) х Ф(х)
-5,0 0,00000029 -1,0 0,158655 2,0 0,9772499
-4,0 0,00003167 -0,5 0,308538 2,5 0,99379033
-3,0 0,00134990 0,0 0,500000 3,0 0,99865010
-2,5 0,00620967 0,5 0,691462 4,0 0,99996833
-2,0 0,0227501 1,0 0,841345 5,0 0,99999971
-1,5 0,0668072 1,5 0,9331928    

Если случайная величина Х имеет функцию распределения Ф(х), то М(Х) = 0, D(X) = 1. Это утверждение доказывается в теории вероятностей, исходя из вида плотности вероятностей

. Оно согласуется с аналогичным утверждением для характеристик приведенной случайной величины Un, что вполне естественно, поскольку ЦПТ утверждает, что при безграничном возрастании числа слагаемых функция распределения Un стремится к функции стандартного нормального распределения Ф(х), причем при любом х.

Таблица 3.

Квантили стандартного нормального распределения.

р Квантиль порядка р р Квантиль порядка р
0,01 -2,326348 0,60 0,253347
0,025 -1,959964 0,70 0,524401
0,05 -1,644854 0,80 0,841621
0,10 -1,281552 0,90 1,281552
0,30 -0,524401 0,95 1,644854
0,40 -0,253347 0,975 1,959964
0,50 0,000000 0,99 2,326348

Введем понятие семейства нормальных распределений. По определению нормальным распределением называется распределение случайной величины Х, для которой распределение приведенной случайной величины есть Ф(х). Как следует из общих свойств масштабно-сдвиговых семейств распределений (см. выше), нормальное распределение – это распределение случайной величины

,

где Х – случайная величина с распределением Ф(Х), причем m = M(Y),

= D(Y). Нормальное распределение с параметрами сдвига m и масштаба

обычно обозначается N(m,

) (иногда используется обозначение N(m,

)).

Как следует из (8), плотность вероятности нормального распределения N(m,

) есть

Нормальные распределения образуют масштабно-сдвиговое семейство. При этом параметром масштаба является d = 1/

, а параметром сдвига c = — m/

.

Для центральных моментов третьего и четвертого порядка нормального распределения справедливы равенства

Эти равенства лежат в основе классических методов проверки того, что результаты наблюдений подчиняются нормальному распределению. В настоящее время нормальность обычно рекомендуется проверять по критерию W Шапиро – Уилка. Проблема проверки нормальности обсуждается ниже.

Если случайные величины Х1 и Х2 имеют функции распределения N(m1,

1) и N(m2,

2) соответственно, то Х1 + Х2 имеет распределение

Следовательно, если случайные величины X1, X2,…, Xn независимы и имеют одно и тоже распределение N(m,

), то их среднее арифметическое

имеет распределение N(m,

). Эти свойства нормального распределения постоянно используются в различных вероятностно-статистических методах принятия решений, в частности, при статистическом регулировании технологических процессов и в статистическом приемочном контроле по количественному признаку.

С помощью нормального распределения определяются три распределения, которые в настоящее время часто используются при статистической обработке данных.

Распределение

(хи — квадрат) – распределение случайной величины

где случайные величины X1, X2,…, Xn независимы и имеют одно и тоже распределение N(0,1). При этом число слагаемых, т.е. n, называется «числом степеней свободы» распределения хи – квадрат.

Распределение t Стьюдента – это распределение случайной величины

где случайные величины U и X независимы, U имеет распределение стандартное нормальное распределение N(0,1), а X – распределение хи – квадрат с n степенями свободы. При этом n называется «числом степеней свободы» распределения Стьюдента. Это распределение было введено в 1908 г. английским статистиком В. Госсетом, работавшем на фабрике, выпускающей пиво. Вероятностно-статистические методы использовались для принятия экономических и технических решений на этой фабрике, поэтому ее руководство запрещало В. Госсету публиковать научные статьи под своим именем. Таким способом охранялась коммерческая тайна, «ноу-хау» в виде вероятностно-статистических методов, разработанных В. Госсетом. Однако он имел возможность публиковаться под псевдонимом «Стьюдент». История Госсета — Стьюдента показывает, что еще сто лет менеджерам Великобритании была очевидна большая экономическая эффективность вероятностно-статистических методов принятия решений.

Распределение Фишера – это распределение случайной величины

где случайные величины Х1 и Х2 независимы и имеют распределения хи – квадрат с числом степеней свободы k1 и k2 соответственно. При этом пара (k1, k2) – пара «чисел степеней свободы» распределения Фишера, а именно, k1 – число степеней свободы числителя, а k2 – число степеней свободы знаменателя. Распределение случайной величины F названо в честь великого английского статистика Р.Фишера (1890-1962), активно использовавшего его в своих работах.

Выражения для функций распределения хи — квадрат, Стьюдента и Фишера, их плотностей и характеристик, а также таблицы можно найти в специальной литературе (см., например, ).

Как уже отмечалось, нормальные распределения в настоящее время часто используют в вероятностных моделях в различных прикладных областях. В чем причина такой широкой распространенности этого двухпараметрического семейства распределений? Она проясняется следующей теоремой.

Центральная предельная теорема (для разнораспределенных слагаемых). Пусть X1, X2,…, Xn,… — независимые случайные величины с математическими ожиданиями М(X1), М(X2),…, М(Xn), … и дисперсиями D(X1), D(X2),…, D(Xn), … соответственно. Пусть

Тогда при справедливости некоторых условий, обеспечивающих малость вклада любого из слагаемых в Un,

для любого х.

Условия, о которых идет речь, не будем здесь формулировать. Их можно найти в специальной литературе (см., например, ). «Выяснение условий, при которых действует ЦПТ, составляет заслугу выдающихся русских ученых А.А.Маркова (1857-1922) и, в особенности, А.М.Ляпунова (1857-1918)» [9, с.197].

Центральная предельная теорема показывает, что в случае, когда результат измерения (наблюдения) складывается под действием многих причин, причем каждая из них вносит лишь малый вклад, а совокупный итог определяется аддитивно, т.е. путем сложения, то распределение результата измерения (наблюдения) близко к нормальному.

Иногда считают, что для нормальности распределения достаточно того, что результат измерения (наблюдения) Х формируется под действием многих причин, каждая из которых оказывает малое воздействие. Это не так. Важно, как эти причины действуют. Если аддитивно – то Х имеет приближенно нормальное распределение. Если мультипликативно (т.е. действия отдельных причин перемножаются, а не складываются), то распределение Х близко не к нормальному, а к т.н. логарифмически нормальному, т.е. не Х, а lg X имеет приблизительно нормальное распределение. Если же нет оснований считать, что действует один из этих двух механизмов формирования итогового результата (или какой-либо иной вполне определенный механизм), то про распределение Х ничего определенного сказать нельзя.

Из сказанного вытекает, что в конкретной прикладной задаче нормальность результатов измерений (наблюдений), как правило, нельзя установить из общих соображений, ее следует проверять с помощью статистических критериев. Или же использовать непараметрические статистические методы, не опирающиеся на предположения о принадлежности функций распределения результатов измерений (наблюдений) к тому или иному параметрическому семейству.

Январь 24, 2019 Психология труда, инженерная психология, эргономика
Еще по теме
ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА (CENTRAL LIMIT THEOREM)
ДОКАЗАТЕЛЬСТВО МАТЕМАТИЧЕСКИХ ТЕОРЕМ
УПРАЖНЕНИЕ «ПРЕДЕЛЬНЫЕ СМЫСЛЫ».
А. В. Барминский ЗНАЧИМОСТЬ В ОБУЧЕНИИ РАЗНИЦ ОПРЕДЕЛЕНИЕ - ТЕОРЕМА, АЛГОРИТМ - ТВОРЧЕСТВО
УПОРЯДОЧЕНИЕ ЗНАНИЙ НА ОСНОВАНИИ ПРЕДЕЛЬНО ШИРОКИХ ОБЩИХ ПРИЗНАКОВ ГРУПП ОБЪЕКТОВ НАЗЫВАЕТСЯ "СИСТЕМАТИЗАЦИЕЙ".
МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ (CENTRAL TENDENCY MEASURES)
НОРМАЛЬНАЯ КРИВАЯ
НОРМАЛЬНОЕ ПОВЕДЕНИЕ
ЦЕНТРАЛЬНАЯ ГИПОТЕЗА.
ОСТРОТА ЗРЕНИЯ ЦЕНТРАЛЬНОЙ ЯМКИ
НОРМАЛЬНЫЙ ТЕХНОЛОГИЧЕСКИЙ РЕЖИМ
НОРМАЛЬНОЕ РАЗВИТИЕ (NORMAL DEVELOPMENT)
ЦЕНТРАЛЬНАЯ НЕРВНАЯ СИСТЕМА
ЦЕНТРАЛЬНЫЕ ЧЕРТЫ (CENTRAL TRAITS)
А.К. ГАСТЕВ И ЦЕНТРАЛЬНЫЙ ИНСТИТУТ ТРУДА
СОВРЕМЕННЫЕ ПРЕДСТАВЛЕНИЯ О НОРМАЛЬНОМ И ОТКЛОНЯЮЩЕМСЯ РАЗВИТИИ
12. Нормальное профессиональное развитие и признаки деформации
Добавить комментарий