ОПИСАНИЕ ДАННЫХ, ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ

Выделяют три основные области статистических методов обработки результатов наблюдений – описание данных, оценивание (характеристик и параметров распределений, регрессионных зависимостей и др.) и проверка статистических гипотез. Рассмотрим основные понятия, применяемые в этих областях.

Основные понятия, используемые при описании данных. Описание данных – предварительный этап статистической обработки. Используемые при описании данных величины применяются при дальнейших этапах статистического анализа – оценивании и проверке гипотез, а также при решении иных задач, возникающих при применении вероятностно-статистических методов принятия решений, например, при статистическом контроле качества продукции и статистическом регулировании технологических процессов.

Статистические данные – это результаты наблюдений (измерений, испытаний, опытов, анализов). Функции результатов наблюдений, используемые, в частности, для оценки параметров распределений и (или) для проверки статистических гипотез, называют «статистиками». (Для математиков надо добавить, что речь идет об измеримых функциях.) Если в вероятностной модели результаты наблюдений рассматриваются как случайные величины (или случайные элементы), то статистики, как функции случайных величин (элементов), сами являются случайными величинами (элементами). Статистики, являющиеся выборочными аналогами характеристик случайных величин (математического ожидания, медианы, дисперсии, моментов и др.) и используемые для оценивания этих характеристик, называют статистическими характеристиками.

Основополагающее понятие в вероятностно-статистических методах принятия решений – выборка. Как уже говорилось, выборка – это 1) набор наблюдаемых значений или 2) множество объектов, отобранные из изучаемой совокупности. Например, единицы продукции, отобранные из контролируемой партии или потока продукции для контроля и принятия решений. Наблюдаемые значения обозначим x1, x2,…, xn, где n – объем выборки, т.е. число наблюдаемых значений, составляющих выборку. О втором виде выборок уже шла речь при рассмотрении гипергеометрического распределения, когда под выборкой понимался набор единиц продукции, отобранных из партии. Там же обсуждалась вероятностная модель случайной выборки.

В вероятностной модели выборки первого вида наблюдаемые значения обычно рассматривают как реализацию независимых одинаково распределенных случайных величин

. При этом считают, что полученные при наблюдениях конкретные значения x1, x2,…, xn соответствуют определенному элементарному событию

, т.е.

.

При повторных наблюдениях будут получены иные наблюдаемые значения, соответствующие другому элементарному событию

. Цель обработки статистических данных состоит в том, чтобы по результатам наблюдений, соответствующим элементарному событию

, сделать выводы о вероятностной мере Р и результатах наблюдений при различных возможных

.

Применяют и другие, более сложные вероятностные модели выборок. Например, цензурированные выборки соответствуют испытаниям, проводящимся в течение определенного промежутка времени. При этом для части изделий удается замерить время наработки на отказ, а для остальных лишь констатируется, что наработки на отказ для них больше времени испытания. Для выборок второго вида отбор объектов может проводиться в несколько этапов. Например, для входного контроля сигарет могут сначала отбираться коробки, в отобранных коробках – блоки, в выбранных блоках – пачки, а в пачках – сигареты. Четыре ступени отбора. Ясно, что выборка будет обладать иными свойствами, чем простая случайная выборка из совокупности сигарет.

Из приведенного выше определения математической статистики следует, что описание статистических данных дается с помощью частот. Частота – это отношение числа Х наблюдаемых единиц, которые принимают заданное значение или лежат в заданном интервале, к общему числу наблюдений n, т.е. частота – это Х/n. (В более старой литературе иногда Х/n называется относительной частотой, а под частотой имеется в виду Х. В старой терминологии можно сказать, что относительная частота – это отношение частоты к общему числу наблюдений.)

Отметим, что обсуждаемое определение приспособлено к нуждам одномерной статистики. В случае многомерного статистического анализа, статистики случайных процессов и временных рядов, статистики объектов нечисловой природы нужны несколько иные определения понятия «статистические данные». Не считая нужным давать такие определения, отметим, что в подавляющем большинстве практических постановок исходные статистические данные – это выборка или несколько выборок. А выборка – это конечная совокупность соответствующих математических объектов (чисел, векторов, функций, объектов нечисловой природы).

Число Х имеет биномиальное распределение, задаваемое вероятностью р того, что случайная величина, с помощью которой моделируются результаты наблюдений, принимает заданное значение или лежит в заданном интервале, и общим числом наблюдений n. Из закона больших чисел (теорема Бернулли) следует, что

при n>? (сходимость по вероятности), т.е. частота сходится к вероятности. Теорема Муавра-Лапласа позволяет уточнить скорость сходимости в этом предельном соотношении.

Чтобы от отдельных событий перейти к одновременному рассмотрению многих событий, используют накопленную частоту. Так называется отношение числа единиц, для которых результаты наблюдения меньше заданного значения, к общему числу наблюдений. (Это понятие используется, если результаты наблюдения – действительные числа, а не вектора, функции или объекты нечисловой природы.) Функция, которая выражает зависимость между значениями количественного признака и накопленной частотой, называется эмпирической функцией распределения. Итак, эмпирической функцией распределения Fn(x) называется доля элементов выборки, меньших x. Эмпирическая функция распределения содержит всю информацию о результатах наблюдений.

Чтобы записать выражение для эмпирической функции распределения в виде формулы, введем функцию с(х, у) двух переменных:

Случайные величины, моделирующие результаты наблюдений, обозначим

. Тогда эмпирическая функция распределения Fn(x) имеет вид

Из закона больших чисел следует, что для каждого действительного числа х эмпирическая функция распределения Fn(x) сходится к функции распределения F(x) результатов наблюдений, т.е.

Fn(x) > F(x) (1)

при n > ?. Советский математик В.И. Гливенко (1897-1940) доказал в 1933 г. более сильное утверждение: сходимость в (1) равномерна по х, т.е.

(2)

при n > ? (сходимость по вероятности).

В (2) использовано обозначение sup (читается как «супремум»). Для функции g(x) под

понимают наименьшее из чисел a таких, что g(x)

.

В таком случае вместо sup пишут max. Хорошо известно, что не все функции достигают максимума.

В том же 1933 г. А.Н.Колмогоров усилил результат В.И. Гливенко для непрерывных функций распределения F(x). Рассмотрим случайную величину

и ее функцию распределения

По теореме А.Н.Колмогорова

при каждом х, где К(х) – т.н. функция распределения Колмогорова.

Рассматриваемая работа А.Н. Колмогорова породила одно из основных направлений математической статистики – т.н. непараметрическую статистику. И в настоящее время непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат широко используются. Они были разработаны для проверки согласия с полностью известным теоретическим распределением, т.е. предназначены для проверки гипотезы

. Основная идея критериев Колмогорова, омега-квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения. Аналитические выражения для предельных распределений статистик, расчетные формулы, таблицы распределений и критических значений широко распространены , поэтому не будем их приводить.

Кроме эмпирической функции распределения, для описания данных используют и другие статистические характеристики. В качестве выборочных средних величин постоянно используют выборочное среднее арифметическое, т.е. сумму значений рассматриваемой величины, полученных по результатам испытания выборки, деленную на ее объем:

где n – объем выборки, xi – результат измерения (испытания) i-ого элемента выборки.

Другой вид выборочного среднего – выборочная медиана. Она определяется через порядковые статистики.

Порядковые статистики – это члены вариационного ряда, который получается, если элементы выборки x1, x2,…, xn расположить в порядке неубывания:

х(1)

Пример 1. Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5 = 8, x6 = 0, x7 =5, x8 = 7 вариационный ряд имеет вид 0, 1, 2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 = x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5.

В вариационном ряду элемент x(k) называется k-той порядковой статистикой. Порядковые статистики и функции от них широко используются в вероятностно-статистических методах принятия решений, в эконометрике и в других прикладных областях.

Выборочная медиана

— результат наблюдения, занимающий центральное место в вариационном ряду, построенном по выборке с нечетным числом элементов, или полусумма двух результатов наблюдений, занимающих два центральных места в вариационном ряду, построенном по выборке с четным числом элементов. Таким образом, если объем выборки n – нечетное число, n = 2k+1, то медиана

= x(k+1), если же n – четное число, n = 2k, то медиана

= [x(k) + x(k+1)]/2, где x(k) и x(k+1) – порядковые статистики.

В качестве выборочных показателей рассеивания результатов наблюдений чаще всего используют выборочную дисперсию, выборочное среднее квадратическое отклонение и размах выборки.

Согласно выборочная дисперсия s2 – это сумма квадратов отклонений выборочных результатов наблюдений от их среднего арифметического, деленная на объем выборки:

Выборочное среднее квадратическое отклонение s – неотрицательный квадратный корень из дисперсии, т.е.

В некоторых литературных источниках выборочной дисперсией называют другую величину:

Она отличается от s2 постоянным множителем:

Соответственно выборочным средним квадратическим отклонением в этих литературных источниках называют величину

Тогда, очевидно,

Различие в определениях приводит к различию в алгоритмах расчетов, правилах принятия решений и соответствующих таблицах. Поэтому при использовании тех или иных нормативно-технических и инструктивно-методических материалов, программных продуктов, таблиц необходимо обращать внимание на способ определения выборочных характеристик.

Выбор

, а не s2, объясняется тем, что

где Х – случайная величина, имеющая такое же распределение, как и результаты наблюдений. В терминах теории статистического оценивания это означает, что

— несмещенная оценка дисперсии (см. ниже). В то же время статистика s2 не является несмещенной оценкой дисперсии результатов наблюдений, поскольку

Однако у s2 есть другое свойство, оправдывающее использование этой статистики в качестве выборочного показателя рассеивания. Для известных результатов наблюдений x1, x2,…, xn рассмотрим случайную величину У с распределением вероятностей

и Р(У = х) = 0 для всех прочих х. Это распределение вероятностей называется эмпирическим. Тогда функция распределения У – это эмпирическая функция распределения, построенная по результатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и дисперсию случайной величины У:

Второе из этих равенств и является основанием для использования s2 в качестве выборочного показателя рассеивания.

Отметим, что математические ожидания выборочных средних квадратических отклонений М(s) и М(s0), вообще говоря, не равняются теоретическому среднему квадратическому отклонению ?. Например, если Х имеет нормальное распределение, объем выборки n = 3, то

Кроме перечисленных выше статистических характеристик, в качестве выборочного показателя рассеивания используют размах R – разность между n-й и первой порядковыми статистиками в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в выборке: R = x(n) – x(1).

В ряде вероятностно-статистических методов принятия решений применяют и иные показатели рассеивания. В частности, в методах статистического регулирования процессов используют средний размах – среднее арифметическое размахов, полученных в определенном количестве выборок одинакового объема. Популярно и межквартильное расстояние, т.е. расстояние между выборочными квартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n] – целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n.

Январь 24, 2019 Психология труда, инженерная психология, эргономика
Еще по теме
ЭМПИРИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ
ПРОВЕРКА ГИПОТЕЗЫ
О ПРОВЕРКЕ СТАТИСТИЧЕСКИХ ГИПОТЕЗ.
2.3.6. ИНТЕРВАЛЬНЫЕ ДАННЫЕ В ЗАДАЧАХ ПРОВЕРКИ ГИПОТЕЗ
ПРОВЕРКА ГИПОТЕЗЫ (HYPOTHESIS TESTING)
ОПИСАНИЕ ДАННЫХ: СТАТИСТИКА
ПРОВЕРКА НУЛЕВОЙ ГИПОТЕЗЫ (NULL HYPOTHESIS TESTING)
ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ ПРИ ПРОВЕРКЕ ГИПОТЕЗ.
2.5.1. МОДЕЛИРОВАНИЕ КАК СРЕДСТВО ВЫДВИЖЕНИЯ И ПРОВЕРКИ ГИПОТЕЗ В ЭРГОНОМИЧЕСКИХ ИССЛЕДОВАНИЯХ
2.3.10. МЕСТО СТАТИСТИКИ ИНТЕРВАЛЬНЫХ ДАННЫХ (СИД) СРЕДИ МЕТОДОВ ОПИСАНИЯ НЕОПРЕДЕЛЕННОСТЕЙ
2.4. ЭТАП 3. ИТОГОВОЕ ОЦЕНИВАНИЕ
ОЦЕНИВАНИЕ В УСЛОВИЯХ РЕАЛЬНОГО ИСПОЛЬЗОВАНИЯ
Добавить комментарий