Метод наименьших квадратов для интервальных данных.

Пусть математическая модель задана следующим образом:

у = Q(x,b) + ?,

где х = (х1 , х2,…, хm) — вектор влияющих переменных (факторов), поддающихся измерению; b = (b1 , b2 ,… , br ) — вектор оцениваемых параметров модели; у — отклик модели (скаляр); Q(x,b)- скалярная функция векторов х и b; наконец, ? — случайная ошибка (невязка, погрешность).

Пусть проведено n опытов, причем в каждом опыте измерены (один раз) значения отклика (у) и вектора факторов (х). Результаты измерений могут быть представлены в следующем виде:

Х = { хij ; i =1,n ; j = 1,m }, Y = (y1 , y2 ,…, yn ), Е = (?1,?2,…,?n),

где Х — матрица значений измеренного вектора (х) в n опытах; Y — вектор значений измеренного отклика в n опытах; Е — вектор случайных ошибок. Тогда выполняется матричное соотношение:

Y = Q(X,b) + Е ,

где Q(X,b) = (Q(x1 ,b), Q(x2 ,b),…, Q(xn ,b))T, причем x1 , x2 ,…, xn — m-мерные вектора, которые составляют матрицу Х = (x1 , x2 ,…, xn )T.

Введем меру близости d(Y,Q) между векторами Y и Q. В МНК в качестве d(Y,Q) берется квадратичная форма взвешенных квадратов ?i2 невязок ?i = yi — Q(xi ,b), т.е.

d(Y,Q) = [ Y — Q(X,b)]T W[Y — Q(X,b)],

где W = {w ij , i, j =1,…, n} — матрица весов, не зависящая от b. Тогда в качестве оценки b можно выбрать такое b*, при котором мера близости d(Y,Q) принимает минимальное значение, т.е.

В общем случае решение этой экстремальной задачи может быть не единственным. Поэтому в дальнейшем будем иметь в виду одно из этих решений. Оно может быть выражено в виде b* = f(X,Y), где f(X,Y) = (f1(X,Y), f2(X,Y),…, fm(Х.У))T, причем fi(X,Y) непрерывны и дифференцируемы по (X,Y) ? Z, где Z -область определения функции f(X,Y). Эти свойства функции f(X,Y) дают возможность использовать подходы статистики интервальных данных.

Преимущество метода наименьших квадратов заключается в сравнительной простоте и универсальности вычислительных процедур. Однако не всегда оценка МНК является состоятельной (при функции Q(X,b), не являющейся линейной по векторному параметру b), что ограничивает его применение на практике.

Важным частным случаем является линейный МНК, когда Q(x,b) есть линейная функция от b:

у = bo xo+ b1 x1 +… + bm xm + ? = b хT + ? ,

где, возможно, xo = 1, а bo — свободный член линейной комбинации. Как известно, в этом случае МНК-оценка имеет вид:

Если матрица XTWX не вырождена, то эта оценка является единственной. Если матрица весов W единичная, то

Пусть выполняются следующие предположения относительно распределения ошибок ?i :

— ошибки ?i имеют нулевые математические ожидания М{?i} = 0,

— результаты наблюдений имеют одинаковую дисперсию D { ?i} = ?2,

— ошибки наблюдений некоррелированы, т.е. cov{ ?i, ?j} = 0.

Тогда, как известно, оценки МНК являются наилучшими линейными оценками, т.е. состоятельными и несмещенными оценками, которые представляют собой линейные функции результатов наблюдений и обладают минимальными дисперсиями среди множества всех линейных несмещенных оценок. Далее именно этот наиболее практически важный частный случай рассмотрим более подробно.

Как и в других постановках асимптотической математической статистики интервальных данных, при использовании МНК измеренные величины отличаются от истинных значений из-за наличия погрешностей измерения. Запишем истинные данные в следующей форме:

где R — индекс, указывающий на то, что значение истинное. Истинные и измеренные данные связаны следующим образом:

где

Предположим, что погрешности измерения отвечают граничным условиям

(48)

аналогичным ограничениям (1).

Пусть множество W возможных значений (XR ,YR) входит в Z -область определения функции f(X,Y). Рассмотрим b*R — оценку МНК, рассчитанную по истинным значениям факторов и отклика, и b* — оценку МНК, найденную по искаженным погрешностями данным. Тогда

Ввести понятие нотны придется несколько иначе, чем это было сделано выше, поскольку оценивается не одномерный параметр, а вектор. Положим:

Будем называть n(1) нижней нотной, а n(2) верхней нотной. Предположим, что при безграничном возрастании числа измерений n, т.е. при n>?, вектора n(1), n(2) стремятся к постоянным значениям Ni(1), Ni(2) соответственно. Тогда Ni(1) будем называть нижней асимптотической нотной, а Ni(2) — верхней асимптотической нотной.

Рассмотрим доверительное множество B?=B?(n,b*R) для вектора параметров b, т.е. замкнутое связное множество точек в r-мерном евклидовом пространстве такое, что

где ? — доверительная вероятность, соответствующая B? (? ? 1). Другими словами, B? (n, b*R) есть область рассеивания (аналог эллипсоида рассеивания) случайного вектора b*R с доверительной вероятностью ? и числом опытов n.

Из определения верхней и нижней нотн следует, что всегда

В соответствии с определением нижней асимптотической нотны и верхней асимптотической нотны можно считать, что

при достаточно большом числе наблюдений n. Этот многомерный интервал описывает r-мерный гиперпараллелепипед P.

Каким-либо образом разобьем P на L гиперпараллелепипедов. Пусть bk — внутренняя точка k-го гиперпараллелепипеда. Учитывая свойства доверительного множества и устремляя L к бесконечности, можно утверждать, что

где

Таким образом, множество C характеризует неопределенность при оценивании вектора параметров b. Его можно назвать доверительным множеством в статистике интервальных данных.

Введем некоторую меру М(X), характеризующую «величину» множества X

Rr По определению меры она удовлетворяет условию: если

и

то M(X)=M(Z)+M(Y). Примерами такой меры являются площадь для r = 2 и объем для r = 3. Тогда:

М( C ) = М( P ) + М( F ), (49)

где F = C \ P. Здесь М(F) характеризует меру статистической неопределенности, в большинстве случаев она убывает при увеличении числа опытов n. В то же время М(P) характеризует меру интервальной (метрологической) неопределенности, и, как правило, М(P) стремится к некоторой постоянной величине при увеличении числа опытов n. Пусть теперь требуется найти то число опытов, при котором статистическая неопределенность составляет ?-ю часть общей неопределенности, т.е.

М( F ) = ? М( C ), (50)

где ? < 1. Тогда, подставив соотношение (50) в равенство (49) и решив уравнение относительно n, получим искомое число опытов. В асимптотической математической статистике интервальных данных оно называется "рациональным объемом выборки". При этом ? есть "степень малости" статистической неопределенности М(P) относительно всей неопределенности. Она выбирается из практических соображений. При использовании "принципа уравнивания погрешностей" согласно имеем ? = 1/2.

Январь 24, 2019 Психология труда, инженерная психология, эргономика
Еще по теме
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ.
2.3.7. АСИМПТОТИЧЕСКИЙ ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ДЛЯ ИНТЕРВАЛЬНЫХ ДАННЫХ
2.3.10. МЕСТО СТАТИСТИКИ ИНТЕРВАЛЬНЫХ ДАННЫХ (СИД) СРЕДИ МЕТОДОВ ОПИСАНИЯ НЕОПРЕДЕЛЕННОСТЕЙ
2.3. СТАТИСТИКА ИНТЕРВАЛЬНЫХ ДАННЫХ
2.3.1. О РАЗВИТИИ СТАТИСТИКИ ИНТЕРВАЛЬНЫХ ДАННЫХ
2.3.2. ОСНОВНЫЕ ИДЕИ АСИМПТОТИЧЕСКОЙ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ИНТЕРВАЛЬНЫХ ДАННЫХ
6.10. Методы математической обработки данных Методы дескриптивной статистики.
ВЫЧИСЛИТЕЛЬНЫЕ ПРОЦЕДУРЫ ДЛЯ ОБЪЕДИНЕНИЯ ДАННЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ
Методы исследования и обработки полученных данных.
ЛАБОРАТОРНАЯ РАБОТА 3. СХЕМА ИНТЕРВЬЮ ДЛЯ СБОРА ДАННЫХ
ОСНОВНЫЕ МЕТОДЫ СБОРА ДАННЫХ: КЛАССИЧЕСКИЙ СЕМАНТИЧЕСКИЙ ДИФФЕРЕНЦИАЛ Ч. ОСГУДА.
КРИТЕРИЙ ХИ-КВАДРАТ (CHI SQUARE TEST)
УПРАЖНЕНИЕ 6.2. ПОСТРОЕНИЕ ПРАВИЛЬНОГО ЛАТИНСКОГО КВАДРАТА
ЛАТИНСКИЙ КВАДРАТ
ИНТЕРВАЛЬНАЯ МАТЕМАТИКА И СИД.
2.3.6. ИНТЕРВАЛЬНЫЕ ДАННЫЕ В ЗАДАЧАХ ПРОВЕРКИ ГИПОТЕЗ
ИНТЕРВАЛЬНАЯ ШКАЛА
2.3.8. ИНТЕРВАЛЬНЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ
ПОЧЕМУ СТАРЫЕ МЕТОДЫ ЭКОНОМЕТРИКИ НЕ ПОДХОДЯТ ДЛЯ НОВЫХ УСЛОВИЙ?
Добавить комментарий