Функция правдоподобия excel
Практическая работа 3: Вычисление точечных оценок в Excel
Практическая работа 3
Вычисление точечных оценок в Excel
является несмещённой точечной оценкой для дисперсии случайной величины, и такую оценку называют исправленной дисперсией. Для вычисления выборочного значения этой оценки можно использовать статистическую функцию функцию Excel ДИСП, обращение к которой имеет вид:
=ДИСП(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих числовые величины.
При изменении диаметра валика после шлифовки была получена следующая выборка (объемом n = 55):
По выборке вычислить оценку
Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки (рис. 1). Затем, используя функции КВАДРОТКЛ, ДИСП (как показано на рис. 3), вычислим оценку. Видно ожидаемое совпадение двух вычисленных значений.
Рисунок 1 Вычисление исправленной дисперсии
Вычисление оценок максимального правдоподобия
В общем случае не удается получить простых соотношений и оценки вычисляются непосредственным определением точек максимума функционала правдоподобия, т. е. необходимо решить оптимизационную задачу.
Для решения такой задачи в Excel есть команда Поиск решения пункта меню Сервис. Эта команда позволяет решать не только задачи безусловной оптимизации, но и задачи условной оптимизации, т. е. когда ищется максимум функционала с учетом дополнительных ограничений на значения искомых оценок. Например, значение дисперсии не может быть отрицательным.
Применение команды Поиск решения для вычисления оценок максимального правдоподобия покажем на следующем примере.
♦ Пример 2. По выборке примера 1 вычислить оценки максимального правдоподобия для математического ожидания a и дисперсии σ 2 из условия максимума функционала правдоподобия вида:
предполагая при этом, что выборка порождена случайной величиной, подчиняющейся нормальному распределению.
Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки (диапазон А3:А57). Затем в ячейку С8 занесем произвольное значение a (например, 10), в ячейку D8 – значение σ (например, значение 4 > 0), в ячейке Е8 вычислим σ 2 .
В ячейках В3:В57 запрограммируем вычисление разностей (рис. 3). В ячейке С5 запрограммируем вычисление величины функционала . В верхней части документа на рис.2 показана запрограммированная формула.
Рисунок 2 Подготовка рабочего листа
После этих подготовительных операций можно перейти к выполнению команды Поиск решения. Для этого необходимо обратиться к пункту основного меню Сервис и в появившемся меню щелкнуть мышью на команде Поиск решения. Затем в появившемся диалоговом окне выполнить следующие действия (см. рис. 3):
Рисунок 3 Задание параметров команды Поиск решения
· в поле ввода Установить целевую ячейку: ввести адрес ячейки, в которой вычисляется значение минимизируемого функционала (в нашем примере С5);
· включить опцию Равной: максимальному значению (ищутся
значения, при которых функционал достигает максимального значения);
· в поле Изменяя ячейки: ввести адреса ячеек, в которых находятся значения искомых оценок (в нашем примере это ячейки С8:D8);
щелкнув мышью на кнопке Добавить, сформировать ограничения на значения искомых оценок (в нашем примере это требование σ ≥ 0.0 чтобы ln(σ ) не был равен –∞).
Рисунок 4 Результаты выполнения команды Поиск решения
Из рис. 4 видно, что вычисленные значения оценок находятся в ячейках С8, D8 и равны а = 17.907, σ = 2.933. Ячейка С5 содержит значение максимизируемого функционала, равное –137.22.
Сравнивая вычисленные значения оценок a =17.907 и σ 2 = 8.601 с выборочными оценками, видим их полное совпадение.
Вычисление описательных статистик. Описательные статистики можно разделить на следующие группы:
• характеристики положения описывают положение данных на числовой оси (среднее, минимальное и максимальное значения, медиана и др.);
• характеристики разброса описывают степень разброса данных относительно своего центра (дисперсия, размах выборки, эксцесс, среднеквадратическое отклонение и др.);
• характеристики асимметрии определяют симметрию распределения данных относительно своего центра (коэффициент асимметрии, положение медианы относительно среднего и др.);
• характеристики, описывающие закон распределения (частоты, относительные частоты, гистограммы и др.).
Основные характеристики положения, разброса и асимметрии можно вычислить, используя режим Описательная статистика команды Пакет анализа.
Для вызова режима Описательная статистика необходимо обратиться к пункту Сервис, команде анализ данных, выбрать в списке режимов Описательная статистика и щелкнуть на кнопке ОК. В появившемся диалоговом окне Описательная статистика задать следующие параметры (рис. 5):
Рисунок 5 Диалоговое окно описательной статистики
Входной интервал: – адреса ячеек, содержащих элементы вы-
Группирование: – задает способ расположения (по столбцам
или по строкам) элементов выборки.
Метки в первой строке – включается, если первая строка
(столбец) во входном интервале содержит заголовки. Выходной интервал: / Новый рабочий лист: / Новая рабочая
книга – определяет место вывода результатов вычислений. При
включении Выходной интервал: в поле вводится адрес ячейки, начиная с которой будут выводиться результаты.
Итоговая статистика: – включается, если необходимо вывести по одному полю для каждой из вычисленных характеристик.
Уровень надежности: – включается, если необходимо вычислить доверительный интервал для математического ожидания с задаваемым ( в % ) уровнем надежности γ .
К-й наименьший: – включается, если необходимо вычислить к-й наименьший (начиная с min x ) элемент выборки. При к = 1 вычисляется наименьшее значение.
К-й наибольший: – включается, если необходимо вычислить к-й наибольший (начиная с max x ) элемент выборки. При к = 1 вычисляется наибольшее значение.
Пример задания параметров приведен на рис. 5.
Результаты работы режима Описательная статистика выводятся в виде таблицы, в левом столбце которой приводится название вычисленной характеристики, позволяющее однозначно трактовать характеристику. Тем не менее, поясним следующие названия характеристик:
• Интервал – определяет размах выборки ;
• Сумма – определяет сумму всех элементов выборки;
• Счет – определяет число обработанных элементов выборки;
• Уровень надежности – определяет величину x Δ , от которой зависит доверительный интервал для математического ожидания, имеющий вид
где xв – выборочное среднее.
По выборке примера 1 вычислить описательные статистики, используя режим Описательная статистика.
Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки. После этого обратимся к пункту Сервис, команде Пакет анализа. В списке режимов выберем Описательная статистика. В появившемся диалоговом окне включим параметры, показанные на рис. 3.6, и щелкнем ОК. Вычисленные характеристики приведены в таблице 1.
Функция правдоподобия excel
Метод максимального правдоподобия еще один разумный способ построения оценки неизвестного параметра. Состоит он в том, что в качестве «наиболее правдоподобного» значения параметра берут значение , максимизирующее вероятность получить при опытах данную выборку . Это значение параметра зависит от выборки и является искомой оценкой.
Решим сначала, что такое «вероятность получить данную выборку», т.е. что именно нужно максимизировать. Вспомним, что для абсолютно непрерывных распределений их плотность «почти» (с точностью до ) вероятность попадания в точку . А для дискретных распределений вероятность попасть в точку равна . И то, и другое мы будем называть плотностью распределения . Итак,
мы будем называть плотностью распределения .
Если для дискретного распределения величины со значениями , , ввести считающую меру на борелевской -алгебре как
Если же имеет абсолютно непрерывное распределение, то есть привычная плотность относительно меры Лебега :
Функция (случайная величина при фиксированном )
называется функцией правдоподобия . Функция (тоже случайная)
называется логарифмической функцией правдоподобия.
В дискретном случае функция правдоподобия есть вероятность выборке , , в данной серии экспериментов равняться , , . Эта вероятность меняется в зависимости от :
Оценкой максимального правдоподобия неизвестного параметра называют значение , при котором функция достигает максимума (как функция от при фиксированных ):
Поскольку функция монотонна, то точки максимума и совпадают. Поэтому оценкой максимального правдоподобия (ОМП) можно называть точку максимума (по ) функции :
Напомним, что точки экстремума функции это либо точки, в которых производная обращается в нуль, либо точки разрыва функции/производной, либо крайние точки области определения функции.
Пусть , , выборка объема из распределения Пуассона , где . Найдем ОМП неизвестного параметра .
Поскольку эта функция при всех непрерывно дифференцируема по , можно искать точки экстремума, приравняв к нулю частную производную по . Но удобнее это делать для логарифмической функции правдоподобия:
и точка экстремума решение уравнения: , то есть .
1) Убедиться, что точка максимума, а не минимума.
2) Убедиться, что совпадает с одной из оценок метода моментов. по какому моменту?
Пусть , , выборка объема из нормального распределения , где , ; и оба параметра , неизвестны.
Выпишем плотность, функцию правдоподобия и логарифмическую функцию правдоподобия. Плотность:
логарифмическая функция правдоподобия:
В точке экстремума (по ) гладкой функции обращаются в нуль обе частные производные:
Оценка максимального правдоподобия для решение системы уравнений
Решая, получим хорошо знакомые оценки:
1) Убедиться, что , точка максимума, а не минимума.
2) Убедиться, что эти оценки совпадают с некоторыми оценками метода моментов.
Пусть , , выборка объема из равномерного распределения , где . Тогда (см. [3, пример 4.4, с.24] или [1, пример 5, с.91]).
Пусть , , выборка объема из равномерного распределения , где (см. также [1, пример 4, с.91]).
Выпишем плотность распределения и функцию правдоподобия. Плотность:
Функция правдоподобия достигает своего максимального значения во всех точках . График этой функции изображен на рис. 4.