Oc-windows.ru

IT Новости из мира ПК
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

График эмпирической функции распределения в excel

Функция распределения и плотность вероятности в EXCEL

Даны определения Функции распределения случайной величины и Плотности вероятности непрерывной случайной величины. Эти понятия активно используются в статьях о статистике сайта www.excel2.ru . Рассмотрены примеры вычисления Функции распределения и Плотности вероятности с помощью функций MS EXCEL .

Введем базовые понятия статистики, без которых невозможно объяснить более сложные понятия.

Генеральная совокупность и случайная величина

Пусть у нас имеется генеральная совокупность (population) из N объектов, каждому из которых присуще определенное значение некоторой числовой характеристики Х.

Примером генеральной совокупности (ГС) может служить совокупность весов однотипных деталей, которые производятся станком.

Поскольку в математической статистике, любой вывод делается только на основании характеристики Х (абстрагируясь от самих объектов), то с этой точки зрения генеральная совокупность представляет собой N чисел, среди которых, в общем случае, могут быть и одинаковые.

В нашем примере, ГС — это просто числовой массив значений весов деталей. Х – вес одной из деталей.

Если из заданной ГС мы выбираем случайным образом один объект, имеющей характеристику Х, то величина Х является случайной величиной . По определению, любая случайная величина имеет функцию распределения , которая обычно обозначается F(x).

Функция распределения

Функцией распределения вероятностей случайной величины Х называют функцию F(x), значение которой в точке х равно вероятности события X файл примера ):

В справке MS EXCEL Функцию распределения называют Интегральной функцией распределения ( Cumulative Distribution Function , CDF ).

Приведем некоторые свойства Функции распределения:

  • Функция распределения F(x) изменяется в интервале [0;1], т.к. ее значения равны вероятностям соответствующих событий (по определению вероятность может быть в пределах от 0 до 1);
  • Функция распределения – неубывающая функция;
  • Вероятность того, что случайная величина приняла значение из некоторого диапазона [x1;x2): P(x 1 Примечание : В MS EXCEL имеется несколько функций, позволяющих вычислить вероятности дискретных случайных величин. Перечень этих функций приведен в статье Распределения случайной величины в MS EXCEL .

Непрерывные распределения и плотность вероятности

В случае непрерывного распределения случайная величина может принимать любые значения из интервала, в котором она определена. Т.к. количество таких значений бесконечно велико, то мы не можем, как в случае дискретной величины, сопоставить каждому значению случайной величины ненулевую вероятность (т.е. вероятность попадания в любую точку (заданную до опыта) для непрерывной случайной величины равна нулю). Т.к. в противном случае сумма вероятностей всех возможных значений случайной величины будет равна бесконечности, а не 1. Выходом из этой ситуации является введение так называемой функции плотности распределения p(x) . Чтобы найти вероятность того, что непрерывная случайная величина Х примет значение, заключенное в интервале (а; b), необходимо найти приращение функции распределения на этом интервале:

Как видно из формулы выше плотность распределения р(х) представляет собой производную функции распределения F(x), т.е. р(х) = F’(x).

Типичный график функции плотности распределения для непрерывной случайно величины приведен на картинке ниже (зеленая кривая):

Примечание : В MS EXCEL имеется несколько функций, позволяющих вычислить вероятности непрерывных случайных величин. Перечень этих функций приведен в статье Распределения случайной величины в MS EXCEL .

В литературе Функция плотности распределения непрерывной случайной величины может называться: Плотность вероятности, Плотность распределения, англ. Probability Density Function (PDF) .

Чтобы все усложнить, термин Распределение (в литературе на английском языке — Probability Distribution Function или просто Distribution ) в зависимости от контекста может относиться как Интегральной функции распределения, так и кее Плотности распределения.

Из определения функции плотности распределения следует, что p(х)>=0. Следовательно, плотность вероятности для непрерывной величины может быть, в отличие от Функции распределения, больше 1. Например, для непрерывной равномерной величины , распределенной на интервале [0; 0,5] плотность вероятности равна 1/(0,5-0)=2. А для экспоненциального распределения с параметром лямбда =5, значение плотности вероятности в точке х=0,05 равно 3,894. Но, при этом можно убедиться, что вероятность на любом интервале будет, как обычно, от 0 до 1.

Напомним, что плотность распределения является производной от функции распределения , т.е. «скоростью» ее изменения: p(x)=(F(x2)-F(x1))/Dx при Dx стремящемся к 0, где Dx=x2-x1. Т.е. тот факт, что плотность распределения >1 означает лишь, что функция распределения растет достаточно быстро (это очевидно на примере экспоненциального распределения ).

Примечание : Площадь, целиком заключенная под всей кривой, изображающей плотность распределения , равна 1.

Примечание : Напомним, что функцию распределения F(x) называют в функциях MS EXCEL интегральной функцией распределения . Этот термин присутствует в параметрах функций, например в НОРМ.РАСП (x; среднее; стандартное_откл; интегральная ). Если функция MS EXCEL должна вернуть Функцию распределения, то параметр интегральная , д.б. установлен ИСТИНА. Если требуется вычислить плотность вероятности , то параметр интегральная , д.б. ЛОЖЬ.

Примечание : Для дискретного распределения вероятность случайной величине принять некое значение также часто называется плотностью вероятности (англ. probability mass function (pmf)). В справке MS EXCEL плотность вероятности может называть даже «функция вероятностной меры» (см. функцию БИНОМ.РАСП() ).

Вычисление плотности вероятности с использованием функций MS EXCEL

Понятно, что чтобы вычислить плотность вероятности для определенного значения случайной величины, нужно знать ее распределение.

Найдем плотность вероятности для стандартного нормального распределения N(0;1) при x=2. Для этого необходимо записать формулу =НОРМ.СТ.РАСП(2;ЛОЖЬ) =0,054 или =НОРМ.РАСП(2;0;1;ЛОЖЬ) .

Напомним, что вероятность того, что непрерывная случайная величина примет конкретное значение x равна 0. Для непрерывной случайной величины Х можно вычислить только вероятность события, что Х примет значение, заключенное в интервале (а; b).

Вычисление вероятностей с использованием функций MS EXCEL

1) Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению (см. картинку выше), приняла положительное значение. Согласно свойству Функции распределения вероятность равна F(+∞)-F(0)=1-0,5=0,5.

В MS EXCEL для нахождения этой вероятности используйте формулу =НОРМ.СТ.РАСП(9,999E+307;ИСТИНА) -НОРМ.СТ.РАСП(0;ИСТИНА) =1-0,5. Вместо +∞ в формулу введено значение 9,999E+307= 9,999*10^307, которое является максимальным числом, которое можно ввести в ячейку MS EXCEL (так сказать, наиболее близкое к +∞).

2) Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению , приняла отрицательное значение. Согласно определения Функции распределения, вероятность равна F(0)=0,5.

В MS EXCEL для нахождения этой вероятности используйте формулу =НОРМ.СТ.РАСП(0;ИСТИНА) =0,5.

3) Найдем вероятность того, что случайная величина, распределенная по стандартному нормальному распределению , примет значение, заключенное в интервале (0; 1). Вероятность равна F(1)-F(0), т.е. из вероятности выбрать Х из интервала (-∞;1) нужно вычесть вероятность выбрать Х из интервала (-∞;0). В MS EXCEL используйте формулу =НОРМ.СТ.РАСП(1;ИСТИНА) — НОРМ.СТ.РАСП(0;ИСТИНА) .

Все расчеты, приведенные выше, относятся к случайной величине, распределенной по стандартному нормальному закону N(0;1). Понятно, что значения вероятностей зависят от конкретного распределения. В статье Распределения случайной величины в MS EXCEL приведены распределения, для которых в MS EXCEL имеются соответствующие функции, позволяющие вычислить вероятности.

Обратная функция распределения (Inverse Distribution Function)

Вспомним задачу из предыдущего раздела: Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению, приняла отрицательное значение.

Вероятность этого события равна 0,5.

Теперь решим обратную задачу: определим х, для которого вероятность, того что случайная величина Х примет значение =НОРМ.СТ.ОБР(0,5) =0.

Однозначно вычислить значение случайной величины позволяет свойство монотонности функции распределения.

Обратите внимание, что для вычисления обратной функции мы использовали именно функцию распределения , а не плотность распределения . Поэтому, в аргументах функции НОРМ.СТ.ОБР() отсутствует параметр интегральная , который подразумевается. Подробнее про функцию НОРМ.СТ.ОБР() см. статью про нормальное распределение .

Обратная функция распределения вычисляет квантили распределения , которые используются, например, при построении доверительных интервалов . Т.е. в нашем случае число 0 является 0,5-квантилем нормального распределения . В файле примера можно вычислить и другой квантиль этого распределения. Например, 0,8-квантиль равен 0,84.

В англоязычной литературе обратная функция распределения часто называется как Percent Point Function (PPF).

Примечание : При вычислении квантилей в MS EXCEL используются функции: НОРМ.СТ.ОБР() , ЛОГНОРМ.ОБР() , ХИ2.ОБР(), ГАММА.ОБР() и т.д. Подробнее о распределениях, представленных в MS EXCEL, можно прочитать в статье Распределения случайной величины в MS EXCEL .

Эмпирическая функция распределения

Эмпирической (опытной) функцией распределения или функцией распределения выборки называют такую функцию, которая определяет для каждого значения x частоту событий X

Дана таблица функции распределения выборки. Требуется построить эмпирическую функцию распределения

xi123456
ni4106875

Из таблицы n=40, т.е.
n=4+10+6+8+7+5=40
Вычислим функцию распределения выборки

Эмпирическая функция распределения имеет вид

Построим график кусочно-постоянной эмпирической функции распределения

таким образом, по данным выборки можно приближенно построить функцию для неизвестной функции выборки.

2 комментария

У вас опечатка, где вы написали n=30, n=4+10+6+8+7+5=30 и F_30, так как n=40.

Функция ФИ и плотность стандартного нормального распределения в Excel

Функция ФИ в Excel предназначена для определения значения плотности вероятности величины, описанной законом стандартного нормального распределения, и возвращает соответствующее число.

Значения функции плотности стандартного нормального распределения в Excel

Если случайная величина распределена непрерывно, она может иметь любое значение, взятое из интервала, в котором она определена. Такое число значений стремится к бесконечности, следовательно, вероятность попадания в какую-либо определенную точку из данного интервала стремится к нулю (сумма вероятностей должна соответствовать числу 1). Поэтому, является возможным только определение вероятности нахождения некоторой величины в заданном интервале значений. С этой целью было введено понятие плотности вероятности – производная функции распределения. Для вычисления вероятности определяют площадь, образованную кривой графика, осью абсцисс и двумя вертикальными линиями, проведенными от точек, соответствующих граничным значениям исследуемого интервала.

Рассматриваемая функции вычисляет то же значение, которое возвращает функция НОРМ.СТ.РАСП, у которой второй аргумент принимает значение ЛОЖЬ.

Пример 1. Построить график плотности вероятности для известных значений x, которые внесены в таблицу Excel.

Вид таблицы данных:

Для построения графика определим значения плотности для известных значений x. Используем формулу, предварительно выделив ячейки в диапазоне B2:B22:

Используем полученные данные для построения графика:

Значение плотности вероятности имеет смысл при определении вероятности нахождения величины в некотором диапазоне. Ее используют для вычисления интеграла с указанными граничными значениями некоторой величины, в результате чего получают вероятность нахождения некоторого значения в диапазоне, заданного этими граничными значениями.

В Excel функция плотности используется преимущественно для построения графиков. Вероятность определяется функцией НОРМ.СТ.РАСП (для стандартного нормального распределение) с последним аргументом, принимающим значение ИСТИНА.

Пример расчета плотности стандартного нормального распределения в Excel

Пример 2. Определить максимальное значение плотности вероятности для ряда значений двумя различными способами.

Вид таблицы данных:

Максимальное значение плотности вероятности для некоторой величины, распределенной по стандартному нормальному закону, можно определить с помощью функции МАКС, исследуя массив значений, возвращаемых функцией ФИ в формуле массива CTRL+SHIFT+Enter:

Другой способ – нахождение значения плотности для среднего значения известных величин. Однако, для начала необходимо стандартизировать имеющийся ряд значений с помощью функции НОРМАЛИЗАЦИЯ. Для нахождения используем формулу (вводить как формулу массива CTRL+SHIFT+Enter):

Небольшая разница в полученных значениях свидетельствует о том, что исследуемый ряд значений можно рассматривать как нормальное стандартное распределение некоторой величины.

Правила использования функции ФИ в Excel

Функция ФИ имеет следующую синтаксическую запись:

  • x – обязательный, принимает число для некоторой величины, распределенной по стандартному нормальному закону, для которой необходимо определить значение плотности распределения.
  1. В качестве аргумента функции можно передавать ссылку на ячейку с числовыми данными или само число. Функция ФИ автоматические преобразует логические значения и текстовые строки, содержащие числа, к числовым значениям.
  2. Если аргумент функции принимает данные, не преобразуемые к числовым значениям, результатом выполнения ФИ будет код ошибки #ЗНАЧ!
  3. Для больших значений, значение плотности вероятности которых стремится к нулю, функция возвращает число 0. Например, =ФИ(100) вернет число 0.

График эмпирической функции распределения в excel

Название работы: Построение выборочной функции распределения средствами Excel

Категория: Лабораторная работа

Предметная область: Информатика, кибернетика и программирование

Описание: ЛАБОРАТОРНАЯ РАБОТА. ПОСТРОЕНИЕ ВЫБОРОЧНОЙ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ СРЕДСТВАМИ EXCEL. Чаще всего на практике закон распределения обычно неизвестен, или известен с точностью до некоторых неизвестных параметров. В частности, невозможно рассчитать точ.

Дата добавления: 2012-11-10

Размер файла: 299.2 KB

Работу скачали: 534 чел.

ЛАБОРАТОРНАЯ РАБОТА № 2.3

ПОСТРОЕНИЕ ВЫБОРОЧНОЙ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ

Чаще всего на практике закон распределения обычно неизвестен, или известен с точностью до некоторых неизвестных параметров. В частности, невозможно рассчитать точное значение соответствующих вероятностей, так как

нельзя определить количество общих и благоприятных исходов. Поэтому вводится статистическое определение вероятности. По этому определению вероятность равна отношению числа испытаний (m), в которых событие появилось, к

общему количеству произведенных испытаний (п). Такая вероятность называется статистической частотой.

В результате на практике сведения о законе распределения случайной величины получают независимыми многократными повторениями опыта, в котором измеряются значения интересующей исследователей случайной величины

(варианты). На основе информации из полученной выборки можно построить

приблизительные значения для функции распределения и других характеристик

Выборочной (эмпирической) функцией распределения случайной величины

построенной по выборке

доле таких значений

есть частота события

между эмпирической функцией распределения и функцией распределения (теоретической функцией распределения) такая же, как связь между частотой события и его вероятностью: функция

Для построения выборочной функции распределения весь диапазон изменения случайной величины X разбивают на ряд интервалов одинаковой ширины. Число интервалов обычно выбирают не менее 5 и не более 15. Затем определяют число значений случайной величины X, попавших в каждый интервал. Поделив эти числа на общее количество наблюдений п, находят относительную частоту попадания случайной величины X в заданные интервалы. По

найденным относительным частотам строят гистограммы выборочных функций

распределения. Если соответствующие точки относительных частот соединить

ломаной линией, то полученная диаграмма будет называться полигоном частот.

Кумулятивная кривая будет получена, если по оси абсцисс откладывать интервалы, а по оси ординат − число или доли элементов совокупности, имеющих

значение, меньшее или равное заданному.

При увеличении до бесконечности размера выборки выборочные функции

распределения превращаются в теоретические: гистограмма превращается в

график плотности распределения, а кумулятивная кривая − в график функции

В Excel для построения выборочных функций распределения используются специальная функция ЧАСТОТА и процедура пакета анализа Гистограмма.

Функция ЧАСТОТА вычисляет частоты появления случайной величины в интервалах значений и выводит их как массив цифр. Функция задается

• массив_данных − это массив или ссылка на множество данных, для которых вычисляются частоты;

• массив_карманов − это массив или ссылка на множество интервалов, в ко

торые группируются значения аргумента массив_данных.

Следует отметить, что количество элементов в возвращаемом массиве на

единицу больше числа элементов в массив_карманов. Дополнительный элемент

в возвращаемом массиве содержит количество значений, больших, чем максимальное значение в интервалах.

Процедура Гистограмма используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. Процедура выводит результаты в виде таблицы и гистограммы.

Рис. 6.1. Пример заполнения диалогового окна Гистограмма

Параметры диалогового окна Гистограмма представлены на рис. 6.1:

• во Входной диапазон вводится диапазон исследуемых данных;

• в поле Интервал карманов (необязательный параметр) может вводиться

диапазон ячеек или необязательный набор граничных значений, определяющих выбранные интервалы (карманы). Эти значения должны быть введены в

возрастающем порядке. В MS Excel вычисляется число попаданий данных

между началом интервала и соседним большим по порядку. При этом вклю-

чаются значения на нижней границе интервала и не включаются значения на

верхней границе. Если диапазон карманов не был введен, то набор интервалов, равномерно распределенных между минимальным и максимальным значениями данных, будет создан автоматически;

• рабочее поле Выходной диапазон предназначено для ввода ссылки на левую

верхнюю ячейку выходного диапазона. Размер выходного диапазона будет

• переключатель Интегральный процент позволяет установить режим генерации интегральных процентных отношений и включения в гистограмму

графика интегральных процентов;

• переключатель Вывод графика позволяет установить режим автоматического создания встроенной диаграммы на листе, содержащем выходной диапазон.

Пример 6.1. Построить эмпирическое распределение веса студентов в килограммах для следующей выборки: 64, 57,63, 62, 58,61,63,60,60,61,65, 62,62,

60,64, С 59,59, 63,61, 62, 58,58, 63,61,59, 62,60, 60,58,61, 60,63,63,58,60, 59,60,

59,61, f 62, 63, 57, 61, 58, 60, 64, 60, 59, 61, 64, 62, 59, 65.

1. В ячейку А1 введите слово Выборка, а в диапазон А2:Е12 − значения веса студентов.

2. Выберите ширину интервала 1 кг. Тогда при крайних значениях веса 57

кг и 65 кг получится 9 интервалов. В ячейки G1 и G2 введите названия интервалов Вес и кг, соответственно. В диапазон G3:G11 введите граничные значения

интервалов (57,58, 59, 60, 61, 62, 63, 64, 65).

3. Введите заголовки создаваемой таблицы: в ячейки Н1:Н2 − Абсолютные

частоты, в ячейки I1:I2 − Относительные частоты, в ячейки J1:J2 − Накопленные частоты.

4. Заполните столбец абсолютных частот. Для этого выделите для них

блок ячеек Н4:Н12 (используемая функция ЧАСТОТА задается в виде формулы

массива). С панели инструментов Стандартная вызовите Мастер функций

(кнопка ). В появишемся диалоговом окне Мастер функций выберите категорию Статистические функцию ЧАСТОТА, после чего нажмите кнопку ОК.

Появившееся диалоговое окно ЧАСТОТА необходимо за серое поле мышью

отодвинуть вправо на 1-2 см от данных (при нажатой левой кнопке). Указателем мыши в рабочее поле Массив_данных введите диапазон данных наблюдений (А2:Е12). В рабочее поле Двоичный_массив мышью введите диапазон

интервалов (G3:G11). Последователь нажмите комбинацию клавиш

Ctrl+Shift+Enter. В столбце Н3:Н11 появится массив абсолютных частот.

5. В ячейке Н13 найдите общее количество наблюдений. Табличный курсор

установите в ячейку Н12. На панели инструментов Стандартная нажмите кнопку Автотосумма. Убедитесь, что диапазон суммирования указан правильно

(Н3:Н11) и нажмите клавишу Enter. В ячейке Н12 появится число 55.

6. Заполните столбец относительных частот. В ячейку I3 введите формулу для вычисления относительной частоты: =H3/$H$12. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши)

скопируйте введенную формулу в диапазон I4: I11. Получим массив относительных частот.

7. Заполните столбец накопленных частот. В ячейку J3 скопируйте значение относительной частоты из ячейки I3 (0,036364). В ячейку J4 введите формулу =J3+I4. Нажмите клавишу Enter. Протягиванием (за правый нижний угол

при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон

J5:J11. Получим массив накопленных частот.

8. В результате после форматирования получим таблицу, представленную

Рис. 6.2. Результат вычислений относительных и накопленных частот

Рис. 6.2. Результат вычислений относительных и накопленных частот из

9Далее построим диаграмму относительных и накопленных частот. Воспользуемся Мастером диаграмм. В появившемся диалоговом окне выберем

вкладку Нестандартные и тип диаграммы График/гистограмма 2. После нажатия кнопки Далее следует указать с помощью мыши диапазон данных

I3:J11. Проверьте положение переключателя Ряды в: столбцах. Выберите

вкладку Ряд и с помощью мыши введите в рабочее поле Подписи оси X диапазон подписей оси X − G3:G11 Нажав кнопку Далее, введите названия осей X и

У в рабочее поле Ось X (категорий) − Вес, Ось Y (значений) − Относительная

частота, Вторая ось Y (значений) − Накопленная частота. Нажмите кнопку

После минимального редактирования диаграмма будет иметь такой вид,

Читать еще:  Расчет стипендии в excel
Ссылка на основную публикацию
Adblock
detector