Oc-windows.ru

IT Новости из мира ПК
82 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Критерий шапиро уилка в excel

Критерия Шапиро — Уилки

Дата добавления: 2013-12-23 ; просмотров: 8027 ; Нарушение авторских прав

Оценка соответствия нормальному распределению с помощью

Критерий Шапиро — Уилки W применяется, если число испытаний меньше 50.

Порядок расчета критерия Шапиро и Уилки:

1. Данные измерений располагаются в порядке возрастания.

2. Находят среднее значение выборки и квадрат отклонений от среднего

(36)

3. Рассчитывают коэффициент b по следующей формуле:

(37)

В таблице 6 приведены значения адля разного числа испытаний.

ai
n=100,5740,3290,2140,1220,039
n=200,4730,3210,2570,2090,1690,1380,1010,0710,0420,014

4. Находят фактическое значение критерия

(38)

5. Сопоставляют полученное значение критерия Wф с табличным значением (таблице 7).

n
Wт0,7670,7620,8420,9050,9270,9400,947

Если Wф>>Wт , то гипотеза о соответствии полученных результатов нормальному распределению не отвергается.

Пример.

Получены следующие результаты определения разрывной нагрузки хлопчатобумажной пряжи: 137; 151; 130; 128; 115; 134; 103; 127; 129; 144. Проверить соответствие результатов испытаний нормальному закону распределения.

1. Откроем новый рабочий лист и введем в диапазон А2:А11 этого листа результаты испытаний.

2. С помощью кнопки Сортировка по возрастанию упорядочим данные, хранящиеся в диапазоне А2:А11.

3. Выделим диапазон А7:А11, скопируем его содержимое в диапазон В2:В6. С помощью кнопки Сортировка по убыванию упорядочим данные, хранятся в этом диапазоне, в порядке их убывания.

4. Из таблицы 6 выберем значения коэффициентов а и введем их в диапазон С2:С6.

5. В диапазон D2:D6 введем формулу массива =С2:С6*(В2:В6-А2:А6) и нажмем на клавиши Ctrl+Shift+Enter. В ячейках этого диапазона появятся числа, сумма которых дает расчетное значение b = 40,00 (ячейка Е2).

6. С помощью функции СРЗНАЧ в ячейке F2 получим среднее значение выборки для диапазона А2:А11.

7. Для расчета S 2 сначала в диапазон G2:G11 введем формулу массива =(A2:A11-$F$2)^2 и нажмем на клавиши Ctrl+Shift+Enter. В ячейках этого диапазона появятся числа, сумма которых дает расчетное значение S 2 = 6164 (ячейка Н2).

8. Для расчета W в ячейку I2 вводим формулу =E2^2/H2. Получим Wрасч = 0,26.

9. По таблице 7 находим табличное значение WТ = 0,842.

Критерий Шапиро-Уилка

Материал из MachineLearning.

Содержание

Критерий Шапиро-Уилка используется для проверки гипотезы : «случайная величина распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критерии, проверяющие нормальность выборки, являются частным случаем критериев согласия. Если выборка нормальна, можно далее применять мощные параметрические критерии, например, критерий Фишера.

Описание критерия

Критерий Шапиро-Уилка основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия. Статистика критерия имеет вид:

Числитель является квадратом оценки среднеквадратического отклонения Ллойда.

Коэффициенты берутся из таблиц. Ниже приведена таблица для небольших значений n и i.

ni
12345678910
37071
468721677
566462413
6643128060875
7623330311401
86052316417430561
95888324419760947
1057393291214112240399
1156013315226014290695
12547533252347158609220303
13535933252412170710990539
145251331824601802124007270240
155150330624951878135308800433
1650563290252119391447100505930196
1749683237254019881524110907250359
18488632532553202715871197083704960173
19480832322561205916411271093206120303
204734321125652085168613341013071104220140
214634318525782119173613991092080405300263
Читать еще:  Какой редактор видео лучше для новичка

Критические значения статистики также находятся таблично.

Если , то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости Приближённая вероятность получения эмпирического значения при вычисляется по формуле

где — табличные коэффициенты.

Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. При больших значениях 100)» alt= «n ;(n>100)» /> таблицы коэффициентов становятся неудобными. Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.

Критерий Шапиро-Франчиа

Введённая статистика имеет вид

где и — математическое ожидание i-й порядковой статистики стандартного нормального распределения. Аппроксимация где не искажает существенно критерий

Используя аппрокисмацию для квантили стандартного нормального распределения, можно записать

Решение «табличной проблемы»

Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц. Для предлагается статистика

Если то нулевая гипотеза нормальности распределения случайных величин отклоняется. Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).

Критерий шапиро уилка в excel

Статистику критерия рассчитывают по формуле W =b 2 /nm2. Рассчитанное значение W сравнивают с табличным Wтабл. Табличные значения критерия Wтабл в зависимости от уровня значимости α находят из таблиц, однако с приемлемой точностью их можно найти по зависимостям, показанным в табл. 9.2.

Таблица 9.2.

αWтабл
0,01(-0,0148n 4 + 2,1875n 3 — 122,61n 2 + 3257,3n + 55585)/100000
0,05(-0,0113n 4 + 1,656n 3 — 91,88n 2 + 2408,6n + 67608)/100000
0,1(-0,0084n 4 + 1,2513n 3 — 70,724n 2 + 1890n + 73840)/100000

Если W >= Wтабл, нулевую гипотезу не бракуют, т.е. распределение считают нормальным.

Пример 9.1. По данным примера 1.1 проверить при различных уровнях значимости гипотезу о нормальности распределения предела прочности на разрыв алюминиевого сплава.

Вариант выполнения примера 9.1 показан на рисунке 9.1.

Рис. 9.1. Вариант расчёта для примера 9.1.

Вводим в электронную таблицу уровень значимости и результаты испытаний, упорядочиваем их в вариационном ряду, рассчитываем среднее значение, сумму квадратов отклонений от среднего nm2, объём испытаний (какие при этом целесообразно задать в статистических функциях диапазоны?), а также величину k. Очевидно, что для любого (чётного и нечётного) n можно рассчитать k по формуле k=n/2 с округлением результата вниз до целого (функция ОКРУГЛВНИЗ).

Далее находим b. Для этого вначале рассчитываем значения n-i+1. Поскольку при этом, в соответствии с формулой (9.1), i = k, при расчёте используем функцию ЕСЛИ, в которой логическим выражением будет n-i+1>= k (т.е. ссылка на ячейку столбца G). При истинности этого выражения значение xn-i+1 находим при помощи функции ИНДЕКС, при ложности значение не задаём. Затем находим x 2 и W. Рассчитываем табличные значения критерия для различных уровней значимости по формулам табл. 7.2. Из этих значений выбираем необходимое Wтабл в соответствии с заданным уровнем значимости, используя трижды функции ЕСЛИ.

Затем, если n < 8, с помощью функции ЕСЛИ выводим сообщение «ВЫБОРКА СЛИШКОМ МАЛА». При ложности этого логического выражения используем в строке Значение_если_ложь функцию ЕСЛИ для сравнивания W и Wтабл, и в зависимости от истинности или ложности логического выражения выводим сообщение, является ли распределение нормальным. В результате в одной ячейке (в примере – ячейка D18) должно выводиться одно из трёх сообщений, например: ВЫБОРКА СЛИШКОМ МАЛА; РАСПРЕД. НОРМАЛЬНОЕ; РАСПРЕД. НЕ НОРМАЛЬНОЕ.

Читать еще:  Таблица ms excel

При правильном выполнении электронная таблица должна вер-но пересчитываться при вводе других данных в пределах применимо-сти критерия Шапиро-Уилка.

Задание.
1. Выполнить расчёты в соответствии с примером 9.1.
2. Выборочные значения случайных величин, полученные по результатам испытаний, показаны в табл. 9.3.

Таблица 9.3.

№ выборкиРЗначения в выборке

10,9855 875 834 872 863 855 888 864 870 881 891 872

20,9511 12 9 16 12 8 9 10 10 9 11 10 8 8

30,9934 36 38 33 34 32 30 36 38 31

Предполагается, что случайные величины распределены нормально.. Используя созданные электронные таблицы, исключить грубые ошибки по критерию Ирвина, проверить нормальность распределений, в случае нормального распределения рассчитать интервальные оценки параметров этих распределений. Результаты занести в таблицу 9.4.

Таблица 9.4.

№ выборкиГрубые ошибкиРаспределение (норм/не норм)Оценка МОценка σ
точечнаяИнтерв.точечнаяИнтерв.
1......
2......
3......

&nbsp &nbsp &nbsp &nbsp Далее &nbsp &nbsp Содержание

Критерий Шапиро–Уилка

Критерий Шапиро–Уилка (Shapiro–Wilk test) используется для проверки гипотезы о нормальном распределении.

Пример использования критерия Шапиро–Уилка в R

Загрузим библиотеку quantmod для скачивания котировок:

Получим котировки индекса S&P500 с сайта Yahoo Finance:

Рассчитаем массив относительных приращений цен закрытия (Close) по формуле (Delta C_i = (C_ — C_) / C_) :

Для проверки выведем котировки за 4 последних дня и относительные приращения цен закрытия за последние 3 дня:

Проверим значения относительных приращений цен закрытия по нашей формуле и убедимся, что всё считается верно.

Построим график относительных приращений цен закрытия:

Результат показан на рис. 1.

Рис. 1. График относительных приращений цен закрытия индекса S&P500

Рассчитаем плотность вероятности для относительных приращений цен закрытия:

Построим график плотности вероятности (рис. 2):

Рис. 2. График плотности вероятности для относительных приращений цен закрытия индекса S&P500

Построим гистограмму плотности вероятности (рис. 3):

Рис. 3. Гистограмма распределения относительных приращений цен закрытия индекса S&P500

Применим критерий Шапиро-Уилка для проверки нормальности распределения:

Получим p-значение 1.5e-21 и сообщение о том, что гипотезу о нормальности распределения отклонена (поскольку p-значение меньше, чем 0.05).

Построим график КК (квантиль-квантиль) для визуальной проверки нормальности распределения:

Если распределение нормальное, то все точки сосредоточились бы на базовой прямой, проходящей под углом 45 градусов. Получим график, показанный на рис. 4. Как видим, имеют место значительные отклонения от базовой прямой.

Рис. 4. График квантиль-квантиль для относительных приращений цен закрытия индекса S&P500

Для проверки сгенерируем 100 чисел, распределённых по нормальному закону, применим к ним тот же тест и построим график КК:

Получим p-значение = 0.8158. На графике КК (рис. 5) все точки группируются вдоль базовой прямой. Таким образом, оба способа проверки (численный и визуальный) не дают повода отклонять гипотезу о нормальности данной последовательности (что и следовало ожидать, ведь мы изначально генерировали числа, подчиняющиеся нормальному закону).

Рис. 5. График квантиль-квантиль для случайной последовательности чисел, распределённых по нормальному закону

Для проверки сгенерируем 100 чисел, имеющих распределения хи-квадрат с 3-мя степенями свободы, применим к ним тот же тест и построим график КК:

Получим p-значение = 1.47e-07. Как видно, p-значение оказалось меньше, чем 0,05, т.е. мы должны отвергнуть гипотезу о нормальности распределения. Более того, на графике КК многие точки далеко отходят от базовой прямой (рис. 6).

Рис. 6. График квантиль-квантиль для случайной последовательности чисел, подчиняющихся распределению хи-квадрат

Итак, можно утверждать, что относительные приращения цен закрытия индекса S&P500 не распределены по нормальному закону.

Найдём мат.ожидание и среднеквадратичное отклонение и выведем их в консоль:

Получим 0.00053 (можно считать нулевым) и 0.01013.

Снова построим график относительных приращений цен закрытия:

Добавим на график уровни для двух стандартных отклонений (как говорят, две сигмы; зелёные толстые сплошные линии на рис. 7):

Добавим уровни для трёх стандартных отклонений (три сигмы; красные тонкие штриховые линии на рис. 7):

Можно заключить, что относительные приращения цен закрытия индекса S&P500 редко выходят за ограничивающие уровни.

Рис. 7. Относительные приращения цен закрытия индекса S&P500 редко выходят за ограничивающие уровни

Для нормального распределения известен факт: вероятность того, что случайные числа, распределённых по нормальному закону, выйдут за пределы двух сигм, составляет 0,0455 (т.е. менее 5%); а вероятность выйти за пределы трёх сигм – всего 0,0027 (т.е. меньше 0,3%).

К сожалению, как мы доказали выше, в нашем случае распределение не является нормальным. Сравним экспериментальную плотность вероятности (рис. 8, зелёная кривая) и теоретическую (красная), имеющую те же значения мат.ожидания и среднеквадратичного отклонения:

Рис. 8. Экспериментальная и теоретическая плотность вероятности относительных приращений цен закрытия

Оценим вероятность того, что относительное приращение цен закрытия выйдет за пределы двух или трёх сигм. В математической статистике для таких оценок используются квантили и функции распределения. Напомним, что кванти́ль – это значение, которое случайная величина не превышает с заданной вероятностью; а функция распределения для любого числового значения показывает вероятность того, что случайная величина окажется меньше заданного значения.

Рассчитаем квантили для приращений цен закрытия:

Сравним с квантилями нормального распределения, имеющего те же мат.ожидание и среднеквадратичное отклонение:

Как видим, на практике цены закрытия с большей вероятностью “уходят” дальше, чем это было бы в случае нормального распределения.

Оценим функцию распределения (cumulative distribution function) для относительных приращений цен закрытия:

Получим вероятности того, что относительное приращение цены закрытия S&P500 выйдет за пределы заданного количества стандартных отклонений:

Итак, вероятность того, что относительное приращение цены закрытия выйдет вверх за диапазон двух сигм, составляет 0.025 (т.е. 2.5%); за диапазон трёх сигм – 0.007 (т.е. 0.7%). Оценку вероятности выхода за нижний предел проведите самостоятельно.

Для нормального распределения с теми же параметрами:

Остаётся применить полученные знания на практике, т.е. попытаться заработать на тех закономерностях изменения цены, которые мы здесь выяснили. Конкретные торговые стратегии можно узнать во время обучения.

Ссылка на основную публикацию
Adblock
detector