Дисперсионный анализ (ANOVA)

Материал из Supply Chain Management Encyclopedia

Перейти к: навигация, поиск

English: Analysis of variation (ANOVA)

Содержание

Обзор

ANOVA - это аббревиатура, обозначающая статистическую технику, которая называется Дисперсионный анализ. Дисперсионный анализ представляет собой обобщенное название серии процедур, которые могут быть использованы для проверки гипотез о том, что средние двух или более групп равны, при условии, что выборка произведена из совокупности, имеющей нормальное распределение [1]. Предполагается, что полная вариация в изучаемом наборе данных может быть разложена на несколько компонентов. Каждый из этих компонентов вариации связан с конкретным источником вариации. Дисперсионный анализ основан на сравнении дисперсии (или средних квадратов отклонений) внутри исследуемых групп (выборок) и между ними. Если межгрупповая дисперсия больше, чем средняя внутригрупповых дисперсий, то и средние таких выборок не будут равны. Если межгрупповая дисперсия и средняя из внутригрупповых дисперсий будут примерно равны, то не будет существенного различия между выборочными средними. Термин «дисперсионный анализ» (ANOVA) был введен сэром Рональдом Фишером в 1918 году. Кроме того, в 1925 году Фишер представил полное разложение общей суммы квадратов в своей знаменитой книге «Статистические методы для научных работников». В его честь статистика, используемая в ANOVA, называется F-статистикой.

Гипотезы в ANOVA и F-тест

Данная процедура предполагает проверку нулевой гипотезы, состоящей в том, что все средние исследуемых выборок или совокупностей равны, против альтернативной гипотезы, состоящей в том, что по крайней мере одна пара средних не равна. Для проверки нулевой гипотезы используется парный t-тест для независимых выборок. Если необходимо сравнивать более двух выборочных средних, то повторное использование парных t-тестов приведет к более высокой вероятности появления ошибки I рода (при уровне значимости α), чем в случае парных сравнений. Поэтому чаще проводится сравнение всех имеющихся выборочных средних путем проверки одной нулевой гипотезы, для чего используется F-тест. Использование F-критерия Фишера обеспечивает более эффективный контроль за вероятностью появления ложных существенных различий. ANOVA предполагает сравнение сумм квадратов отклонений:

  • межгрупповых средних и общей средней (MSG)
  • индивидуальных значений и внутригрупповых средних (MSE)

для каждого сочетания значений признаков. F-тест рассчитывается как соотношение средней суммы квадратов межгрупповых отклонений к средней сумме квадратов отклонений внутри групп:

F{{=}}\dfrac{MSG}{MSE}

Высокое значение F-критерия (больше критического значения при заданном уровне значимости) свидетельствует о том, что нулевую гипотезу следует отвергнуть, а различия между группами признать более существенными, чем внутригрупповые[2].

Виды процедур дисперсионного анализа

Однофакторный дисперсионный анализ исследует различия между средними по одному из факторов. Нулевая гипотеза состоит в том, что нет существенных различий между средними по группам, представляющим собой уровни одного и того же фактора. Альтернативная гипотеза заключается том, что средние имеют существенные различия при данном уровне значимости. Двухфакторный дисперсионный анализ представляет собой статистическую процедуру, в которой два фактора могут быть использованы для объяснения изменчивости зависимой переменной. Эти факторы закрепляются исследователем на разных уровнях. Возможно тестирование следующих нулевых гипотез:

  1. Нет различий между групповыми средними по переменной A
  2. TНет различий между групповыми средними по переменной B. TАльтернативная гипотеза для случаев 1 и 2: средние не равны.
  3. TНет различий между групповыми средними по переменным А и В. Альтернативная гипотеза для случая 3: есть взаимодействие между А и В, средние существенно различаются.

N-факторный дисперсионный анализ рассматривает n-факторов одновременно, тестируя группы на различия между уровнями каждого фактора и эффект взаимодействия факторов.

Допущения в дисперсионном анализе

Метод предполагает использование трех статистических предпосылок:

  1. Наблюдения из генеральных совокупностей отобраны методом случайного отбора.
  2. Каждая выборка сформирована из нормально распределенной совокупности.
  3. Генеральные совокупности, из которых организованы выборки, имеют равные дисперсии

Известно также, что дисперсионный анализ является достаточно эффективным даже в случае отклонений от нормальности в распределении генеральных совокупностей и наличия неравных дисперсий. Проблемы возникают, когда неравенство дисперсий сочетается с разными объемами выборок. Поэтому при планировании дизайна исследования предпочтение отдают дизайну, в котором выборки равны по числу наблюдений.

Список литературы

  1. Graham Upton. A Dictionary of Statistics (Oxford Paperback Reference), Oxford University Press, USA; 2 edition (October 2, 2008).ISBN-10: 0199541450
  2. Ellen R.Girden. ANOVA: Repeated Measures (Quantitative Applications in the Social Sciences).SAGE Publications, Inc; 1 edition (November 26, 1991).ISBN-10: 0803942575

Полезные ресурсы

Statsoft Electronic Statistics Textbook
Личные инструменты
Our Partners