Дисперсионный анализ – это инструмент анализа, используемый в статистике, который разделяет наблюдаемую совокупную изменчивость, обнаруженную в наборе данных, на две части: систематические и случайные факторы. Систематические факторы оказывают статистическое влияние на данный набор данных, в то время как случайные факторы – нет. Аналитики используют тест ANOVA для определения влияния независимых переменных на зависимую переменную в регрессионном исследовании.
Методы t- и z-критериев, разработанные в 20-м веке, использовались для статистического анализа до 1918 года, когда Рональд Фишер создал метод дисперсионного анализа. ANOVA также называется дисперсионным анализом Фишера и является расширением t- и z-критериев. Этот термин стал широко известен в 1925 году, после упоминания в книге Фишера «Статистические методы для научных работников». Он использовался в экспериментальной психологии, а затем был распространен на более сложные предметы.
Что показывает дисперсионный анализ?
Тест ANOVA – это начальный шаг в анализе факторов, которые влияют на набор данных. После завершения теста аналитик выполняет дополнительное тестирование методических факторов, которые вносят ощутимый вклад в несогласованность набора данных. Аналитик использует результаты теста ANOVA в f-тесте для генерации дополнительных данных, которые согласуются с предложенными регрессионными моделями.
Дисперсионный анализ позволяет сравнивать более двух групп одновременно, чтобы определить, существует ли между ними связь. ANOVA, F-статистика (также называемая F-отношением) позволяет анализировать несколько групп данных для определения вариабельности между выборками и внутри выборок.
Пример использования ANOVA
Например, исследователь может протестировать студентов из нескольких колледжей, чтобы убедиться, что студенты одного из колледжей постоянно превосходят студентов из других колледжей.
Тип используемого теста ANOVA зависит от ряда факторов. Он применяется, когда данные должны быть экспериментальными. Дисперсионный анализ используется, если нет доступа к статистическому программному обеспечению, что приводит к ручному вычислению ANOVA. Он прост в использовании и лучше всего подходит для небольших образцов. Во многих экспериментальных планах размеры выборки должны быть одинаковыми для различных комбинаций уровней факторов.
ANOVA полезен для тестирования трех или более переменных. Он похож на множественный двухвыборочный t-тест, группирует различия, сравнивая средние значения каждой группы, и включает распределение дисперсии по разным источникам.