Для проверки каких гипотез применяются критерии согласия: Критерии проверки статистических гипотез

Содержание

Критерии проверки статистических гипотез

Понятие статистической гипотезы

 Статистической гипотезой (гипотезой) называется любое утверждение об изучаемом законе распределения или характеристиках случайных величин.

Пример статистических гипотез:

  1. Генеральная совокупность распределена по нормальному закону.
  2. Дисперсии двух нормально распределенных совокупностей равны между собой.

Нулевая гипотеза (Н0) — предположение о том, что между  параметрами генеральных совокупностей нет различий, то есть эти различия носят не систематический, а случайный характер.

Пример1. Нулевая гипотеза записывается следующим образом:

H0: µ12 (нулевая гипотеза заключается в том, что генеральное среднее одной совокупности равно генеральному среднему другой совокупности).

 Альтернативная гипотеза (Н1) – предположение о том, что между параметрами генеральных совокупностей есть достоверные различия.

 Пример 2. Альтернативные гипотезы записываются следующим образом:

  • H1: µ1µ2 (нулевая гипотеза заключается в том, что генеральное среднее одной совокупности не равно генеральному среднему другой совокупности).
  • H1: µ12 (нулевая гипотеза заключается в том, что генеральное среднее одной совокупности больше генерального среднего другой совокупности).
  • H1: µ1<µ2 (нулевая гипотеза заключается в том, что генеральное среднее одной совокупности меньше генерального среднего другой совокупности).

Ошибки при проверке гипотез

Ошибки, допускаемые при проверке статистических гипотез, делятся на два типа:

  • ошибки первого рода;
  • ошибки второго рода.

Ошибка первого рода – отклонение гипотезы Н0, когда она верна. Вероятность ошибки первого рода обозначается α и называется уровнем значимости.

Ошибка второго рода – принятие гипотезы Н0, когда верна альтернативная гипотеза. Вероятность ошибки второго рода обозначается β.

Более подробно о методах статистической обработки данных рассказано в книгах:

  • Факторный анализ в педагогических исследованиях в области физической культуры и спорта
  • Компьютерная обработка данных экспериментальных исследований
  • Информационные технологии в обработке анкетных данных в педагогике и биомеханике спорта

Классификация критериев значимости (критериев проверки статистических гипотез)

Для проверки правдоподобия статистической гипотезы используют критерий значимости – метод проверки статистической гипотезы.

Необходимо отметить, что до получения исследователем экспериментальных данных необходимо сформулировать статистическую гипотезу и задать уровень значимости α. При выборе уровня значимости исследователь должен исходить из практических соображений, отвечая на вопрос: какую вероятность ошибки он считает допустимой. В области физической культуры и спорта чаще всего задают уровень значимости α=0,05.

Критерии проверки статистических гипотез (критерии значимости) можно разделить на три большие группы:

  1. Критерии согласия;
  2. Параметрические критерии;
  3. Непараметрические критерии.

 Критерии согласия называются критерии значимости, применяемые для проверки гипотезы о законе распределения генеральной совокупности, из которой взята выборка. Для проверки статистической гипотезы чаще всего используются следующие критерии согласия: критерий Шапиро-Уилки, критерий хи-квадрат, критерий Колмогорова-Смирнова.

Параметрические критерии – критерии значимости, которые служат для проверки гипотез о параметрах распределений (чаще всего нормального). Такими критериями являются: t-критерий Стьюдента (независимые выборки), t-критерий Стьюдента (связанные выборки), F-критерий Фишера (независимые выборки).

Непараметрические критерии – критерии значимости, которые для проверки статистических гипотез не использует предположений о распределении генеральной совокупности. В качестве примера таких критериев можно назвать критерий Манна-Уитни и критерий Вилкоксона.

Литература

  1. Высшая математика и математическая статистика: учебное пособие для вузов / Под общ. ред. Г. И. Попова. – М. Физическая культура, 2007.– 368 с.
  2. Катранов А.Г. Компьютерная обработка данных экспериментальных исследований: Учебное пособие/ А. Г. Катранов, А. В. Самсонова; СПб ГУФК им. П.Ф. Лесгафта. – СПб.: изд-во СПб ГУФК им. П.Ф. Лесгафта, 2005. – 131 с.
  3. Основы математической статистики: Учебное пособие для ин-тов физ. культ / Под ред. В.С. Иванова.– М.: Физкультура и спорт, 1990. 176 с.

Проверка гипотез. Критерии согласия. Критерий согласия Пирсона

Главная » Математическая статистика » Проверка гипотез. Критерии согласия. Критерий согласия Пирсона

Автор Леонид Ведерников На чтение 3 мин. Просмотров 402 Опубликовано

Критерии согласия
В некоторых случаях нас интересует неизвестный закон распределения изученного признака Х во всей генеральной совокупности. В этом случае информация о законе распределения поступает с помощью выборки.
Формируется гипотеза Н0 о неизвестном законе распределения и по выборочным данным эта гипотеза либо отвергается либо принимается.
Правило, по которому решается отвергнуть гипотезу Н0 или нет называется критерием согласия.

Гипотеза Н0 может быть выдвинута не только о неизвестном законе распределения. Поскольку о признаке Х в генеральной совокупности, как правило, ничего не известно, то любое предположение относительно этого признака нуждается в подтверждении с помощью результатов выборки.
Гипотеза Н0 это любое предположение о признаке Х во всей генеральной совокупности.
Критерий согласия это правило, по которому эту гипотезу отвергаем или принимаем.
Для проверки гипотезы Н0 образуется выборка. С каждым критерием согласия связана некоторая случайная величина, которая называется статистикой данного критерия.
Закон распределения этой статистики, как правило, известен и затабулирован. При постановке задачи устанавливается уровень значимости α (т.е. та вероятность, которую решено принять).
В соответствие с уровнем значимости α по таблицам устанавливается критическое значение статистики критерия.
По результатам выборки вычисляется опытное (эмпирическое) значение этой статистики. Если опытное значение превосходит критическое, то гипотеза Н0 отвергается. В противном случае – не отвергается. При использовании критерия согласия для проверки гипотезы возникают 2 типа ошибок:
1. возможность отвергнуть правильную гипотезу;
2. возможность принять неверную гипотезу;
При выборе того или иного критерия согласия учитывается величина и характеристика ошибки, которая с ними связана.
Проверка гипотезы о нормальном законе распределения.
Критерий согласия Пирсона (критерий согласия (хи)).
Пусть закон распределения случайной величины Х во всей генеральной совокупности неизвестен. Образована выборка объема n. По результатам выборки получено значение . Данные выборки позволяют сформулировать гипотезу Н0 о том, что случайная величина Х имеет нормальный закон распределения с параметрами . Для проверки этой гипотезы применяется критерий согласия Пирсона, статистика которого
— вероятность того, что случайная величина заключена в интервале . И эти вероятности вычислены с предположением, что гипотеза Н0 верна, т.е. Х имеет нормальный закон распределения с параметрами . Тогда для вычисления можно применить формулу для нормального закона.
Случайная величина имеет известный закон распределения. 
Значение , полученное по ф. (1) – опытное (эмпирическое), т.к. получено по результатам выборки.
Критическое значение находим по таблице стр. 558 и определяется двумя параметрами α и k, где
α – уровень значимости;
k – называется числом степеней свободы и равняется m = 3, где m – это количество интервалов признака в выборке.

Если , то (гипотеза о нормальном законе отвергается). В противном случае принимается.

Оцените автора

Хи-квадрат критерия согласия

Опубликован в 24 мая 2022 г. к Шон Терни. Отредактировано 10 ноября 2022 г.

Критерий согласия хи-квадрат (Χ 2 ) — это тип критерия хи-квадрат Пирсона. Вы можете использовать его, чтобы проверить, отличается ли наблюдаемое распределение категориальной переменной от ваших ожиданий.

Пример: проверка на соответствие хи-квадрат Вас наняла компания по производству кормов для собак, чтобы вы помогли им протестировать три новых вкуса кормов для собак.

Вы выбираете случайную выборку из 75 собак и предлагаете каждой собаке выбор между тремя вкусами, ставя перед ними миски.

Вы ожидаете, что вкусы будут одинаково популярны среди собак, и около 25 собак выберут каждый вкус.

Получив результаты эксперимента, вы планируете использовать критерий согласия хи-квадрат, чтобы выяснить, существенно ли отличается распределение вкусовых предпочтений собак от ваших ожиданий.

Критерий согласия хи-квадрат показывает, насколько хорошо статистическая модель соответствует набору наблюдений. Его часто используют для анализа генетических скрещиваний.

Содержание

  1. Что такое критерий согласия хи-квадрат?
  2. Гипотезы критерия согласия хи-квадрат
  3. Когда использовать критерий согласия хи-квадрат
  4. Как рассчитать статистику теста (формула)
  5. Как выполнить критерий согласия хи-квадрат
  6. Когда использовать другой тест
  7. Практические вопросы и примеры
  8. Часто задаваемые вопросы о критерии согласия хи-квадрат

Что такое хи-квадрат критерия согласия?

Критерий согласия хи-квадрат (Χ 2 ) — это критерий согласия для категориальной переменной. Качество соответствия — это мера того, насколько хорошо статистическая модель соответствует набору наблюдений.

  • Когда качество подгонки высокое , ожидаемые значения на основе модели на близки к наблюдаемым значениям.
  • Когда качество подгонки низкое , ожидаемые значения на основе модели равны далеко от наблюдаемых значений.

Статистические модели, анализируемые с помощью хи-квадрат критерия согласия, представляют собой распределений . Это может быть любое распределение, от такого простого, как равная вероятность для всех групп, до такого сложного, как распределение вероятностей со многими параметрами.

Проверка гипотез

Критерий согласия хи-квадрат является проверкой гипотезы . Он позволяет делать выводы о распределении совокупности на основе выборки. Используя критерий согласия хи-квадрат, вы можете проверить, является ли качество соответствия «достаточно хорошим», чтобы сделать вывод, что популяция следует распределению.

С помощью критерия согласия хи-квадрат вы можете задавать такие вопросы, как: Была ли эта выборка взята из населения, которое…

  • Одинаковое соотношение самцов и самок черепах?
  • Равные пропорции красных, синих, желтых, зеленых и фиолетовых мармеладок?
  • 90% правшей и 10% левшей?
  • Потомство с равной вероятностью наследования всех возможных генотипических комбинаций (т.е. несцепленных генов)?
  • Пуассоновское распределение паводков за год?
  • Нормальное распределение цен на хлеб?
Пример: Наблюдаемые и ожидаемые частоты После нескольких недель напряженной работы ваш эксперимент с кормом для собак завершен, и вы собираете свои данные в таблицу:
Наблюдаемая и ожидаемая частота вкусовых предпочтений собак
Вкус Наблюдается Ожидается
Чесночный взрыв 22 25
Черничное наслаждение 30 25
Минти Мунк 23 25

Чтобы визуализировать разницу между наблюдаемыми и ожидаемыми частотами, вы также создаете гистограмму:

Президент компании по производству кормов для собак смотрит на ваш график и заявляет, что они должны отказаться от ароматизаторов Garlic Blast и Minty Munch, чтобы сосредоточиться на Blueberry Delight.

«Не так быстро!» ты говоришь ему.

Вы объясняете, что ваши наблюдения немного отличались от ожидаемых, но разница незначительна. Они могут быть результатом реальных вкусовых предпочтений, а могут быть случайностью.

Другими словами: у вас есть выборка из 75 собак, но на самом деле вы хотите понять популяцию всех собак. Была ли эта выборка взята из популяции собак, одинаково часто выбирающих три вкуса?

Хи-квадрат гипотезы критерия согласия

Как и все проверки гипотез, критерий согласия хи-квадрат оценивает две гипотезы: нулевую и альтернативную гипотезы. Это два конкурирующих ответа на вопрос «Была ли выборка взята из населения, которое следует определенному распределению?»

  • Нулевая гипотеза ( H 0 ): Население следует заданному распределению.
  • Альтернативная гипотеза ( H a ):   Население не соответствует указанному распределению.

Это общие гипотезы, применимые ко всем тестам согласия хи-квадрат. Вы должны сделать свои гипотезы более конкретными, описав «заданное распределение». Вы можете назвать распределение вероятностей (например, распределение Пуассона) или указать ожидаемые пропорции каждой группы.

Пример: Нулевая и альтернативная гипотеза
  • Нулевая гипотеза ( H 0 ): Популяция собак выбирает три вкуса в равных пропорциях ( p 1 ​​
    = p 2 = p 3 ).
  • Альтернативная гипотеза ( H a ): Популяция собак не выбирает три вкуса в равных пропорциях.

Когда использовать критерий согласия хи-квадрат

Следующие условия необходимы, если вы хотите выполнить критерий согласия хи-квадрат:

  1. Вы хотите проверить гипотезу о распределении одной категориальной переменной . Если ваша переменная является непрерывной, вы можете преобразовать ее в категориальную переменную, разделив наблюдения на интервалы. Этот процесс известен как объединение данных.
  2. Выборка была случайно выбранной из совокупности.
  3. Минимум из пяти наблюдений, ожидается в каждой группе.
Пример: Условия проверки согласия хи-квадрат Вы можете использовать критерий согласия хи-квадрат для анализа данных о корме для собак, поскольку все три условия были выполнены:
  1. Вы хотите проверить гипотезу о распределении одной категориальной переменной. Категориальная переменная — это вкус корма для собак.
  2. Вы выбрали случайную выборку из 75 собак.
  3. В каждой группе ожидалось не менее пяти наблюдений. Для всех трех вкусов корма для собак вы ожидали 25 наблюдений за собаками, выбирающими вкус.

Как рассчитать тестовую статистику (формула)

Тестовая статистика для критерия согласия хи-квадрат (Χ 2 ) является критерием хи-квадрат Пирсона:

Формула Пояснение
  • — статистика теста хи-квадрат
  • — оператор суммирования (означает «взять сумму»)
  • — наблюдаемая частота
  • — ожидаемая частота

Чем больше разница между наблюдениями и ожиданиями ( O E в уравнении), тем больше будет хи-квадрат.

Чтобы использовать формулу, выполните следующие пять шагов:

Шаг 1. Создайте таблицу

Создайте таблицу с наблюдаемыми и ожидаемыми частотами в двух столбцах.

Пример: Шаг 1
Ароматизатор Наблюдается Ожидается
Чесночный взрыв 22 25
Черничное наслаждение 30 25
Минти Мунк 23 25

Этап 2: Расчет

O E

Добавьте новый столбец с названием « O −  E ». Вычтите ожидаемые частоты из наблюдаемой частоты.

Пример: Шаг 2
Ароматизатор Наблюдается Ожидается О Е
Чесночный взрыв 22 25 22 25 = 3
Черничное наслаждение 30 25 5
Минти Мунк 23 25 2

Этап 3: Расчет (

O E ) 2

Добавьте новый столбец с именем «( O −  E ) 2 ». Возведите в квадрат значения в предыдущем столбце.

Пример: Шаг 37

Ароматизатор Наблюдается Ожидается О Е ( O   E ) 2
Чесночный взрыв 22 25 3 ( 3) 2 = 9
Черничное наслаждение 30 25 5 25
Минти Мунк 23 25 2 4

Шаг 4: Рассчитать (

O E ) 2 / E

Добавьте последний столбец под названием «( O E )² /  E ». Разделите предыдущий столбец на ожидаемые частоты.

Пример: Шаг 47

Ароматизатор Наблюдается Ожидается О Е ( O   E ) 2 ( O E )² /  E
Чесночный взрыв 22 25 3 9 9/25 = 0,36
Черничное наслаждение 30 25 5 25 1
Минти Мунк 23 25 2 4 0,16

Шаг 5: Рассчитать Χ

2

Сложите значения предыдущего столбца. Это статистика теста хи-квадрат (Χ 2 ).

Пример: Шаг 57

Аромат Наблюдается Ожидается О Е ( O   E ) 2 ( O E ) 2 / E / E / E / E
Чесночный взрыв 22 25 3 9 9/25 = 0,36
Черничное наслаждение 30 25 5 25 1
Минти Мунк 23 25 2 4 0,16

х 2 = 0,36 + 1 + 0,16 = 1,52

Как выполнить критерий согласия хи-квадрат

Статистика хи-квадрат является мерой качества подгонки, но сама по себе она мало что вам говорит. Например, является ли Χ 2 = 1,52 низким или высоким качеством подгонки?

Чтобы интерпретировать точность соответствия хи-квадрата, вам нужно сравнить его с чем-то. Вот что такое тест хи-квадрат: сравнение значения хи-квадрат с соответствующим распределением хи-квадрат, чтобы решить, следует ли отклонить нулевую гипотезу.

Чтобы выполнить тест на соответствие хи-квадрат, выполните следующие пять шагов (первые два шага уже выполнены для примера с кормом для собак):

Шаг 1. Расчет ожидаемых частот

Иногда вычисление ожидаемых частот является самым сложным шагом. Тщательно подумайте, какие ожидаемые значения наиболее подходят для вашей нулевой гипотезы.

В общем, вам нужно будет умножить ожидаемую долю каждой группы на общее количество наблюдений, чтобы получить ожидаемые частоты.

Шаг 2: вычислить хи-квадрат

Рассчитайте значение хи-квадрат из наблюдаемой и ожидаемой частот, используя формулу хи-квадрат.

   

Шаг 3: Найдите критическое значение хи-квадрат

Найдите критическое значение хи-квадрат в таблице критических значений хи-квадрат или с помощью статистического программного обеспечения. Критическое значение рассчитывается из распределения хи-квадрат. Чтобы найти критическое значение хи-квадрат, вам нужно знать две вещи:

.
  • Степени свободы ( df ): Для критериев согласия хи-квадрат df — это число групп минус один.
  • Уровень значимости (α): По соглашению уровень значимости обычно равен 0,05.
Пример: нахождение критического значения хи-квадрат Поскольку есть три группы (чесночный взрыв, черничное наслаждение и мятная мука), есть две степени свободы.

Для теста значимости при α = 0,05 и df = 2 критическое значение Χ 2 равно 5,99.

Шаг 4: Сравните значение хи-квадрат с критическим значением

Сравните значение хи-квадрат с критическим значением, чтобы определить, какое из них больше.

Пример: Сравнение значения хи-квадрат с критическим значением Χ 2 = 1,52

Критическое значение = 5,99

Значение Χ 2 меньше критического значения .

Шаг 5: Решите, следует ли отклонить нулевую гипотезу

  • Если значение Χ 2 на больше критического значения , то разница между наблюдаемым и ожидаемым распределениями является статистически значимой ( p α ).
    • Данные позволяют отвергнуть нулевую гипотезу и обеспечивают поддержку альтернативной гипотезы.
  • Если значение Χ 2 на меньше критического значения на , то разница между наблюдаемым и ожидаемым распределениями не является статистически значимой ( p α ).
    • Данные не позволяют отвергнуть нулевую гипотезу и не подтверждают альтернативную гипотезу.
Пример: Принятие решения об отклонении нулевой гипотезы. Значение Χ 2 меньше критического значения. Следовательно, вы не должны отвергать нулевую гипотезу о том, что популяция собак выбирает три вкуса в равных пропорциях. Нет существенной разницы между наблюдаемым и ожидаемым распределением выбора вкуса (9).0153 р > .05). Это говорит о том, что ароматизаторы корма для собак одинаково популярны среди собак.

Вы сообщаете о своих выводах президенту компании по производству кормов для собак. Он решает не исключать ароматизаторы Garlic Blast и Minty Munch, основываясь на ваших выводах. Многие собаки, которые любят эти вкусы, очень благодарны!

Когда использовать другой тест

Используете ли вы критерий согласия хи-квадрат или родственный тест, зависит от того, какую гипотезу вы хотите проверить и какой тип переменной у вас есть.

Когда использовать критерий независимости хи-квадрат

Существует еще один тип теста хи-квадрат, который называется критерием независимости хи-квадрат.

  • Используйте критерий согласия хи-квадрат, когда у вас есть одна категориальная переменная и вы хотите проверить гипотезу о ее распределении .
  • Используйте критерий независимости хи-квадрат, если у вас есть две категориальные переменные и вы хотите проверить гипотезу об их отношение .

Когда следует использовать другой тест на пригодность

Тесты согласия Андерсона-Дарлинга и Колмогорова-Смирнова являются двумя другими распространенными тестами согласия для распределений.

  • Используйте критерий согласия Андерсона-Дарлинга или Колмогорова-Смирнова, когда у вас есть непрерывная переменная (которую вы не хотите бинировать).
  • Используйте критерий согласия хи-квадрат, когда у вас есть категориальная переменная (или непрерывная переменная, которую вы хотите разделить).
Примечание. Для определенных дистрибутивов также существуют тесты на соответствие. Например, тест Шапиро-Уилка на нормальность — это тест на соответствие, специально предназначенный для проверки нормального распределения.

Специализированные тесты согласия обычно обладают большей статистической мощностью, поэтому они часто являются лучшим выбором, когда для интересующего вас распределения доступен специализированный тест.

Практические вопросы и примеры

Хотите проверить свои знания о критериях соответствия хи-квадрат? Загрузите наши практические вопросы и примеры с помощью кнопок ниже.

Загрузить документ Word Загрузить документ Google

Часто задаваемые вопросы о критериях согласия хи-квадрат

Как выполнить тест на соответствие хи-квадрат в R?

Вы можете использовать функцию chisq.test() для выполнения критерия согласия хи-квадрат в R. Укажите наблюдаемые значения в аргументе «x», укажите ожидаемые значения в аргументе «p» и установите «rescale. p» в true. Например:

chisq.test(x = c(22,30,23), p = c(25,25,25), rescale.p = TRUE)

Как выполнить тест на соответствие хи-квадрат для генетического скрещивания?

Хи-квадрат критерия согласия часто используются в генетике. Одним из распространенных приложений является проверка того, связаны ли два гена (т. Е. Является ли ассортимент независимым). Когда гены связаны, аллель, унаследованный для одного гена, влияет на аллель, унаследованный для другого гена.

Предположим, вы хотите узнать, связаны ли гены текстуры гороха (R = круглый, r = морщинистый) и цвета (Y = желтый, y = зеленый). Вы проводите дигибридное скрещивание двух гетерозиготных ( RY / ry ) растений гороха. В ходе эксперимента вы проверяете следующие гипотезы:

  • Нулевая гипотеза ( H 0 ): популяция потомков имеет равную вероятность унаследовать все возможные генотипические комбинации.
    • Это предполагает, что гены несцеплены.
  • Альтернативная гипотеза ( H a ): популяция потомства не имеет равной вероятности унаследовать все возможные генотипические комбинации.
    • Это предполагает, что гены связаны.

Вы наблюдаете 100 горошин:

  • 78 круглых и желтых горошин
  • 6 круглых и зеленых горошин
  • 4 морщинистых и желтых горошка
  • 12 шт. морщинистого и зеленого горошка

Шаг 1. Расчет ожидаемых частот

Для расчета ожидаемых значений можно построить квадрат Пеннета. Если два гена несцеплены, вероятность каждого генотипического сочетания одинакова.

рый Рай РЯ
РЮ РРИ РрГГ RRYyРрГГ
РрГГ ррый Ррый рргг
Рай RRYy Ррый RRyy РрГГ
РЯ РрГГ рргг РрГГ ррГГ

Таким образом, ожидаемые соотношения фенотипов составляют 9 круглых и желтых: 3 круглых и зеленых: 3 морщинистых и желтых: 1 морщинистый и зеленый.

Отсюда можно рассчитать ожидаемые частоты фенотипов для 100 горошин:

Фенотип Наблюдается Ожидается
Круглый и желтый 78 100 * (9/16) = 56,25
Круглый и зеленый 6 100 * (3/16) = 18,75
Морщинистый и желтый 4 100 * (3/16) = 18,75
Морщинистый и зеленый 12 100 * (1/16) = 6,21

Шаг 2: Расчет хи-квадрат

Фенотип Наблюдается Ожидается О Е ( О   Е ) 2 ( О Е ) 2 / Е
Круглый и желтый 78 56,25 21,75 473,06 8,41
Круглый и зеленый 6 18,75 −12,75 162,56 8,67
Морщинистый и желтый 4 18,75 −14,75 217,56 11,6
Морщинистый и зеленый 12 6,21 5,79 33,52 5,4

 

Χ 2 = 8,41 + 8,67 + 11,6 + 5,4 = 34,08

желтая, морщинистая и зеленая) имеют три степени свободы.

Для критерия значимости при α = 0,05 и df = 3 критическое значение Χ 2 равно 7,82.

Шаг 4: Сравните значение хи-квадрат с критическим значением

Шаг 5: Решите, следует ли отклонить нулевую гипотезу

Значение Χ 2 больше критического значения, поэтому мы отклонить нулевую гипотезу о том, что популяция потомства имеет равную вероятность унаследовать все возможные генотипические комбинации. Существует значительная разница между наблюдаемой и ожидаемой частотами генотипов ( p < 0,05).

Данные подтверждают альтернативную гипотезу о том, что потомство не имеет равной вероятности унаследовать все возможные генотипические комбинации, что предполагает сцепленность генов

Процитировать эту статью Scribbr

Если вы хотите процитировать этот источник, вы можете скопировать и вставить цитату или нажать кнопку «Цитировать эту статью Scribbr», чтобы автоматически добавить цитату в наш бесплатный генератор цитирования.

Терни, С. (2022, 10 ноября). Хи-квадрат критерия согласия | Формула, руководство и примеры. Скриббр. Проверено 27 марта 2023 г., из https://www.scribbr.com/statistics/chi-square-goodness-of-fit/

Процитировать эту статью

Полезна ли эта статья?

Вы уже проголосовали. Спасибо 🙂 Ваш голос сохранен 🙂 Обработка вашего голоса…

Во время учебы в магистратуре и докторантуре Шон научился применять научные и статистические методы в своих исследованиях в области экологии. Теперь он любит учить студентов, как собирать и анализировать данные для собственных диссертаций и исследовательских проектов.

хи-квадрат критерий согласия | Введение в статистику

Что такое критерий согласия хи-квадрат?

Критерий согласия Хи-квадрат — это проверка статистической гипотезы, используемая для определения того, может ли переменная происходить из определенного распределения или нет. Он часто используется для оценки того, являются ли данные выборки репрезентативными для всего населения.

Когда я могу использовать тест?

Вы можете использовать тест, когда у вас есть количество значений для категориальной переменной.

Является ли этот тест таким же, как критерий хи-квадрат Пирсона?

Да.

Использование критерия согласия по хи-квадрату

Критерий согласия по хи-квадрату проверяет вероятность того, что данные вашей выборки относятся к определенному теоретическому распределению. У нас есть набор значений данных и представление о том, как эти значения распределяются. Тест дает нам возможность решить, соответствуют ли значения данных нашей идее «достаточно хорошо», или наша идея сомнительна.

Что нам нужно?

Для проверки соответствия нам нужна одна переменная. Нам также нужна идея или гипотеза о том, как распределяется эта переменная. Вот несколько примеров:

  • У нас есть пакеты с конфетами по пять вкусов в каждом. Пакеты должны содержать равное количество штук каждого вкуса. Идея, которую мы хотели бы проверить, заключается в том, что пропорции пяти вкусов в каждом пакете одинаковы.
  • Для группы детских спортивных команд нам нужны дети с большим опытом, некоторым опытом и отсутствием опыта, равномерно распределенные между командами. Предположим, мы знаем, что 20 % игроков в лиге имеют большой опыт, 65 % имеют некоторый опыт и 15 % — новички без опыта. Идея, которую мы хотели бы проверить, заключается в том, что в каждой команде такое же количество детей с большим, небольшим или нулевым опытом, как и в лиге в целом.

Чтобы применить критерий согласия к набору данных, нам нужно:

  • Значения данных, которые представляют собой простую случайную выборку из полной совокупности.
  • Категориальные или номинальные данные. Критерий согласия Хи-квадрат не подходит для непрерывных данных.
  • Достаточно большой набор данных, чтобы в каждой из категорий наблюдаемых данных ожидалось не менее пяти значений.

Хи-квадрат Пример теста на соответствие

В качестве примера возьмем пакеты с конфетами. Мы собираем случайную выборку из десяти мешков. В каждом мешочке 100 конфет и пять вкусов. Наша гипотеза состоит в том, что пропорции пяти вкусов в каждом пакете одинаковы.

Давайте начнем с ответа: является ли критерий согласия хи-квадрат подходящим методом для оценки распределения вкусов в пакетах с конфетами?

  • У нас есть простая случайная выборка из 10 упаковок конфет. Мы отвечаем этому требованию.
  • Наша категориальная переменная — вкусы конфет. У нас есть количество каждого вкуса в 10 пакетах конфет. Мы отвечаем этому требованию.
  • В каждом пакете 100 конфет. В каждом мешочке пять вкусов конфет. Мы ожидаем, что будет одинаковое количество для каждого вкуса. Это означает, что мы ожидаем 100 / 5 = 20 конфет каждого вкуса из каждого пакета. На 10 пакетов в нашем образце мы ожидаем 10 x 20 = 200 конфет каждого вкуса. Это больше, чем требование пяти ожидаемых значений в каждой категории.

Основываясь на ответах выше, да, критерий согласия Хи-квадрат является подходящим методом для оценки распределения вкусов в пакетах с конфетами.

На рис. 1 ниже показано суммарное количество ароматов для всех 10 упаковок конфет.

Рисунок 1: Столбчатая диаграмма количества конфет из всех 10 пакетов

Не занимаясь статистикой, мы видим, что количество штук для каждого вкуса неодинаково. У некоторых ароматов меньше ожидаемых 200 штук, а у некоторых больше. Но насколько отличаются пропорции вкусов? Является ли количество штук «достаточно близким», чтобы мы могли сделать вывод, что во многих пакетах одинаковое количество штук для каждого вкуса? Или количество штук слишком разное, чтобы мы могли сделать такой вывод? Другими словами, дают ли наши значения данных «достаточно хорошее» соответствие идее равного количества конфет для каждого вкуса или нет?

Чтобы принять решение, мы находим разницу между тем, что имеем, и тем, что ожидаем. Затем, чтобы придать вкусам с меньшим количеством кусочков, чем ожидалось, такое же значение, как и вкусам с большим количеством кусочков, чем ожидалось, мы возводим разницу в квадрат. Затем мы делим квадрат на ожидаемое количество и суммируем эти значения. Это дает нам нашу тестовую статистику.

Эти шаги намного легче понять, используя числа из нашего примера.

Давайте начнем с перечисления того, что мы ожидаем, если в каждом пакете будет одинаковое количество штук для каждого вкуса. Выше мы рассчитали это как 200 за 10 пакетов конфет.

Таблица 1: Сравнение фактического ожидаемого количества частей каждого вкуса конфет

1488888888888888888888
Вкус Количество кусочков конфет (10 мешков) Ожидаемое количество пьес
Ожидаемое количество кусоч Apple 180 200
LIME 250 200
Cherry 120
.0092 200
Виноград 225 200

Теперь мы находим разницу между тем, что мы наблюдаем в наших данных, и тем, что мы ожидаем. Последняя колонка в Таблице 2 ниже показывает это различие:

конфет
Observed-Expected Apple 180 200 180-200 = -20 Lime 250 200 250-200 = 50 Cherry 120 200 120-200 = -80 Orange 225 200 225-200 = 25 Grape 225 200 225-200 = 25

Некоторые различия положительные, а некоторые отрицательные. Если бы мы просто сложили их, то получили бы ноль. Вместо этого мы возводим различия в квадрат. Это придает одинаковое значение вкусам конфет, в которых меньше кусочков, чем ожидалось, и вкусам, в которых кусочков больше, чем ожидалось.

Таблица 3: Расчет квадрата разницы между наблюдаемым и ожидаемым для каждого вкуса конфеты

Вкус Number of Pieces of Candy (10 bags) Expected Number of Pieces of Candy Observed-Expected Squared Difference
Apple 180 200 180-200 = -20 400
Lime 250 200 250-200 = 50 2500
Cherry 120 200 120-200 = -80 6400
Orange 225 200 225-200 = 25 625
Grape 225 200 225-200 = 25 625

Next, we разделить квадрат разницы на ожидаемое число:

9129 Expected Number of Pieces of Candy Observed-Expected Squared Difference Squared Difference / Expected Number Apple 180 200 180-200 = -20 400 400 / 200 = 2 Lime 250 200 250-200 = 50 2500 2500 / 200 = 12. 5 Cherry 120 200 120-200 = -80 6400 6400 /200 = 32 Orange 225 200 225-200199191414141401 225-20011 225-200191919141414141401 225-20019919192 225-2001 2250909. Виноград 225 200 225-200 = 25 625 625 /200 = 3,125

, наконец, мы добавим номера в конечную колонку. + 12,5 + 32 + 3,125 + 3,125 = 52,75 $

Чтобы сделать вывод, мы сравниваем тестовую статистику с критическим значением из распределения хи-квадрат. Эта деятельность включает в себя четыре шага:

  1. Сначала мы решаем, на какой риск мы готовы пойти, сделав неверный вывод на основе наших выборочных наблюдений. Что касается данных о конфетах, перед сбором данных мы решаем, что мы готовы взять на себя 5%-ный риск сделать вывод о том, что количество вкусов в каждой упаковке для всего населения не равно, когда это действительно так. На языке статистики мы устанавливаем уровень значимости α равным 0,05.
  2. Мы вычисляем тестовую статистику. Наша тестовая статистика — 52,75.
  3. Мы находим теоретическое значение из распределения хи-квадрат на основе нашего уровня значимости. Теоретическое значение — это значение, которое мы могли бы ожидать, если бы пакеты содержали одинаковое количество конфет для каждого вкуса.

    В дополнение к уровню значимости нам также нужны степени свободы , чтобы найти это значение. Для проверки пригодности это на одну меньше, чем количество категорий. У нас есть пять вкусов конфет, поэтому у нас есть 5 – 1 = 4 степени свободы.

    Значение хи-квадрат с α = 0,05 и 4 степенями свободы составляет 9,488.

  4. Мы сравниваем значение нашей тестовой статистики (52,75) со значением хи-квадрат. Поскольку 52,75 > 9,488, мы отвергаем нулевую гипотезу о том, что пропорции вкусов конфет равны.

 

Мы делаем практический вывод, что пакеты с конфетами для всего населения не имеют одинакового количества штук для пяти вкусов. Это имеет смысл, если вы посмотрите на исходные данные. Если ваш любимый вкус — лайм, у вас, вероятно, будет больше вашего любимого вкуса, чем других вкусов. Если ваш любимый вкус — вишневый, вы, вероятно, будете недовольны, потому что вишневых конфет будет меньше, чем вы ожидаете.

Понимание результатов

Давайте воспользуемся несколькими графиками, чтобы понять тест и его результаты.

Простая гистограмма данных показывает наблюдаемое количество вкусов конфет:

 

Рисунок 2: Гистограмма наблюдаемых значений количества конфет

На другой простой гистограмме показано ожидаемое количество 200 для каждого вкуса. Вот как выглядела бы наша диаграмма, если бы в пакетах с конфетами было равное количество конфет каждого вкуса.

Рисунок 3: Столбчатая диаграмма ожидаемого количества конфет для каждого вкуса

На приведенной ниже диаграмме синим цветом показано фактическое наблюдаемое количество конфет. Оранжевые полосы показывают ожидаемое количество штук. Вы можете видеть, что в одних вкусах больше кусочков, чем мы ожидаем, а в других меньше.

Рис. 4. Гистограмма, сравнивающая фактическое и ожидаемое количество конфет

Статистический тест — это способ количественной оценки разницы. Являются ли фактические данные из нашей выборки «достаточно близкими» к тому, что ожидается, чтобы сделать вывод о том, что пропорции вкуса во всей совокупности пакетов одинаковы? Или нет? Судя по приведенным выше данным о конфетах, большинство людей сказали бы, что данные «недостаточно близки» даже без статистической проверки.

Что, если бы ваши данные выглядели как в примере на рис. 5 ниже? Фиолетовые столбцы показывают наблюдаемое количество, а оранжевые столбцы — ожидаемое количество. Некоторые люди сказали бы, что данные «достаточно близки», но другие сказали бы, что это не так. Статистический тест дает общий способ принятия решения, так что все принимают одинаковое решение по набору значений данных.

Рис. 5. Гистограмма сравнения ожидаемых и фактических значений с использованием другого примера набора данных

Статистические данные

Давайте посмотрим на данные о конфетах и ​​критерий Хи-квадрат на соответствие статистическим терминам. Этот тест также известен как критерий хи-квадрат Пирсона.

Наша нулевая гипотеза состоит в том, что пропорция вкусов в каждом пакете одинакова. У нас пять вкусов. Нулевая гипотеза записывается как:

$ H_0: p_1 = p_2 = p_3 = p_4 = p_5 $

В приведенной выше формуле используется p для доли каждого вкуса. Если в каждом пакете из 100 штук содержится равное количество конфет каждого из пяти вкусов, то в пакете будет по 20 штук каждого вкуса. Доля каждого вкуса 20/100 = 0,2.

Альтернативная гипотеза состоит в том, что по крайней мере одна из пропорций отличается от других. Это записывается так:

$H_a: не менее\один\p_i\не\равно$

В некоторых случаях мы не проверяем равные пропорции. Посмотрите еще раз на пример детских спортивных команд вверху этой страницы. Используя это в качестве примера, наша нулевая и альтернативная гипотезы: \ стоимость $92}{E_i} $

В приведенной выше формуле у нас есть n групп. Символ $\sum$ означает суммирование вычислений для каждой группы. Для каждой группы делаем те же шаги, что и в примере с конфетами. Формула показывает O i в качестве наблюдаемого значения и E i    в качестве ожидаемого значения для группы.

Затем мы сравниваем тестовую статистику со значением хи-квадрат с выбранным нами уровнем значимости (также называемым альфа-уровнем) и степенями свободы для наших данных. Используя в качестве примера данные о конфетах, мы устанавливаем α = 0,05 и имеем четыре степени свободы. Для данных о конфетах значение хи-квадрат записывается как:

$ χ²_{0.05,4} $

Возможны два результата нашего сравнения:

  • Тестовая статистика ниже значения хи-квадрат. Вы не можете отвергнуть гипотезу о равных пропорциях. Вы заключаете, что в пакетах с конфетами всего населения содержится одинаковое количество конфет каждого вкуса. Подгонка равных пропорций «достаточно хороша».
  • Статистика теста выше значения хи-квадрат. Вы отвергаете гипотезу о равных пропорциях. Вы не можете заключить, что в мешках с конфетами одинаковое количество конфет каждого вкуса. Подгонка равных пропорций «недостаточно хороша».

Давайте воспользуемся графиком распределения хи-квадрат, чтобы лучше понять результаты теста. Вы проверяете, является ли ваша тестовая статистика более экстремальным значением в распределении, чем критическое значение. Распределение ниже показывает распределение хи-квадрат с четырьмя степенями свободы. Он показывает, как критическое значение 9,488 «отсекает» 95% данных. Только 5% данных больше 9,488.

Рисунок 6: Распределение хи-квадрат для четырех степеней свободы

Следующий график распределения включает наши результаты. Вы можете видеть, насколько далеко от «хвоста» находится наша тестовая статистика, представленная пунктирной линией на уровне 52,75. На самом деле, при таком масштабе кривая выглядит так, будто она находится в нуле в месте пересечения с пунктирной линией. Это не так, но очень, очень близко к нулю. Мы приходим к выводу, что такая ситуация вряд ли может возникнуть случайно. Если бы реальная популяция пакетов с конфетами имела одинаковое количество вкусов, мы вряд ли увидели бы результаты, которые мы получили из нашей случайной выборки из 10 пакетов.

Рис. 7. Распределение хи-квадрат для четырех степеней свободы с построенной статистикой теста

Большинство статистических программ показывает p-значение для теста.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *