51. Эквивалентные бесконечно малые функции. Таблица эквивалентных бесконечно малых функций.
Функции и называют бесконечно малыми при , если и
Функции и называют эквивалентными бесконечно малыми при , если
Очень удобно пользоваться заменой эквивалентных бесконечно малых при нахождении пределов. Замена производится на основе таблицы.
Таблица эквивалентных бесконечно малых.
Пусть — бесконечно малая при .
Эквивалентность всех величин таблицы можно доказать, основываясь на равенстве .
52. Теорема о применении эквивалентных бесконечно малых к вычислению пределов.
При вычислении пределов часто применяется следующая Теорема. Предел отношения двух бесконечно малых (неопределенность ) равен пределу отношения двух других бесконечно малых, эквивалентных данным, т.е.
Отметим также: если , то.
3.
2. Основные формулы эквивалентности бесконечно малых.Известна формула первого замечательного предела:
Используя это равенство, получим
Отсюда получаем первую группу формул эквивалентности бесконечно малых.
При
. (1)
Вторая группа формул связана с логарифмической функцией.
Имеем:
Если при , то
Получаем вторую группу формул:
(2)
Третья группа формул связана с показательной функцией. Имеем:
Отсюда
Тогда
Итак, третья группа формул эквивалентности бесконечно малых
,
, (3)
Четвертая группа формул связана со степенной функцией.
Имеем:
Итак, четвертая группа формул эквивалентности бесконечно малых
,
,
(4)
53. Односторонние пределы функции в точке. Односторонняя непрерывность функции в точке.
Определение. Предела слева (справа)
Число А(В) по определению называется пределом функции f(x) в точке х0 слева (справа), если
>0 >0 : x из x0-<x<x0 (x0<x<x0+)
f(x)-A< (f(x)-B<),
при этом пишут:
Пример.
Справедлив критерий 2 существования предела функции в точке.
Теорема.
Для того, чтобы у функции f(x) существовал предел при хх0 необходимо и достаточно, чтобы существовал левосторонний предел в т. х0, существовал правосторонний предел в т. х0 и они были бы равны между собой.
Определение. Непрерывности функции слева (справа).
Функция f(x) определенная в левосторонней окрестности т. х0 (или в правосторонней окрестности т.х0) и в самой точке х0 называется непрерывной в т. х0 слева (справа), если
>0 >0 : x из x 0-<xx0 (x0x<x0+)
f(x)-f(x0-0)< (f(x)-f(x0+0)<)
При этом значения f(x0-0) (f(x0+0)) называют значениями функции в точке х0 слева (справа).
Пример .
f(-0)=0.
Теорема. Критерий непрерывности функции в точке.
Для того чтобы функция f(x) была непрерывной в т. х0 необходимо и достаточно, чтобы она была непрерывна слева в т. х0, справа в т. х0 и при этом выполнялось соотношение :
f(x0-0)=f(x0+0)=f(x0)
54. Точки разрыва функции и их классификация.
Функция f(x) не являющаяся непрерывной в т. x0 называется разрывной в т. x0.
При этом точки разрыва функции подразделяются на точки разрыва I рода и II рода.
Определение. Точка разрыва I рода.
Если у функции f(x) и они конечны, то говорят, что точка x0— точка разрыва первого рода.
При этом, если , то говорят, что точкаx0— точка устранимого разрыва.
Если же , то говорят, что точкаx0— точка разрыва с конечным скачком.
-разрывная функция.
Если положить — то произойдет устранение разрыва и функция станет непрерывной.
У функции так как
— имеется конечный скачок.
Определение. Точка разрыва II рода.
Если у функции f(x) хотя бы один из односторонних пределов не существует или равен , то говорят, что т. х0— точка разрыва II рода.
Пример
Если устремить х к 0 разными способами, то получим различные значения пределов:
, kN, x0 , а ;
значит функция f(x) не имеет предела â т. х0=0, то есть т. х0 точка разрыва II рода.
Эквивалентные функции определение, формулы, основные свойства, доказательство теоремы о замене функций, примеры нахождения пределов, таблица
В данной статье речь пойдет об основных понятиях эквивалентных функций, с помощью которых можно найти значение пределов.
Понятие эквивалентности поменяется не только в высшей математике, но и в логике, психологии, при переводах с иностранных языков. Оно означает «равнозначность», «равносильность», «равенство».
Определение эквивалентных функций
Эквивалентные функции — это функции, имеющие одинаковое значение. Они могут представлять собой бесконечность малых и больших величин.
Функция может иметь такое понятие лишь при наличии предела. Следует понимать, что одна и та же функция принимает значение малой или большой до бесконечности лишь в единственной точке.
Теорема о замене функций эквивалентными в пределе частного
Если при x1, стремящимся к x2, f(x)~f1(x) и g(x)~g1(x) существует предел:
то существует и предел:
Доказательство
Допустим, что следствие этой теоремы часто применяемое. Если мы имеем частное, являющееся результатом произведения функций:
в этом случае, при нахождении предела, можно сделать замену этих функций на эквивалентные:
при этом:
f(x) ~ f1(x), p(x) ~ p1(x), … , r(x) ~ r1(x), g(x) ~ g1(x), q(x) ~ q1(x), … , s(x) ~ s1(x).
Выражения равны друг другу, это значит, что при существовании одного из таких пределов, применимо существование выражения, равного первому. Соответственно, если не существует такой предел, то не может существовать и второй.
Следует отметить, что можно делать замену как одной величины функции, так и нескольких одновременно.
Таблица эквивалентных функций
Ниже приведена таблица равнозначных функций и формул при t → 0. В данном случае величина t может представлять собой как переменную, так и до бесконечности малую функцию t = t(x) при x → x0:
Эквивалентность при t → 0 | Равенство при t → 0 |
sin t ~ t | sin t = t + 0(t) |
arsin t ~ t | arsin t = t + 0(t) |
tg t ~ t | tg t = t + 0(t) |
artg t ~ t | artg t = t + 0(t) |
1-cos t ~ | 1-cos t = + 0(t2) |
et – 1 ~ t | et — 1 = t + 0(t) |
at – 1 ~ t ln a | at – 1 = t ln a + 0(t) |
ln (1 + t) ~ t | ln (1 + t) = t + 0(t) |
loga (1 + t) ~ | loga (1 + t) = + 0(t) |
(1 + t)b — 1 ~ bt | (1 + t)b — 1 = bt + 0(t) |
sh t ~ t | sh t = t + 0(t) |
arsh t ~ t | arsh t = t + 0(t) |
th t ~ t | th t = t + 0(t) |
arsh t ~ t | arsh t= t + 0(t) |
ch t – 1 ~ t2/2 | ch t – 1 ~ t2/2 + 0(t2) |
Свойства замены функций равносильными доступны для дробных выражений с перемножаемыми величинами и произведений, где необходимо найти предел.
В этом случае величины в числителе или знаменателе допускается заменить равнозначными функциями. Если математическое выражение представляет собой сумму чисел, замену сделать нельзя.
Примеры решения пределов с помощью эквивалентных функций
Для сравнения рассмотрим несколько примеров.
Пример 1
Вычислить
Начнём решение, учитывая, что tg2x ~ 2x, sin3x ~ 3x при x → 0, тогда
Пример 2
Найти
Пусть arcsin x = t, тогда x = sin t и t → 0 при x → 0. Исходя из этого:
Значит, arcsin x ~ x при x → 0.
Пример 3
Вычислить
Решение: если sin (15x) ~ 15x, tg (10x) ~ 10x, тогда
Для решения пределов можно использовать онлайн калькуляторы, размещенные на ресурсах в свободном доступе.
Эквивалентные бесконечно малые, применение к нахождению пределов
Функции вида α(x) и β(x) называются бесконечно малыми, если значение x→x0, а limx→x0α(x)=0 и limx→x0β(x)=0.
Функции вида α(x) и β(x) называются эквивалентно бесконечно малыми, если значение x→x0, а limx→x0α(x)β(x)=1.
Для нахождения пределов используют замены эквивалентных бесконечно малых. Их проводят, основываясь на данных таблицы.
Когда имеем α(x) как бесконечно малую функцию со значением x→x0.
sin(α(x)) | эквивалентна | α(x) |
tg(α(x)) | эквивалентна | α(x) |
arcsin(α(x)) | эквивалентна | α(x) |
arctg(α(x)) | эквивалентна | α(x) |
1-cos(α(x)) | эквивалентна | α(x)22 |
ln(1+α(x)) | эквивалентна | α(x) |
αα(x)-1 | эквивалентна | α(x)ln α |
1+α(x)p-1 | эквивалентна | pα(x) |
1+α(x)1p-1 | эквивалентна | α(x)p |
Для доказательства эквивалентности основываются на равенстве limx→x0α(x)β(x)=1.
Пример 1Доказать эквивалентность бесконечно малых величин ln(1+α(x)) и α(x).
Решение
Необходимо вычислить предел отношения данных величин limx→x0ln(1+α(x))α(x).
При использовании одно свойства логарифмов, получаем, что
limx→x0ln(1+α(x))α(x)=1α(x)ln(1+α(x))=ln(1+α(x))1α(x)
Запишем предел вида
limx→x0ln(1+α(x))α(x)=ln(1+α(x))1α(x)
Логарифмическая функция считается непрерывной на своей области определения, тогда необходимо применять свойство предела непрерывных функций, причем сменить знак перед предельным переходом и логарифмом. Получаем, что
limx→x0ln(1+α(x))α(x)=ln(1+α(x))1α(x)=lnlimx→x01+α(x)1a(x)
Необходимо произвести замену переменных t=α(x). Имеем, что α(x) является бесконечно малой функцией с x→x0, тогда limx→x0a(x)=0. Отсюда следует, что t→0.
Предел принимает вид
limx→x0ln(1+α(x))α(x)=ln(1+α(x))1α(x)=lnlimx→x01+α(x)1a(x)==lnlimt→0(1+t)1t=ln(e)=1
Ответ: limx→x0ln(1+α(x))α(x)=1
Получение 1 говорит о том, что заданные бесконечно малые функции эквивалентны. При последнем переходе применяли второй замечательный предел.
Таблица эквивалентных бесконечно малых необходима для ускорения процесса вычисления.
Пример 2Вычислить предел функции limx→01-cos4x216x4.
Решение
Производится подстановка значений
limx→01-cos4x216x4=1-cos(4·02)16·04=00
Полученная неопределенность говорит о том, что функция бесконечно малая и для ее разрешения необходимо обратиться к таблице эквивалентных бесконечно малых. Тогда получаем, что функция 1-cosα(x) является эквивалентной α(x)22, тогда имеем, что 1-cos(4×2) является эквивалентной 4×222.
После того, как была произведена замена бесконечно малой функции на ее эквивалентную, предел запишется так:
limx→01-cos4x216x4=00=limx→0(4×2)2216×4=limx→016x432x4=12
Без таблицы эквивалентных бесконечно малых не имели бы возможность воспользоваться правилом Лопиталя. Получаем, что
limx→01-cos4x216x4=00=limx→01-cos(4×2)’16×4’=limx→08xsin(4×2)64×3==limx→0sin(4×2)8×2=00=limx→0sin4x2’8×2’=limx→08xcos(4×2)16x=12limx→0cos(4×2)=12
Можно было произвести преобразование функции с применением тригонометрических формул с применением первого замечательного предела.
limx→01-cos(4×2)16×4=00=limx→02sin2(2×2)16×4==limx→012·sin(2×2)2×2·sin(2×2)2×2=12limx→0sin(2×2)2×2·limx→0sin(2×2)2×2== пусть t=2×2,t→0 при x→0=12limt→0sin(t)t·limt→0sin(t)t=12·1·1=12
Ответ: 12.
Решение задач от 1 дня / от 150 р. Курсовая работа от 5 дней / от 1800 р. Реферат от 1 дня / от 700 р.
Автор: Ирина Мальцевская
Преподаватель математики и информатики. Кафедра бизнес-информатики Российского университета транспорта
Решение высшей математики онлайн
‹— Назад
Как показывает приведённый выше пример 2.36, пределы отношения бесконечно малых можно упрощать, откидывая бесконечно малые слагаемые большего порядка и заменяя множители в числителе и знаменателе на эквивалентные бесконечно малые. Для того, чтобы этот способ вычисления пределов (точнее, раскрытия неопределённостей вида ) можно было применять к возможно большему числу примеров, мы должны иметь достаточно большой запас известных пар эквивалентных бесконечно малых величин. Для наиболее употребительной базы создадим такой запас в виде таблицы «стандартных» эквивалентных бесконечно малых.
Поскольку в этой таблице мы всегда будем рассматривать базу , для простоты записи обозначение этой базы будем пропускать и писать знак вместо .
1) . Эту формулу мы уже доказали и использовали в примерах. Эквивалентность и при означает в точности, что первый замечательный предел равен 1.
2) . Эта эквивалентность тоже была доказана выше в одном из примеров.
3) . Докажем эту эквивалентность:
4) . Докажите это в качестве упражнения, сделав замену и применив предыдущую табличную формулу.
5) . Для доказательства воспользуемся формулой . Далее, имеем:
Это означает, что доказываемая эквивалентность имеет место.
6) ( ). Для доказательства этой эквивалентности сделаем такое преобразование:
Для вычисления предела правой части воспользуемся непрерывностью логарифма и вторым замечательным пределом:
и мы доказали формулу 6.
В частном случае, при , получаем эквивалентность
) .
7) ( ). Для доказательства сделаем замену и выразим через : . Согласно формуле 6, при , откуда . Из непрерывности логарифма следует, что и, значит, при . В этой формуле осталось лишь сменить обозначение переменного на , чтобы получить формулу 7.
В частном случае, при , получаем эквивалентность
) .
Сведём теперь полученные формулы в итоговую таблицу. Всюду в ней .
1) | . |
2) | . |
3) | . |
4) | . |
5) | . |
6) | ( ). |
) | . |
7) | ( ). |
) | . |
Приведём примеры применения табличных формул для раскрытия неопределённостей вида .
Пример 2.37 Вычислим предел . Для этого в числителе вынесем за скобку , а к знаменателю применим формулу , где , . Получим
Мы заменили на эквивалентную величину (учтя при этом, что при ), на эквивалентную величину (учтя, что при ), затем сократили числитель и знаменатель на и, наконец, воспользовались тем, что функции и непрерывны и что и .
Пример 2.38 Вычислим предел
Заменим в числителе на эквивалентную величину , а знаменатель — на эквивалентную величину . После этого можно будет сократить дробь на и получить ответ:
Ещё раз обратим внимание читателя, что все формулы таблицы эквивалентных бесконечно малых относятся к базе . Следовательно, те же эквивалентности имеют место и при односторонних базах и . Если же рассматриваемый пример содержит неопределённость вида при какой-либо другой базе, то часто предел можно свести к пределу при «стандартной» базе (или , или ) с помощью подходящей замены переменной, а затем воспользоваться табличными эквивалентностями.
Пример 2.39 Вычислим предел .
Если сделать замену , то при новая переменная будет, очевидно, стремиться к 0, то есть база перейдёт при такой замене в «стандартную» базу . Подставляя и учитывая формулу приведения для косинуса, получаем:
Мы применили табличную формулу , а затем сократили дробь на и получили ответ.
Применяя формулы таблицы эквивалентностей бесконечно малых последовательно, мы можем получать (и использовать для вычисления пределов) цепочки эквивалентностей произвольной длины.
Пример 2.40 Можно, например, получить следующую формулу:
Здесь мы последовательно воспользовались формулами
и учли, что величины , , , являются бесконечно малыми при .
Используя полученную в результате эквивалентность
мы можем, например, вычислить предел
Математика, вышка, высшая математика, математика онлайн, вышка онлайн, онлайн математика, онлайн решение математики, ход решения, процес решения, решение, задачи, задачи по математике, математические задачи, решение математики онлайн, решение математики online, online решение математики, решение высшей математики, решение высшей математики онлайн, матрицы, решение матриц онлайн, векторная алгебра онлайн, решение векторов онлайн, система линейных уравнений, метод Крамера, метод Гаусса, метод обратной матрицы, уравнения, системы уравнений, производные, пределы, интегралы, функция, неопределенный интеграл, определенный интеграл, решение интегралов, вычисление интегралов, решение производных, интегралы онлайн, производные онлайн, пределы онлайн, предел функции, предел последовательности, высшие производные, производная неявной функции
Сравнение бесконечно малых, таблица бесконечно малых
Используй поиск, чтобы найти научные материалы и собрать список литературы
База статей справочника включает в себя статьи написанные экспертами Автор24, статьи из научных журналов и примеры студенческих работ из различных вузов страны
Содержание статьи
1. Что такое бесконечные малые функции
2. Свойства эквивалентных бесконечно малых
Что такое бесконечные малые функции
Функции являются бесконечно малыми, если при стремлении x к точке а их предел равен 0.
\[\mathop{\lim }\limits_{x\to a} f(x)=0\]
Однако бесконечно малой функция может быть только в конкретной точке. Как показано на рисунке 1, функция бесконечно мала только в точке 0.
Рисунок 1. Бесконечно малая функция
Если предел частного двух функций в результате дает 1, функции называются эквивалентными бесконечно малыми при стремлении х к точке а.
\[\mathop{\lim }\limits_{x\to a} \frac{f(x)}{g(x)} =1\]
Определение
Если функции f(x), g(x) бесконечно малые при $х > а$, то:
- Функция f(x) называется бесконечно малой высшего порядка относительно g(x), если выполняется условие: \[\mathop{\lim }\limits_{x\to a} \frac{f(x)}{g(x)} =0\]
- Функция f(x) называется бесконечно малой n-го порядка относительно g(x), если отличен от 0 и конечен предел: \[\mathop{\lim }\limits_{x\to a} \frac{f(x)}{g^{n} (x)} =A\]
Пример 1
Функция $y=х^3$ является бесконечно малой высшего порядка при х>0, в сравнении с функцией y=5x, так как предел их отношения равен 0, это объясняется тем, что функция $y=х^3$ стремится к нулевому значению быстрее:
\[\mathop{\lim }\limits_{x\to 0} \frac{x^{2} }{5x} =\frac{1}{5} \mathop{\lim }\limits_{x\to 0} x=0\]
Пример 2
Функции y=x2-4 и y=x2-5x+6 являются бесконечно малыми одного порядка при х>2, так как предел их отношения не равен 0:
\[\mathop{\lim }\limits_{x\to 2} \frac{x^{2} -4}{x^{2} -5x+6} =\mathop{\lim }\limits_{x\to 2} \frac{(x-2)(x+2)}{(x-2)(x-3)} =\mathop{\lim }\limits_{x\to 2} \frac{(x+2)}{(x-3)} =\frac{4}{-1} =-4\ne 0\]
Свойства эквивалентных бесконечно малых
- Разность двух эквивалентных бесконечно малых есть бесконечно малая высшего порядка относительно каждой из них.
- Если из суммы нескольких бесконечно малых разных порядков отбросить бесконечно малые высших порядков, то оставшаяся часть, называемая главной, эквивалентна всей сумме.
Из первого свойства следует, что эквивалентные бесконечно малые могут стать приближенно равными со сколь угодно малой относительной погрешностью. Поэтому знак ≈ применяется как для обозначения эквивалентности бесконечно малых, так и для записи приближенного равенства их достаточно малых значений.
При нахождении пределов очень часто приходится применять замену эквивалентных функций для быстроты и удобства вычислений. Таблица эквивалентных бесконечно малых представлена ниже (табл.1).
Эквивалентность бесконечно малых приведенных в таблице можно доказать, опираясь на равенство:
\[\mathop{\lim }\limits_{x\to a} \frac{f(x)}{g(x)} =1\]
Таблица 1
Замена эквивалентных величин
Пример 3
Докажем эквивалентность бесконечно малых ln(1+x) и x. {2} } =\frac{9}{4} =2,25\]
Сообщество экспертов Автор24
Автор этой статьи Дата последнего обновления статьи: 17.12.2021
Выполнение любых типов работ по математике
Решение задач по комбинаторике на заказ Решение задачи Коши онлайн Математика для заочников Контрольная работа на тему числовые неравенства и их свойства Контрольная работа на тему умножение и деление рациональных чисел Контрольная работа на тему действия с рациональными числами Дипломная работа на тему числа Курсовая работа на тему дифференциальные уравнения Контрольная работа на тему приближенные вычисления Решение задач с инвариантами
Подбор готовых материалов по теме
Дипломные работы Курсовые работы Выпускные квалификационные работы Рефераты Сочинения Доклады Эссе Отчеты по практике Решения задач Контрольные работы
Пределы с эквивалентностью примеры решения
Для раскрытия неопределенностей ноль делить на ноль $[frac<0><0>]$ очень удобно использовать таблицу эквивалентности пределов. 2 = 0 $$
Если не получается решить свою задачу, то присылайте её к нам. Мы предоставим подробное решение. Вы сможете ознакомиться с ходом вычисления и почерпнуть информацию. Это поможет своевременно получить зачёт у преподавателя!
Пример 2 |
Заменяя эквивалентными бесконечно малыми найдите предел $ lim_limits frac<1-cos 4x> $ |
Решение |
Ответ |
$$ lim_limits frac<1-cos 4x> = 0 $$ |
Пример 3 |
Вычислить предел функции используя эквивалентно малые величины $lim_limits frac<sin (x-1)> $ |
Решение |
Эквивалентность при | Равенство при |
Предостережение
Как указывалось в самом начале, производить замену функций эквивалентными можно только в множителях дробей и произведений, предел которых мы хотим найти. В других выражениях, например в суммах, делать такую замену нельзя.
В качестве примера рассмотрим следующий предел:
.
При . Но если заменить в числителе на x , то получим ошибку:
.
Ошибки не будет, если выразить синус через эквивалентную функцию и о малое, :
.
Поскольку и , то мы снова получили неопределенность 0/0 . Это указывает на то, что для вычисления этого предела применение эквивалентной функции не достаточно. Нужно применить другой метод.
Примеры
Все примеры Далее мы приводим подробные решения следующих пределов, упрощая вычисления с помощью эквивалентных функций.
⇓, ⇓, ⇓, ⇓.
Пример 1
Из таблицы эквивалентных функций ⇑ имеем:
. Поскольку исходная функция является дробью и каждая из этих функций входит в нее в виде множителя в числителе или знаменателе, то заменим их на эквивалентные.
.
Пример 2
Из таблицы эквивалентных функций ⇑ находим:
.
Преобразуем квадрат логарифма:
.
Поскольку исходная функция является дробью и каждая из этих функций входит в нее в виде множителя в числителе или знаменателе, то заменим их на эквивалентные.
.
Пример 3
Здесь мы имеем неопределенность вида один в степени бесконечность. Приводим ее к неопределенности вида 0/0 . Для этого воспользуемся тем, что экспонента и натуральный логарифм являются взаимно обратными функциями.
.
Теперь в показателе экспоненты у нас неопределенность вида 0/0 .
Вычисляем предел:
.
Поскольку у нас дробь, то заменим некоторые множители в числителе и знаменателе эквивалентными функциями, пользуясь приведенной выше таблицей ⇑.
;
;
.
Поскольку экспонента непрерывна для всех значений аргумента, то по теореме о пределе непрерывной функции от функции имеем:
.
Пример 4
При . Выясним, к чему стремится . Поскольку здесь дробь, то заменим логарифм эквивалентной функцией: . Тогда
. Таким образом, мы имеем неопределенность вида ∞–∞ .
Преобразуем ее к неопределенности вида 0/0 . Для этого приводим дроби к общему знаменателю.
.
Здесь мы также воспользовались формулой . После преобразований, наш предел принимает следующий вид:
.
В знаменателе мы сразу можем заменить натуральный логарифм эквивалентной функцией, как это сделали выше:
.
В числителе имеется произведение двух множителей, каждый из которых тоже можно заменить эквивалентной функцией и, таким образом, упростить вычисления. В качестве эквивалентных, попробуем найти степенные функции:
.
Тогда . Считаем, что . Раскрываем неопределенность по правилу Лопиталя.
.
Если положить , то . Тогда
.
Тот же результат можно получить, применяя разложение в ряд Тейлора при :
.
Отсюда .
Найдем эквивалентную функцию для второго множителя, используя разложение в ряд Тейлора при :
.
Отсюда .
Теперь заменим множители эквивалентными функциями:
.
Примечание. Заметим, что делать замену функций на эквивалентные можно, только если функция, от которой ищется предел, является дробью или произведением. Тогда часть множителей в числителе или знаменателе можно заменить эквивалентными функциями. Так, если бы мы с самого начала заменили ln (1+x) на x, то получили бы ошибку.
Использованная литература:
Л.Д. Кудрявцев, А.Д. Кутасов, В.И. Чехлов, М.И. Шабунин. Сборник задач по математическому анализу. Том 1. Москва, 2003.
Автор: Олег Одинцов . Опубликовано: 10-05-2019
Функции вида α ( x ) и β ( x ) называются бесконечно малыми, если значение x → x 0 , а lim x → x 0 α ( x ) = 0 и lim x → x 0 β ( x ) = 0 .
Функции вида α ( x ) и β ( x ) называются эквивалентно бесконечно малыми, если значение x → x 0 , а lim x → x 0 α ( x ) β ( x ) = 1 .
Для нахождения пределов используют замены эквивалентных бесконечно малых. Их проводят, основываясь на данных таблицы.
Таблица эквивалентных бесконечно малых
Когда имеем α ( x ) как бесконечно малую функцию со значением x → x 0 .
sin ( α ( x ) ) | эквивалентна | α ( x ) |
t g ( α ( x ) ) | эквивалентна | α ( x ) |
a r c sin ( α ( x ) ) | эквивалентна | α ( x ) |
a r c t g ( α ( x ) ) | эквивалентна | α ( x ) |
1 – cos ( α ( x ) ) | эквивалентна | α ( x ) 2 2 |
ln ( 1 + α ( x ) ) | эквивалентна | α ( x ) |
α α ( x ) – 1 | эквивалентна | α ( x ) ln α |
1 + α ( x ) p – 1 | эквивалентна | p α ( x ) |
1 + α ( x ) 1 p – 1 | эквивалентна | α ( x ) p |
Для доказательства эквивалентности основываются на равенстве lim x → x 0 α ( x ) β ( x ) = 1 .
Доказать эквивалентность бесконечно малых величин ln ( 1 + α ( x ) ) и α ( x ) .
Необходимо вычислить предел отношения данных величин lim x → x 0 ln ( 1 + α ( x ) ) α ( x ) .
При использовании одно свойства логарифмов, получаем, что
lim x → x 0 ln ( 1 + α ( x ) ) α ( x ) = 1 α ( x ) ln ( 1 + α ( x ) ) = ln ( 1 + α ( x ) ) 1 α ( x )
Запишем предел вида
lim x → x 0 ln ( 1 + α ( x ) ) α ( x ) = ln ( 1 + α ( x ) ) 1 α ( x )
Логарифмическая функция считается непрерывной на своей области определения, тогда необходимо применять свойство предела непрерывных функций, причем сменить знак перед предельным переходом и логарифмом. Получаем, что
lim x → x 0 ln ( 1 + α ( x ) ) α ( x ) = ln ( 1 + α ( x ) ) 1 α ( x ) = ln lim x → x 0 1 + α ( x ) 1 a ( x )
Необходимо произвести замену переменных t = α ( x ) . Имеем, что α ( x ) является бесконечно малой функцией с x → x 0 , тогда lim x → x 0 a ( x ) = 0 . Отсюда следует, что t → 0 .
Предел принимает вид
lim x → x 0 ln ( 1 + α ( x ) ) α ( x ) = ln ( 1 + α ( x ) ) 1 α ( x ) = ln lim x → x 0 1 + α ( x ) 1 a ( x ) = = ln lim t → 0 ( 1 + t ) 1 t = ln ( e ) = 1
Ответ: lim x → x 0 ln ( 1 + α ( x ) ) α ( x ) = 1
Получение 1 говорит о том, что заданные бесконечно малые функции эквивалентны. При последнем переходе применяли второй замечательный предел.
Таблица эквивалентных бесконечно малых необходима для ускорения процесса вычисления.
Вычислить предел функции lim x → 0 1 – cos 4 x 2 16 x 4 .
Производится подстановка значений
lim x → 0 1 – cos 4 x 2 16 x 4 = 1 – cos ( 4 · 0 2 ) 16 · 0 4 = » open=» 0 0
Полученная неопределенность говорит о том, что функция бесконечно малая и для ее разрешения необходимо обратиться к таблице эквивалентных бесконечно малых. Тогда получаем, что функция 1 – cos α ( x ) является эквивалентной α ( x ) 2 2 , тогда имеем, что 1 – cos ( 4 x 2 ) является эквивалентной 4 x 2 2 2 .
После того, как была произведена замена бесконечно малой функции на ее эквивалентную, предел запишется так:
lim x → 0 1 – cos 4 x 2 16 x 4 = » open=» 0 0 = lim x → 0 ( 4 x 2 ) 2 2 16 x 4 = lim x → 0 16 x 4 32 x 4 = 1 2
Без таблицы эквивалентных бесконечно малых не имели бы возможность воспользоваться правилом Лопиталя. Получаем, что
lim x → 0 1 – cos 4 x 2 16 x 4 = » open=» 0 0 = lim x → 0 1 – cos ( 4 x 2 ) ‘ 16 x 4 ‘ = lim x → 0 8 x sin ( 4 x 2 ) 64 x 3 = = lim x → 0 sin ( 4 x 2 ) 8 x 2 = » open=» 0 0 = lim x → 0 sin 4 x 2 ‘ 8 x 2 ‘ = lim x → 0 8 x cos ( 4 x 2 ) 16 x = 1 2 lim x → 0 cos ( 4 x 2 ) = 1 2
Можно было произвести преобразование функции с применением тригонометрических формул с применением первого замечательного предела. Запишем, что
lim x → 0 1 – cos ( 4 x 2 ) 16 x 4 = » open=» 0 0 = lim x → 0 2 sin 2 ( 2 x 2 ) 16 x 4 = = lim x → 0 1 2 · sin ( 2 x 2 ) 2 x 2 · sin ( 2 x 2 ) 2 x 2 = 1 2 lim x → 0 sin ( 2 x 2 ) 2 x 2 · lim x → 0 sin ( 2 x 2 ) 2 x 2 = = п у с т ь t = 2 x 2 , t → 0 п р и x → 0 = 1 2 lim t → 0 sin ( t ) t · lim t → 0 sin ( t ) t = 1 2 · 1 · 1 = 1 2
Тест эквивалентностив Excel | TOST
Традиционные t-тесты определяют, являются ли одинаковыми или разными, но они могут давать ложные срабатывания. Проверка эквивалентности определяет интервал, в котором средства можно считать эквивалентными .
В тесте эквивалентности (TOST) используются два t-теста, предполагающие равные дисперсии с гипотетической разницей средних ( u 1 — u 2 = интервал).
Примечание. Excel не выполняет проверки эквивалентности; QI Macros предоставляет эту функциональность.
Пример теста эквивалентности
Скотч измеряется сразу после изготовления и через 24 часа. Эквивалентны ли измерения в эти два разных момента времени? Если они есть, одно измерение можно исключить, сэкономив время и деньги.
Запуск теста эквивалентности (TOST) с использованием макросов QI
Выберите данные в электронной таблице Excel, щелкните меню «Макросы QI» > «Статистические инструменты» > «F- и t-тесты» и выберите «Тест эквивалентности (TOST)»:
Макрос QI запросит уровень значимости (по умолчанию = 0,05 или 0,95):
Наряду с гипотетической средней разницей ( Примечание: Эта разница установит диапазон, приемлемый для эквивалентности. По умолчанию = 0):
Используемый расчет:
ПРИМЕЧАНИЕ: Гипотезированная разница средних значений — это гипотетическая разница между средними значениями в вашем наборе данных. HMD сообщает расчет t Stat, который затем сообщает значение p. Если у вас есть рассчитанный HMD, который намного превышает фактическую разницу между двумя вашими средними значениями, это сильно повлияет на ваше значение p.
Тест на эквивалентность выполнит расчеты и интерпретирует результаты за вас!
Если оба p-значения меньше 0,05, средние значения эквивалентны.
Включенный в выпуск от июля 2022 года, мы предоставляем график значений вместе с графиком эквивалентности.
Все выпуски до июля 2022 г. включали только выходные данные Box & Whisker.
Теперь становится интересно… потому что односторонние p-значения оба меньше 0,05…
средства могут быть задекларированы эквивалент . Итак, мы можем исключить один из тестов.Определите две нулевые и альтернативные гипотезы эквивалентности:
- Нулевая гипотеза H 01 состоит в том, что средняя разница (x1-x2) <= 0,8
- Альтернативная гипотеза H 11 a заключается в том, что средняя разница > 0,8
- Нулевая гипотеза H 02 состоит в том, что средняя разница (x1–x2) >= 0,8
- Альтернативная гипотеза H 12 a заключается в том, что средняя разница <0,8
График эквивалентности
UEL (верхний предел эквивалентности – верхний предел приемлемости разницы) и LEL (нижний предел эквивалентности — нижний предел приемлемости разницы) основаны на сумме двух средние значения наборов данных, разделенные на 2 и умноженные на значение +/-%, найденное в ячейке H5 (это значение влияет на ширина UEL/LEL).
ПРИМЕЧАНИЕ: То, что находится между UEL и LEL, считается «Зоной эквивалентности».
КОНЕЧНЫЙ ПОЛЬЗОВАТЕЛЬ МОЖЕТ ОБНОВИТЬ UEL, LEL и доверительный интервал в ячейках h4:H5 соответственно. И если UEL и LEL обновляются, строки доверительного интервала и операторы Equivalent/Not Equivalent будут обновляться автоматически на основе вашего набора данных.
95% линейный вывод представляет ваш 95% доверительный интервал и, поскольку он частично расположен за пределами Зона эквивалентности, это указывает на то, что ваш набор данных статистически НЕ МОЖЕТ претендовать на эквивалентность.
75% линейный вывод представляет ваш 75% доверительный интервал . И по информации, предоставленной выше, поскольку это ЕСТЬ находится в зоне эквивалентности, если конечный пользователь решит использовать только уровень достоверности 75%. эталонный тест, их набор данных МОЖЕТ статистически заявить об эквивалентности
Почему стоит выбрать статистическое программное обеспечение QI Macros для Excel?
Доступный
- Только 329 долларов США — меньше со скидками за количество
- Годовая плата не взимается
- Бесплатная техническая поддержка
Простота использования
- Работает прямо в Excel
- Интерпретирует результаты для вас
- Точные результаты без забот
Проверенный и надежный
- 100 000 пользователей в 80 странах
- Празднование 20-летия
- Пятизвездочный рейтинг CNET — без вирусов
Статистическая эквивалентная тестирование для оценки очищаемости на стенде
000″> 1 февраля 2010 г.
Biopharm International , Biopharm International-02-01-2010, том 23, выпуск 2
. Двусторонний t-критерий сравнивает эквивалентность двух наборов данных.
РЕФЕРАТРегулирующие органы ожидают, что предприятия по производству биофармацевтических препаратов продемонстрируют, что они имеют эффективный и последовательный процесс очистки. Для предприятия, работающего с несколькими продуктами, лабораторная характеристика предлагает полезный и экономичный способ поддержки проверки чистоты путем сравнения очищаемости нового продукта с проверенным. Из-за проблем, связанных с экспериментальной изменчивостью в таких оценках, такие оценки относительной очищаемости должны быть основаны на надежном статистическом анализе. В данной статье описывается применение двустороннего одностороннего t – метод испытаний (TOST) для оценки сопоставимости двух групп данных по способности к очистке, полученных в ходе лабораторного исследования.
Эффективный процесс очистки имеет решающее значение для обеспечения того, чтобы характеристики качества продукта не ухудшались из-за загрязнения или переноса через поверхности оборудования, контактирующие с продуктом, которые используются в разных партиях. Поэтому регулирующие органы требуют, чтобы все биофармацевтические производственные предприятия разработали эффективные и надежные программы валидации очистки. 1 Многопрофильные предприятия могут использовать подход к валидации очистки на основе наихудшего случая, при котором циклы очистки демонстрируют способность очищать наиболее трудно поддающиеся очистке продукты; для других продуктов дальнейшая крупномасштабная проверка не требуется. 2–4 Однако такой подход требует, чтобы очищаемость всех новых продуктов сравнивалась с утвержденным наихудшим случаем. Лабораторные исследования по очистке представляют собой полезный инструмент для оценки относительной очищаемости новых продуктов и определения необходимости повторной аттестации. 4–7 В одном из наших предыдущих исследований была разработана уменьшенная модель для изучения влияния ключевых рабочих параметров на эффективность процесса очистки. 7 В этой настольной модели используются образцы из нержавеющей стали, на которые нанесены образцы продукции (рис. 1), после чего проводится очистка в смоделированных термических и химических условиях, характерных для крупномасштабных циклов очистки. Удаление продукта с поверхности купона контролируется визуально, и время, необходимое для очистки пятна, регистрируется как время очистки.
(ADAM GAULT, GETTY IMAGES _PHOTO)
В этом исследовании мы применяем лабораторную модель для оценки относительной очищаемости различных белковых продуктов. Из-за изменчивости, наблюдаемой во времени очистки, точки данных были собраны в повторах, и была оценена статистическая ошибка. После создания нескольких точек данных времени очистки для каждого продукта потребовался надежный статистический метод для адекватной оценки сопоставимости этих распределений времени очистки. двусторонний t -test (TOST) является широко используемым статистическим инструментом для целей сопоставимости, особенно для переноса методов между двумя лабораториями, когда целью является демонстрация эквивалентности между принимающей и передающей лабораторией. Этот метод хорошо принят FDA и широко используется в промышленности. 8–10 Это исследование применяет TOST для сравнения очищаемости белковых лекарственных препаратов.
Рисунок 1
A СТАТИСТИЧЕСКИЙ МЕТОД
При сравнении двух или более групп данных более распространенным подходом является определение разницы в группе 9.0003 означает, что (среднее значение группы представляет собой среднее значение всех данных в группе) достаточно велико, чтобы быть объявленным статистически значимым. Утверждение теста или нулевая гипотеза состоит в том, что группы не отличаются. Эффект объявления различия статистически значимым указывает на то, что нулевая гипотеза отвергается; группы представляют собой два или более различных распределения значений и фактически не равны. На практике, при достаточном размере выборки, даже различия, которые слишком малы, чтобы быть значимыми, могут быть объявлены статистически значимыми.
Однако нельзя утверждать обратное, если не наблюдается статистически значимой разницы. Можно только отвергнуть нулевую гипотезу или показать, что группы различны, используя общий t -критерий. Это неудобно, когда цель состоит в том, чтобы показать сопоставимость между двумя или более группами.
Подход, широко используемый в статистике клинических испытаний и набирающий популярность в фармацевтике и биотехнологии, TOST представляет собой метод объявления сопоставимости эквивалентности, основанный на сравнении двух или более средних групп и их соответствующих доверительных интервалов разности средних с заранее установленные пределы эквивалентности. Если разница между доверительными интервалами находится в пределах заранее определенного предела эквивалентности, то истинная разница также будет в пределах этого предела, что позволяет утверждать об эквивалентности между двумя наборами данных. Ключевой целью оценки очищаемости является сравнение очищаемости двух продуктов с помощью теста на эквивалентность.
Экспериментальные данные, полученные в ходе исследования характеристик очистки с использованием лабораторной модели, показали, что существует некоторая неотъемлемая изменчивость, обусловленная характером процесса очистки. Кроме того, аналитик и экспериментальная ошибка способствуют дальнейшей изменчивости. Для адекватного установления предопределенного предела эквивалентности следует рассмотреть каждый компонент, вносящий вклад в изменчивость. Если установить слишком широкий предел эквивалентности, разрешающая способность метода может снизиться, поскольку будет труднее различить два продукта. Если предел эквивалентности установить слишком узким, результаты могут быть неточными при оценке того, действительно ли два продукта эквивалентны. Для модели очистки в уменьшенном масштабе оценка различных компонентов экспериментальной изменчивости показала, что в два раза выше 95-процентный доверительный интервал оценки стандартного отклонения контролируемого набора данных достаточен для того, чтобы провести различие между очищаемостью двух продуктов. Изменчивость в контролируемом наборе данных является одним из многих возможных обоснований ограничения эквивалентности. Часто, когда доступны спецификации или критерии приемлемости, максимальные различия, обеспечивающие соответствие этим критериям, могут использоваться в качестве пределов эквивалентности.
УСТАНОВКА НУЛЕВОЙ ГИПОТЕЗЫ И ПРЕДЕЛОВ ЭКВИВАЛЕНТНОСТИ
Нулевая гипотеза (также называемая гипотеза эквивалентности ) утверждает, что средние значения времени очистки двух продуктов отличаются на величину θ или больше:
, где θ — предел эквивалентности, а μa и μb — средние значения двух групп. Для проверки эквивалентности строятся 90% доверительные интервалы для различий между двумя группами. Нулевая гипотеза о том, что группы различаются не менее чем на θ, отвергается, если пределы интервала выходят за пределы ±θ. И наоборот, сопоставимость демонстрируется, когда границы 90% доверительный интервал средней разницы полностью попадает в пределы ±θ, как показано на рисунке 2.
Рисунок 2
Обратите внимание, что ширина доверительного интервала увеличивается с меньшим размером выборки собранных данных и с меньшей изменчивостью в каждой группе данных . Особенности расчета размера выборки выходят за рамки этой статьи. Однако больший размер выборки, естественно, приведет к более узкому доверительному интервалу средней разницы и, следовательно, упростит декларирование сопоставимости. Аналогичным образом, хотя эквивалентность явно не сравнивает изменчивость отдельной группы, более широкая дисперсия приведет к более широким доверительным интервалам, что затруднит декларирование сопоставимости.
Этот предел эквивалентности был рассчитан как двукратное превышение верхнего 95% доверительного предела оценки стандартного отклонения контролируемого набора данных. В случае экспериментов по очистке предел эквивалентности был равен 2 x [1,6 x 1,4] = 4,48, где 1,6 было стандартным отклонением контролируемого набора данных (продукт A), а 1,4 было множителем для 95% доверительного интервала оценка стандартного отклонения, основанная на размере выборки 18. 11 Использование верхнего доверительного предела оценки стандартного отклонения учитывает неопределенность таких оценок на основе данного размера выборки.
Таким образом, критерием приемлемости для эквивалентности было то, что верхний и нижний доверительные пределы разницы между двумя средними значениями должны быть в пределах ±4,48. Следующие два тематических исследования демонстрируют применение этого статистического подхода к сравнению способности к очистке различных белковых лекарственных препаратов.
Рис. 3
Пример 1. Продукты A и B не эквивалентны
Два белковых продукта были очищены с использованием лабораторного метода. Всего для каждого продукта было записано 18 точек данных (для времени очистки). Для проведения анализа TOST использовали коммерчески доступное статистическое программное обеспечение (JMP). 12 Функция одностороннего анализа «Подобрать Y по X» использовалась с установленным уровнем альфа (вероятность ошибки 1-го типа) 0,1, что соответствует 90% доверительному интервалу, обсуждавшемуся ранее. На рис. 3 показано распределение времени очистки для двух продуктов. График с прямоугольниками и усами (красный) представляет диапазон и распределение точек данных. Поле содержит средние 50% данных, а линия, пересекающая середину поля, представляет медиану набора данных. Разница между квартилями представляет собой межквартильный размах. У каждого прямоугольника есть усы, которые простираются от края прямоугольника до самой внешней точки данных, попадающей в границы, определяемые верхним квартилем + 1,5*(межквартильный размах) и нижним квартилем –1,5*(межквартильный размах).
Таблица 1. Верхний и нижний доверительные интервалы различий между двумя группами, определенные с использованием двустороннего t-критерия (TOST)
В таблице 1 показаны результаты анализа TOST, выполненного с использованием JMP. Разница между двумя средними группами представляет собой точечную оценку истинной разницы между двумя средними. Это можно рассчитать, вычитая выборочное среднее для набора данных A из выборочного среднего для B. Стандартную ошибку (SE) разности между двумя средними группами можно рассчитать, применяя следующее уравнение:
, где s A — стандартное отклонение группы A, n A — размер выборки группы A, а s B и n B представляют соответствующие значения для продукта B. Это значение обеспечивает оценка изменчивости разницы между двумя наборами данных. Степени свободы корректируются на основе изменчивости каждого набора данных, которая определяется статистическим программным обеспечением (JMP) с использованием приближения Саттертуэйта. 11 90% доверительный интервал для разницы между двумя средними значениями отражает разницу между верхним доверительным пределом в 70,36 и разницей в нижнем доверительном пределе в 62,91 для двух средних групп. Поскольку предел эквивалентности составляет ±4,48, а верхний и нижний доверительные интервалы разницы между двумя средними выходят за пределы установленного предела эквивалентности, делается вывод, что продукт A и продукт B не эквивалентны. На основании среднего времени очистки и доверительного интервала считается, что продукт B очищается сложнее, чем продукт A9.0009
В данном конкретном случае продукты не соответствовали эквивалентности очищаемости в основном из-за большой разницы (66,64 мин) в среднем времени очистки, как показано синей полосой на рис. 2. Также возможно не пройти тест на эквивалентность, когда средние значения двух групп аналогичны, но продукт B имеет высокую степень изменчивости, что приводит к широким доверительным интервалам, показанным красной полосой на рисунке 2. В таком сценарии следует дополнительно оценить изменчивость продукта B и получить результат. рейтинг очищаемости (BA) может быть сделан на основе соответствующей оценки рисков и деловых соображений.
Пример 2: продукты A и Y эквивалентны
Анализ TOST, как описано в предыдущем примере, был повторен для двух других продуктов. На рисунке 4 показано распределение времени очистки для этих двух продуктов: A и Y.
Рисунок 4
В таблице 2 показаны результаты анализа TOST с использованием JMP. 90% доверительный интервал для разницы между двумя средними значениями отражает разница между верхним доверительным пределом 1,5547 и разницей нижнего доверительного предела 0,0564 для двух средних групп. Поскольку предел эквивалентности составляет ±4,48, верхний и нижний доверительные пределы разницы между двумя средними значениями находятся в пределах предела эквивалентности. Таким образом, можно сделать вывод, что продукт А и продукт Y эквивалентны друг другу с точки зрения способности к очистке.
Таблица 2. Верхний и нижний доверительные пределы различий между двумя группами, определенные с использованием двустороннего t-критерия
ДОПОЛНИТЕЛЬНЫЕ СООБРАЖЕНИЯ
Для обеспечения последовательности и приверженности следует установить процедуру и обучить аналитиков проводить такие эксперименты. Поскольку этот метод обеспечивает относительную очищаемость продукта, важно, чтобы каждый эксперимент проводился последовательно. При проведении оценок очистки для сравнения новых продуктов с утвержденным наихудшим случаем может быть включена дополнительная проверка, чтобы гарантировать, что каждая оценка проводится согласованным образом. Это достигается путем сравнения данных для контрольной молекулы (например, продукта наихудшего случая) с установленным набором данных или «золотым стандартом», созданным для контроля во время исследования характеристики. Для выполнения этого требования можно использовать тот же статистический метод, TOST. Например, аналитику может потребоваться провести эксперимент для определения возможности очистки нового продукта N по сравнению с проверенным продуктом W. Возможность очистки проверенного продукта W была предварительно установлена в ходе предшествующей работы по определению характеристик. Чтобы убедиться, что аналитик провел эксперимент адекватно, тест на сопоставимость с использованием TOST может использоваться для сравнения эквивалентности между данными, сгенерированными аналитиком для продукта W, с установленным набором данных. Эквивалентность двух наборов данных продемонстрировала бы, что эксперимент действительно был адекватным и надежным.
РЕЗЮМЕ
Двух-односторонний тест t (TOST) является статистическим методом, хорошо принятым FDA и промышленностью для оценки сопоставимости между двумя группами данных. В случае оценки очистки в уменьшенном масштабе этот статистический подход применялся для определения относительной очищаемости двух продуктов. TOST сравнивает два средних групповых значения и их доверительные интервалы, сравнивая их с предопределенным пределом эквивалентности. Предопределенный предел эквивалентности должен быть установлен путем оценки изменчивости, связанной с такими экспериментальными оценками. Чтобы включить дополнительную проверку согласованности аналитиков, можно применить TOST, чтобы гарантировать, что данные, полученные от разных аналитиков для конкретного продукта (контрольной молекулы), эквивалентны.
БЛАГОДАРНОСТЬ
Авторы благодарят Эда Уоллса и Эрвина Фройнда (Process Development, Amgen, Inc.) за рецензирование этой работы и ценные предложения.
Силия Чен — старший научный сотрудник, Нитин Ратор — старший научный сотрудник, Вэньчан Цзи — главный научный сотрудник, занимающийся разработкой лекарственных средств и устройств, а Абе Германсдерфер — главный инженер по качеству, корпоративное качество, все в Amgen, Inc. , Thousand Oaks, CA, 805.313.6393, [email protected]
СПРАВОЧНАЯ ИНФОРМАЦИЯ
1. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США. Руководство для промышленности. Текущая надлежащая производственная практика готовых лекарственных средств. Роквилл, Мэриленд; 2004. Доступно по адресу: www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfcfr/CFRSearch.cfm?CFRPart=211
2. Sanchez JAM. Валидация очистки оборудования на многопрофильном производственном предприятии. БиоФарм Инт. 2006;19(20):38–49.
3. Молла А.Х., Белый Е.К. Валидация очистки с учетом рисков при производстве биофармацевтических АФИ. БиоФарм Инт. 2005;18(11):34–40.
4. Шарнез Р., Латиа Дж., Каленберг Д., Прабху С. Мониторинг динамики растворения почвы на месте: быстрый и простой метод определения наихудших почв для проверки очистки. PDA J Pharm Sci Technol. 2004; 58: 203–14.
5. Ле Блан Д.А. Валидированные технологии очистки для фармацевтического производства. ООО «КРС Пресс»; 2000 г.
6. Rathore N, Qi W, Ji W. Очистка белковых лекарственных препаратов с помощью УФ-видимой спектроскопии. Биотехнологическая прог. 2008; 24(3):684–9.0.
7. Rathore N, et al. Настольная характеристика пространства проектирования процесса очистки для биофармацевтических препаратов. БиоФарм Инт. 2009;22(5):32–45.
8. Чемберс Д. и др. Аналитическая эквивалентность методов: приемлемая аналитическая практика. Фарм Техн. 2005: 9: 64–80.
9. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США. Руководство для промышленности. Статистические подходы к установлению биоэквивалентности. Роквилл, Мэриленд; 2001.
10. FDA США. Руководство для промышленности. Исследования биодоступности и биоэквивалентности перорально вводимых лекарственных препаратов — общие соображения. Роквилл, Мэриленд; 2003.
10. Национальный институт стандартов и технологий. Электронный справочник NIST/SEMATECH по статистическим методам. Доступно по адресу: www.itl.nist.gov/div898/handbook.
11. SAS Institute Inc. Статистическое открытие JMP от SAS. Выпуск 6. 2006 г.
Связанное содержание:
Статья по теме >>>
Тесты эквивалентности и не меньшей эффективности
Опубликовано в разделе: новая особенность, статистический анализ, анализ данных, Аналитика данных, Качественный, статистика, программное обеспечение для аналитики, тесты эквивалентности, испытания эквивалентности, испытания эквивалентности и не меньшей эффективности
Важными дополнениями к Statgraphics 18 являются 4 процедуры проверки эквивалентности и не меньшей эффективности: сравнение 2 независимых средних, сравнение 2 парных средних, сравнение 2 средних с использованием перекрестного исследования 2×2 и сравнение среднего с целевым значением. В каждом случае тесты предназначены для демонстрации того, что тестируемый состав или лечение дает эквивалентные или лучшие результаты, чем эталонное лечение. Это резко контрастирует с большинством тестов гипотез, которые предназначены для демонстрации различий, а не сходств.
Поискав в Интернете, я нашел много интересных примеров такого типа тестирования: сравнение непатентованного препарата с патентованным препаратом, сравнение генетически модифицированных кормов для скота со стандартным кормом, оценка различий в охвате вакцинацией среди различных группы людей, сравнение неявных и явных показателей самооценки, сравнение систем измерения, оценка изменений в производственном оборудовании, сравнение различных инструментов в сенсорных и потребительских исследованиях и многое другое.
Многие заявки связаны с демонстрацией «биоэквивалентности», которая определяется FDA как: «отсутствие существенной разницы в скорости и степени, в которой активный ингредиент или активный компонент в фармацевтических эквивалентах или фармацевтических альтернативах становится доступным в место действия препарата при введении в той же молярной дозе в аналогичных условиях в правильно спланированном исследовании». Или, проще говоря, оба препарата имеют эквивалентные эффекты. Конечно, эквивалент не означает точно такой же. Часто это означает, что 95% доверительный интервал для их относительного различия полностью лежит в интервале от 80% до 125%.
Очень распространенным экспериментальным планом для демонстрации эквивалентности или не меньшей эффективности является перекрестное исследование 2×2. В таком исследовании группе субъектов назначают 2 процедуры (А и В). Половина испытуемых получает лечение А, за которым следует лечение В, а другая половина получает лечение В, за которым следует лечение А. Предполагается, что лечение проводится с достаточным промежутком времени, чтобы эффект первого лечения не переносился и не влиял на результат первого лечения. второе лечение, предположение, которое должно быть проверено как часть анализа. Вы найдете специальную процедуру в Statgraphics 18 для анализа этих типов исследований.
В качестве примера рассмотрим следующие данные исследования, опубликованного в Chow and Liu (2009):
24 пациентам давали как референсный, так и тестируемый состав. 12 пациентов были выбраны случайным образом и назначены на последовательность RT, в которой эталонный состав вводился первым, в то время как другие 12 пациентов были назначены на последовательность TR и сначала получали тестируемый состав. Применяя оба метода лечения к одним и тем же субъектам, различия между субъектами могут быть исключены из анализа, что позволяет проводить более мощные тесты.
На рисунке ниже показаны измерения для каждого из 24 пациентов.
Положение по оси X соответствует измерению, сделанному в период 1 (соответствует первому введенному препарату), а положение по оси Y соответствует измерению, выполненному в период 2. Цвет точек указывает, какой последовательность, которой был назначен каждый пациент.
Предположим на мгновение, что пациенты, получающие эталонное лечение, имеют средний результат, равный μ R и что пациенты, получающие тестируемое лечение, имеют средний результат, равный μ T . Предположим также, что наша цель состоит в том, чтобы продемонстрировать, что отношение среднего значения тестового лечения к среднему значению эталонного лечения составляет от 80% до 125%. В качестве нашей нулевой гипотезы мы предположили бы, что отношение средних значений меньше 80 % или больше 125 %: мк R > 1,25
Наша альтернативная гипотеза (которую мы хотим продемонстрировать) заключается в том, что соотношение находится в указанном диапазоне: обратная проверка стандартной гипотезы, в которой нулевая гипотеза, а не альтернативная гипотеза, указывала бы на отсутствие различий между двумя средними значениями.
Лучший способ понять статистическую модель этих данных — изучить ожидаемые значения для пациентов в каждой последовательности в течение каждого периода времени, как показано ниже:
| Период 1 | Период 2 |
Последовательность RT | мк Р + С + П | μ T + S — P + λ R |
Последовательность TR | мк Т — С + Р | μ R — S — P + λ T |
, где S — эффект последовательности, P — эффект периода, а λ R и λ T — переносные эффекты эталонного и тестируемого составов соответственно. Эффект переноса — это влияние лечения из предыдущего периода времени на ответ в текущий период времени. В приведенной выше таблице эффекты показаны как аддитивные. В качестве альтернативы иногда предполагается, что эффекты мультипликативны, и в этом случае есть 2 варианта: (1) аддитивная модель может использоваться для анализа логарифмов, а не исходных измерений, или (2) теорема Филлера может быть применена с использованием метода изложено Локком (1984).
Если средние значения двух составов оцениваются путем усреднения результатов всех пациентов при назначении этого состава, разница между средствами лечения не накладывается ни на эффекты последовательности, ни на период, если дизайн сбалансирован (одинаковое количество пациентов в каждую последовательность). Однако разница между средними значениями компенсируется перекрестными эффектами, за исключением случаев, когда перекрестные эффекты тестируемого и эталонного составов равны. Следовательно, при проведении такого исследования необходимо попытаться разделить введение 2 составов на достаточное время, чтобы эффект состава, введенного первым, рассеялся (период вымывания).
Наиболее распространенный способ проведения тестов эквивалентности использует процедуру, называемую TOST (два односторонних теста). 2 separate hypothesis tests are performed using hypotheses such as:
Test 1
H 0 : μ T /μ R < 0.80
H A : μ T /μ R ≥ 0,80
Тест 2
H 0 : μ T /μ R > 1,25
H A : 1 μ 3 T
014 ≤ 1,25
Если обе нулевые гипотезы отвергаются на уровне значимости α%, то эквивалентность между средними значениями будет продемонстрирована на этом уровне значимости.
Statgraphics 18 содержит новую процедуру анализа результатов перекрестных исследований 2×2. Доступ к нему можно получить, выбрав Сравнить в главном меню, а затем выбрав Тесты эквивалентности и не меньшей эффективности – перекрестное исследование 2×2 . Имена столбцов вводятся в диалоговом окне ввода данных, как показано ниже:
Диалоговое окно Параметры анализа используется для указания гипотез, подлежащих проверке:
Показанные выше настройки указывают на то, что желателен двусторонний тест эквивалентности, основанный на отношении средних значений. Эквивалентность может быть подтверждена, если соотношение находится в пределах от 0,8 до 1,25 при использовании α-уровня 5%. Анализ будет основан на аддитивной модели логарифмов зарегистрированных данных.
Процедура составляет несколько таблиц, первая из которых показывает результаты подгонки статистической модели:
Стьюдентные тесты проводятся для определения наличия значительных эффектов переноса, лечения и периода. Значительный эффект переноса указывает на то, что эффекты переноса испытуемого и эталонного составов существенно различаются, а это означает, что сравнение средств лечения будет необъективным. Таким образом, небольшое значение P для эффекта переноса поставило бы под сомнение весь анализ эквивалентности. Значительный эффект периода указывает на то, что что-то произошло между первым и вторым периодами, что привело к смещению всех результатов. При условии сбалансированности плана это не повлияет на сравнение испытуемых и эталонных средних, но укажет на некоторые неожиданные изменения от одного периода к другому.
Также полезно нанести расчетные средние значения тестируемого и эталонного составов в течение 2 периодов:
При первом применении среднее значение тестируемого состава было немного ниже, чем среднее значение эталонного состава. При втором применении среднее значение теста было немного выше. Результаты стандартного t-критерия различия между средними, показанные в предыдущей таблице, не опровергли гипотезу об идентичности средних. Однако такой тест не демонстрирует эквивалентности.
Вторая часть Statgraphics 18 Сводка анализа показывает результаты процедуры TOST:
В верхней части показано, что разница между средними значениями логарифмов для тестируемого и эталонного составов составляет примерно -0,0287, с 95% доверительным интервалом от -0,1243 до 0,0670. Расчетное отношение средних значений составляет примерно 0,972 с 95% доверительным интервалом от 0,883 до 1,609.. Два t-теста были выполнены для проверки гипотез, показанных ранее. Тест № 1 показывает, что отношение значительно больше 0,8 (более низкое значение P значительно ниже 0,05). Тест № 2 показывает, что соотношение значительно меньше 1,25 (верхнее значение P значительно ниже 0,05). Поскольку большее из двух P-значений меньше 0,05, эквивалентность между тестируемым и эталонным средним значением была продемонстрирована на уровне значимости 5%.
Также полезно нанести результаты на график. На приведенном ниже графике показан доверительный интервал 95% для отношения среднего значения теста к эталонному среднему значению:
Обратите внимание, что весь доверительный интервал находится между нижним пределом эквивалентности (LEL) и верхним пределом эквивалентности (UEL). Это будет иметь место всякий раз, когда процедура TOST заключает, что средства эквивалентны.
Когда тестирование эквивалентности было впервые разработано, общепринятой практикой было отображение 90% доверительного интервала для разницы между средними значениями с помощью формулы
где внутрисубъектные различия в двух последовательностях, а ν — степени свободы, связанные с s стр . В последние годы стандартной практикой стало вычисление 95%-го доверительного интервала вместо использования формулы
. Любой из этих подходов обладает тем свойством, что всякий раз, когда процедура TOST указывает на эквивалентность средних значений, расчетный интервал будет полностью находиться в пределах допустимых значений. . Statgraphics 18 по умолчанию применяет вторую формулу, хотя параметр в диалоговом окне Параметры анализа позволяет аналитику при желании использовать первую формулу.
В некоторых случаях цель анализа состоит не в том, чтобы показать, что испытуемое и эталонное среднее «эквивалентны», а только в том, чтобы показать, что тестируемый состав по крайней мере так же хорош, как и эталонный состав. В таких случаях необходимо выполнить только один из двух односторонних тестов, описанных выше в разделе TOST. Например, если мы хотим продемонстрировать, что тестовое среднее по крайней мере на 80 % больше эталонного среднего, мы должны указать такие гипотезы, как
Тест 1
H 0 : µ T /µ R ≥ 0,80
H A : µ T /µ R ≥ 0,80
к эталонному виду. Двусторонний 95% доверительный интервал заменяется односторонним 95% доверительным интервалом, как показано ниже:
Эти темы прекрасно обсуждаются в Journal of General Internal Medicine , который вы можете прочитать в Интернете под названием Understanding Тестирование эквивалентности и не меньшей эффективности. Подробное обсуждение перекрестных испытаний дано Li (2014). Я также записал 4 видео по этой теме, которые вы найдете на нашей странице Обучающие видео .
Бергер, Р. Л. и Хсу, Дж. К. (1995). «Испытания на биоэквивалентность, тесты пересечения и доверительные наборы эквивалентности». Институт статистики Mimeo Series, номер 2279.
Chow, SC and JP Liu. (2009). Дизайн и анализ исследований биодоступности и биоэквивалентности. 3-е изд. Бока-Ратон, Флорида: CRC Press.
Чоу, С.-Х. и Шао, Дж. (2002). Статистика исследований лекарственных средств: методологии и последние разработки . Нью-Йорк: Марсель-Деккер.
Хсу, Дж. К., Хван, Дж. Т. Г., Лю, Х.-К., и Руберг, С. Дж. (1994). «Доверительные интервалы, связанные с тестами на биоэквивалентность». Биометрика 81: 103-114.
Джонс, Б. и Панг, Х. (2014) Планирование и анализ перекрестных испытаний . 3-е изд. Бока-Ратон, Флорида: CRC Press.
Li, CS (2014) Планирование и анализ перекрестных испытаний . www.ucdmc.ucdavis.edu/mindinstitute/centers/iddrc/pdf/bbrd_oct_2014.pdf
Локк, К.С. (1984). «Точный доверительный интервал для непреобразованных данных для отношения двух средних формулировок». J Pharmacokinet Biopharm 12: 649-655.
Ниази, С.К. (2014). Справочник по тестированию биоэквивалентности. 2 -й изд. Наркотики и фармацевтические науки. Бока-Ратон, Флорида: CRC Press.
Паттерсон, С.Д. и Джонс, Б. (2016). Биоэквивалентность и статистика в клинической фармакологии. 2-е изд. Бока-Ратон, Флорида: CRC Press.
Нг, Т. (2015) Тестирование не меньшей эффективности в клинических испытаниях: проблемы и проблемы. Бока-Ратон, Флорида: CRC Press.
Пардо, С. (2013) Тесты эквивалентности и не меньшей эффективности для инженеров по качеству, производству и тестированию. Бока-Ратон, Флорида: CRC Press.
Ротманн, доктор медицинских наук, Винс, Б.Л., и Чан, И.С.Ф. (2011) Дизайн и анализ испытаний не меньшей эффективности . Бока-Ратон, Флорида: CRC Press.
Шуирманн, Д.Дж. (1987). «Сравнение процедуры односторонних тестов и мощностного подхода для оценки эквивалентности средней биодоступности». J Pharmacokinet Biopharm 15: 657-680.
Министерство здравоохранения и социальных служб США, Агентство медицинских исследований и качества (2013 г.) Оценка эквивалентности и не меньшей эффективности .
Wellek, S. (2010) Проверка статистических гипотез эквивалентности и не меньшей эффективности, 2 nd ed. Бока-Ратон, Флорида: CRC Press.
Ю, Л.Х. и Ли, Б.В., ред. (2014). Стандарт биоэквивалентности FDA (серия AAPS Advances in Pharmaceutical Sciences). Спрингер: AAPS Press.
Статистическое ПО Unistat | Тест на эквивалентность средств
Предыдущая тема | Следующая тема
6.1.2. Эквивалентный тест для средств
Стьюденты используются, чтобы решить, являются ли два средних существенно отличаются друг от друга. Если вы хотите узнать, являются ли два нельзя сказать, что средства различаются в предопределенных границах (нижние и верхние границы эквивалентности), используйте этот тест. Проверяемая нулевая гипотеза состоит в том, что два средних не эквивалентны, т. е. разница между ними меньше, чем нижняя граница эквивалентности или больше верхней границы эквивалентности. Если альтернативная гипотеза верна, а именно, что разница между двумя эквивалентности, то два средних называются эквивалентными.
Когда нижняя и верхняя границы эквивалентности равны 0, этот тест эквивалентен стандартному t-критерию, за исключением того, что здесь доверительные интервалы сообщается на уровне 1–2α, а не на обычном уровне 1–α.
Это параметрическая версия теста эквивалентности для биномиальные пропорции (см. 6.4.3.5. Критерий эквивалентности биномиальной пропорции).
Пример
Откройте PARTETS и выберите Статистика 1. → Параметрические тесты → Тест эквивалентности для Значит и выберите До и После ( C6 и C7 ) как [Var i способный] и проверьте все параметры вывода на получить следующие результаты:
Тест эквивалентности средств
До и после
Нижняя маржа эквивалентности = | 1,0000 |
Нижний эквивалент | Разница | Стандартная ошибка | т-Статистика | Степени свободы |
Объединенная дисперсия | -6,6250 | 4,5965 | -1,2237 | 30,0000 |
Отдельная разница | -6,6250 | 4,5965 | -1,2237 | 29,7148 |
Нижний эквивалент | 1-хвостая вероятность | Двухсторонняя вероятность | Нижний 90% | Верхний 90% |
Объединенная дисперсия | 0,1153 |
| -14. 4265 |
|
Отдельная разница | 0,1153 |
| -14.4289 |
|
Верхний эквивалент Маржа = | 1,0000 |
Верхний эквивалент | Отличие | Стандартная ошибка | т-Статистика | Степени свободы |
Объединенная дисперсия | -6,6250 | 4,5965 | -1,2237 | 30,0000 |
Отдельная разница | -6,6250 | 4,5965 | -1,2237 | 29,7148 |
Верхний эквивалент | 1-хвостая вероятность | Двухсторонняя вероятность | Нижний 90% | Верхний 90% |
Объединенная дисперсия | 0,1153 |
|
| 1,1765 |
Отдельная разница | 0,1153 |
|
| 1,1789 |
Комбинезон | 1-хвостая вероятность | Нижний 90% | Верхний 90% |
Объединенная дисперсия | 0,1153 | -14. 4265 | 1,1765 |
Отдельная разница | 0,1153 | -14.4289 | 1,1789 |
Предыдущая тема | Следующая тема
Re: st: предел эквивалентности
Re: st: предел эквивалентности[Дата Предыдущая][Дата Следующая][Предыдущая Тема][Следующая Тема][Указатель Даты][Указатель Темы]
От | Рикардо Овальдиа |
Кому: | [email protected] |
Тема | Re: st: предел эквивалентности |
Дата | Вс, 16 августа 2009 г. 06:25:04 -0700 (PDT) |
Я все еще пытаюсь понять, как провести тест на эквивалентность в Stata. Все, что у меня есть, это таблица 2x2 (лечение x результат). Я могу использовать -cs- или -rdci- чтобы получить CI, но как мне вычислить предел эквивалентности, например, при условии, что дельта = 25%? Кроме того, можно ли с помощью -pkequiv- провести этот анализ? Спасибо, Рикардо Рикардо Овальдиа, MS Статистик Оклахома-Сити, ОК --- Сб, 15.08.09, Рикардо Овальдианаписал: > От: Рикардо Овальдиа > Тема: st: предел эквивалентности для теста на неполноценность > Кому: [email protected] > Дата: суббота, 15 августа 2009 г., 8:42 > Уважаемые все, > > Если я заинтересован в вычислении предела эквивалентности в 20% > Во всем разница двух пропорций. Это просто > (-0,2, 0,2) или мне нужно вычислить его на основе наблюдаемых > объем данных и выборки (если да, то как)? > > Заранее спасибо, > Рикардо > > > Рикардо Овальдиа, MS > Статистик > Оклахома-Сити, штат Оклахома > > > --- Пт, 14. 08.09, Рикардо Овальдиа > написал: > > > От: Рикардо Овальдиа > > Тема: Re: st: Re: тест эквивалентности > > Кому: [email protected] > > Дата: пятница, 14 августа 2009 г., 11:34. > > Джозеф Ковени > > написал: > > > > >>Вы можете использовать либо -cs-, который является официальным, либо > или > > -rdci-, [...] > > >>Вы бы построили доверительный интервал > и > > проверить, не > > >>снижаются как нижняя, так и верхняя доверительные границы > внутри > > лимиты, указанные >>для принятия > альтернатива > > гипотеза терапевтической эквивалентности. > > > > Спасибо. > > Как предложил Джозеф, я использовал -rdci- и получил: > > Агрести-Каффо 95% ДИ: -0,299 0,067 > > > > Если меня интересует предел эквивалентности 20%, сделайте > я > > сравнить приведенный выше 95% ДИ с (-0,2, 0,2)? Или как мне > вычислить > > правильные пределы эквивалентности? > > > > Спасибо, > > Рикардо > > > > > > Рикардо Овальдиа, MS > > Статистик > > Оклахома-Сити, штат Оклахома > > > > > > --- В четверг, 13 августа 2009 г. , Рикардо Овальдиа > > написал: > > > > > От кого: Рикардо Овальдиа > > > Тема: Re: st: Re: тест эквивалентности > > > Кому: [email protected] > > > Дата: четверг, 13 августа 2009 г., 12:05 > > > ранее я спрашивал: > > > > > > > Есть ли способ выполнить эквивалентность > тест на > > а > > > Таблица 2х2. > > > > Лечение (0,1) или результат (0,1)? > > > > > > Я нашел -equip- Ричарда Гольдштейна. Является ли это > > программа > > > работает корректно? > > > Если да, что означают test1 и test2? > > > если нет, то есть ли альтернативы (другие бесплатные > > программное обеспечение)? > > > > > > Спасибо, > > > Рикардо. > > > > > > Рикардо Овальдиа, MS > > > Статистик > > > Оклахома-Сити, штат Оклахома > > > > > > > > > --- Среда, 12.08.09, Рикардо Овальдиа > > > писал(а): > > > > > > > От кого: Рикардо Овальдиа > > > > Тема: st: Re: тест эквивалентности > > > > Кому: [email protected] > > > > Дата: среда, 12 августа 2009 г. , 18:01. > > > > Есть ли способ выполнить > > > > проверка эквивалентности для таблицы 2x2. > > > > Лечение (0,1) или результат (0,1)? > > > > > > > > Спасибо, > > > > Рикардо > > > > > > > > Рикардо Овальдиа, MS > > > > Статистик > > > > Оклахома-Сити, штат Оклахома > > > > > > > > > > > > > > > > > > > > > > > > * > > > > * Для поиска и справки попробуйте: > > > > * http://www.stata.com/help.cgi?search > > > > * http://www.stata.com/support/statalist/faq > > > > * http://www.ats.ucla.edu/stat/stata/ > > > > > > > > > > > > > > > > > > > * > > > * Для поиска и справки попробуйте: > > > * http://www.stata.com/help.cgi?search > > > * http://www.stata.com/support/statalist/faq > > > * http://www.ats.ucla.edu/stat/stata/ > > > > > > > > > > > > > > > > * > * Для поиска и справки попробуйте: > * http://www.stata.com/help.cgi?search > * http://www.stata.com/support/statalist/faq > * http://www.ats.ucla.edu/stat/stata/ > * * Для поиска и помощи попробуйте: * http://www. stata.com/help.cgi?поиск * http://www.stata.com/support/statalist/faq * http://www.ats.ucla.edu/stat/stata/
- Последующие действия :
- RE: st: предел эквивалентности
- От кого: «Джозеф Ковени»
- От кого: «Джозеф Ковени»
- RE: st: предел эквивалентности
- Ссылки :
- st: предел эквивалентности для теста на неполноценность
- От: Рикардо Овальдиа
- От: Рикардо Овальдиа
- st: предел эквивалентности для теста на неполноценность
- Предыдущая по дате: st: RE: Сумма произведений каждого элемента на любой другой элемент, кроме самого себя?
- Далее по дате: st: Почему не работал инфайл со словарем?
- Предыдущая по теме: st: предел эквивалентности для теста на неполноценность
- Далее по теме: RE: st: предел эквивалентности
- Индекс(ы):
- Дата
- Резьба
© Авторское право 1996–2022 ООО «СтатаКорп» | Условия эксплуатации | Конфиденциальность | Свяжитесь с нами | Какие новости | Индекс сайта |
Глава 9 Проверка эквивалентности и интервальные гипотезы
Большинство научных исследований предназначены для проверки предсказания существования эффекта или различия. Работает ли новое вмешательство? Есть ли связь между двумя переменными? Эти исследования обычно анализируются с помощью теста значимости нулевой гипотезы. Когда статистически значимое p -значение, нулевая гипотеза может быть отвергнута, и исследователи могут заявить, что вмешательство работает или что существует связь между двумя переменными с максимальной частотой ошибок. Но если значение p не является статистически значимым, исследователи очень часто делают логически неверный вывод: они делают вывод об отсутствии эффекта на основании p > 0,05.
Открыть раздел результатов статьи, которую вы пишете, или раздел результатов статьи, которую вы недавно прочитали. Найдите » p > 0,05″, и внимательно посмотрите, к какому выводу пришли вы или ученые (в разделе результатов, но также проверьте, какое утверждение они делают в разделе обсуждения). Если вы видите вывод, что «эффекта не было» или было «отсутствие связи между переменными», вы нашли пример, когда исследователи забыли, что отсутствие доказательств не является свидетельством отсутствия (Altman & Bland, 1995). Незначительный результат сам по себе говорит нам только о том, что мы не можем отвергнуть нулевая гипотеза. Заманчиво спросить после p > 0,05 ‘значит, истинный эффект равен нулю’? Но p -значение из теста значимости нулевой гипотезы не может ответить на этот вопрос. Возможно, было бы полезно подумать об ответе на вопрос, отсутствует ли эффект после наблюдения p > 0,05, как 無 (мю), используемом как недуалистический ответ, ни да, ни нет, или «отказ от вопроса». Ответить на вопрос, отсутствует ли значимый эффект, исходя из p > 0,05, просто невозможно.
Должно быть много ситуаций, когда исследователи заинтересованы в том, чтобы выяснить, отсутствует ли значимый эффект. Например, может быть важно показать, что две группы не различаются по факторам, которые могут вызвать путаницу в плане эксперимента (например, изучение того, не повлияли ли манипуляции, направленные на повышение утомляемости, на настроение участников, показывая, что положительные и отрицательный аффект не отличался между группами). Исследователи могут захотеть узнать, работают ли два вмешательства одинаково хорошо, особенно если новое вмешательство стоит меньше или требует меньших усилий (например, так ли эффективна онлайн-терапия, как и индивидуальная терапия?). А в других случаях нам может быть интересно продемонстрировать отсутствие эффекта, потому что теоретическая модель предсказывает отсутствие эффекта, или потому что мы считаем, что ранее опубликованное исследование было ложноположительным, и мы ожидаем показать отсутствие эффекта в повторении. исследование (Dienes, 2014). И все же, когда вы спрашиваете исследователей, планировали ли они когда-либо исследование, цель которого состояла в том, чтобы показать отсутствие эффекта, например, предсказав, что не будет никакой разницы между двумя состояниями, многие люди ответят, что они никогда не планировали исследование, в котором их основной прогноз заключался в том, что размер эффекта был равен нулю. Исследователи почти всегда предсказывают, что разница есть. Одной из причин может быть то, что многие исследователи даже не знали бы, как статистически обосновать предсказание величины эффекта, равной 0, потому что они не были обучены использованию проверки эквивалентности.
Никогда невозможно показать эффект точно 0. Даже если вы соберете данные от каждого человека в мире, эффект в любом отдельном исследовании будет случайным образом варьироваться около истинного размера эффекта 0 — вы можете получить средняя разница, которая очень близка к нулю, но не совсем равна нулю в любой конечной выборке. Hodges & Lehmann (1954) были первыми, кто обсудил статистическую проблему проверки того, имеют ли две популяции одно и то же среднее значение. Они предлагают (стр. 264): «проверить, что их средние значения не различаются более чем на величину, указанную для представления наименьшей разницы, представляющей практический интерес». Наннэлли (1960) аналогичным образом предложил гипотезу «фиксированного приращения», в которой исследователи сравнивают наблюдаемый эффект с диапазоном значений, который считается слишком малым, чтобы иметь смысл. Определение диапазона значений, который считается практически эквивалентным отсутствию эффекта, известен как диапазон эквивалентности (Bauer & Kieser, 1996) или диапазон практической эквивалентности (Kruschke, 2013). Диапазон эквивалентности должен быть указан заранее и требует тщательного рассмотрения наименьшего интересующего размера эффекта.
Хотя исследователи неоднократно пытались ввести тесты на диапазон эквивалентности в социальных науках (Cribbie et al., 2004; Hoenig & Heisey, 2001; Levine et al., 2008; Quertemont, 2011; J. L. Rogers et al., 1993). ), этот статистический подход только недавно стал популярным. Во время кризиса репликации исследователи искали инструменты для интерпретации нулевых результатов при выполнении исследований репликации. Исследователи хотели иметь возможность публиковать информативные нулевые результаты при воспроизведении результатов в литературе, которые, как они подозревали, были ложноположительными. Одним из примечательных примеров были исследования Дэрила Бема по предкогниции, которые якобы показали, что участники способны предсказывать будущее (Бем, 2011). Тесты эквивалентности были предложены в качестве статистического подхода для ответа на вопрос, достаточно ли мал наблюдаемый эффект, чтобы сделать вывод о невозможности воспроизвести предыдущее исследование (S. F. Anderson & Maxwell, 2016; Lakens, 2017; Simonsohn, 2015). Исследователи указывают наименьший интересующий размер эффекта (например, эффект 0,5, поэтому для двустороннего теста любое значение вне диапазона от -0,5 до 0,5) и проверяют, можно ли отклонить эффекты, превышающие этот диапазон. Если это так, они могут отвергнуть наличие эффектов, которые считаются достаточно большими, чтобы иметь смысл.
Можно отличить нулевую нулевую гипотезу , где нулевая гипотеза представляет собой эффект 0, от ненулевой нулевой гипотезы , где нулевая гипотеза представляет собой любой эффект, отличный от 0, например, эффекты более экстремальные, чем наименьший интересующий размер эффекта (Nickerson, 2000). Как пишет Никерсон:
Различие является важным, особенно в отношении разногласий относительно достоинств или недостатков NHST, поскольку критика, которая может быть обоснованной применительно к проверке нулевой гипотезы, не обязательно является обоснованной, когда она направлена на проверку нулевой гипотезы в более общем смысле.
Тесты эквивалентности представляют собой конкретную реализацию тестов интервальной гипотезы , где вместо проверки нулевой гипотезы об отсутствии эффекта (то есть размер эффекта 0; нулевая нулевая гипотеза ) эффект проверяется относительно гипотеза, представляющая диапазон ненулевых размеров эффекта ( ненулевая нулевая гипотеза ). Действительно, одно из наиболее широко предлагаемых улучшений, которое смягчает наиболее важные ограничения проверки значимости нулевой гипотезы, состоит в том, чтобы заменить нулевую нулевую гипотезу проверкой предсказания диапазона (путем указания ненулевой нулевой гипотезы) в тесте интервальной гипотезы ( Лейкенс, 2021). Чтобы проиллюстрировать разницу, панель А на рисунке 9.1 визуализирует результаты, предсказанные в двустороннем тесте нулевой гипотезы с нулевой гипотезой, где тест проверяет, можно ли отвергнуть эффект 0. На панели B показана интервальная гипотеза, в которой прогнозируется эффект от 0,5 до 2,5, где ненулевая нулевая гипотеза состоит из значений меньше 0,5 или больше 2,5, а тест интервальной гипотезы проверяет, можно ли отклонить значения в этих диапазонах. Панель C иллюстрирует тест эквивалентности, который в основном идентичен тесту интервальной гипотезы, но предсказанные эффекты расположены в диапазоне около 0 и содержат эффекты, которые считаются слишком малыми, чтобы быть значимыми.
Рисунок 9.1: Двусторонний тест нулевой гипотезы (A), тест интервальной гипотезы (B), тест эквивалентности (C) и тест минимального эффекта (D).
Когда тест эквивалентности переворачивается, исследователь разрабатывает исследование, чтобы отклонить менее экстремальные эффекты, чем наименьший интересующий размер эффекта (см. панель D на рис. 9.1), это называется тестом минимального эффекта (Murphy & Myors, 1999 ). Исследователь может быть заинтересован не только в отклонении эффекта 0 (как в тесте значимости нулевой гипотезы), но и в отклонении диапазона эффектов, которые слишком малы, чтобы иметь смысл. При прочих равных условиях исследование, предназначенное для получения высокой мощности при минимальном эффекте, требует большего количества наблюдений, чем если бы целью было отвергнуть нулевой эффект. Поскольку доверительный интервал должен отклонять значение, которое ближе к наблюдаемой величине эффекта (например, 0,1 вместо 0), он должен быть более узким, что требует большего количества наблюдений.
Одним из преимуществ теста минимального эффекта по сравнению с тестом нулевой гипотезы является отсутствие различия между статистической значимостью и практической значимостью. Поскольку тестовое значение выбирается для представления минимального интересующего эффекта, всякий раз, когда оно отклоняется, эффект является как статистически, так и практически значимым (Murphy et al., 2014). Еще одним преимуществом тестов минимального эффекта является то, что, особенно в корреляционных исследованиях в социальных науках, переменные часто связаны через причинно-следственные структуры, которые приводят к реальным, но теоретически неинтересным ненулевым корреляциям между переменными, что было названо «фактором грубости» (Meehl, 19).90; Орбен и Лейкенс, 2020 г.). Поскольку эффект нуля маловероятен для больших наборов корреляционных данных, отклонение нулевой гипотезы не является серьезным испытанием. Даже если гипотеза неверна, вполне вероятно, что эффект 0 будет отвергнут из-за «мусора». По этой причине некоторые исследователи предложили проверить минимальный эффект r = 0,1, поскольку корреляции ниже этого порога довольно распространены из-за теоретически нерелевантных корреляций между переменными (Ferguson & Heene, 2021).
На рис. 9.1 показаны двусторонние тесты, но зачастую более интуитивно и логично выполнять односторонние тесты. В этом случае проверка минимального эффекта будет, например, направлена на отбраковку эффектов меньше 0,1, а проверка эквивалентности будет направлена на отбраковку эффектов больше, чем, например, 0,1. Вместо указания верхней и нижней границы диапазона достаточно указать одно значение для односторонних тестов. Окончательный вариант одностороннего теста ненулевой нулевой гипотезы известен как тест на non-inferiority , который проверяет, превышает ли эффект нижнюю границу диапазона эквивалентности. Такой тест, например, проводится, когда новое вмешательство не должно быть заметно хуже, чем существующее вмешательство, но может быть немного хуже. Например, если разница между новым и существующим вмешательством не меньше -0,1, а эффекты менее -0,1 могут быть отклонены, можно сделать вывод, что эффект не менее эффективен (Mazzolari et al., 2022; Schumi & Wittes, 2011). Мы видим, что распространение проверки нулевой гипотезы на ненулевые гипотезы позволяет исследователям задавать вопросы, которые могут быть более интересными.
9.1 Тесты эквивалентности
Тесты на эквивалентность были впервые разработаны в фармацевтических науках (Hauck & Anderson, 1984; Westlake, 1972), а затем формализованы как подход к тестированию эквивалентности (Schuirmann, 1987; Seaman & Serlin, 1998). ; Веллек, 2010). Процедура TOST включает в себя выполнение двух односторонних тестов, чтобы проверить, являются ли наблюдаемые данные неожиданно большими, чем нижняя граница эквивалентности (\(\Delta_{L}\)), или неожиданно меньшими, чем верхняя граница эквивалентности (\(\Delta_{ У}\)):
\[ t_ {L} = \ frac {{\ overline {M}} _ {1} — {\ overline {M}} _ {2} — \ Delta_ {L}} {\ sigma \ sqrt {\ frac {1} { n_{1}} + \frac{1}{n_{2}}}} \]
и
\[ t_{U} = \frac{{\overline{M}}_{1} — {\overline{M}}_{2}{- \Delta}_{U}}{\sigma\sqrt{\frac{ 1}{n_{1}} + \frac{1}{n_{2}}}} \]
, где M указывает среднее значение каждой выборки, n — размер выборки, а σ — объединенное стандартное отклонение:
\[ \sigma = \sqrt{\frac{\left(n_{1} — 1 \right)\text{sd}_{1}^{2} + \left(n_{2} — 1 \right)\text{ sd}_{2}^{2}}{n_{1} + \ n_{2} — 2}} \]
Если оба односторонних теста значимы, мы можем отклонить наличие эффектов, достаточно больших, чтобы быть значимыми. Формулы очень похожи на нормальную формулу для t -статистики. Разница между NHST t -тестом и процедурой TOST заключается в том, что нижняя граница эквивалентности \(\Delta_{L}\) и верхняя граница эквивалентности \(\Delta_{U}\) вычитаются из средней разницы между группы (в обычном тесте t мы сравниваем среднюю разность с 0, и, таким образом, дельта выпадает из формулы, поскольку она равна 0).
Чтобы выполнить тест эквивалентности, вам не нужно изучать какие-либо новые статистические тесты, так как это всего лишь хорошо известный t -тест против значения, отличного от 0. Несколько удивительно, что использование t Тесты для выполнения тестов эквивалентности не преподаются наряду с их использованием в тестах значимости нулевой гипотезы, поскольку есть некоторые признаки того, что это может предотвратить распространенное неправильное понимание значений p (Parkhurst, 2001). Давайте рассмотрим пример проверки эквивалентности с использованием процедуры TOST.
В исследовании, в котором ученые манипулируют усталостью, предлагая участникам носить с собой тяжелые коробки, исследователи хотят убедиться, что манипуляция не изменит непреднамеренно настроение участников. Исследователи оценивают положительные и отрицательные эмоции в обоих состояниях и хотят заявить, что в положительном настроении нет различий. Предположим, что положительное настроение в условиях экспериментального утомления (\(m_1\) = 4,55, \(sd_1\) = 1,05, \(n_1\) = 15) не отличалось от настроения в контрольном состоянии (\(m_2 \) = 4,87, \(sd_2\) = 1,11, \(n_2\) = 15). Исследователи заключают: «Настроение не различалось между условиями, t = -0,81, p = 0,42”. Конечно, настроение различалось в зависимости от условий, так как 4,55 — 4,87 = -0,32. Утверждение состоит в том, что не было значимой разницы в настроении, но чтобы правильно сделать такое утверждение, нам сначала нужно указать, какая разница в настроении достаточно велика, чтобы быть значимой. А пока предположим, что исследователь считает любой эффект менее экстремальным на полбалла шкалы слишком маленьким, чтобы иметь смысл. Теперь мы проверяем, достаточно ли мала наблюдаемая средняя разница в -0,32, чтобы мы могли отвергнуть наличие эффектов, которые достаточно велики, чтобы иметь значение.
Пакет TOSTER (первоначально созданный мной, но недавно переработанный Аароном Колдуэллом) можно использовать для построения двух распределений t и их критических областей, указывающих, когда мы можем отклонить присутствие эффектов меньше -0,5 и больше 0,5. Может потребоваться некоторое время, чтобы привыкнуть к мысли, что мы отвергаем значения более экстремальные, чем границы эквивалентности. Старайтесь последовательно спрашивать в любой проверке гипотезы: какие значения тест может отклонить? В тесте нулевой гипотезы мы можем отклонить эффект 0, а в тесте эквивалентности на рисунке ниже мы можем отклонить значения ниже -0,5 и выше 0,5. На рисунке 9.2 мы видим два t -распределения с центрами на верхней и нижней границе указанного диапазона эквивалентности (-0,5 и 0,5).
Рисунок 9.2: Средняя разница и ее доверительный интервал, нанесенные ниже t -распределений, используемых для выполнения двух-односторонних тестов против -0,5 и 0,5.
Под двумя кривыми мы видим линию, которая представляет доверительный интервал в диапазоне от -0,99 до 0,35, и точку на линии, которая указывает на наблюдаемую среднюю разницу в -0,32. Давайте сначала посмотрим на левую кривую. Мы видим выделенную зеленым цветом область на хвостах, которая подчеркивает, какие наблюдаемые средние различия будут достаточно экстремальными, чтобы статистически отвергнуть эффект -0,5. Наша наблюдаемая средняя разница в -0,32 очень близка к -0,5, и если мы посмотрим на левое распределение, среднее значение недостаточно далеко от -0,5, чтобы попасть в зеленую область, которая указывает, когда наблюдаемые различия будут статистически значимыми. Мы также можем выполнить проверку эквивалентности с помощью пакета TOSTER и посмотреть на результаты.
ТОСТЕР::tsum_TOST(m1 = 4,55, м2 = 4,87, сд1 = 1,05, сд2 = 1,11, п1 = 15, п2 = 15, low_eqbound = -0,5, high_eqbound = 0,5)
## ## Модифицированный Уэлчем t-критерий с двумя выборками ## Проверенная гипотеза: Эквивалентность ## Границы эквивалентности (необработанные): -0,500 и 0,500 ## Альфа-уровень: 0,05 ## Критерий эквивалентности был незначимым, t(27,91) = 0,456, p = 3,26e-01 ## Проверка нулевой гипотезы была незначимой, t(27,91) = -0,811, р = 4,24е-01 ## NHST: не отвергать гипотезу нулевой значимости о том, что эффект равен нулю ## TOST: не отвергать гипотезу нулевой эквивалентности ## ## Результаты TOST ## t SE df p. value ## t-критерий -0,8111280 0,3945124 27, 0,42415467 ## TOST Нижний 0,4562595 0,3945124 27, 0,32586680 ## ТОСТ Верхний -2,0785154 0,3945124 27, 0,02348582 ## ## Размер эффекта ## оценка SE lower.ci upper.ci conf.level ## Исходный -0,3200000 0,3945124 -0,99 0,3511879 0,9 ## g(av) Хеджеса -0,2881401 0,3812249 -0,9301965 0,3193638 0,9 ## ## Примечание. Доверительные интервалы SMD являются приблизительными. См. виньетку ("SMD_calcs").
В строке «t-test» выходные данные показывают традиционный тест значимости нулевой гипотезы (который, как мы уже знали, не был статистически значимым: t = 0,46, p = 0,42. Точно так же, как по умолчанию t — тест в R, функция tsum_TOST по умолчанию вычисляет 9 баллов Уэлча.0003 t -test (вместо t -теста Стьюдента), который лучше по умолчанию (Delacre et al., 2017), но вы можете запросить t -тест Стьюдента, добавив var.equal = TRUE
как аргумент функции.
Мы также видим тест, указанный TOST Lower. Это первый односторонний тест, проверяющий, можем ли мы отклонить эффекты ниже -0,5. Из результата теста мы видим, что это не так: t = 0,46, p = 0,33. это обычная t — тест, как раз против эффекта -0.5. Поскольку мы не можем отклонить различия более экстремальные, чем -0,5, возможно, что разница, которую мы считаем значимой (например, разница -0,60), присутствует. Когда мы смотрим на односторонний тест относительно верхней границы диапазона эквивалентности (0,5), мы видим, что мы можем статистически отвергнуть наличие эффектов настроения больше, чем 0,5, так как в строке TOST Upper мы видим t = -2,08 , р = 0,02. Таким образом, наш окончательный вывод заключается в том, что, хотя мы можем отклонить эффекты более экстремальные, чем 0,5, на основе наблюдаемой разницы средних значений -0,32, мы не можем отклонить более экстремальные эффекты, чем -0,5. Следовательно, мы не можем полностью отвергнуть наличие значимых эффектов настроения. Поскольку данные не позволяют нам утверждать, что эффект отличен от 0, или что эффект слишком мал, чтобы иметь значение (исходя из диапазона эквивалентности от -0,5 до 0,5), данные равны 9. 0006 безрезультатно . Мы не можем отличить ошибку 2-го типа (эффект есть, но в этом исследовании мы его просто не обнаружили) и истинно отрицательный (на самом деле нет достаточно большого эффекта, чтобы иметь значение).
Обратите внимание: поскольку мы не можем отклонить одностороннюю проверку нижней границы эквивалентности, остается вероятность того, что существует истинный размер эффекта, который достаточно велик, чтобы его можно было считать значимым. Это утверждение верно даже тогда, когда наблюдаемый нами размер эффекта (-0,32) ближе к нулю, чем к границе эквивалентности -0,5. Можно подумать, что наблюдаемый размер эффекта должен быть более экстремальным (т. е. <-0,5 или > 0,5), чем эквивалентность, необходимая для поддержания возможности существования эффекта, который достаточно велик, чтобы его можно было считать значимым. Но это не обязательно. 90% ДИ указывает, что некоторые значения ниже -0,5 не могут быть отклонены. Поскольку мы можем ожидать, что 90% доверительных интервалов в долгосрочной перспективе отражают истинный параметр совокупности, вполне возможно, что истинный размер эффекта превышает -0,5. И эффект может быть даже более экстремальным, чем значения, зафиксированные этим доверительным интервалом, поскольку ожидается, что в 10% случаев вычисленный доверительный интервал не будет содержать истинный размер эффекта. Таким образом, если нам не удается отклонить наименьший процентный эффект, мы сохраняем возможность того, что эффект процентного дохода существует. Если мы можем отклонить нуль-гипотезу, но не можем отклонить значения более экстремальные, чем границы эквивалентности, то мы можем утверждать, что эффект есть, и он может быть достаточно большим, чтобы иметь смысл.
Один из способов снизить вероятность неубедительного эффекта — собрать достаточно данных. Давайте представим, что исследователи собрали не 15 участников в каждом состоянии, а 200 участников. В остальном они наблюдают точно такие же данные. Как объяснялось в главе о доверительных интервалах, по мере увеличения размера выборки доверительный интервал сужается. Чтобы тест эквивалентности TOST мог отклонить как верхнюю, так и нижнюю границу диапазона эквивалентности, доверительный интервал должен полностью попадать в диапазон эквивалентности. На рисунке 9.3 мы видим тот же результат, что и на рис. 9.2, но теперь, если бы мы собрали 200 наблюдений. Из-за большего размера выборки достоверность меньше, чем когда мы собрали 15 участников. Мы видим, что 90-процентный доверительный интервал вокруг наблюдаемой средней разницы теперь исключает как верхнюю, так и нижнюю границу эквивалентности. Это означает, что теперь мы можем отклонить эффекты за пределами диапазона эквивалентности (хотя и едва ли, с p = 0,048, поскольку односторонний критерий относительно нижней границы эквивалентности является лишь статистически значимым).
Рисунок 9.3: Средняя разница и ее доверительный интервал для теста эквивалентности с диапазоном эквивалентности от -0,5 до 0,5.
## ## Модифицированный Уэлчем t-критерий с двумя выборками ## Проверенная гипотеза: Эквивалентность ## Границы эквивалентности (необработанные): -0,500 и 0,500 ## Альфа-уровень: 0,05 ## Тест на эквивалентность был значимым, t(396,78) = 1,666, p = 4,82e-02 ## Проверка нулевой гипотезы была значимой, t(396,78) = -2,962, p = 3,24e-03 ## NHST: отклонить гипотезу нулевой значимости о том, что эффект равен нулю ## TOST: отклонить гипотезу нулевой эквивалентности ## ## Результаты TOST ## t SE df p. value ## t-тест -2,961821 0.1080417 396.7773 3.242190э-03 ## TOST Нижний 1.666024 0.1080417 396.7773 4.824893e-02 ## ТОСТ Верхний -7,589665 0,1080417 396,7773 1,156039e-13 ## ## Размер эффекта ## оценка SE lower.ci upper.ci conf.level ## Исходный -0,3200000 0,1080417 -0,4981286 -0,1418714 0,9 ## g(av) Хеджеса -0,2956218 0,1008059 -0,4625958 -0,1310411 0,9 ## ## Примечание. Доверительные интервалы SMD являются приблизительными. См. виньетку ("SMD_calcs").
На рис. 9.4 мы видим те же результаты, но теперь визуализированные в виде графика плотности достоверности (Schweder & Hjort, 2016), который представляет собой графическую сводку распределения достоверности. График плотности достоверности позволяет увидеть, какие эффекты можно отклонить с разницей в ширине доверительного интервала. Мы видим границы зеленой области (соответствующей 90% доверительный интервал) попадают в границы эквивалентности. Таким образом, тест эквивалентности является статистически значимым, и мы можем статистически отвергнуть наличие эффектов за пределами диапазона эквивалентности. Мы также можем видеть, что 95% доверительный интервал исключает 0, и, следовательно, традиционный тест значимости нулевой гипотезы также является статистически значимым.
Рисунок 9.4: Средняя разница и ее доверительный интервал для теста эквивалентности с диапазоном эквивалентности от -0,5 до 0,5.
Другими словами, как проверка нулевой гипотезы, так и проверка эквивалентности дали значительные результаты. Это означает, что мы можем утверждать, что наблюдаемый эффект статистически отличен от нуля и что этот эффект статистически меньше, чем эффекты, которые мы считали достаточно большими, чтобы иметь значение, когда мы указывали диапазон эквивалентности от -0,5 до 0,5. Это иллюстрирует, как сочетание тестов эквивалентности и тестов нулевой гипотезы может помешать нам ошибочно принять статистически значимые эффекты за практически значимые эффекты. В этом случае с 200 участниками мы можем отклонить эффект 0, но эффект, если он есть, недостаточно велик, чтобы быть значимым.
9.2 Отчет о тестах эквивалентности
Обычной практикой является сообщение только о тесте, дающем более высокое значение p из двух односторонних тестов, когда сообщается о тесте на эквивалентность. Поскольку оба односторонних теста должны быть статистически значимыми, чтобы отклонить нулевую гипотезу в тесте на эквивалентность (т. тест. В отличие от тестов значимости нулевой гипотезы, не принято сообщать о стандартизированных размерах эффекта для тестов эквивалентности, но могут быть ситуации, когда исследователи могут захотеть обсудить, насколько далеко эффект удален от границ эквивалентности на необработанной шкале. Предотвратить ошибочную интерпретацию утверждений об «отсутствии эффекта», о том, что эффект «отсутствует», о том, что истинная величина эффекта равна «нулю», или о расплывчатых словесных описаниях, например о том, что две группы дали «похожие» или «сравнимые» данные. . Значимый критерий эквивалентности отклоняет эффекты, более экстремальные, чем границы эквивалентности. Меньшие истинные эффекты не были отвергнуты, и поэтому остается возможным существование истинного эффекта. Поскольку процедура TOST является частотным тестом, основанным на p -значение, все другие неправильные представления о p -значении также должны быть предотвращены.
При обобщении основного результата проверки эквивалентности, например, в реферате, всегда указывайте диапазон эквивалентности, относительно которого проверяются данные. Чтение «на основе теста эквивалентности мы пришли к выводу об отсутствии значимого эффекта» означает совсем другое, если границы эквивалентности были d = -0,9 до 0,9, чем когда границы были d = -0,2 до d =0,2. Поэтому вместо этого напишите «на основе теста эквивалентности с диапазоном эквивалентности d = от -0,2 до 0,2, мы делаем вывод об отсутствии эффекта, который мы считаем значимым». Конечно, согласны ли коллеги с тем, что вы сделали правильный вывод об отсутствии значимого эффекта, зависит от того, согласны ли они с вашим обоснованием минимального эффекта интереса! Более нейтральным выводом было бы такое утверждение, как: «на основе теста эквивалентности мы отвергли наличие эффектов более экстремальных, чем от -0,2 до 0,2, поэтому мы можем действовать (с коэффициентом ошибки альфа), как если бы эффект, если бы любое, менее экстремально, чем наш диапазон эквивалентности». Здесь вы не используете такие ценностные термины, как «значимый». Если и проверка нулевой гипотезы, и проверка эквивалентности незначимы, результат лучше всего описать как «неубедительный»: недостаточно данных, чтобы отклонить нулевую гипотезу или наименьший интересующий размер эффекта. Если и тест нулевой гипотезы, и тест эквивалентности статистически значимы, вы можете заявить, что эффект есть, но в то же время заявить, что эффект слишком мал, чтобы представлять интерес (учитывая ваше обоснование диапазона эквивалентности).
Границы эквивалентности могут быть указаны в необработанных размерах эффектов или в стандартизированных средних разностях. Границы эквивалентности лучше указывать в терминах необработанных размеров эффекта. Установка их в терминах d Коэна приводит к систематической ошибке в статистическом тесте, поскольку наблюдаемое стандартное отклонение должно использоваться для перевода указанного d Коэна в необработанный размер эффекта для теста эквивалентности (и когда вы устанавливаете границы эквивалентности в стандартизированных средних разностях TOSTER предупредит: «Предупреждение: установка связанного типа на SMD приводит к смещенным результатам!»). Смещение на практике не является слишком проблематичным в любом отдельном тесте эквивалентности, и возможность указать границы эквивалентности в стандартизированных разностях средних снижает порог для выполнения теста эквивалентности, когда они не знают стандартное отклонение своей меры. Но по мере того, как тестирование эквивалентности становится все более популярным, и поля устанавливают наименьшие интересующие величины эффекта, они должны делать это в необработанных различиях в величине эффекта, а не в стандартизированной разнице в величине эффекта.
9.3 Испытания минимального эффекта
Если исследователь указал наименьшую интересующую величину эффекта и заинтересован в проверке того, превышает ли эффект в популяции этот наименьший интересующий эффект, может быть проведен тест на минимальный эффект. Как и в случае любой проверки гипотезы, мы можем отклонить наименьший интересующий эффект, если доверительный интервал вокруг наблюдаемого эффекта не перекрывается с ним. Однако в случае теста минимального эффекта доверительный интервал должен полностью выходить за пределы интересующей величины наименьшего эффекта. Например, предположим, что исследователь выполняет тест минимального эффекта с 200 наблюдениями на условие против наименьшего интересующего размера эффекта со средней разницей 0,5.
Рисунок 9.5: Средняя разница и ее доверительный интервал, нанесенные ниже t -распределений, используемых для выполнения двух-односторонних тестов против -0,5 и 0,5 при выполнении теста минимального эффекта.
## ## Модифицированный Уэлчем t-критерий с двумя выборками ## Проверенная гипотеза: минимальный эффект ## Границы эквивалентности (необработанные): -0,500 и 0,500 ## Альфа-уровень: 0,05 ## Тест минимального эффекта был значимым, t(396,78) = 12,588, p = 4,71e-04 ## Проверка нулевой гипотезы была значимой, t(396,78) = 7,960, р = 1,83е-14 ## NHST: отклонить гипотезу нулевой значимости о том, что эффект равен нулю ## TOST: отвергнуть нулевую гипотезу MET ## ## Результаты TOST ## t SE df p. value ## t-критерий 7,959893 0,1080417 396,7773 1,827800e-14 ## TOST Нижний 12,587737 0,1080417 396,7773 1,000000e+00 ## ТОСТ Верхний 3.332048 0.1080417 396.7773 4.714941e-04 ## ## Размер эффекта ## оценка SE lower.ci upper.ci conf.level ## Исходный 0,8600000 0,1080417 0,6818714 1,0381286 0,9## g(av) Хеджеса 0,7944836 0,1041808 0,6263676 0,9689959 0,9 ## ## Примечание. Доверительные интервалы SMD являются приблизительными. См. виньетку ("SMD_calcs").
Под двумя кривыми мы снова видим линию, которая представляет доверительный интервал в диапазоне от 0,68 до 1,04, и точку на линии, которая указывает наблюдаемую среднюю разницу в 0,86. Весь доверительный интервал лежит значительно выше минимального эффекта 0,5, и поэтому мы можем не только отклонить нулевую нулевую гипотезу, но также и эффекты, меньшие интересующего минимального эффекта. Следовательно, мы можем утверждать, что эффект достаточно велик, чтобы быть не только статистически значимым, но и практически значимым (при условии, что мы хорошо обосновали интересующий нас наименьший размер эффекта). Поскольку мы выполнили двусторонний тест минимального эффекта, тест минимального эффекта также был бы значимым, если бы доверительный интервал находился полностью на противоположной стороне от -0,5.
Ранее мы обсуждали, как сочетание традиционного NHST и теста эквивалентности может привести к более информативным результатам. Также можно комбинировать тест на минимальный эффект и тест на эквивалентность. Можно даже сказать, что такая комбинация является наиболее информативной проверкой прогноза, когда можно указать наименьший интересующий размер эффекта. В принципе, это правда. Пока мы можем собрать достаточно данных, мы всегда будем получать информативный и прямой ответ, когда мы комбинируем тест минимального эффекта с тестом эквивалентности: либо мы можем отбросить все эффекты, которые слишком малы, чтобы представлять интерес, либо мы можем отклонить все эффекты, которые достаточно велики, чтобы представлять интерес. Как мы увидим ниже в разделе, посвященном анализу мощности для интервальных гипотез, всякий раз, когда истинный размер эффекта близок к наименьшему интересующему размеру эффекта, необходимо собрать большое количество наблюдений. И если истинный размер эффекта оказывается идентичным наименьшему интересующему размеру эффекта, ни тест минимального эффекта, ни тест эквивалентности не могут быть правильно отклонены (и любой значительный тест будет ошибкой типа 1). Если исследователь может собрать достаточно данных (чтобы тест имел высокую статистическую мощность) и относительно уверен, что истинный размер эффекта будет больше или меньше, чем наименьший интересующий эффект, то комбинация теста минимального эффекта и эквивалентности Тест может быть привлекательным, поскольку такой тест гипотезы, вероятно, даст информативный ответ на вопрос исследования.
9.4 Анализ мощности для интервальных проверок гипотез
При планировании исследования целесообразно всегда планировать как наличие, так и отсутствие эффекта. Несколько научных журналов требуют обоснования размера выборки для зарегистрированных отчетов, где статистическая мощность для отклонения нулевой гипотезы высока, но когда исследование также способно продемонстрировать отсутствие эффекта, например, путем проведения анализа мощности для теста эквивалентности. . Как мы видели в главе о контроле над ошибками и вероятностях, следует ожидать нулевых результатов, и если вы думаете только о возможности наблюдения нулевого эффекта после сбора данных, часто бывает слишком поздно.
Статистическая мощность интервальных гипотез зависит от альфа-уровня, размера выборки, наименьшего интересующего эффекта, который вы решили протестировать, и истинного размера эффекта. Для теста эквивалентности обычно проводят анализ мощности, предполагая, что истинный размер эффекта равен 0, но это не всегда может быть реалистично. Чем ближе ожидаемый размер эффекта к наименьшему интересующему размеру эффекта, тем больше размер выборки, необходимый для достижения желаемой мощности. Не поддавайтесь искушению принять истинный размер эффекта равным 0, если у вас есть веские основания ожидать небольшой, но ненулевой истинный размер эффекта. Размер выборки, которую, как указывает анализ мощности, вам необходимо собрать, может быть меньше, но на самом деле у вас также выше вероятность неубедительного результата. Более ранние версии TOSTER позволяли исследователям выполнять анализ мощности только для тестов эквивалентности, предполагая, что истинный размер эффекта равен 0, но новая функция мощности Аарона Колдуэлла позволяет пользователям указывать дельта
, ожидаемый размер эффекта.
Предположим, что исследователи хотят достичь мощности 90% для теста эквивалентности с диапазоном эквивалентности от -0,5 до 0,5, с альфа-уровнем 0,05 и при условии, что размер эффекта совокупности равен 0. Анализ мощности теста эквивалентности может быть проводится для проверки необходимого размера выборки.
TOSTER::power_t_TOST(мощность = 0,9, дельта = 0, альфа = 0,05, тип = "two.sample", low_eqbound = -0,5, high_eqbound = 0,5)
## ## Расчет мощности TOST с двумя выборками ## ## мощность = 0,9 ## бета = 0,1 ## альфа = 0,05 ## n = 87,26261 ## дельта = 0 ## сд = 1 ## границы = -0,5, 0,5 ## ## ПРИМЕЧАНИЕ: n — это число в *каждой* группе
Мы видим, что требуемый размер выборки составляет 88 участников в каждом условии для независимого t -теста. Давайте сравним этот анализ мощности с ситуацией, когда исследователь ожидает истинного эффекта от d = 0,1 вместо истинного эффекта 0. Чтобы иметь возможность надежно отклонить эффекты больше 0,5, нам потребуется больший размер выборки, точно так же, как нам нужен больший размер выборки для проверки нулевой гипотезы, способной обнаруживать d = 0,4, чем проверка нулевой гипотезы, способная обнаружить d = 0,5.
TOSTER::power_t_TOST(мощность = 0,9, дельта = 0,1, альфа = 0,05, тип = "two.sample", low_eqbound = -0,5, high_eqbound = 0,5)
## ## Расчет мощности TOST с двумя выборками ## ## мощность = 0,9 ## бета = 0,1 ## альфа = 0,05 ## n = 108,9187 ## дельта = 0,1 ## сд = 1 ## границы = -0,5, 0,5 ## ## ПРИМЕЧАНИЕ: n — это номер в *каждой* группе
Мы видим, что размер выборки теперь увеличился до 109 участников в каждом состоянии. Как упоминалось ранее, нет необходимости выполнять двустороннюю проверку эквивалентности. Также возможно выполнить односторонний тест эквивалентности. Примером ситуации, когда такой направленный тест уместен, является исследование повторения. Если в предыдущем исследовании наблюдался эффект d = 0,48, и вы проводите исследование репликации, вы можете решить рассматривать любой эффект меньше d = 0,2 как неспособность воспроизвести, включая любой эффект в противоположном направлении, например эффект d = — 0,3. Хотя в большинстве программ для тестов эквивалентности требуется указать верхнюю и нижнюю границы диапазона эквивалентности, вы можете имитировать односторонний тест, установив границу эквивалентности в направлении, которое вы хотите игнорировать, на низкое значение, чтобы односторонняя проверка этого значения всегда будет статистически значимой. Это также можно использовать для выполнения анализа мощности для теста минимального эффекта, где одна граница представляет собой минимальный интересующий эффект, а другая граница устанавливается на экстремальное значение по другую сторону от ожидаемой величины эффекта.
В приведенном ниже примере анализа мощности для теста эквивалентности нижняя граница установлена на -5 (она должна быть установлена достаточно низкой, чтобы ее дальнейшее снижение не имело заметного эффекта). Мы видим, что новая степенная функция в пакете TOSTER учитывает предсказание направления, и так же, как предсказание направления в тесте с нулевой гипотезой, предсказание направления в тесте эквивалентности более эффективно, и для достижения нужно всего 70 наблюдений. 90% мощности.
# Новые функции мощности TOSTER позволяют использовать мощность для ожидаемого ненулевого эффекта. TOSTER::power_t_TOST(мощность = 0,9, дельта = 0, альфа = 0,05, тип = "two.sample", low_eqbound = -5, high_eqbound = 0,5)
## ## Расчет мощности TOST с двумя выборками ## ## мощность = 0,9 ## бета = 0,1 ## альфа = 0,05 ## n = 69,19784 ## дельта = 0 ## сд = 1 ## границы = -5.0, 0.5 ## ## ПРИМЕЧАНИЕ: n - это число в *каждой* группе
Статистическое программное обеспечение предлагает варианты анализа мощности для некоторых статистических тестов, но не для всех тестов. Так же, как и при анализе мощности для проверки нулевой гипотезы, для анализа мощности может потребоваться подход, основанный на моделировании.
9.5 Байесовская процедура ROPE
В байесовской оценке одним из способов доказать отсутствие значимого эффекта является процедура областей практической эквивалентности (ROPE) (Kruschke (2013)), которая «несколько аналогична частотному тестированию эквивалентности» (Kruschke & Liddell). (2017)). В процедуре ROPE указывается диапазон эквивалентности, как и при проверке эквивалентности, но вместо доверительного интервала используется байесовский интервал наибольшей плотности, основанный на апостериорном распределении (как объяснено в главе о байесовской статистике).
Если бы априор, использованный Крушке, был совершенно однородным, а процедура ROPE и тест эквивалентности использовали один и тот же доверительный интервал (например, 90%), два теста дали бы идентичные результаты. Были бы только философские различия в том, как интерпретируются числа. Пакет BEST
в R, который можно использовать для выполнения процедуры ROPE, по умолчанию использует «широкий» априор, поэтому результаты процедуры ROPE и теста эквивалентности не совсем совпадают, но очень близки. Можно даже утверждать, что эти два теста «практически эквивалентны». В приведенном ниже коде R генерируются случайные нормально распределенные данные для двух условий (со средним значением 0 и стандартным отклонением 1), а также выполняются процедура ROPE и тест эквивалентности TOST.
90% ИЧР колеблется от -0,06 до 0,39, при этом расчетное среднее значение, основанное на предыдущих и данных, равно 0,164. ИЧР полностью находится между верхней и нижней границей диапазона эквивалентности, и поэтому значения более экстремальные, чем -0,5 или 0,5, считаются неправдоподобными. 95% ДИ колеблется от -0,07 до 0,36 с наблюдаемой средней разницей 0,15. Мы видим, что числа не идентичны, потому что при байесовской оценке наблюдаемые значения объединяются с априорными, а средняя оценка не основана исключительно на данных. Но результаты очень похожи и в большинстве случаев приводят к аналогичным выводам. Пакет BEST R также позволяет исследователям выполнять анализ мощности на основе моделирования, который занимает много времени, но при использовании широкого априорного анализа дает результат, который в основном идентичен размеру выборки из анализа мощности для теста эквивалентности. Самым большим преимуществом ROPE по сравнению с TOST является то, что он позволяет вам включать предварительную информацию. Если у вас есть достоверная предварительная информация, ROPE может использовать эту информацию, что особенно полезно, если у вас мало данных. Если вы используете информированные априорные значения, проверьте устойчивость апостериорных значений к разумным изменениям априорных значений в анализе чувствительности.
9.6 Какую ширину интервала следует использовать?
Поскольку процедура TOST основана на двух односторонних тестах, используется 90% доверительный интервал, когда односторонние тесты выполняются с альфа-уровнем 5%. Поскольку и проверка верхней границы, и проверка нижней границы должны быть статистически значимыми для объявления эквивалентности (что, как объяснялось в главе о контроле над ошибками, представляет собой подход пересечения-объединения к множественному тестированию), нет необходимости исправлять тот факт, что выполняются два теста. Если альфа-уровень скорректирован для множественных сравнений или если альфа-уровень оправдан вместо того, чтобы полагаться на уровень 5% по умолчанию (или и то, и другое), следует использовать соответствующий доверительный интервал, где ДИ = 100 — (2 * \(\ альфа\)). Таким образом, ширина доверительного интервала напрямую связана с выбором альфа-уровня, поскольку мы принимаем решения об отклонении наименьшего интересующего размера эффекта или нет, основываясь на том, исключает ли доверительный интервал эффект, который тестируется.
При использовании интервала наибольшей плотности с байесовской точки зрения, такого как процедура ROPE, выбор ширины доверительного интервала не следует логически из желаемой частоты ошибок или любого другого принципа. Крушке (2014) пишет: «Как мы должны определить «достаточно заслуживающий доверия»? Один из способов — сказать, что любые точки в пределах 95% ИЧР достаточно заслуживают доверия». McElreath (2016) рекомендовал использовать 67%, 89% и 97%, потому что «нет причин. Это простые числа, поэтому их легко запомнить». Оба этих предложения лишены веских оснований. Как заметил Госсет (или Студент) (1904):
Результаты ценны только в том случае, если величина, на которую они, вероятно, отличаются от истины, настолько мала, что не имеет значения для целей эксперимента. Какими должны быть выбранные шансы, зависит:
1. от степени точности, которую допускает характер эксперимента, и
2. от важности рассматриваемых вопросов.
Принципиальных решений всего два. Во-первых, если для заявлений используется ширина интервала с наибольшей плотностью, эти утверждения будут сделаны с определенной частотой ошибок, и исследователи должны количественно оценить риск ошибочных утверждений, вычислив частотность ошибок. Это сделало бы процедуру ROPE байесовской/частотной компромиссной процедурой, в которой вычисление апостериорного распределения позволяет байесовскую интерпретацию того, какие значения параметров считаются наиболее вероятными, в то время как решения, основанные на том, попадает ли ИРЧП в диапазон эквивалентности, имеют значение. формально контролируемая частота ошибок. Обратите внимание, что при использовании информативного априорного значения ИРЧП не соответствует ДИ, а частоту ошибок при использовании ИРЧП можно получить только с помощью моделирования. Второе решение — не делать никаких заявлений, представить полное апостериорное распределение и позволить читателям сделать собственные выводы.
9.7 Установка наименьшего интересующего размера эффекта
Чтобы иметь возможность фальсифицировать наши прогнозы с помощью теста эквивалентности, нужно указать, какие наблюдаемые значения будут слишком малы, чтобы их можно было предсказать с помощью нашей теории. Мы никогда не можем сказать, что эффект точно равен нулю, но мы можем исследовать, являются ли наблюдаемые эффекты слишком малыми, чтобы быть интересными с теоретической или практической точки зрения. Это требует, чтобы мы указали наименьший интересующий размер эффекта (SESOI). Одна и та же концепция имеет множество названий, например минимальное важное различие или клинически значимое различие (King, 2011). Найдите минутку, чтобы подумать о наименьшем размере эффекта, который вы все еще считаете теоретически или практически значимым для следующего исследования, которое вы планируете. Может быть трудно определить, какой наименьший размер эффекта может показаться вам интересным, а вопрос о том, какой наименьший интересующий размер эффекта может быть чем-то, о чем вы никогда не задумывались с самого начала. Тем не менее, определение интересующей вас минимальной величины эффекта имеет важные практические преимущества. Во-первых, если исследователи в какой-либо области могут указать, какие эффекты будут слишком малы, чтобы иметь значение, становится очень просто провести исследование значимых эффектов. Второе преимущество указания наименьшего интересующего размера эффекта заключается в том, что это делает ваше исследование фальсифицируемым. То, что ваши предсказания кем-то фальсифицированы, может показаться вам не очень хорошим, но это очень полезно для науки в целом (Popper, 2002). В конце концов, если предсказание не может быть неверным, то почему кого-то должно впечатлять, если предсказание верно?
Чтобы начать думать о том, какая величина эффекта имеет значение, спросите себя, действительно ли какой-либо эффект в предсказанном направлении поддерживает альтернативную гипотезу. Например, будет ли размер эффекта Коэна d из 10 подтверждением вашей гипотезы? В психологии должно быть редкость, когда теория предсказывает такой огромный эффект, и если бы вы наблюдали d = 10, вы, вероятно, проверили бы либо ошибку вычислений, либо путаницу в исследовании. На другом конце шкалы будет эффект d = 0,001 соответствует теоретически предложенному механизму? Такой эффект невероятно мал и намного ниже того, что мог бы заметить человек, поскольку он упал бы ниже едва заметной разницы с учетом перцептивных и когнитивных ограничений. Следовательно, d = 0,001 в большинстве случаев приведет исследователей к заключению: «Ну, это действительно слишком мало, чтобы быть чем-то, что предсказала моя теория, и такой небольшой эффект практически эквивалентен отсутствию эффекта». Однако, когда мы делаем предсказание направления, мы говорим, что все эти типы эффектов являются частью нашей альтернативной гипотезы. Несмотря на то, что многие исследователи согласны с тем, что такие крошечные эффекты слишком малы, чтобы иметь значение, они по-прежнему официально поддерживают нашу альтернативную гипотезу, если у нас есть прогноз направления с нулевой нулевой гипотезой. Кроме того, у исследователей редко есть ресурсы, чтобы статистически отвергнуть наличие таких незначительных эффектов, поэтому заявление о том, что такие эффекты все же подтверждают теоретическое предсказание, делает теорию несостоятельной.0006 практически не поддается фальсификации : Исследователь мог бы просто ответить на любое повторное исследование, показывающее незначительный небольшой эффект (например, d = 0,05), сказав: «Это не опровергает мой прогноз. Я полагаю, что эффект немного меньше чем d = 0,05″, даже не признавая, что предсказание ложно. Это проблематично, потому что, если у нас нет процесса воспроизведения и фальсификации, научная дисциплина рискует скатиться к нефальсифицируемому (Ferguson & Heene, 2012). Поэтому всякий раз, когда вы планируете эксперимент или у вас есть теория и теоретическое предсказание, тщательно обдумайте и четко сформулируйте, каков наименьший интересующий размер эффекта.
9.8 Указание SESOI на основе теории
Один пример теоретически предсказанного наименьшего интересующего размера эффекта можно найти в исследовании Burriss et al. (2015), которые исследовали, проявляют ли женщины повышенное покраснение лица во время фертильной фазы овуляторного цикла. Гипотеза заключалась в том, что слегка более красная кожа сигнализирует о большей привлекательности и физическом здоровье, и что передача этого сигнала мужчинам дает эволюционное преимущество. Эта гипотеза предполагает, что мужчины могут обнаружить усиление покраснения невооруженным глазом. Беррисс и др. собрали данные от 22 женщин и показали, что покраснение их кожи лица действительно увеличилось во время их фертильного периода. Однако это увеличение было недостаточно большим, чтобы мужчины могли его обнаружить невооруженным глазом, поэтому гипотеза была опровергнута. Поскольку едва заметную разницу в покраснении кожи можно измерить, можно было установить теоретически обоснованный SESOI. Теоретически обоснованный наименьший интересующий размер эффекта может быть получен из едва заметных различий, которые обеспечивают нижнюю границу размеров эффекта, которые могут влиять на отдельных людей, или на основе вычислительных моделей, которые могут обеспечить нижнюю границу параметров в модели, которая все еще будет быть в состоянии объяснить наблюдаемые результаты в эмпирической литературе.
9.9 Методы на основе привязки для установки SESOI
Основываясь на идее едва заметной разницы, психологи часто интересуются эффектами, которые достаточно велики, чтобы их заметили отдельные люди. Одной из процедур для оценки того, что представляет собой значимое изменение на индивидуальном уровне, является метод на основе якоря (Jaeschke et al., 1989; King, 2011; Norman et al., 2004). Измерения собираются в двух временных точках (например, измерение качества жизни до и после лечения). Во второй момент времени используется независимая мера (якорь), чтобы определить, не демонстрируют ли люди никаких изменений по сравнению с моментом времени 1, или они улучшились или ухудшились. Часто пациента прямо просят ответить на основной вопрос и указать, чувствуют ли они себя одинаково, лучше или хуже в момент времени 2 по сравнению с моментом времени 1. Button et al. (2015) использовали метод на основе привязки, чтобы оценить, что минимальное клинически значимое различие в опроснике депрессии Бека соответствует снижению баллов на 17,5% по сравнению с исходным уровнем.
Анвари и Лакенс (2021) применили метод на основе привязки для изучения наименьшего интересующего эффекта, измеренного с помощью широко используемой шкалы положительных и отрицательных эффектов (PANAS). Участники выполнили PANAS из 20 пунктов в два временных интервала с интервалом в несколько дней (используя шкалу Лайкерта, от 1 = «очень слабо или совсем не до» до 5 = «чрезвычайно»). Во второй момент времени их также попросили указать, изменился ли их аффект немного, сильно или совсем не изменился. Когда люди указывали, что их аффект изменился «немного», среднее изменение в единицах Лайкерта составляло 0,26 балла по шкале для положительного аффекта и 0,28 балла для отрицательного аффекта. Таким образом, вмешательство, направленное на улучшение эмоционального состояния людей, которое должно привести к тому, что люди субъективно считают хотя бы небольшим улучшением, может установить SESOI на уровне 0,3 единицы по шкале PANAS.
9.10 Определение SESOI на основе анализа затрат и выгод
Другим принципиальным подходом к обоснованию наименьшего интересующего размера эффекта является проведение анализа затрат и результатов. Исследования показывают, что когнитивная тренировка может улучшить умственные способности пожилых людей, что может принести пользу водителям старшего возраста (Ball et al. , 2002). Основываясь на этих выводах, Виамонте, Болл и Килгор (2006) провели анализ затрат и результатов и пришли к выводу, что, исходя из стоимости вмешательства (247,50 долл. США), вероятность аварии для водителей старше 75 лет ( p = 0,0710) и стоимость аварии (22 000 долл. США), выполнение вмешательства в отношении всех водителей в возрасте 75 лет и старше было более эффективным, чем отсутствие вмешательства или вмешательство только после скринингового теста. Кроме того, анализ чувствительности показал, что вмешательство для всех водителей будет оставаться полезным, пока снижение риска столкновения составляет 25%. Следовательно, 25-процентное снижение вероятности попадания в автомобильную аварию для пожилых людей старше 75 лет может быть установлено как наименьший интересующий размер эффекта.
В качестве другого примера экономисты изучили ценность статистической жизни, основанную на готовности платить за снижение риска смерти, в размере 1,5–2,5 миллиона долларов (в 2000 году в западных странах, см. Mrozek & Taylor (2002)). ). Опираясь на эту работу, Абельсон (2003) рассчитал готовность платить за предотвращение острых проблем со здоровьем, таких как раздражение глаз, примерно в 40-50 долларов в день. Исследователь может изучать психологическое вмешательство, которое уменьшает количество раз, когда люди касаются своего лица близко к глазам, тем самым уменьшая раздражение глаз, вызванное бактериями. Если вмешательство стоит 20 долларов в год для проведения, оно, следовательно, должно уменьшить среднее количество дней с раздражением глаз среди населения по крайней мере на 0,5 дня, чтобы вмешательство окупило затраты. Анализ затрат и результатов может также основываться на ресурсах, необходимых для эмпирического изучения очень небольшого эффекта, если сравнивать его с ценностью, которую это знание будет иметь для научного сообщества.
9.11 Определение SESOI с использованием подхода малых телескопов
В идеале исследователи, публикующие эмпирические утверждения, всегда должны указывать, какие наблюдения опровергают их утверждение. К сожалению, пока это не является общепринятой практикой. Это особенно проблематично, когда исследователь выполняет точное повторение предыдущей работы. Поскольку никогда невозможно доказать, что эффект точно равен нулю, а первоначальные авторы редко указывают, какой диапазон величины эффекта опровергает их гипотезы, оказалось очень трудно интерпретировать результаты повторного исследования (S. F. Anderson & Maxwell, 2016). Когда новые данные противоречат первоначальным выводам?
Рассмотрим исследование, в котором вы хотите проверить идею мудрости толпы. Вы просите 20 человек оценить количество монет в банке, ожидая, что среднее значение будет очень близко к истинному значению. Исследовательский вопрос заключается в том, могут ли люди в среднем правильно угадать количество монет, которое равно 500. Наблюдаемое среднее значение угадывания 20 человек составляет 550 со стандартным отклонением 100. Наблюдаемое отличие от истинного значения является статистически значимым, t (19)=2,37, р = 0,0375, с коэффициентом Коэна d равным 0,5. Неужели среднее по группе так далеко отстоит? Разве нет мудрости толпы? Было ли что-то особенное в использованных вами монетах, из-за чего было особенно трудно угадать их количество? Или это была просто случайность? Вы намеревались выполнить точное повторение этого исследования.
Вы хотите, чтобы ваше исследование было информативным, независимо от того, есть эффект или нет. Это означает, что вам необходимо спланировать повторное исследование, которое позволит вам сделать информативный вывод, независимо от того, верна ли альтернативная гипотеза (толпа не будет точно оценивать истинное количество монет) или верна ли нулевая гипотеза (толпа угадает 500 монет, а первоначальное исследование было случайностью). Но поскольку первоначальный исследователь не указал наименьший интересующий размер эффекта, когда повторное исследование позволит вам заключить, что новые данные противоречат исходному исследованию? Наблюдение среднего значения, равного точно 500, возможно, будет сочтено некоторыми достаточно убедительным, но из-за случайных вариаций вы (почти) никогда не найдете средний результат, равный точно 500. Незначительный результат не может интерпретироваться как отсутствие эффект, потому что в вашем исследовании может быть слишком маленький размер выборки для обнаружения значимых эффектов, и результатом может быть ошибка типа 2. Итак, как мы можем двигаться вперед и определить размер эффекта, который имеет смысл? Как можно спланировать исследование, способное опровергнуть предыдущие выводы?
Ури Симонсон (2015) определяет малый эффект как «эффект, который дает 33% силы первоначальному исследованию». Другими словами, размер эффекта, который дал бы исходному исследованию шансы 2:1 90 003 против 90 004 наблюдения за статистически значимым результатом, если бы эффект был. Идея состоит в том, что если исходное исследование имело мощность 33%, вероятность наблюдения значительного эффекта, если он был истинным, слишком мала, чтобы надежно отличить сигнал от шума (или ситуации, когда есть истинный эффект от ситуаций, где не является истинным эффектом). Симонсон (2015, стр. 561) называет это маленьких телескопов приближаются к , и пишет: «Представьте себе астронома, утверждающего, что он нашел новую планету с помощью телескопа. Другой астроном пытается повторить открытие, используя более крупный телескоп, и ничего не находит. Хотя это не доказывает, что планеты не существует, тем не менее, это противоречит первоначальным выводам, потому что планеты, которые можно наблюдать в меньший телескоп, также должны наблюдаться в больший».
Хотя этот подход к установке наименьшего интересующего размера эффекта (SESOI) является произвольным (почему не 30% мощности или 35%?), его достаточно для практических целей (и вы можете выбрать уровень мощности, который вы считаете слишком низким ). Хорошая вещь в этом определении SESOI заключается в том, что если вы знаете размер выборки исходного исследования, вы всегда можете рассчитать размер эффекта, который исследование имело 33% мощности для обнаружения. Таким образом, вы всегда можете использовать этот подход, чтобы установить наименьший интересующий размер эффекта. Если вам не удается найти поддержку размера эффекта, который исходное исследование имеет 33% мощности для обнаружения, это не означает, что истинного эффекта нет, и даже не то, что эффект слишком мал, чтобы представлять какой-либо теоретический или практический интерес. Но использование подхода малых телескопов — хороший первый шаг, поскольку он позволит начать разговор о том, какие эффекты имеют значение, и позволит исследователям, которые хотят воспроизвести исследование, указать, когда они будут считать исходное утверждение фальсифицированным.
При использовании малых телескопов SESOI основывается только на размере выборки в первоначальном исследовании. Наименьший интересующий размер эффекта устанавливается только для эффектов в одном направлении. Все эффекты, меньшие этого эффекта (включая большие эффекты в противоположном направлении), интерпретируются как невозможность воспроизвести исходные результаты. Мы видим, что подход малых телескопов представляет собой односторонний тест эквивалентности , где указана только верхняя граница, а наименьший интересующий размер эффекта определяется на основе размера выборки исходного исследования. Тест проверяет, можем ли мы отклонить эффекты настолько большие или большие, чем эффект, который исходное исследование имеет 33% мощности для обнаружения. Это простой односторонний тест, не против 0, а против SESOI.
Например, рассмотрим наше исследование выше, в котором 20 угадывающих пытались оценить количество монет. Результаты анализировали с помощью двустороннего одновыборочного теста t с использованием уровня альфа 0,05. Чтобы определить размер эффекта, для которого это исследование имело мощность 33%, мы можем провести анализ чувствительности. В анализе чувствительности мы вычисляем необходимый размер эффекта с учетом альфа, размера выборки и желаемой статистической мощности. Обратите внимание, что Симонсон использует двусторонний тест в своем анализе мощности, которому мы будем следовать здесь — если в исходном исследовании сообщалось о предварительно зарегистрированном прогнозе направления, анализ мощности должен основываться на одностороннем тесте. В этом случае альфа-уровень равен 0,05, общий размер выборки равен 20, а желаемая мощность равна 33%. Мы вычисляем размер эффекта, который дает нам мощность 33%, и видим, что это число Коэна 9. 0003 д 0,358. Это означает, что мы можем установить наименьший интересующий размер эффекта для исследования репликации на d = 0,358. Если мы можем отклонить эффекты настолько большие или большие, чем d = 0,358, мы можем сделать вывод, что эффект меньше, чем все, для чего первоначальное исследование имело мощность 33%. На приведенном ниже снимке экрана показаны правильные настройки в G*Power, а код в R:
library("pwr") pwr::pwr.t.test( п = 20, сиг.уровень = 0,05, мощность = 0,33, тип = "один.образец", альтернатива = "двусторонняя" )
## ## Расчет мощности одновыборочного t-теста ## ## n = 20 ## d = 0,3577466 ## сигнальный уровень = 0,05 ## мощность = 0,33 ## альтернатива = двусторонний
Рисунок 9.6: Скриншот, иллюстрирующий анализ мощности чувствительности в G*Power для вычисления величины эффекта, в исходном исследовании мощность для обнаружения которого составляла 33%.
Определение SESOI на основе размера эффекта, которое первоначальное исследование имело 33% мощности для обнаружения, имеет дополнительное удобное свойство. Представьте, что истинный размер эффекта на самом деле равен 0, и вы выполняете статистический тест, чтобы увидеть, являются ли данные статистически меньше, чем SESOI, основанный на подходе малых телескопов (который называется тестом неполноценности). Если вы увеличите размер выборки в 2,5 раза, у вас будет примерно 80% мощности для этого одностороннего теста эквивалентности, при условии, что истинный размер эффекта равен точно 0 (например, д = 0). Люди, которые проводят повторное исследование, могут следовать рекомендациям для небольшого телескопа и очень легко определить как наименьший интересующий размер эффекта, так и размер выборки, необходимый для разработки информативного повторного исследования, предполагая, что истинный размер эффекта равен 0 (но см. раздел выше). для априорного анализа мощности, когда вы хотите проверить эквивалентность, но не ожидаете истинного размера эффекта, равного 0).
Рисунок ниже из Симонсона (2015) иллюстрирует подход с использованием малых телескопов на примере из реальной жизни. Первоначальное исследование Чжун и Лильенквист (2006) имело крошечный размер выборки из 30 участников в каждом состоянии и наблюдало размер эффекта в 9 раз.0003 d = 0,53, что статистически мало отличалось от нуля. Учитывая размер выборки, равный 30 на одно состояние, исследование имело мощность 33% для выявления эффектов, превышающих d = 0,401. Этот «небольшой эффект» показан зеленой пунктирной линией. В R наименьший интересующий размер эффекта рассчитывается с использованием:
pwr::pwr.t.test( п = 30, сиг.уровень = 0,05, мощность = 1/3, тип = "два.выборка", альтернатива = "двусторонняя" )
## ## Расчет мощности двухвыборочного t-теста ## ## n = 30 ## d = 0,401303 ## сигнальный уровень = 0,05 ## мощность = 0,3333333 ## альтернатива = двухсторонний ## ## ПРИМЕЧАНИЕ: n - это число в *каждой* группе
Обратите внимание, что мощность 33% является округленным значением, и при расчете используется 1/3 (или 0,3333333…).
Рисунок 9. 7: Пример оригинального исследования и двух повторных исследований, использованный Симонсоном в 2015 г.
Мы видим, что первая репликация Гамеса и его коллег также имела относительно небольшой размер выборки (N = 47 по сравнению с N = 60 в исходном исследовании) и не была предназначена для получения информативных результатов при интерпретации с помощью небольших телескопов. подход. Доверительный интервал очень широк и включает нулевой эффект ( d = 0) и наименьший интересующий размер эффекта ( d = 0,401). Таким образом, это исследование не является окончательным. Мы не можем отклонить нулевое значение, но мы также не можем отклонить размеры эффекта 0,401 или больше, которые по-прежнему считаются соответствующими исходному результату. Вторая репликация имеет гораздо больший размер выборки и говорит нам, что мы не можем отклонить нулевое значение, но мы можем отклонить наименьший интересующий размер эффекта, предполагая, что эффект меньше, чем то, что считается интересным эффектом на основе небольшого приближаются телескопы.
Хотя рекомендации малого телескопа просты в использовании, следует соблюдать осторожность, чтобы не превратить любую статистическую процедуру в эвристику. В приведенном выше примере с 20 экспертами коэффициент Коэна d , равный 0,358, будет использоваться в качестве наименьшего интересующего размера эффекта, и будет собрана выборка из 50 человек (в 2,5 раза больше исходных 20), но если кто-то сделает попытки провести повторное исследование, было бы относительно легко собрать больший размер выборки. В качестве альтернативы, если бы первоначальное исследование было чрезвычайно большим, оно имело бы высокую мощность для эффектов, которые могли бы не быть практически значимыми, и мы не хотели бы собирать в 2,5 раза больше наблюдений в повторном исследовании. Действительно, как пишет Симонсон: «Нужно ли нам в 2,5 раза увеличить первоначальный размер выборки или нет, зависит от вопроса, на который мы хотим ответить. Если мы заинтересованы в проверке того, меньше ли размер эффекта d33%, тогда да, нам нужно примерно в 2,5 раза больше исходного размера выборки, независимо от того, насколько большой была эта исходная выборка. Однако, когда выборки очень большие, это может не представлять интереса». Всегда думайте о вопросе, который хотите задать, и планируйте исследование таким образом, чтобы оно давало информативный ответ на интересующий вопрос. Не следуйте автоматически эвристике «2,5 умножить на n» и всегда размышляйте над тем, уместно ли использование предложенной процедуры в вашей ситуации.
9.12 Установка минимального интересующего размера эффекта на минимальный статистически обнаруживаемый эффект
Учитывая размер выборки и уровень альфа, каждый тест имеет минимальный статистически обнаруживаемый эффект. Например, для теста с 86 участниками в каждой группе и уровнем альфа 5% только t -тестов, которые дают t ≥ 1,974, будут статистически значимыми. Другими словами, t = 1,974 является критическим t -значением . Учитывая размер выборки и альфа-уровень, критические t -значение может быть преобразовано в критическое d -значение . Как показано на рис. 9.8, при n = 50 в каждой группе и уровне альфа 5% критическое значение d равно 0,4. Это означает, что только эффекты больше 0,4 дадут p < α. Критическое значение d зависит от размера выборки на группу и уровня альфа, но не зависит от истинного размера эффекта.
Рисунок 9.8: Нулевое и альтернативное распределение с ошибкой Типа 1 и Типа 2, указывающее наименьший размер эффекта, который будет статистически значимым при n = 50 на условие.
Статистически значимый результат теста можно получить, если истинный размер эффекта в раз меньше в раз критического размера эффекта. Из-за случайной вариации можно наблюдать большее значение в выборке , чем истинное значение в совокупности. По этой причине статистическая мощность теста никогда не равна 0 в тесте значимости нулевой гипотезы. Как показано на рис. 9.9, даже если истинный размер эффекта меньше критического значения (т. е. если истинный размер эффекта равен 0,2), мы видим из распределения, что можно ожидать примерно наблюдаемые размеры эффекта должны быть больше 0,4, когда истинный размер эффекта популяции равен d = 0,2 – если мы вычислим статистическую мощность для этого теста, окажется, что мы можем ожидать 16,77% от наблюдаемых размеров эффекта будет больше 0,4 в долгосрочной перспективе. Это не много, но хоть что-то. Это также является причиной того, что предвзятость публикаций в сочетании с недостаточными исследованиями является проблематичной: она приводит к значительному завышению истинной величины эффекта 9.0007, когда в научную литературу попадают только наблюдаемые размеры эффекта из статистически значимых результатов в исследованиях с недостаточной мощностью.
Рисунок 9.9: Нулевое и альтернативное распределение с ошибкой Типа 1 и Типа 2, указывающее наименьший размер эффекта, который будет статистически значимым при n = 50 на условие.
Мы можем использовать минимальный статистически обнаруживаемый эффект, чтобы установить SESOI для повторных исследований. Если вы пытаетесь воспроизвести исследование, одним из оправданных вариантов при выборе наименьшего интересующего размера эффекта (SESOI) является использование наименьшего наблюдаемого размера эффекта, который мог быть статистически значимым в воспроизводимом вами исследовании. Другими словами, вы решаете, что эффекты, которые не могли дать p — значение меньше α в исходном исследовании не будет считаться значимым в повторном исследовании. Здесь предполагается, что первоначальные авторы были заинтересованы в наблюдении значительного эффекта и, следовательно, не были заинтересованы в наблюдаемых размерах эффекта, которые не могли дать значимого результата. Вполне вероятно, что первоначальные авторы не учитывали, какие размеры эффекта их исследование имеет хорошую статистическую мощность для обнаружения, или что они были заинтересованы в меньших эффектах, но сделали ставку на наблюдение особенно большого эффекта в выборке исключительно в результате случайной вариации. Даже в этом случае, опираясь на более раннее исследование, в котором не указывается SESOI, оправданной отправной точкой может быть установка SESOI на наименьший размер эффекта, который, если наблюдать в исходном исследовании, могло быть статистически значимым . Не все исследователи могут согласиться с этим (например, первоначальные авторы могут сказать, что на самом деле их волнует эффект d = 0,001). Однако, поскольку мы пытаемся изменить поле текущей ситуации, когда никто не указывает, что может опровергнуть их гипотезу, или какова их наименьшая интересующая величина эффекта, этот подход является одним из способов начать работу. На практике, как объяснялось в разделе об апостериорной мощности, из-за соотношения между p = 0,05 и мощность 50% для наблюдаемой величины эффекта, это обоснование SESOI будет означать, что SESOI устанавливается на величину эффекта, которую исходное исследование имело мощность 50% для обнаружения независимого теста t . Этот подход в некотором роде похож на подход Симонсона (2015) для малых телескопов, за исключением того, что он приведет к несколько большему SESOI.
Установка наименьшего интересующего размера эффекта для исследования репликации немного напоминает теннисный матч. Оригинальные авторы подают и бьют по мячу через сетку, говоря: «Смотрите, что-то происходит». Подход к установке SESOI на размер эффекта, который мог быть значимым в исходном исследовании, представляет собой ответный залп, который позволяет вам сказать: «Кажется, нет ничего достаточно большого, что могло бы иметь значение в вашем собственном первоначальном исследовании» после проведение хорошо спланированного исследования репликации с высокой статистической мощностью для отклонения SESOI. Это никогда не конец матча — первоначальные авторы могут попытаться вернуть мяч с более конкретным заявлением об эффектах, предсказываемых их теорией, и продемонстрировать наличие такого меньшего размера эффекта. Но мяч снова на их стороне, и если они хотят продолжать утверждать, что эффект есть, им придется подкреплять свое утверждение новыми данными.
Помимо исследований репликации, объем собираемых данных ограничивает возможности для выводов. Также можно вычислить минимальный статистически обнаруживаемый эффект на основе размеров выборки, которые обычно используются в исследовательской области. Например, представьте направление исследования, в котором гипотеза почти всегда были проверены путем выполнения одновыборочного t -критерия, и где размер собираемой выборки всегда меньше, чем 100 наблюдений. Один образец t — тест на 100 наблюдениях с использованием альфа 0,05 (двусторонний), имеет мощность 80% для обнаружения эффекта d = 0,28 (как можно рассчитать в анализе мощности чувствительности). В новом исследовании вывод о том, что можно надежно отклонить наличие эффектов более экстремальных, чем d = 0,28, предполагает, что размера выборки в 100 может быть недостаточно для обнаружения эффектов в таких направлениях исследований. Отказ от присутствия эффектов более экстремальных, чем d = 0,28, не проверяет теоретическое предсказание, но вносит свой вклад в литературу, отвечая на ресурсный вопрос . Это предполагает, что будущие исследования в этом направлении исследований должны будут изменить дизайн своих исследований, существенно увеличив размер выборки. Установка наименьшего интересующего размера эффекта на основе этого подхода не дает ответа ни на один теоретический вопрос (в конце концов, SESOI не основан на каком-либо теоретическом прогнозе). Но информирование коллег о том, что, учитывая размер выборки, обычно собираемой в поле в поле, эффект недостаточно велик, чтобы его можно было надежно изучить, является полезным вкладом в литературу. Это не означает, что эффект не интересен сам по себе, и область может решить, что пришло время изучить вопрос исследования совместно, скоординировав направления исследований и собрав достаточно данных, чтобы надежно изучить, присутствует ли меньший эффект.
9.13 Проверь себя
9.13.1 Вопросы о тестах эквивалентности
Q1 : Когда 90% ДИ вокруг средней разницы попадает как раз в диапазон эквивалентности от -0,4 до 0,4, мы можем отклонить наименьший интересующий размер эффекта. Основываясь на ваших знаниях о доверительных интервалах, когда диапазон эквивалентности изменяется на -0,3–0,3, что необходимо для того, чтобы тест эквивалентности был значимым (при условии, что оценка величины эффекта и стандартное отклонение остаются прежними)?
- Увеличенный размер эффекта.
- Более низкий альфа-уровень.
- Больший размер выборки.
- Меньшая статистическая мощность.
Q2 : Почему неверно делать вывод об отсутствии эффекта, когда тест на эквивалентность статистически значим?
- Тест на эквивалентность — это утверждение о данных, а не о наличии или отсутствии эффекта.
- Результатом проверки эквивалентности может быть ошибка 1-го рода, поэтому следует сделать вывод об отсутствии эффекта или обнаружении ошибки 1-го рода.
- Тест на эквивалентность отклоняет значения, которые больше или больше, чем наименьший интересующий размер эффекта, поэтому возможность того, что существует небольшой ненулевой эффект, не может быть отвергнута.
- Мы заключаем, что нет никакого эффекта, когда тест эквивалентности незначителен, а не когда тест эквивалентности значим.
Q3 : Исследователи заинтересованы в том, чтобы показать, что учащиеся, использующие онлайн-учебник, учатся так же хорошо, как учащиеся, использующие бумажный учебник. Если это так, они могут порекомендовать учителям разрешить учащимся выбирать предпочитаемый ими носитель, но если есть польза, они порекомендуют тот носитель, который ведет к повышению успеваемости учащихся. Они случайным образом назначают учащимся использовать онлайн-учебник или бумажный учебник и сравнивают их оценки на экзамене по курсу (от наихудшей оценки 1 до наилучшей оценки 10). Они обнаружили, что обе группы учащихся показывают одинаковые результаты с условием для бумажного учебника 9.0003 m = 7,35, sd = 1,15, n = 50, а онлайн-учебник m = 7,13, sd = 1,21, n = 50). Предположим, что мы рассматриваем любой эффект как большой или превышающий половину балла (0,5) заслуживающим внимания, но любая разница менее 0,5 слишком мала, чтобы иметь значение, а уровень альфа установлен на уровне 0,05. Какой вывод сделают авторы? Скопируйте приведенный ниже код в R, заменив все нули правильными цифрами. Введите ?tsum_TOST
, чтобы получить помощь по этой функции.
ТОСТЕР::tsum_TOST( m1 = 0,00, сд1 = 0,00, п1 = 0, м2 = 0,00, сд2 = 0,00, п2 = 0, low_eqbound = -0.0, high_eqbound = 0,0, eqbound_type = "сырой", альфа = 0,05 )
- Мы можем отклонить размер эффекта, равный нулю, и мы можем отклонить присутствие эффектов, превышающих наименьший интересующий размер эффекта.
- Мы можем не отклонять размер эффекта, равный нулю, и мы можем отклонять присутствие эффектов, превышающих наименьший интересующий размер эффекта.
- Мы можем отклонить размер эффекта, равный нулю, и мы можем не отклонить наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
- Мы не можем не отвергать размер эффекта, равный нулю, и мы не можем не отвергать наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
Q4 : Если мы увеличим размер выборки в вопросе Q3 до 150 участников в каждом состоянии и предположим, что наблюдаемые средние значения и стандартные отклонения будут точно такими же, какой вывод мы сделаем?
- Мы можем отклонить размер эффекта, равный нулю, и мы можем отклонить присутствие эффектов, превышающих наименьший интересующий размер эффекта.
- Мы можем не отклонять размер эффекта, равный нулю, и мы можем отклонять присутствие эффектов, превышающих наименьший интересующий размер эффекта.
- Мы можем отклонить размер эффекта, равный нулю, и мы можем не отклонить наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
- Мы не можем не отвергать размер эффекта, равный нулю, и мы не можем не отвергать наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
Q5 : Если мы увеличим размер выборки в вопросе Q3 до 500 участников в каждом состоянии и предполагая, что наблюдаемые средние значения и стандартные отклонения будут точно такими же, какой вывод мы сделаем?
- Мы можем отклонить размер эффекта ноль, и мы можем отклонить наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
- Мы можем не отклонять размер эффекта, равный нулю, и мы можем отклонять присутствие эффектов, превышающих наименьший интересующий размер эффекта.
- Мы можем отклонить размер эффекта, равный нулю, и мы можем не отклонить наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
- Мы можем не отвергать размер эффекта, равный нулю, и мы можем не отвергать наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
Иногда результат теста неубедительный , поскольку и тест нулевой гипотезы, и тест эквивалентности не являются статистически значимыми. Единственным решением в таком случае является сбор дополнительных данных. Иногда и проверка нулевой гипотезы, и проверка эквивалентности статистически значимы, и в этом случае эффект равен 9.0006 статистически отличается от нуля, но практически незначителен (на основании обоснования SESOI).
Q6 : Мы могли бы задаться вопросом, какова была статистическая мощность для теста в Q3, если предположить, что между двумя группами не было истинной разницы (таким образом, истинный размер эффекта равен 0). Используя новую и улучшенную функцию power_t_TOST
в пакете TOSTER R, мы можем вычислить мощность, используя анализ мощности чувствительности (т. уровень альфа. Обратите внимание, что, поскольку границы эквивалентности были указаны в необработанной шкале в Q3, нам также необходимо указать оценку истинного стандартного отклонения в совокупности. Предположим, что это истинное стандартное отклонение равно 1,2. Округлите ответ до двух цифры после запятой Введите ?power_t_TOST
за помощь с функцией. Какая мощность была в Q3?
ТОСТЕР::power_t_TOST( п = 00, дельта = 0,0, сд = 0,0, low_eqbound = -0.0, high_eqbound = 0,0, альфа = 0,05, тип = "два. образец" )
- 0,00
- 0,05
- 0,33
- 0,40
Q7 : Предположим, что у нас было бы только 15 участников в каждой группе в Q3 вместо 50. Какова была бы статистическая мощность теста с этим меньшим размером выборки (при сохранении всех других настроек, как в Q6)? Округлите ответ до 2 цифр.
- 0,00
- 0,05
- 0,33
- 0,40
Q8 : Возможно, вы помните из обсуждений статистической мощности для теста значимости нулевой гипотезы, что статистическая мощность никогда не бывает меньше 5% (если истинный размер эффекта равен 0, мощность формально не определена, но мы будем наблюдать по крайней мере 5% ошибок типа 1, а мощность увеличивается при введении истинного эффекта). В двусторонних тестах на эквивалентность мощность может быть ниже альфа-уровня. Почему?
- Поскольку в тесте на эквивалентность частота ошибок 1-го типа не ограничена 5%.
- Поскольку в тесте эквивалентности нулевая гипотеза и альтернативная гипотеза меняются местами, и, следовательно, частота ошибок 2-го типа не имеет нижней границы (так же, как частота ошибок 1-го типа в NHST не имеет нижней границы).
- Поскольку доверительный интервал должен находиться между нижней и верхней границей интервала эквивалентности, а также при небольших размерах выборки эта вероятность может быть близка к единице (поскольку доверительный интервал очень широк).
- Поскольку тест эквивалентности основан на доверительном интервале, а не на p -значении, и поэтому мощность не ограничивается уровнем альфа.
Q9 : Хорошо спланированное исследование обладает высокой степенью достоверности для выявления интересующего эффекта, а также для отклонения интересующего эффекта наименьшей величины. Выполните априорный анализ мощности для ситуации, описанной в Q3. Какой размер выборки в необходимо собрать каждой группе для достижения желаемой статистической мощности 90% (или 0,9), предполагая, что истинный размер эффекта равен 0, и мы по-прежнему предполагаем, что истинное стандартное отклонение равно 1,2? Используйте приведенный ниже код и округлите размер выборки (поскольку мы не можем собрать частичное наблюдение).
ТОСТЕР::power_t_TOST( мощность = 0,00, дельта = 0,0, сд = 0,0, low_eqbound = -0.0, high_eqbound = 0,0, альфа = 0,05, тип = "два. образец" )
- 100
- 126
- 200
- 252
Q10 : Предположим, что при выполнении анализа мощности для Q9мы не ожидали, что истинный размер эффекта будет равен 0, но мы фактически ожидали, что средняя разница составит 0,1 балла. Какой размер выборки из 90 006 каждой группы 90 007 нам нужно будет собрать для проверки эквивалентности теперь, когда мы ожидаем, что истинный размер эффекта будет равен 0,1? Измените переменную delta
в power_t_TOST
, чтобы ответить на этот вопрос.
- 117
- 157
- 314
- 3118
Q11 : Измените диапазон эквивалентности на -0,1 и 0,1 для Q9(и установите ожидаемый размер эффекта дельта
на 0). Чтобы иметь возможность отклонять эффекты за пределами такого очень узкого диапазона эквивалентности, вам потребуется большой размер выборки. С альфой 0,05 и желаемой степенью 0,9 (или 90%), сколько участников вам потребуется в каждой группе ?
- 1107
- 1157
- 2468
- 3118
Как видите, требуется очень большой размер выборки, чтобы иметь высокую мощность для надежного подавления очень малых эффектов. Это не должно вызывать удивления. В конце концов, это также требует очень большого размера выборки до обнаружить небольших эффекта! Вот почему мы обычно оставляем на будущее мета-анализ, чтобы обнаружить или отвергнуть наличие небольших эффектов.
Q12 : Вы можете проводить тесты эквивалентности для всех тестов. Пакет TOSTER имеет функции для t -тестов, корреляций, различий между пропорциями и мета-анализов. Если тест, который вы хотите выполнить, не включен ни в какое программное обеспечение, помните, что вы можете просто использовать доверительный интервал 90% и проверить, можете ли вы отклонить наименьший интересующий размер эффекта. Давайте проведем тест эквивалентности для метаанализа. Хайд, Линдберг, Линн, Эллис и Уильямс (2008) сообщают, что размеры влияния гендерных различий в тестах по математике среди 7 миллионов учащихся в США представляют тривиальные различия, где тривиальное различие определяется как величина эффекта меньше д =0,1. Таблица с коэновскими d и se воспроизведена ниже:
Класс 2 | 0,06 +/- 0,003 |
3 класс | 0,04 +/- 0,002 |
4 класс | -0,01 +/- 0,002 |
5 класс | -0,01 +/- 0,002 |
6 класс | -0,01 +/- 0,002 |
7 класс | -0,02 +/- 0,002 |
8 класс | -0,02 +/- 0,002 |
9 класс | -0,01 +/- 0,003 |
10 класс | 0,04 +/- 0,003 |
11 класс | 0,06 +/- 0,003 |
Для класса 2, когда мы проводим тест эквивалентности с границами d = -0,1 и d = 0,1, используя альфа 0,01, какой вывод мы можем сделать? Используйте функцию TOSTER TOSTmeta и введите альфа-канал, размер эффекта (ES), стандартную ошибку (se) и границы эквивалентности.
ТОСТЕР::TOSTmeta( ЭС = 0,00, се = 0,000, low_eqbound_d = -0,0, high_eqbound_d = 0,0, альфа = 0,05 )
- Мы можем отклонить размер эффекта, равный нулю, и мы можем отклонить присутствие эффектов, превышающих наименьший интересующий размер эффекта.
- Мы можем не отклонять размер эффекта, равный нулю, и мы можем отклонять присутствие эффектов, превышающих наименьший интересующий размер эффекта.
- Мы можем отклонить размер эффекта, равный нулю, и мы можем не отклонить наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
- Мы не можем не отвергать размер эффекта, равный нулю, и мы не можем не отвергать наличие эффектов, больших или больших, чем наименьший интересующий размер эффекта.
9.13.2 Вопросы о подходе малых телескопов
Q13 : Какова наименьшая интересующая величина эффекта, основанная на подходе малых телескопов, когда исходное исследование собрало 20 участников в каждом состоянии независимого t — тест с альфа-уровнем 0,05 . Обратите внимание, что для этого ответа это зависит от того, вводите ли вы степень как 0,33 или 1/3 (или 0,333). Вы можете использовать приведенный ниже код, основанный на пакете pwr
.
pwr::pwr.t.test( п = 0, сиг.уровень = 0.00, мощность = 0, тип = "два.выборка", альтернатива = "двусторонняя" )
- d = 0,25 (установка мощности на 0,33) или 0,26 (установка мощности на 1/3)
- d =0,33 (установка мощности на 0,33) или 0,34 (установка мощности на 1/3)
- d = 0,49 (установка мощности на 0,33) или 0,50 (установка мощности на 1/3)
- d = 0,71 (установка мощности на 0,33) или 0,72 (установка мощности на 1/3)
Q14 : Предположим, вы пытаетесь воспроизвести предыдущий результат на основе корреляции в двустороннем тесте. В исследовании приняли участие 150 человек. Рассчитайте SESOI, используя обоснование малых телескопов для повторения этого исследования, которое будет использовать альфа-уровень 0,05. Обратите внимание, что для этого ответа это зависит от того, вводите ли вы степень как 0,33 или 1/3 (или 0,333). Вы можете использовать код ниже.
pwr::pwr.r.test( п = 0, сиг.уровень = 0, мощность = 0, альтернатива = "двусторонний")
- r = 0,124 (установка мощности на 0,33) или 0,125 (установка мощности на 1/3)
- r = 0,224 (установка мощности на 0,33) или 0,225 (установка мощности на 1/3)
- r = 0,226 (установка мощности на 0,33) или 0,227 (установка мощности на 1/3)
- r = 0,402 (установка мощности на 0,33) или 0,403 (установка мощности на 1/3)
Q15 : В эпоху больших данных исследователи часто имеют доступ к большим базам данных и могут проводить корреляции на выборках из тысяч наблюдений. Предположим, что исходное исследование в предыдущем вопросе имело не 150 наблюдений, а 15000 наблюдений. Мы по-прежнему используем альфа-уровень 0,05. Обратите внимание, что для этого ответа это зависит от того, вводите ли вы степень как 0,33 или 1/3 (или 0,333). Что такое SESOI, основанный на подходе малых телескопов?
- р = 0,0124 (установка мощности на 0,33) или 0,0125 (установка мощности на 1/3)
- r = 0,0224 (установка мощности на 0,33) или 0,0225 (установка мощности на 1/3)
- r = 0,0226 (установка мощности на 0,33) или 0,0227 (установка мощности на 1/3)
- r = 0,0402 (установка мощности на 0,33) или 0,0403 (установка мощности на 1/3)
Является ли этот эффект практически или теоретически значимым? Возможно нет. Это была бы ситуация, когда подход малых телескопов не очень полезная процедура для определения интересующей наименьшей величины эффекта.
Q16 : Используя подход малых телескопов, вы устанавливаете SESOI в исследовании репликации на d = 0,35 и устанавливаете альфа-уровень на 0,05. После сбора данных в хорошо подготовленном повторном исследовании, которое было максимально близко к исходному исследованию, вы не обнаружили значительного эффекта и можете отклонить эффекты настолько большие или большие, чем d = 0,35. Какова правильная интерпретация этого результата?
- Нет эффекта.
- Мы можем статистически отклонить (используя альфа 0,05) эффекты, которые любой счел бы теоретически значимыми.
- Мы можем статистически отклонить (используя альфа 0,05) эффекты, которые любой сочтет практически значимыми.
- Мы можем статистически отклонить (используя альфа 0,05) эффекты, которые первоначальное исследование имело 33% мощности для обнаружения.
9.13.3 Вопросы об указании SESOI как минимального статистически обнаруживаемого эффекта
Q17 : Откройте онлайн-приложение Shiny, которое можно использовать для вычисления минимального статистически обнаруживаемого эффекта для двух независимых групп: https://shiny.ieis.tue.nl/d_p_power/. Три ползунка влияют на то, как выглядит фигура: размер выборки на условие, истинный размер эффекта и альфа-уровень. Какое из утверждений верно?
- На критическое значение d влияет размер выборки на группу, истинный размер эффекта, но , а не уровень альфа.
- Критическое значение d зависит от размера выборки на группу, уровня альфа, но , а не от истинного размера эффекта.
- На критическое значение d влияет альфа-уровень, истинный размер эффекта, но , а не размер выборки на группу.
- Критический d -значение зависит от размера выборки на группу, уровня альфа и истинного размера эффекта.
Q18 : Представьте, что исследователи провели исследование с 18 участниками в каждом состоянии и выполнили t -тест с альфа-уровнем 0,01. Используя приложение Shiny, какова наименьшая величина эффекта, которая могла быть статистически значимой в этом исследовании?
- д = 0,47
- д = 0,56
- д = 0,91
- д = 1
Q19 : Вы ожидаете, что истинный размер эффекта в вашем следующем исследовании будет d = 0,5, и вы планируете использовать альфа-уровень 0,05. {2})\), что для однофакторного дисперсионного анализа (визуализированного в приложении Shiny) равно эта -в квадрате.
Распределение эта-квадрата немного отличается от распределения Коэна d , прежде всего потому, что тест F является однонаправленным тестом (и из-за этого все значения эта-квадрата положительны, в то время как Коэна d может быть положительным или отрицательным). Светло-серая линия изображает ожидаемое распределение эта-квадрата, когда нулевое значение истинно, с красной областью под кривой, указывающей на ошибки типа 1, а черная линия изображает ожидаемое распределение эта-квадрата, когда истинный размер эффекта равен η = 0,059. Синяя область указывает на то, что ожидаемые размеры эффекта меньше критического η, равного 0,04, что не будет статистически значимым и, следовательно, будет ошибкой 2-го типа.
Рисунок 9.10: Иллюстрация критического F-значения для двух групп, 50 наблюдений на группу и альфа-уровень 0,05.
Q20 : Установите количество участников (для каждого условия) на 14 и количество групп на 3. С помощью приложения Shiny на http://shiny.ieis.tue.nl/f_p_power/ какие размеры эффекта (выраженные в частичном эта-квадрате, как указано на вертикальной оси) может быть статистически значимым при n = 14 в группе и 3 группах?
- Только эффекты больше 0,11
- Только эффекты больше 0,13
- Только эффекты больше 0,14
- Только эффекты больше 0,16
Каждый размер выборки и уровень альфа-канала подразумевает минимальный статистически обнаруживаемый эффект, который может быть статистически значимым в вашем исследовании. Просмотр того, какие наблюдаемые эффекты вы можете обнаружить, является полезным способом убедиться, что вы действительно можете обнаружить наименьшие размер эффекта, который вас интересует.
Q21 : Используя минимальный статистически обнаруживаемый эффект, вы устанавливаете SESOI в повторном исследовании на d = 0,35 и устанавливаете уровень альфа на 0,05. После сбора данных в хорошо подготовленном повторном исследовании, которое было максимально близко к исходному исследованию, вы не обнаружили значительного эффекта и можете отклонить эффекты настолько большие или большие, чем d = 0,35. Какова правильная интерпретация этого результата?
- Нет эффекта.
- Мы можем статистически отклонить (используя альфа 0,05) эффекты, которые любой счел бы теоретически значимыми.
- Мы можем статистически отклонить (используя альфа 0,05) эффекты, которые любой сочтет практически значимыми.
- Мы можем статистически отклонить (используя альфа 0,05) эффекты, которые могли бы быть статистически значимыми в исходном исследовании.
9.13.4 Открытые вопросы
Что подразумевается под утверждением «Отсутствие доказательств не является доказательством отсутствия»?
Какова цель теста на эквивалентность?
В чем разница между нулевой нулевой гипотезой и ненулевой нулевой гипотезой?
Что такое тест минимального эффекта?
Какой вывод можно сделать, если проверка значимости нулевой гипотезы и проверка эквивалентности выполняются для одних и тех же данных, ни один из тестов не является статистически значимым?
Зачем при разработке тестов эквивалентности иметь желаемую статистическую мощность? чем больше размер выборки, тем уже диапазон эквивалентности?
Почему неверно говорить об «отсутствии эффекта», когда тест эквивалентности статистически значим?
Укажите, чем байесовская процедура ROPE и тест эквивалентности похожи, и укажите, чем они отличаются.