Коэффициент альфа кронбаха: Альфа Кронбаха

Надежность и позиционный анализ



Надежность и позиционный анализ

Надежность и позиционный анализ


  • Основная цель
  • Основные идеи
  • Классическая модель проверки
  • Надежность
  • Суммарные шкалы
  • Альфа Кронбаха
  • Split-half надежность
  • Поправка на затухание
  • Построение надежной шкалы

Этот обзор обсуждает понятие надежности измерений, которое используется в социальных науках (но не в исследованиях промышленной статистики или медицины). Термин надежность, используемый в промышленной статистике, обозначает функцию ошибок (как функцию времени). Для обсуждения термина надежность в применении к качеству продукта (т.е. в промышленной статистике) обратитесь к разделу Анализ надежности/времен отказов в главе

Анализ процессов (см. также раздел Повторяемость и воспроизводимость в той же главе и главу Анализ выживаемости/времен отказов). Для сравнения этих (очень разных) понятий надежности, см. Надежность.


Основная цель

Во многих областях исследований точное измерение переменных само по себе представляет сложную задачу. Например, в психологии точное измерение личностных характеристик или отношений к чему-либо — необходимый первый шаг, предваряющий всякую теорию. В целом, очевидно, что во всех социальных дисциплинах ненадежные измерения будут препятствовать попытке предсказать поведение людей. В прикладных исследованиях, когда наблюдения над переменными затруднены, также важна точность измерений. Например, надежное измерение производительности служащих, как правило, является сложной задачей. Однако очевидно, что эти измерения необходимы для любой системы оплаты, основанной на производительности труда.

Модуль Надежность и позиционный анализ позволит вам построить надежные шкалы, а также улучшить используемые шкалы. Модуль Надежность и позиционный анализ поможет вам также при конструировании и оценивании суммарных шкал, т.е. шкал, которые используются при многократных индивидуальных измерениях (различные позиции или вопросы, повторяющиеся измерения и т.д.). Программа вычисляет многочисленные статистики, позволяющие оценить надежность шкалы с помощью классической теории тестирования.

Оценивание надежности шкалы основано на корреляциях между индивидуальными позициями или измерениями, составляющими шкалу, и дисперсиями этих позиций. Если вы не знакомы с

коэффициентом корреляции или дисперсией, обратитесь к соответствующим разделам главы Основные статистики и таблицы.

Классическая теория тестирования имеет долгую историю, и существует много пособий по этому предмету. Для подробного знакомства можно рекомендовать, например, Carmines and Zeller (1980), De Gruitjer and Van Der Kamp (1976), Kline (1979, 1986) или Thorndyke and Hagen (1977). Широко известной, «классической» монографией является книга Nunally (1970), в которой хорошо освещено тестирование в области психологии и образования.

Проверка гипотез о зависимости позиций. STATISTICA включает в себя процедуру моделирования структурными уравнениями (SEPATH), где можно проверить специальные гипотезы о связи между множествами позиций или различных критериев (например, гипотезу, что два множества позиций измеряют одну и ту же структуру, анализируют матрицы изменчивости используемого метода и т.д.).

В начало

Основные идеи

Предположим, вы хотите построить анкету, чтобы измерить степень предубеждения людей против машин иностранного производства. Как это сделать? Вы могли бы начать, например, с формулировки следующих утверждений: «Машинам иностранного производства не хватает индивидуальности», «Машины иностранного производства выглядят одинаково» и т.д. Затем вы можете предложить эти пункты группе субъектов, (например, группе людей, которые никогда не были владельцами машин иностранного производства). Респондентам предлагалось бы указать степень своего согласия с этими утверждениями по 9-балльной шкале, имеющей градации от

1=не согласен до 9=согласен.

Истинные значения и погрешности. Рассмотрим подробнее, что подразумевается под точным измерением в этом примере. Гипотеза состоит в том, что в сознании людей существует такой объект (теоретическая конструкция) как «предубеждение против машин иностранного производства» и каждый пункт анкеты (иными словами, позиция анкеты) в какой-то степени «раскрывает» эту концепцию. Вы можете сказать, что ответ очередного человека на определенную позицию анкеты включает два аспекта: во-первых, отражает предубеждение против машин иностранного производства, во-вторых, отражает некоторый скрытый, неконтролируемый фактор, соответствующий данной позиции. Например, рассмотрим утверждение: «Все машины иностранного производства выглядят одинаково». Согласие или несогласие субъекта с этим утверждением будет частично зависеть от некоторых других аспектов вопроса или самого респондента. Например, у респондента есть друг, который только что купил машину иностранного производства необычного вида и этот фактор влияет на степень согласия с приведенным утверждением.

Проверка гипотез о зависимости между позициями и критериями. Для проверки специальных гипотез о связи между множествами позиций или различных критериев (критерий того, что два множества позиций измеряют одну и ту же структуру, анализируют матрицы изменчивости используемого метода и т. д.) используйте процедуру

Моделирования структурными уравненями (SEPATH).

В начало

Классическая модель проверки

Каждое измерение (ответ на вопрос) включает в себя как истинное значение (предубеждение против машин иностранного производства), так и частично неконтролируемую, случайную погрешность. Это можно описать следующим классическим уравнением:
X = тау + ошибка
В данном уравнении X выражает соответствующее реальное измерение, т.е. ответ (отклик) субъекта на вопрос анкеты; тау обычно используется для обозначения неизвестного истинного значения или истинной метки, ошибка обозначает погрешность измерения.

В начало

Надежность

В этом контексте надежность понимается непосредственно: измерение является надежным, если его основную часть, по отношению к погрешности, составляет истинное значение.

Например, позиция анкеты: «Красные машины иностранного производства особенно уродливы», скорее всего, даст ненадежное измерение для предубеждения против иностранных машин. Это происходит потому, что, вероятно, у людей существуют значительные различия, касающиеся цветовых симпатий и антипатий. Таким образом, позиция будет учитывать не только предубеждение против иностранных машин, но также цветовое предпочтение субъектов. Поэтому в ответе на данную позицию доля истинной метки (истинного предубеждения) будет относительно мала (будет большой ошибка).

Меры надежности. Отсюда нетрудно вывести критерий или статистику для описания надежности позиции или шкалы. Именно, можно ввести

индекс надежности, как отношение вариации истинной метки (истинного значения), присущей субъектам или респондентам, к общей вариации:

Надежность = 2(истинная метка) / 2(всего наблюдений)

В начало

Суммарные шкалы

Зададимся теперь вопросом: что произойдет, если просуммировать несколько более или менее надежных позиций, построенных с целью оценки предубеждения против иностранных машин? Предположим, что вопросы были сформулированы так, чтобы охватить возможно более широкий спектр различных предубеждений против машин иностранного производства. Если ошибочная компонента в ответах респондентов на каждый вопрос действительно случайна, то можно ожидать, что в ответах на различные вопросы случайные компоненты будут взаимно подавлять друг друга. Математическое ожидание суммарной погрешности по совокупности всех вопросов (позиций шкалы) будет равно нулю. Компонента истинной метки остается неизменной при суммировании по всем позициям. Следовательно, чем больше будет добавлено вопросов, тем точнее истинная метка (по отношению к погрешности) будет отражена на суммарной шкале.

Количество позиций и надежность. Это заключение описывает важный принцип построения критерия, а именно: чем больше позиций участвуют в построении шкалы для измерения данной концепции, тем более надежным будет измерение (суммарная шкала). Может быть, следующий пример лучше пояснит это. Предположим, вы хотите измерить рост 10 людей, используя только простую палочку или, например, свой локоть как измерительное устройство.

В этом примере нас интересует не абсолютная точность измерений (в дюймах или сантиметрах), а возможность верно различать 10 индивидуумов по результатам измерений. Если, прикладывая палочку, вы измерите каждого человека только один раз, то результат может и не быть очень надежным. Однако если вы измерите каждого субъекта 100 раз и затем возьмете среднее этих 100 измерений как итоговый результат для соответствующего роста участника, то будете в состоянии очень точно и надежно различать людей (основываясь единственно на простой измерительной палочке, а не на линейке).

Теперь обратимся к некоторым статистикам, которые используются для оценивания надежности суммарной шкалы.

В начало

Альфа Кронбаха

Вернемся к примеру с предубеждениями. Если есть несколько субъектов, отвечающих на вопросы, то можно вычислить дисперсию для каждого вопроса и суммарной шкалы. Дисперсия для суммарной шкалы будет меньше, чем сумма дисперсий каждого отдельного вопроса в том случае, когда вопрос измеряет (оценивает) одну и ту же изменчивость между субъектами, т.е. если они измеряют некоторую истинную метку. Математически дисперсия суммы двух вопросов равна сумме двух дисперсий минус удвоенная ковариация, т.е. равна величине истинной дисперсии метки, общей для двух вопросов.

Вы можете оценивать долю дисперсии истинной метки, покрываемую вопросами, путем сравнения суммы дисперсий отдельных вопросов с дисперсией суммарной шкалы. Конкретно, вы можете вычислить величину:

= (k/(k-1)) * [1- (s2i)/s2сум]

Это формула для общепринятого индекса надежности, так называемого коэффициента — альфа Кронбаха (). В этой формуле si**2 обозначают дисперсии для k отдельных позиций; sсум**2 — дисперсию для суммы всех позиций. Если не существует истинной метки, а только случайная погрешность в ответах на вопросы (являющаяся неконтролируемой и единственной, а следовательно, некоррелированной между субъектами), то дисперсия суммы будет такой же, как сумма дисперсий отдельных позиций. Поэтому коэффициент альфа будет равен нулю. Если все вопросы совершенно надежны и измеряют один и тот же объект (истинную метку), то коэффициент альфа равен 1. (1-(si**2)/sсум**2 равен (k-1)/k; умножив на k/(k-1), получим 1.)

Альтернативная терминология. Альфа Кронбаха, вычисленная для дихотомий или переменных, принимающих только два значения (например, для ответов истинно/ложно), идентична так называемой формуле Кьюдера-Ричардсона-20 для надежности суммарных шкал. И в том, и в другом случае, поскольку надежность реально вычисляется, исходя из непротиворечивости всех вопросов в суммарной шкале, коэффициент надежности, вычисленный таким образом, также относится к внутренне непротиворечивой надежности.

В начало

Split-half надежность

Другим способом вычисления надежности суммарной шкалы является разбиение суммарной шкалы случайным образом на две половины [этот прием, называемый по-английски split-half, часто используется в медицине и биологии для оценки надежности результатов; разбиение производится случайным образом, что позволяет избежать искусственных эффектов]. Если суммарная шкала совершенно надежна, то следует ожидать, что обе части абсолютно коррелированы (т.е. r = 1.0). Если суммарная шкала не является абсолютно надежной, то коэффициент корреляции будет меньше 1. Можно оценить надежность суммарной шкалы посредством split-half коэффициента Спирмена-Брауна:

rсб = 2rxy /(1+rxy)

В этой формуле rсб — это коэффициент split-half надежности, а rxy является корреляцией между двумя половинами шкалы.

В начало

Поправка на затухание

Рассмотрим теперь некоторые последствия, к которым приводит не абсолютная надежность. Предположим, что вы измеряете предубеждения против машин иностранного производства для прогнозирования каких-либо других показателей таких, например, будущего спроса на эти машины. Если ваша шкала коррелирует с таким показателем, то этот факт повысит вашу уверенность в достоверности шкалы, т.е. в том, что она действительно измеряет предубеждение против иномарок, а не что-нибудь вовсе другое. Построение достоверной выборки — это продолжительный процесс, при котором исследователь изменяет шкалу в соответствии с различными внешними критериями, теоретически связанными с той концепцией, для подтверждения которой строится шкала.

Как будет влиять на достоверность шкалы тот факт, что шкала не абсолютно надежна? Маловероятно, чтобы часть шкалы, включающая случайную ошибку, коррелировала с некоторым внешним показателем. Поэтому, если пропорция истинной метки (истинного значения) в шкале равна 60% (т.е. надежность равна лишь 0,60), то корреляция между шкалой и внешним показателем будет затухать; т.е. будет ослаблена. Это означает, что она будет меньше, чем фактическая корреляция между двумя истинными метками (т.е. между показателем, измеряемым шкалой, и другим, внешним по отношению к шкале показателем). Фактически достоверность шкалы всегда ограничивается ее надежностью.

При заданной надежности двух, связанных между собой измерений (т.е. шкалы и другого исследуемого показателя), можно оценить корреляцию между истинными значениями при обоих измерениях. Иными словами, вы можете изменить корреляцию следующим образом — ввести так называемую поправку на затухание:

rxy,коррект = rxy /(rxx*ryy)

В этой формуле rxy,коррект обозначает скорректированный или поправленный коэффициент корреляции. Иными словами, это оценка корреляции между истинными метками при двух измерениях x и y. Коэффициент rxy обозначает непоправленную корреляцию, а rxx и ryy обозначают надежности измерений (шкал) x и y. Модуль Надежность и позиционный анализ предоставляет опцию для вычисления корреляции с поправкой на «затухание». Это изменение корреляции обусловлено либо значениями, задаваемыми пользователем, либо реальными исходными данными (в последнем случае надежности двух измерений оцениваются, исходя из данных).

В начало

Построение надежной шкалы

После нашего обсуждения, по-видимому, понятно, что шкала тем лучше (т.е. тем достоверней), чем она надежнее. Как отмечалось ранее, один из способов сделать шкалу более достоверной — просто добавить в нее новые позиции. Модуль Надежность и позиционный анализ включает в себя опцию, позволяющую вычислить, сколько еще позиций (вопросов) необходимо добавить, чтобы получить заданную надежность, или как изменится надежность шкалы при добавлении некоторого количества новых позиций. Однако на практике количество позиций в шкале ограничивается различными факторами (например, респонденты устали и просто не будут отвечать на большое число вопросов, полное пространство ограничено и т.д.). Теперь, возвращаясь к примеру с предубеждениями, перечислим шаги, которые в общем случае нужны для построения надежной шкалы:

Шаг 1: Формулирование вопросов. Первый шаг - написать вопросы. Это исключительно творческий процесс, когда исследователь создает как можно больше вопросов, которые, как ему кажется, всесторонне описывают предубеждение против машин иностранного производства. Теоретически следует выбирать вопросы, связанные с определяемой концепцией. На практике, например, в маркетинговых исследованиях, часто используют фокусные группы для того, чтобы осветить столь много аспектов, сколь это возможно. Например, можно попросить небольшую группу активно заинтересованных американских автомобильных потребителей выразить свое отношение к машинам иностранного производства. В области образовательного и психологического тестирования на этой стадии конструирования шкалы обычно обращают внимание на аналогичные анкеты для того, чтобы получить максимально полное представление концепции.

Шаг 2: Выбор вопросов оптимальной трудности. В первый вариант вашего вопросника о «предпочтениях» включайте как можно больше вопросов. Теперь предложите эту анкету начальной выборке типичных респондентов и проанализируйте результаты по каждому пункту. Во-первых, вы увидите различные характеристики вопросов и выделите эффект пол-потолок. Если все согласны или не согласны с вопросом, то он, очевидно, не поможет провести различия между респондентами и окажется бесполезным для построения надежной шкалы. В конструкции теста долю респондентов, которые согласны или не согласны с вопросом, или долю тех, кто «верно» отвечают на вопросы (т.е. угадывают реально существующую тенденцию) называют трудностью вопроса. В сущности, вы могли бы посмотреть на выборочные средние и стандартные отклонения для вопросов и удалить те из них, которые дают резко выделяющиеся средние и нулевые или близкие к нулю дисперсии.

Шаг 3: Выбор внутренне непротиворечивых вопросов. Напомним, что надежная шкала состоит из вопросов (позиций), которые пропорционально измеряют истинную метку; в нашем примере нам желательно отобрать вопросы, которые главным образом измеряют предубеждение против иностранных машин, при этом накладываются некоторые скрытые факторы, являющиеся случайными погрешностями. Для иллюстрации посмотрим на таблицу:

STATISTICA
АНАЛИЗ
НАДЕЖНОСТИ

Итоги для шкалы: Среднее=46.1100 Ст.откл.=8.26444 N набл:100
Альфа Кронбаха: .794313 Стандартизованная альфа: .800491
Средняя межпозиционная корреляция: .297818

 
Переменная

Среднее
при удал.
Дисперсия
при удал.
Ст.откл.
при удал.
Общ-поз.
коррел.
Квадрат
мн. регр.

Альфа
при удал.

ITEM1
ITEM2
ITEM3
ITEM4
ITEM5
ITEM6
ITEM7
ITEM8
ITEM9
ITEM10

41. 61000
41.37000
41.41000
41.63000
41.52000
41.56000
41.46000
41.33000
41.44000
41.66000
51.93790
53.79310
54.86190
56.57310
64.16961
62.68640
54.02840
53.32110
55.06640
53.78440
7.206795
7.334378
7.406882
7.521509
8.010593
7.917474
7.350401
7.302130
7.420674
7.333785
.656298
.666111
.549226
.470852
.054609
.118561
.587637
.609204
.502529
.572875
.507160
. 533015
.363895
.305573
.057399
.045653
.443563
.446298
.328149
.410561
.752243
.754692
.766778
.776015
.824907
.817907
.762033
.758992
.772013
.763314

В ней приведены 10 вопросов. Наибольший интерес представляют три крайних правых столбца таблицы. Они показывают корреляцию между соответствующим вопросом и общей суммарной шкалой (без соответствующего вопроса), квадрат корреляции между соответствующим вопросом и другими вопросами и внутреннюю непротиворечивость шкалы (коэффициент альфа), если соответствующий вопрос будет удален. Очевидно, вопросы 5 и 6 резко выделяются в силу того, что они не согласуются с остальной частью шкалы. Их корреляции с суммарной шкалой равны 0.05 и 0.1 соответственно, в то время как все другие коррелируют с показателем 0.45 или лучше. В крайнем правом столбце можно увидеть, что надежность шкалы будет около 0.82, если удалить любой из этих двух вопросов. Очевидно, эти два вопроса следует убрать из шкалы.

Шаг 4: Возвращаемся к шагу 1. После удаления всех вопросов, которые не согласуются со шкалой, вы можете остаться без достаточного количества вопросов для того, чтобы создать полностью надежную шкалу (напомним, что чем меньше вопросов, тем менее надежная шкала). На практике исследователь часто несколько раз проходит через этапы создания и удаления вопросов до тех пор, пока не придет к окончательному набору вопросов, образующих надежную шкалу.

Тетрахорическая корреляция. В образовательных и психологических тестах обычно используют вопросы с ответами типа да/нет. В этом случае альтернативой к обычному коэффициенту корреляции является коэффициент тетрахорической корреляции. Обычно коэффициент тетрахорической корреляции больше, чем стандартный коэффициент корреляции; поэтому Nunally (1970, стр. 102) не рекомендует его использовать при оценивании надежности. Однако до сих пор этот коэффициент используется на практике (например, при математическом моделировании).

В начало

Все права на материалы электронного учебника принадлежат компании StatSoft


Пресловутая альфа Кронбаха: rabota_psy — LiveJournal

Начало здесь http://rabota-psy.livejournal.com/334199.html Цитируем по книге:

Современная психодиагностика России. Преодоление кризиса: сборник материалов III Всероссийской конференции: в 2 т. / редколлегия: Н.А. Батурин (отв. ред.) и др. – Челябинск: Издательский центр ЮУрГУ, 2015. Т.1. – 380 с.

Со стр. 232-240

Таким образом, если у вас есть набор ответов на пункты опросника, относящиеся согласно ключу к какой-то одной шкале, вычисление α-Кронбаха в любом случае не только дань требованиям, но и полезная для интерпретации результатов процедура. Но эта интерпретация и возможные выводы зависят от статуса методики, а также целей и задач исследования.

При создании новой методики (адаптации, валидизации и пр.), т.е. проверке того, насколько ваши гипотезы о ключе справедливы, можно вычислить α-Кронбаха и посмотреть, какие пункты понижают согласованность.

Если набор пунктов является гомогенным (а для проверки этого факта нужно параллельно выполнить эксплораторный факторный и кластерный анализ), то можно говорить, что процедура удаления плохо согласованных пунктов, повышая согласованность группы пунктов в целом, не суживает конструкт, а удаляет шум. Однако если набор пунктов распадается на обособленные кластеры, имеет многофакторную структуру с прослеживаемыми семантическими различиями, но, тем не менее, описывает один конструкт, то процедура отбрасывания вопросов может привести к неоправданному сужению конструкта, если показатели низкой согласованности будут приписаны вопросам, целиком входящим в какой-то один кластер. Формально в этом случае мы действительно получим более согласованный набор вопросов, но достигнута эта согласованность будет ценой потери общности.

Чтобы обезопасить себя от такой ошибки необходимо параллельно выполнять кластерный и факторный анализ для контроля процесса удаления пунктов. Альтернативным вариантом может быть разделение шкалы на гомогенные субшкалы и работа с каждой из них в отдельности.

При проведении исследования с использованием методики в качестве готового инструмента, определение внутренней согласованности можно рассматривать как проверку репрезентативности выборки.

Если подсчитанная на ваших эмпирических данных согласованность не отличается значимо от указанной авторами в описании методики17, то это может служить обоснованием корректности интерпретации результатов, полученных с применением данной методики. В частности, ваша выборка не отличается существенно от выборки, на которой методика апробировалась, а измеряемый с помощью шкалы показатель соответствует заявляемому методикой конструкту. В этом случае, если необходимо, можно использовать также нормативные показатели.

17 Конечно, речь идет о случае, когда надежности были подсчитаны авторами методики и опубликованы в описании. Иначе вообще нельзя говорить о существовании тестовой методики, хотя, к сожалению, такие случаи пока не являются редкостью.

236

Если у автора методики в описании заявлена высокая надежность шкалы, а ваши результаты существенно ниже, то это значит, что выборка апробации и выборка эмпирического исследования различаются, а потому необходимы дополнительный анализ и рефлексия. В предположении, что выборка апробации соответствует всем требованиям репрезентативности генеральной совокупности, а, вы, основываясь на показателях, не связанных с методикой, можете обосновать, что эмпирическая выборка является более узкой частью этой генеральной совокупности, то использование методики для определения выраженности конструкта с последующим сопоставлением с заявленными в методике нормативными показателями является корректным.

Однако, в большинстве случаев, пункты, согласованные на выборке в полной мере репрезентирующей генеральную совокупность, на более узкой подвыборке так же будут согласованы. Чем больше однородность (т.е. узость выборки) тем меньше и ковариация между переменными и их дисперсия. Т.е. одновременно в формуле (9) должен уменьшаться не только числитель, но и знаменатель.

Низкая согласованность, таким образом, чаще всего является свидетельством того, что методика к данной выборке неприменима. В этом случае исследователь может на базе имеющегося набора вопросов с помощью факторного и кластерного анализа выделить подмножество согласованных вопросов. Исходя из их содержания и из содержания вопросов, которые в это подмножество не вошли обосновать содержательную валидность получаемой методики. Эту процедуру можно назвать «легкой валидизацией». (Конечно, это надо делать с перспективой последующей полноценной валидизации).

Но может возникнуть ситуация, когда в исследовании используется методика, апробированная на выборке, априорно репрезентирующей иную генеральную совокупность. В этом случае хорошая согласованность пунктов подтверждает корректность использования методики. Т.е. мы имеем ситуацию при которой вопросы согласованы исходя из высокого показателя α-Кронбаха, а исходя из их содержания они должны высоко коррелировать с тем же конструктом, что и на первоначальной выборке. Крайне трудно представить себе ситуацию, чтобы от одной генеральной совокупности к другой семантика языка, на котором сформулированы пункт методики, трансформировалась на столько, чтобы не один, а целое множество вопросов согласовано относились к чему-то иному (при условии, что в обоих случаях один и тот же язык является родным).

Такие ситуации достаточно часто возникают, когда диагностическую методику, апробированную на популяции одной культуры, переносят в по-пуляцию другой культуры, в массе своей или в достаточно большой ее части разговаривающую на том же языке.

237

Западные исследователи призывают к осторожности, когда сталкиваются с необходимостью, например, использовать методики, разработанные в США для проведения исследований в англоговорящих странах этим. Подобная ситуация возникает при использовании русскоязычных методик в республиках СНГ. Поскольку во многих из них сильны традиции общей советской психологической школы, проживает много людей, для которых русский язык – родной или язык свободного владения, а методического инструментария на государственном языке еще не создано, то исследования и практическая работа выполняется с помощью методик сделанных или адаптированных в России.

Понятно, что в перспективе нужно адаптировать все методики на государственный язык, но пока этого нет и исследователи уверены в свободном владении респондентами русским языком, определение согласованности пунктов может служить подтверждением того, что формулировки вопросов за пределами России понимаются так же, как и в России (если α-Кронбаха в двух случаях совпадают).

Если же согласованность при переносе понижается, то можно посмотреть, какие пункты оказываются «посторонними» для данной шкалы. Такие показатели могут быть полезны для выявления различий в понимании семантики пунктов, а значит и семантики конструкта.

Таким образом, подсчет α-Кронбаха (наряду с показателями описательной статистики) позволяет убедиться, что выборка исследования их той же генеральной совокупности, а в случае принципиально иной генеральной совокупности обосновать конструктную валидность.

Конечно это лишь достаточное условие. Если вдруг оказалось, что на ваших данных (иной генеральной совокупности) не воспроизводятся показатели, которые указаны авторами при описании методик, то вы оказываетесь фактически перед задачей адаптации методики.

В наиболее популярной на сегодняшний день среди психологов программе статистического анализа SPSSпроцедура вычисления α-Кронбаха очень проста. Поэтому, в качестве примера сошлемся именно на эту программу.

Обратим внимание на то, что при подсчете согласованности пунктов с помощью α-Кронбаха, как впрочем и других показателей надежности которые в SPSS можно вычислить, необходимо перекодировать пункты, имеющие обратный ключ таким образом, чтобы ответы на них соответствовали ответам на пункты с прямыми ключами.

Для каждого респондента i, имеющего балл xi по пункту xс обратным ключом мы переводим его в балл уi с использованием формулы:

yi = (max + min) –xi (10) max – это максимальный возможный балл для пунктов, входящих в шкалу,

а min – это минимальный возможный балл для пунктов, входящих в шкалу.

238

Предполагается, что все пункты, входящие в одну шкалу имеют один и тот же диапазон баллов, присваиваемых за ответ.

Такое преобразование можно сделать в EXCEL, если данные первоначально хранятся в файле EXCEL, и потом перенести их в файл SPSS. Но если данные уже являются файлом для SPSS, то можно воспользоваться

командой Compute (Вычислить). Приведем здесь синтаксис данной процедуры18.

COMPUTE y = С – x . EXECUTE .

В    результате выполнения этих команд в файле с данными, в который входит столбец x, возникнет еще один столбцеy, в котором значение yi, находящееся в i-ой строке, соотносится со значением xi, находящимся в i — ой строке столбца xпо формуле (10).

Иногда использовать командный файл оказывается более удобным, чем выполнять все операции с помощью меню. Особенно это актуально, когда нужно выполнить подряд несколько одинаковых команд для разных переменных. Создав один раз список необходимых команд в файле, имеющем расширение «sps», можно последовательно скопировать его несколько раз, заменить имена переменных, а затем выбрать команду Run (Выполнить).

В   результате в файле с данными дополнительно будут приписаны вычисленные, т.е. перекодированные переменные, имеющие уже прямой ключ. Получив «правильный» для подсчета согласованности массив данных, в котором пункты составляющие шкалу имеют прямой ключ, а значит можно предположить, что они положительно коррелируют друг с другом, мы должны подсчитать α-Кронбаха, выявить пункты, удаление которых повышает надежность.

Это также можно делать с помощью меню команд [1], а можно составить командный файл.

RELIABILITY /VARIABLES=xyzw

/SCALE(‘ALL VARIABLES’) ALL/MODEL=ALPHA /STATISTICS=CORR
/SUMMARY=TOTAL .

Спомощью этого набора команд определяем согласованность пунктов x, y, z, w.19

Помимо общих показателей согласованности для шкалы в целом также по каждому пункту вычисляются гипотетические показатели α-Кронбаха, в предположении, что данный пункт из общего набора удален. Набор этих показателей очень полезен для анализа. Пункт хорошо работает на шкалу, если при его удаление согласованность понижается. Если при удалении пункта согласованность шкалы в целом повышается, то пункт является в данном наборе лишним.

18C=max + min

19 В общем случае переменных может быть произвольное количество, не менее двух.

239

Как уже отмечалось факторный и кластерный анализ необходимы для установления гомогенности шкалы и для контроля конструкта при отбрасывании посторонних пунктов. Если два разных метода приводят к одному и   тому же результату, то можно считать это доказательством достоверности.

Таким образом, при работе с методикой, имеющей хорошие психометрические показатели, проверка согласованности на конкретной эмпирической выборке в случае высокого значения α-Кронбаха позволяет не только подтвердить надежность шкалы, но и обосновать ее валидность.

Если оказывается, что психометрический анализ эмпирических данных полученных по тестовой методике, прошедшей психометрический анализ

и    имеющей хорошие показатели валидности и надежности, оказывается неудовлетворителен, то, скорее всего причина в том, что выборка эмпирического исследования существенным образом отличается от выборки апробации. В этой ситуации необходимо выяснить параметры различий, а также в рамках имеющихся данных попробовать найти подмножество пунктов в максимальной степени согласованных друг с другом и выявить семантический инвариант, который за ними стоит.

Литература

1.   Митина, О.В. Разработка и адаптация психологических опросников / О.В. Митина. – М.: Смысл, 2011. – 240 c.

2.   Bentler, P. Alpha, dimension-free, and model-based internal consistency reliability / P. Bentler // Psychometrika. – 2009. – V. 74. – P. 137–143.

3.   Cronbach, L. J. My current thoughts on coefficient alpha and successor procedures / L.J. Cronbach // Educational and Psychological Measurement. – 2004. –V. 64. P. 391–418.

4.   Gadermann, A. Estimating ordinal reliability for Likert – type and ordinal item response data: A conceptual, empirical, and practical guide / A. Gadermann, M. Guhn, B. Zumbo // Practical Assessment, Research & Evaluation. – 2012. – V. 17, N 3 – http: //pareonline.net/getvn.asp?v=17&n=3. – P. 1–13
5.   Sijtsma,  K.  On  the  use,  the  misuse,  and  the  very  limited  usefulness  of Cronbach’s alpha / K. Sijtsma // Psychometrika. – 2009. – V. 74, N. 1. – P. 107–120.

Что означает альфа Кронбаха?

Альфа Кронбаха — это мера внутренней согласованности, то есть насколько точно связанный набор элементов представляет собой группу. Считается мерой надежности весов. «Высокое» значение альфа не означает, что мера одномерна. Если в дополнение к измерению внутренней согласованности, вы хотите предоставить доказательства того, что рассматриваемая шкала одномерный, дополнительные анализы могут быть выполнены. Исследовательский фактор анализ является одним из методов проверки размерности. С технической точки зрения альфа Кронбаха не статистический тест – это коэффициент достоверности (или состоятельности).

Альфа Кронбаха может быть записана в зависимости от количества тестовых заданий и средней взаимной корреляции среди предметов. Ниже, для концептуальных целей, мы показываем формулу для альфа Кронбаха:

$$ \alpha = \frac{N \bar{c}}{\bar{v} + (N-1) \bar{c}}$$

Здесь $N$ равно количеству элементов, $\bar{c}$ — средняя межэлементная ковариация между элементами и $\bar{v}$ равно средней дисперсии.

Из этой формулы видно, что если вы увеличиваете количество элементов, вы увеличиваете альфу Кронбаха. Кроме того, если средняя корреляция между элементами низкая, альфа будет низкой. По мере того, как средняя корреляция между элементами увеличивается, альфа Кронбаха также увеличивается (удерживая количество элементов постоянным).

Пример

Давайте рассмотрим пример того, как вычислить альфу Кронбаха с помощью SPSS и как проверить размерность шкалы с помощью факторного анализа. В этом примере мы будем использовать набор данных, содержащий четыре элемента теста — q1 , q2 , q3 и q4 . Вы можете загрузить набор данных, нажав https://stats.idre.ucla.edu/wp-content/uploads/2016/02/alpha.sav. Чтобы вычислить альфу Кронбаха для всех четырех элементов — q1, q2, q3, q4 — используйте команду надежности :

  НАДЕЖНОСТЬ
/ПЕРЕМЕННЫЕ=q1 q2 q3 q4.  

Вот результирующий вывод из приведенного выше синтаксиса:

Альфа-коэффициент для четырех элементов равен 0,839, что предполагает, что элементы имеют относительно высокую внутреннюю согласованность. (Примечание считается, что коэффициент надежности 0,70 или выше «приемлемо» в большинстве ситуаций, связанных с исследованиями в области социальных наук.)

Ручной расчет Альфы Кронбаха

В демонстрационных целях ниже показано, как рассчитать приведенные выше результаты вручную. В SPSS вы можете получить ковариации, выбрав Анализ Корреляция Двумерная . Затем переместите q1 , q2 , q3 и q4 в поле Variables и нажмите Options . В разделе Статистика проверьте Отклонения и ковариации перекрестных произведений . Нажмите «Продолжить» и «ОК», чтобы получить результат.

Ниже вы увидите сжатую версию вывода. Обратите внимание, что диагонали (выделены жирным шрифтом) — это дисперсии, а недиагонали — ковариации. Нам нужно только рассмотреть ковариации в нижнем левом треугольнике, потому что это симметричная матрица.

Q1 кв2 кв3 кв. 4
1 квартал Ковариация 1,168 .557 .574 .673
2 квартал Ковариация .557 1,012 .690 .720
3 квартал Ковариация . 574 .690 1,169 .724
4 квартал Ковариация .673 .720 .724 1,291

Напомним, что $N=4$ равно количеству элементов, $\bar{c}$ – средняя межэлементная ковариация между элементами и $\bar{v}$ равно средней дисперсии. Используя информацию из приведенной выше таблицы, мы можем рассчитать каждый из этих компонентов следующим образом:

$$\bar{v} = (1,168 + 1,012 + 1,169 + 1,291)/4 =  4,64 / 4 = 1,16.$$

$$\бар{с} = (0,557 + 0,574 + 0,690 + 0,673 + 0,720 + 0,724)/6 =  3,938 / 6 = 0,656. /3,128=0,839.$$

Результаты совпадают с полученным SPSS значением альфа Кронбаха, равным 0,839.

Проверка размерности

Помимо вычисления альфа-коэффициента надежности, мы могли бы также хотите исследовать размерность шкалы. Мы можем использовать множитель команда для этого:

  ФАКТОР
 /ПЕРЕМЕННЫЕ q1 q2 q3 q4
 /ФОРМАТ СОРТИРОВАТЬ ПУСТО(.35).  

Вот результат из приведенного выше синтаксиса:

Глядя на таблицу, помеченную Объяснение общей дисперсии, мы видим, что собственное значение для первый фактор немного больше, чем собственное значение для следующего фактора (2,7 против 0,54). Кроме того, на первый фактор приходится 67% общей дисперсии. Это говорит о том, что элементы шкалы являются одномерными.

Для получения дополнительной информации

  • Для получения дополнительной информации о чтении данных в SPSS, см. Справочник по синтаксису команд SPSS.
  • Для получения дополнительной информации об Альфе Кронбаха см. SPSS Библиотека: Мой коэффициент альфа отрицательный!
  • Для получения дополнительной информации о внутриклассовых коэффициентах в качестве меры надежности см. Библиотека SPSS: выбор Коэффициент внутриклассовой корреляции.

Понимание альфа Кронбаха

Int J Med Educ. 2011 г.; 2: 53–55.

Опубликовано в сети 27 июня 2011 г. doi: 10.5116/ijme.4dfb.8dfd

Информация об авторе Примечания к статье Информация об авторских правах и лицензии Отказ от ответственности

Медицинские преподаватели пытаются создать надежные и достоверные тесты и анкеты, чтобы повысить точность их оценки и оценки. Валидность и надежность являются двумя основными элементами оценки измерительного прибора. Инструментами могут быть традиционные тесты знаний, навыков или отношений, клинические симуляции или опросные анкеты. Инструменты могут измерять концепции, психомоторные навыки или аффективные ценности. Валидность касается степени, в которой инструмент измеряет то, что он предназначен для измерения. Надежность связана со способностью прибора последовательно измерять. 1 Следует отметить, что надежность инструмента тесно связана с его достоверностью. Инструмент не может быть действительным, если он не надежен. Однако надежность инструмента не зависит от его валидности. 2 Можно объективно измерить надежность инструмента, и в этой статье мы объясним значение альфа Кронбаха, наиболее широко используемой объективной меры надежности.

Вычисление альфы стало обычной практикой в ​​исследованиях в области медицинского образования, когда используются многокомпонентные измерения концепции или конструкции. Это связано с тем, что его проще использовать по сравнению с другими оценками (например, оценками надежности повторных испытаний) 3 , так как для этого требуется только одно введение теста. Однако, несмотря на широкое использование альфа в литературе, значение, правильное использование и интерпретация альфа не совсем понятны. 2 , 4 , 5 Поэтому мы считаем важным разъяснить основные предположения, лежащие в основе альфы, чтобы способствовать ее более эффективному использованию. Следует подчеркнуть, что цель этого краткого обзора — просто сосредоточиться на альфе Кронбаха как на показателе надежности. Альтернативные методы измерения надежности, основанные на других психометрических методах, таких как теория обобщаемости или теория вопросов и ответов, могут использоваться для мониторинга и повышения качества экзаменов ОСКЭ 6 10 , но здесь обсуждаться не будет.

Что такое Кронбах альфа?

Alpha был разработан Ли Кронбахом в 1951 году 11 для измерения внутренней согласованности теста или шкалы; она выражается числом от 0 до 1. Внутренняя согласованность описывает степень, в которой все элементы теста измеряют одну и ту же концепцию или конструкцию, и, следовательно, она связана со взаимосвязью элементов теста. Внутренняя согласованность должна быть определена до того, как тест можно будет использовать в исследовательских или экзаменационных целях, чтобы обеспечить достоверность. Кроме того, оценки надежности показывают величину ошибки измерения в тесте. Проще говоря, такая интерпретация надежности есть соотнесение теста с самим собой. Возведение этой корреляции в квадрат и вычитание из 1,00 дает индекс ошибки измерения. Например, если тест имеет надежность 0,80, дисперсия ошибок (случайная ошибка) в оценках составляет 0,36 (0,80 × 0,80 = 0,64; 1,00 — 0,64 = 0,36). 12 По мере увеличения оценки надежности доля результата теста, связанная с ошибкой, будет уменьшаться. 2 Следует отметить, что надежность теста показывает влияние ошибки измерения на наблюдаемый балл группы учащихся, а не на отдельного учащегося. Чтобы рассчитать влияние ошибки измерения на наблюдаемую оценку отдельного учащегося, необходимо рассчитать стандартную ошибку измерения (SEM). 13

Если элементы в тесте коррелируют друг с другом, значение альфа увеличивается. Однако высокий коэффициент альфа не всегда означает высокую степень внутренней согласованности. Это связано с тем, что на альфа также влияет длина теста. Если длина теста слишком мала, значение альфа уменьшается. 2 , 14 Таким образом, для увеличения альфы в тест следует добавить больше связанных элементов, проверяющих одну и ту же концепцию. Также важно отметить, что альфа — это свойство баллов по тесту определенной выборки испытуемых. Поэтому исследователи не должны полагаться на опубликованные оценки альфа и должны измерять альфа каждый раз, когда проводится тест. 14

Использование альфа-канала Кронбаха

Неправильное использование альфа-канала может привести к ситуациям, когда либо тест или шкала ошибочно отбрасываются, либо тест подвергается критике за недостоверные результаты. Чтобы избежать этой ситуации, понимание связанных концепций внутренней согласованности, однородности или одномерности может помочь улучшить использование альфы. Внутренняя согласованность связана с взаимосвязанностью выборки тестовых заданий, тогда как однородность относится к одномерности. Мера называется одномерной, если ее элементы измеряют одну скрытую черту или конструкцию. Внутренняя согласованность является необходимым, но недостаточным условием для измерения однородности или одномерности выборки тестовых заданий. 5 , 15 По существу, концепция надежности предполагает, что в выборке тестовых заданий 16 существует одномерность, и если это предположение нарушается, это приводит к серьезной недооценке надежности. Хорошо задокументировано, что многомерный тест не обязательно должен иметь более низкую альфу, чем одномерный тест. Таким образом, более строгий взгляд на альфа состоит в том, что его нельзя просто интерпретировать как показатель внутренней согласованности теста. 5 , 15 , 17

Факторный анализ можно использовать для определения аспектов теста. 18 Были использованы и другие надежные методы, и мы рекомендуем читателю ознакомиться с документом «Прикладная оценка размерности и структуры теста с помощью математического теста СТАРТ-М» и сравнить методы оценки размерности и базовой структуры теста. 19

Альфа, таким образом, не просто измеряет одномерность набора элементов, но может использоваться для подтверждения того, действительно ли выборка элементов является одномерной. 5 С другой стороны, если в тесте имеется более одной концепции или конструкции, может не иметь смысла сообщать об альфа-факторе для теста в целом, поскольку большее количество вопросов неизбежно приведет к завышению значения альфа-канала. Поэтому в принципе альфа следует рассчитывать для каждого из понятий, а не для всего теста или шкалы. 2 , 3 Смысл итогового экзамена, содержащего разнородные вопросы, основанные на прецедентах, заключается в том, что альфа должна рассчитываться для каждого случая.

Что еще более важно, альфа основан на «модели эквивалента тау», которая предполагает, что каждый элемент теста измеряет одну и ту же скрытую черту по одной и той же шкале. Следовательно, если несколько факторов/признаков лежат в основе элементов шкалы, как показывает факторный анализ, это предположение нарушается, и альфа недооценивает надежность теста. 17 Если количество тестовых заданий слишком мало, это также нарушит предположение о тау-эквивалентности и приведет к недооценке надежности. 20 Когда тестовые элементы соответствуют допущениям тау-эквивалентной модели, альфа приближается к лучшей оценке надежности. На практике альфа Кронбаха является нижней оценкой надежности, потому что разнородные тестовые задания нарушили бы предположения тау-эквивалентной модели. 5 Если расчет «альфа стандартизированного элемента» в SPSS выше, чем «альфа Кронбаха», может потребоваться дальнейшее изучение тау-эквивалентного измерения в данных.

Числовые значения альфа

Как указывалось ранее, количество тестовых заданий, их взаимосвязь и размерность влияют на значение альфы. 5 Имеются различные отчеты о допустимых значениях альфа в диапазоне от 0,70 до 0,95. 2 , 21 , 22 Низкое значение альфа может быть связано с малым количеством вопросов, плохой взаимосвязью между элементами или разнородными конструкциями. Например, если низкий альфа-канал вызван плохой корреляцией между элементами, то некоторые из них следует пересмотреть или отбросить. Самый простой способ их найти — вычислить корреляцию каждого элемента теста с общим баллом теста; элементы с низкой корреляцией (приближающейся к нулю) удаляются. Если альфа слишком высока, это может означать, что некоторые элементы являются избыточными, поскольку они проверяют один и тот же вопрос, но в другом обличье. Максимальное значение альфа 0,90 было рекомендовано. 14

Резюме

Высококачественные тесты важны для оценки надежности данных, предоставленных в ходе обследования или исследования. Альфа — широко используемый показатель надежности теста. Альфа зависит от длины и размерности теста. Альфа как показатель надежности должен следовать предположениям по существу тау-эквивалентного подхода. Низкая альфа появляется, если эти предположения не выполняются. Альфа не просто измеряет однородность или одномерность теста, поскольку надежность теста зависит от длины теста. Более длительный тест повышает надежность теста независимо от того, является ли тест однородным или нет. Высокое значение альфа (> 0,90) может указывать на избыточность и показывать, что длину теста следует сократить.

Альфа — важное понятие при оценке оценок и анкет. Обязательно, чтобы оценщики и исследователи оценили это количество, чтобы повысить достоверность и точность интерпретации своих данных. Тем не менее об альфа часто сообщают некритично и без адекватного понимания и интерпретации. В этой редакционной статье мы попытались объяснить предположения, лежащие в основе расчета альфы, факторы, влияющие на ее величину, и способы интерпретации ее значения. Мы надеемся, что исследователи в будущем будут более критичны при сообщении значений альфа в своих исследованиях.

1. Тавакол М., Мохагеги М.А., Денник Р. Оценка навыков хирургов-резидентов с использованием моделирования. J Surg Educ. 2008;65(2):77-83. 10.1016/j.jsurg.2007.11.003 [PubMed] [CrossRef] [Google Scholar]

2. Наннелли Дж., Бернштейн Л. Психометрическая теория. Нью-Йорк: McGraw-Hill Higher, INC; 1994.

3. Коэн Р., Свердлик М. Психологическое тестирование и оценка. Бостон: Высшее образование McGraw-Hill; 2010. [Google Scholar]

4. Шмитт Н. Использование и злоупотребление коэффициентом альфа. Психологическая оценка. 1996;8:350-3. 10.1037/1040-3590.8.4.350 [CrossRef] [Google Scholar]

5. Кортина Дж. Что такое коэффициент альфа: исследование теории и приложений. Журнал прикладной психологии. 1993;78:98-104. 10.1037/0021-9010.78.1.98 [CrossRef] [Google Scholar]

6. Schoonheim-Klein M, Muijtjens A, Habets L, Manogue M, Van der Vleuten C, Hoogstraten J и др. О надежности стоматологического ОСКЭ. , с помощью SEM: эффект разных дней. Eur J Dent Educ. 2008;12:131-7. 10.1111/j.1600-0579.2008.00507.x [PubMed] [CrossRef] [Google Scholar]

7. Eberhard L, Hassel A, Bäumer A, Becker J, Beck-Mußotter J, Bömicke W, et al. Анализ качества и осуществимости объективного структурированного клинического обследования (OSCE) в доклиническом стоматологическом образовании. Eur J Dent Educ. 2011;15:1-7. 10.1111/j.1600-0579.2010.00653.x [PubMed] [CrossRef] [Google Scholar]

8. Auewarakul C, Downing S, Praditsuwan R, Jaturatamrong U. Анализ предметов для повышения надежности для студентов внутренних болезней ОБСЕ. Adv Health Sci Educ Theory Pract. 2005; 10:105-13. 10.1007/s10459-005-2315-3 [PubMed] [CrossRef] [Google Scholar]

9. Iramaneerat C, Yudkowsky R, CM. М., Даунинг С. Контроль качества ОСКЭ с использованием теории обобщаемости и многогранного измерения Раша. Adv Health Sci Educ Theory Pract. 2008;13:479-93. 10.1007/s10459-007-9060-8 [PubMed] [CrossRef] [Google Scholar]

10. Лоусон Д. Применение теории обобщаемости к важным объективным структурированным клиническим исследованиям в естественной среде. J Manipulative Physiol Ther. 2006;29: 463-7. 10.1016/j.jmpt.2006.06.009 [PubMed] [CrossRef] [Google Scholar]

11. Кронбах Л. Коэффициент альфа и внутренняя структура тестов. Психомерика. 1951; 16:297-334. 10.1007/BF02310555 [CrossRef] [Google Scholar]

12. Клайн П. Простое руководство по факторному анализу Нью-Йорк: Routledge; 1994. [Google Scholar]

13. Тавакол М., Денник Р. Послеэкзаменационный анализ объективных тестов. Мед Уч. 2011;33:447-58. 10.3109/0142159X.2011.564682 [PubMed] [CrossRef] [Google Scholar]

14. Штрайнер Д. Начнем с самого начала: введение в коэффициент альфа и внутреннюю согласованность. Журнал оценки личности. 2003;80:99-103. 10.1207/S15327752JPA8001_18 [PubMed] [CrossRef] [Google Scholar]

15. Грин С., Лиссиц Р., Мулайк С. Ограничения коэффициента альфа как показателя одномерности теста. Педагогическое психологическое измерение. 1977; 37:827-38. 10.1177/001316447703700403 [CrossRef] [Google Scholar]

16. Миллер М. Коэффициент альфа: основное введение с точки зрения классической теории испытаний и моделирования структурными уравнениями. Структурное моделирование уравнение. 1995;2:255-73. 10.1080/10705519509540013 [CrossRef] [Google Scholar]

17. Грин С., Томпсон М. Моделирование структурными уравнениями в исследованиях клинической психологии В: Робертс М., Иларди С., редакторы. Справочник по исследованиям в области клинической психологии. Оксфорд: Уайли-Блэквелл; 2005. [Google Scholar]

18. Тейт Р. Сравнение избранных эмпирических методов оценки структуры ответов на тестовые задания. Прикладное психологическое измерение. 2003; 27:159-203. 10.1177/0146621603027003001 [CrossRef] [Google Scholar]

19. Джаспер Ф. Оценка прикладной размерности и структуры теста с помощью теста по математике СТАРТ-М. Международный журнал образовательной и психологической оценки. 2010;6:104-25 [Google Scholar]

20.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *