Что важно помнить о надежности альфа кронбаха
Альфа Кронбаха (α): что это такое и как используется в статистике
Содержание:
В этой статье мы узнаем о наиболее важных характеристиках Альфы Кронбаха, а также о ее использовании и приложениях, а также о том, как она используется в статистике.
Альфа Кронбаха: характеристики
Альфа Кронбаха (обозначается α) Он обязан своим названием Ли Джозефу Кронбаху, который так назвал этот коэффициент в 1951 году..
L.J. Кронбах был американским психологом, который стал известен своими работами в области психометрии. Однако истоки этого коэффициента находятся в работах Хойта и Гуттмана.
Этот коэффициент состоит из среднее значение корреляции между переменными, входящими в шкалу, и может быть рассчитан двумя способами: из дисперсий (альфа Кронбаха) или из корреляций элементов (стандартизованная альфа Кронбаха).
Типы надежности
Надежность средства измерений имеет несколько определений или «подтипов», и, в более широком смысле, существуют также различные методы их определения. Эти подтипы надежности 3, и вкратце, это его характеристики.
1. Внутренняя согласованность
Это надежность как внутренняя согласованность. Для его расчета используется альфа Кронбаха, которая представляет внутреннюю согласованность теста, то есть степень, в которой все тестовые задания зависят друг от друга.
2. Эквивалентность
Это означает, что два теста эквивалентны или «равны»; Для расчета этого типа надежности используется метод двух карт, называемый параллельными или эквивалентными формами, где два теста применяются одновременно. То есть исходный тест (X) и тест, специально разработанный как эквивалент (X ‘).
3. Стабильность
Надежность также можно понимать как стабильность меры; для его расчета также используется метод двух приложений, в данном случае тест-ретест. Он состоит из применения первоначального теста (X) и после отклонения типа того же теста (X).
4. Прочие
Расчет коэффициента надежности
Таким образом, мы видели, как надежность теста или измерительного прибора пытается установить точность, с которой он выполняет свои измерения. Около понятие, тесно связанное с ошибкой измерения, поскольку чем выше надежность, тем меньше погрешность измерения.
Когда это использовать?
Коэффициент альфа Кронбаха будет использоваться для расчета надежности, за исключением случаев, когда мы явно заинтересованы в знании согласованности между двумя или более частями теста (например, первая половина и вторая половина; нечетные и четные элементы) или когда мы хотим знать другие «подтипы» надежности (например, основанные на двух прикладных методах, таких как тест-повторное тестирование).
Необходимо учитывать, что в основных статистических программах уже есть опции для автоматического применения этого теста, так что нет необходимости знать математические детали его применения. Однако знание его логики полезно для учета его ограничений при интерпретации результатов, которые он предоставляет.
Интерпретация
Коэффициент альфа Кронбаха колеблется от 0 до 1. Чем ближе он к 1, тем более согласованными будут элементы друг с другом. (наоборот). С другой стороны, необходимо учитывать, что чем дольше тест, тем больше альфа (α).
Конечно, этот тест сам по себе не служит для получения точной информации о качестве проведенного статистического анализа или данных, с которыми он работает.
Оценка надежности вопросника: размерность, проблемные элементы, а также следует ли использовать альфа, лямбда6 или какой-то другой индекс?
Я анализирую оценки участников эксперимента. Я хочу оценить надежность моей анкеты, которая состоит из 6 пунктов, направленных на оценку отношения участников к продукту.
Я вычислил альфу Кронбаха, рассматривая все элементы как одну шкалу (альфа был около 0,6) и удаляя один элемент за раз (максимальная альфа была около 0,72). Я знаю, что альфа может быть недооценена и переоценена в зависимости от количества элементов и размерности базовой конструкции. Таким образом, я также провел PCA. Этот анализ показал, что было три основных компонента, объясняющих около 80% дисперсии. Итак, мои вопросы все о том, как я могу действовать сейчас?
Кроме того, при поиске в Интернете я обнаружил еще одну меру надежности: лямбда6 от guttman.
Я думаю, что @Jeromy уже сказал самое важное, поэтому я сосредоточусь на мерах надежности.
Альфа Кронбаха является выборочно-зависимым индексом, используемым для определения нижней границы надежности инструмента. Это не более чем показатель дисперсии, общий для всех элементов, которые учитываются при расчете шкалы. Следовательно, его не следует путать с абсолютной мерой надежности и не применять к многомерному инструменту в целом. По сути, сделаны следующие допущения: (а) нет остаточных корреляций, (б) предметы имеют одинаковую нагрузку, и (в) шкала является одномерной. Это означает, что единственный случай, когда альфа будет по существу таким же, как надежностьслучай равномерно высоких коэффициентов нагрузки, отсутствие ковариаций ошибок и одномерный инструмент (1). Поскольку его точность зависит от стандартной ошибки взаимных корреляций элементов, она зависит от распространения корреляций элементов, что означает, что альфа будет отражать этот диапазон корреляций независимо от источника или источников этого конкретного диапазона (например, ошибка измерения или многомерность). Этот момент широко обсуждается в (2). Стоит отметить, что когда альфа равна 0,70, что является широко используемым порогом надежности для группового сравнения (3,4), стандартная ошибка измерения будет более половины (0,55) стандартного отклонения. Кроме того, альфа Кронбаха является мерой внутренней согласованности, это не мера одномерности и не может быть использовано для вывода одномерности (5). Наконец, мы можем процитировать самого Л.Дж. Кронбаха,
Есть много других подводных камней, которые в основном обсуждались в нескольких статьях за последние 10 лет (например, 7-10).
λ 3 ‘ role=»presentation»> λ 3 λ 6 ‘ role=»presentation»> λ 6 ω t ‘ role=»presentation»> ω T ω h ‘ role=»presentation»> ω час β ‘ role=»presentation»> β
Ссылки
Вот некоторые общие комментарии:
Следующие ответы на ваши конкретные вопросы:
Я оставлю обсуждение лямбды 6 ( обсуждается Уильямом Ревеллом здесь ) другим.
Что важно помнить о надежности альфа кронбаха
Надежность и позиционный анализ
Этот обзор обсуждает понятие надежности измерений, которое используется в социальных науках (но не в исследованиях промышленной статистики или медицины). Термин надежность, используемый в промышленной статистике, обозначает функцию ошибок (как функцию времени). Для обсуждения термина надежность в применении к качеству продукта (т.е. в промышленной статистике) обратитесь к разделу Анализ надежности/времен отказов в главе Анализ процессов (см. также раздел Повторяемость и воспроизводимость в той же главе и главу Анализ выживаемости/времен отказов). Для сравнения этих (очень разных) понятий надежности, см. Надежность.
Модуль Надежность и позиционный анализ позволит вам построить надежные шкалы, а также улучшить используемые шкалы. Модуль Надежность и позиционный анализ поможет вам также при конструировании и оценивании суммарных шкал, т.е. шкал, которые используются при многократных индивидуальных измерениях (различные позиции или вопросы, повторяющиеся измерения и т.д.). Программа вычисляет многочисленные статистики, позволяющие оценить надежность шкалы с помощью классической теории тестирования.
Оценивание надежности шкалы основано на корреляциях между индивидуальными позициями или измерениями, составляющими шкалу, и дисперсиями этих позиций. Если вы не знакомы с коэффициентом корреляции или дисперсией, обратитесь к соответствующим разделам главы Основные статистики и таблицы.
Классическая теория тестирования имеет долгую историю, и существует много пособий по этому предмету. Для подробного знакомства можно рекомендовать, например, Carmines and Zeller (1980), De Gruitjer and Van Der Kamp (1976), Kline (1979, 1986) или Thorndyke and Hagen (1977). Широко известной, «классической» монографией является книга Nunally (1970), в которой хорошо освещено тестирование в области психологии и образования.
Проверка гипотез о зависимости позиций. STATISTICA включает в себя процедуру моделирования структурными уравнениями (SEPATH), где можно проверить специальные гипотезы о связи между множествами позиций или различных критериев (например, гипотезу, что два множества позиций измеряют одну и ту же структуру, анализируют матрицы изменчивости используемого метода и т.д.).
Предположим, вы хотите построить анкету, чтобы измерить степень предубеждения людей против машин иностранного производства. Как это сделать? Вы могли бы начать, например, с формулировки следующих утверждений: «Машинам иностранного производства не хватает индивидуальности», «Машины иностранного производства выглядят одинаково» и т.д. Затем вы можете предложить эти пункты группе субъектов, (например, группе людей, которые никогда не были владельцами машин иностранного производства). Респондентам предлагалось бы указать степень своего согласия с этими утверждениями по 9-балльной шкале, имеющей градации от 1=не согласен до 9=согласен.
Истинные значения и погрешности. Рассмотрим подробнее, что подразумевается под точным измерением в этом примере. Гипотеза состоит в том, что в сознании людей существует такой объект (теоретическая конструкция) как «предубеждение против машин иностранного производства» и каждый пункт анкеты (иными словами, позиция анкеты) в какой-то степени «раскрывает» эту концепцию. Вы можете сказать, что ответ очередного человека на определенную позицию анкеты включает два аспекта: во-первых, отражает предубеждение против машин иностранного производства, во-вторых, отражает некоторый скрытый, неконтролируемый фактор, соответствующий данной позиции. Например, рассмотрим утверждение: «Все машины иностранного производства выглядят одинаково». Согласие или несогласие субъекта с этим утверждением будет частично зависеть от некоторых других аспектов вопроса или самого респондента. Например, у респондента есть друг, который только что купил машину иностранного производства необычного вида и этот фактор влияет на степень согласия с приведенным утверждением.
Классическая модель проверки
Каждое измерение (ответ на вопрос) включает в себя как истинное значение (предубеждение против машин иностранного производства), так и частично неконтролируемую, случайную погрешность. Это можно описать следующим классическим уравнением:
X = тау + ошибка
В данном уравнении X выражает соответствующее реальное измерение, т.е. ответ (отклик) субъекта на вопрос анкеты; тау обычно используется для обозначения неизвестного истинного значения или истинной метки, ошибка обозначает погрешность измерения.
В этом контексте надежность понимается непосредственно: измерение является надежным, если его основную часть, по отношению к погрешности, составляет истинное значение. Например, позиция анкеты: «Красные машины иностранного производства особенно уродливы», скорее всего, даст ненадежное измерение для предубеждения против иностранных машин. Это происходит потому, что, вероятно, у людей существуют значительные различия, касающиеся цветовых симпатий и антипатий. Таким образом, позиция будет учитывать не только предубеждение против иностранных машин, но также цветовое предпочтение субъектов. Поэтому в ответе на данную позицию доля истинной метки (истинного предубеждения) будет относительно мала (будет большой ошибка).
Меры надежности. Отсюда нетрудно вывести критерий или статистику для описания надежности позиции или шкалы. Именно, можно ввести индекс надежности, как отношение вариации истинной метки (истинного значения), присущей субъектам или респондентам, к общей вариации:
Надежность = 2 (истинная метка) /
2 (всего наблюдений)
Зададимся теперь вопросом: что произойдет, если просуммировать несколько более или менее надежных позиций, построенных с целью оценки предубеждения против иностранных машин? Предположим, что вопросы были сформулированы так, чтобы охватить возможно более широкий спектр различных предубеждений против машин иностранного производства. Если ошибочная компонента в ответах респондентов на каждый вопрос действительно случайна, то можно ожидать, что в ответах на различные вопросы случайные компоненты будут взаимно подавлять друг друга. Математическое ожидание суммарной погрешности по совокупности всех вопросов (позиций шкалы) будет равно нулю. Компонента истинной метки остается неизменной при суммировании по всем позициям. Следовательно, чем больше будет добавлено вопросов, тем точнее истинная метка (по отношению к погрешности) будет отражена на суммарной шкале.
Количество позиций и надежность. Это заключение описывает важный принцип построения критерия, а именно: чем больше позиций участвуют в построении шкалы для измерения данной концепции, тем более надежным будет измерение (суммарная шкала). Может быть, следующий пример лучше пояснит это. Предположим, вы хотите измерить рост 10 людей, используя только простую палочку или, например, свой локоть как измерительное устройство. В этом примере нас интересует не абсолютная точность измерений (в дюймах или сантиметрах), а возможность верно различать 10 индивидуумов по результатам измерений. Если, прикладывая палочку, вы измерите каждого человека только один раз, то результат может и не быть очень надежным. Однако если вы измерите каждого субъекта 100 раз и затем возьмете среднее этих 100 измерений как итоговый результат для соответствующего роста участника, то будете в состоянии очень точно и надежно различать людей (основываясь единственно на простой измерительной палочке, а не на линейке).
Теперь обратимся к некоторым статистикам, которые используются для оценивания надежности суммарной шкалы.
Вернемся к примеру с предубеждениями. Если есть несколько субъектов, отвечающих на вопросы, то можно вычислить дисперсию для каждого вопроса и суммарной шкалы. Дисперсия для суммарной шкалы будет меньше, чем сумма дисперсий каждого отдельного вопроса в том случае, когда вопрос измеряет (оценивает) одну и ту же изменчивость между субъектами, т.е. если они измеряют некоторую истинную метку. Математически дисперсия суммы двух вопросов равна сумме двух дисперсий минус удвоенная ковариация, т.е. равна величине истинной дисперсии метки, общей для двух вопросов.
Вы можете оценивать долю дисперсии истинной метки, покрываемую вопросами, путем сравнения суммы дисперсий отдельных вопросов с дисперсией суммарной шкалы. Конкретно, вы можете вычислить величину:
= (k/(k-1)) * [1-
(s 2 i)/s 2 сум]
Альтернативная терминология. Альфа Кронбаха, вычисленная для дихотомий или переменных, принимающих только два значения (например, для ответов истинно/ложно), идентична так называемой формуле Кьюдера-Ричардсона-20 для надежности суммарных шкал. И в том, и в другом случае, поскольку надежность реально вычисляется, исходя из непротиворечивости всех вопросов в суммарной шкале, коэффициент надежности, вычисленный таким образом, также относится к внутренне непротиворечивой надежности.
Другим способом вычисления надежности суммарной шкалы является разбиение суммарной шкалы случайным образом на две половины [этот прием, называемый по-английски split-half, часто используется в медицине и биологии для оценки надежности результатов; разбиение производится случайным образом, что позволяет избежать искусственных эффектов]. Если суммарная шкала совершенно надежна, то следует ожидать, что обе части абсолютно коррелированы (т.е. r = 1.0). Если суммарная шкала не является абсолютно надежной, то коэффициент корреляции будет меньше 1. Можно оценить надежность суммарной шкалы посредством split-half коэффициента Спирмена-Брауна:
Поправка на затухание
Как будет влиять на достоверность шкалы тот факт, что шкала не абсолютно надежна? Маловероятно, чтобы часть шкалы, включающая случайную ошибку, коррелировала с некоторым внешним показателем. Поэтому, если пропорция истинной метки (истинного значения) в шкале равна 60% (т.е. надежность равна лишь 0,60), то корреляция между шкалой и внешним показателем будет затухать; т.е. будет ослаблена. Это означает, что она будет меньше, чем фактическая корреляция между двумя истинными метками (т.е. между показателем, измеряемым шкалой, и другим, внешним по отношению к шкале показателем). Фактически достоверность шкалы всегда ограничивается ее надежностью.
Построение надежной шкалы
Шаг 2: Выбор вопросов оптимальной трудности. В первый вариант вашего вопросника о «предпочтениях» включайте как можно больше вопросов. Теперь предложите эту анкету начальной выборке типичных респондентов и проанализируйте результаты по каждому пункту. Во-первых, вы увидите различные характеристики вопросов и выделите эффект пол-потолок. Если все согласны или не согласны с вопросом, то он, очевидно, не поможет провести различия между респондентами и окажется бесполезным для построения надежной шкалы. В конструкции теста долю респондентов, которые согласны или не согласны с вопросом, или долю тех, кто «верно» отвечают на вопросы (т.е. угадывают реально существующую тенденцию) называют трудностью вопроса. В сущности, вы могли бы посмотреть на выборочные средние и стандартные отклонения для вопросов и удалить те из них, которые дают резко выделяющиеся средние и нулевые или близкие к нулю дисперсии.
Шаг 3: Выбор внутренне непротиворечивых вопросов. Напомним, что надежная шкала состоит из вопросов (позиций), которые пропорционально измеряют истинную метку; в нашем примере нам желательно отобрать вопросы, которые главным образом измеряют предубеждение против иностранных машин, при этом накладываются некоторые скрытые факторы, являющиеся случайными погрешностями. Для иллюстрации посмотрим на таблицу:
ITEM1
ITEM2
ITEM3
ITEM4
ITEM5
ITEM6
ITEM7
ITEM8
ITEM9
ITEM10
41.37000
41.41000
41.63000
41.52000
41.56000
41.46000
41.33000
41.44000
41.66000
53.79310
54.86190
56.57310
64.16961
62.68640
54.02840
53.32110
55.06640
53.78440
7.334378
7.406882
7.521509
8.010593
7.917474
7.350401
7.302130
7.420674
7.333785
.666111
.549226
.470852
.054609
.118561
.587637
.609204
.502529
.572875
.533015
.363895
.305573
.057399
.045653
.443563
.446298
.328149
.410561
.754692
.766778
.776015
.824907
.817907
.762033
.758992
.772013
.763314
В ней приведены 10 вопросов. Наибольший интерес представляют три крайних правых столбца таблицы. Они показывают корреляцию между соответствующим вопросом и общей суммарной шкалой (без соответствующего вопроса), квадрат корреляции между соответствующим вопросом и другими вопросами и внутреннюю непротиворечивость шкалы (коэффициент альфа), если соответствующий вопрос будет удален. Очевидно, вопросы 5 и 6 резко выделяются в силу того, что они не согласуются с остальной частью шкалы. Их корреляции с суммарной шкалой равны 0.05 и 0.1 соответственно, в то время как все другие коррелируют с показателем 0.45 или лучше. В крайнем правом столбце можно увидеть, что надежность шкалы будет около 0.82, если удалить любой из этих двух вопросов. Очевидно, эти два вопроса следует убрать из шкалы.
Шаг 4: Возвращаемся к шагу 1. После удаления всех вопросов, которые не согласуются со шкалой, вы можете остаться без достаточного количества вопросов для того, чтобы создать полностью надежную шкалу (напомним, что чем меньше вопросов, тем менее надежная шкала). На практике исследователь часто несколько раз проходит через этапы создания и удаления вопросов до тех пор, пока не придет к окончательному набору вопросов, образующих надежную шкалу.
Тетрахорическая корреляция. В образовательных и психологических тестах обычно используют вопросы с ответами типа да/нет. В этом случае альтернативой к обычному коэффициенту корреляции является коэффициент тетрахорической корреляции. Обычно коэффициент тетрахорической корреляции больше, чем стандартный коэффициент корреляции; поэтому Nunally (1970, стр. 102) не рекомендует его использовать при оценивании надежности. Однако до сих пор этот коэффициент используется на практике (например, при математическом моделировании).
Все права на материалы электронного учебника принадлежат компании StatSoft
Пресловутая альфа Кронбаха
Современная психодиагностика России. Преодоление кризиса: сборник материалов III Всероссийской конференции: в 2 т. / редколлегия: Н.А. Батурин (отв. ред.) и др. – Челябинск: Издательский центр ЮУрГУ, 2015. Т.1. – 380 с.
УДК 159.9.072 + 159.9.019
ББК Ю92-2
АЛЬФА КРОНБАХА: КОГДА И ЗАЧЕМ ЕЕ СЧИТАТЬ
Московский государственный университет имени М.В. Ломоносова, г. Москва
Ключевые слова : Надежность, валидность, достоверность, психодиагностическая методика
В отечественных публикациях данный показатель стали приводить «наиболее продвинутые» в психометрике коллеги, когда речь идет о разра-
ботке нового инструментария или при адаптации уже готового инструмента в другой культуре. Однако этот показатель имеет смысл измерять и в процессе использования готовой методики.
Так как любой измеренный показатель x может быть представлен в ви-
де:
И так, надежность, трактуемая как точность измерения, определяется через сходство в изменениях истинного и измеренного баллов, и лежит в диапазоне от нуля до единицы. Чем в большей степени совпадают числитель и знаменатель, тем ближе к 1 показатель надежности.
Поскольку истинные баллы абсолютно точно нам не известны, то и надежность можно измерить лишь в некотором приближении.
16 Обозначение дисперсии.
Ниже мы будем говорить о способах вычисления надежности, когда тестирование каждого респондента происходит только один раз и только по одному набору пунктов (одномоментная надежность). Сюда можно отнести формулу Спирмана-Брауна 1910 года, формулу Кьюдера-Ричардсона, предложенную ими в 1927 году для дихотомических пунктов или пунктов, имеющих единственный правильный вариант ответа, а затем расширенную Кронбахом в 1951 году для случая, когда пункты измеряются с помощью лайкертовой шкалы или даже более сильных интервальных шкал. Между этими событиями свои варианты подсчета опубликовали Хойт (1940) и Гутман (1945).
В случае, когда все пункты независимы (ортогональны), т.е. σ ij =0, то и α =0. Чем больше встречается отрицательных попарных ковариаций, тем ниже общая сумма и итоговый показатель.
Чтобы утверждать, что пункты составляют шкалу нужно, чтобы попарные взаимосвязи между пунктами были положительны. Это дает возможность говорить о попарной (для каждой пары пунктов) и как следствие – внутригрупповой согласованности пунктов, входящих в шкалу (образующих конструкт, которому шкала соответствует).