Сравнение корреляций для зависимых выборок
В данном случае предполагается сравнение корреляции Хи У с корреляцией Л'и 2 при условии, что все три признака измерены на одной и той же выборке. Проверяемая Н0 содержит утверждение о равенстве соответствующих корреляций.
ПРИМЕР 10.3_____________________________________________________________________
Сравнивалась прогностическая эффективность двух шкал вступительного теста в отношении предсказания среднего балла отметок студентов 2 курса. На выборке в 95 студентов корреляция результатов тестирования и среднего балла отметок составила: для первой шкалы: г, = 0,60; для второй шкалы: г2 = 0,46; корреляция результатов двух тестов: гп = 0,70. Можно ли утверждать, что прогностическая ценность первой шкалы достоверно выше, чем второй?
Для статистической проверки подобных гипотез применяется 2Г-критерий, эмпирическое значение которого вычисляется по формуле:
г (10 5)
^(1 -4)2 +(1 -гД)2 -{2гп-гхугх,){\-г1-г1 -г>)
ПРИМЕР 10.3 (продолжение)_______________________________________________________
Проверим гипотезу о различии коэффициентов корреляции (а = 0,05).
Ш а г 1. Вычислим эмпирическое значение ^-критерия по формуле 10.5: 2, = 2,119.
Ш а г 2. Определим р-уровень значимости. По таблице стандартных нормальных вероятностей (приложение 1) определяем площадь справа от табличного I, ближайшего меньшего Справа от г = 2,11: Р— 0,0174. Уровень значимости определяется по формуле р < 2Р. Следовательно, р < 0,035.
Ш а г 3. Принимаем статистическое решение и формулируем содержательный вывод. Статистическое решение: отклоняем Н0 (о равенстве корреляций в генеральной совокупности). Содержательный вывод: корреляция второй шкалы теста статистически достоверно ниже корреляции первой шкалы со средним баллом отметок студентов 2-го курса (р < 0,05) — прогностическая ценность первой шкалы выше, чем второй шкалы.
Отметим, что для решения такой задачи можно было бы рассматривать выборки как независимые и применять соответствующий метод сравнения корреляций — по формулам 10.3 и 10.4. Но чувствительность (мощность) такой проверки была бы гораздо ниже. В частности, применяя к данным примера 10.3 предыдущий метод, мы получим р = 0,18, что приводит к принятию Н0.
КОРРЕЛЯЦИЯ РАНГОВЫХ ПЕРЕМЕННЫХ
Если к количественным данным неприменим коэффициент корреляции г- Пирсона, то для проверки гипотезы о связи двух переменных после предварительного ранжирования могут быть применены корреляции г-Спирмена или т-Кендалла.
г-Спирмена. Этот коэффициент корреляции вычисляется либо путем применения формулы г-Пирсона к предварительно ранжированным двум переменным, либо, при отсутствии повторяющихся рангов, по упрощенной формуле:
Х
Г, =1-------- Ц--------
Поскольку этот коэффициент — аналог /--Пирсона, то и применение /--Спирмена для проверки гипотез аналогично применению /--Пирсона, изложенному ранее[13].
Преимущество г-Спирмена по сравнению с /--Пирсона — в большей чувствительности к связи в случае:
□ существенного отклонения распределения хотя бы одной переменной от нормального вида (асимметрия, выбросы);
□ криволинейной (монотонной) связи.
Недостаток г-Спирмена по сравнению с г-Пирсона — в меньшей чувствительности к связи в случае несущественного отклонения распределения обеих переменных от нормального вида.
Частная корреляция и сравнение корреляций применимы и к /--Спирмена.
т-Кендалла. Применяется к предварительно ранжированным данным как альтернатива /--Спирмена. т-Кендалла, как отмечалось в главе 6, имеет более выгодную, вероятностную интерпретацию. Общая формула для вычисления г-Кендалла, вне зависимости от наличия или отсутствия повторяющихся рангов (связей):
Р-0
4[М(М -1) / 2]- Кх ^[N(N-1)/2]- Ку
где Р — число совпадений, С? — число инверсий, Кхи Ку — поправки на связи в рангах (см. главу 6: Проблема связанных (одинаковых) рангов). Если связей в рангах нет, то знаменатель формулы равен Р+ 0 = N(N~ 1 )/2.
Поскольку природа г-Кендалла иная, чем у /--Спирмена и /--Пирсона, то р-уровень определяется по-другому: применяется ^-критерий и единичное нормальное распределение. Эмпирическое значение вычисляется по формуле:
1^-аН (1„.6)
При вычислениях «вручную» /ьуровень определяется по следующему алгоритму:
а) вычисляется эмпирическое значение 1Э;
б) по таблице «Стандартные нормальные вероятности» (приложение 1) определяется теоретическое значение г, ближайшее меньшее к эмпирическому значению гэ;
в) определяется площадь Р под кривой справа от гт;
г) вычисляется р-уровень по формуле р < 2Р.
Проверяемая статистическая гипотеза, порядок принятия статистического решения и формулировка содержательного вывода те же, что и для случая /•-Пирсона или /--Спирмена.
При вычислениях на компьютере статистическая программа (8Р58,81а(лз1:1са) сопровождает вычисленный коэффициент корреляции более точным значением р-уровня.
ПРИМЕР 10.4____________________________________________________________________
Предположим, для каждого из 12 учащихся одного класса известно время решения тестовой арифметической задачи в секундах (X) и средний балл отметок по математике за последнюю четверть (У). При подсчете т-Кендалла были получены следующие результаты: Р= 18; <2= 48; т = —0,455. Проверим гипотезу о связи времени решения тестовой задачи и среднего балла отметок по математике.
Ш а г 1. Вычисляем эмпирическое значение критерия:
|18-48|-1 г 1 1 — = 1,989 .
' 712(12-1)(2'12 + 5)/18
Ш а г 2. По таблице «Стандартные нормальные вероятности» (приложение 1) находим ближайшее меньшее, чем гэ, теоретическое значение г,. и площадь справа от этого гт: 2т = 1,98; площадь справа Р= 0,024.
Ш а г 3. Вычисляем р-уровень по формуле р < 2Р; р < 0,048.
Ш а г 4. Принимаем статистическое решение. Нулевая гипотеза об отсутствии связи в генеральной совокупности отклоняется на уровне а = 0,05.
Ш а г 5. Формулируем содержательный вывод. Обнаружена отрицательная связь между временем решения тестовой арифметической задачи и средним баллом отметок по математике за последнюю четверть (т = —0,455; N= 12; р < 0,048). Величина корреляции показывает, что при сравнении испытуемых друг с другом более высокий средний балл будет сочетаться с меньшим временем решения задач чаще, чем в 70% случаях, так как вероятность инверсий Р(д) = (1 — т)/2 = = (1+0,455)/2 = 0,728.
(Отметим, что при вычислении т-Кендалла по этим данным на компьютере были получены следующие результаты: т = —0,455; р = 0,040.)
Сравнение г-Спирмена их-Кендалла. Интерпретация /--Спирмена аналогична интерпретации /--Пирсона. Квадрат и того, и другого коэффициента корреляции (коэффициент детерминации) показывает долю дисперсии одной переменной, которая может быть объяснена влиянием другой переменной. т-Кендалла имеет другую интерпретацию: это разность вероятностей совпадений и инверсий в рангах. Кроме того, по величине т-Кендалла можно судить о вероятности совпадений Р(р) = (1 + т)/2 или инверсий Р(д) = (1 — т)/2.
Для одних и тех же данных величина г-Спирмена всегда больше, чем х-Кендалла, исключая крайние значения 0 и 1. Это отражает тот факт, что т-Кендалла зависит от силы связи линейно, а /--Спирмена — не линейно. В то же время для одних и тех же данныхр-уровень х-Кендалла и г-Спирмена примерно одинаков, а иногда т-Кендалла имеет преимущество в уровне значимости.
Замечания к применению. Если связь (статистически достоверная) не обнаружена, но есть основания полагать, что связь на самом деле есть, то следует сначала перейти от г-Спирмена к т-Кендалла (или наоборот), а затем проверить другие возможные причины недостоверности связи.
1. Нелинейность связи: просмотреть график двумерного рассеивания. Если связь не монотонная, то делить выборку на части, в которых связь монотонная, или делить выборку на контрастные группы и далее сравнивать их по уровню выраженности признака.
2. Неоднородность выборки: просмотреть график двумерного рассеивания. Попытаться разделить выборку на части, в которых связь может иметь разные направления.
| vi
| у2
| уЗ
| у4
| у5
| VI
|
| 0,52
| -0,11
| -0,29
| -0,38
| у2
| 0,52
|
| 0,28
| 0,32
| -0,34
| уЗ
| -0,11
| 0,28
|
| 0,48
| 0,42
| у4
| -0,29
| 0,32
| 0,48
|
| 0,38
| у5
| -0,38
| -0,34
| 0,42
| 0,38
|
| Нетрудно заметить, что корреляционная матрица является квадратной, симметричной относительно главной диагонали (так как Гц = /},), с единицами на главной диагонали (так как гИ = г^ =1).
| Если связь статистически достоверна, то прежде, чем делать содержательный вывод, следует исключить возможность наличия «ложной» корреляции, как следствия влияния третьей переменной (см. Замечания к применению метрических коэффициентов корреляции).
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|