Влияние «третьей» переменной
Иногда корреляция между двумя переменными обусловлена не связью между соответствующими свойствами, а влиянием некоторой общей причины совместной изменчивости этих переменных, которая зачастую выпадает из поля зрения исследователя. Эта общая причина может быть измерена как некоторая «третья» переменная, представленная либо в номинативной шкале, либо в количественной (ранговой или метрической) шкале.
Если истинная причина корреляции представляет собой номинативную переменную, то это проявляется в характерной неоднородности выборки: в ней можно обнаружить различные группы, для которых согласованно меняются средние двух переменных, в то время как внутри групп эти переменные не коррелируют. Если подобное явление возможно и существует способ содержательно интерпретируемого деления выборки на группы, необходимо вычислить корреляцию не только для всей выборки, но и для каждой группы в отдельности.
ПРИМЕР_________________________________________________________________________
Если мы возьмем достаточно большую группу людей — мужчин и женщин, то обнаружим существенную отрицательную корреляцию роста и длины волос: чем больше рост, тем короче волосы. Однако, рассматривая график рассеивания роста и длины волос с выделением групп мужчин и женщин, мы обнаружим истинную причину этой корреляции — пол (рис. 6.6). Корреляции роста и длины волос отдельно для мужчин и отдельно для женщин будут близки к нулю.
Другой случай «ложной» корреляции — когда «третья» переменная может быть представлена в числовой шкале.
ПРИМЕР_________________________________________________________________________
Число церквей и количество увеселительных заведений в городах, как известно, сильно коррелируют, так же, впрочем, как рост и навык чтения у детей. Нетрудно
| Пол
|
| мужской
| V
| V— женский
| V7
|
| V
|
| V
|
| V
|
| V
|
| V •
ц
|
| •
| •
| •
| •
|
| •
| •
|
| Т--------------------- 1-------------------- г
|
Рис. 6.6. График рассеивания для роста и длины волос. Темные точки — мужчины, светлые треугольники — женщины
догадаться, что в первом случае «третьей» переменной является численность городского населения, а во втором — возраст детей. (См. также пример 6.3 из раздела
«Частная корреляция».)
Если истинная причина корреляции между двумя переменными Хи У измерена как количественная переменная 2, то предположение о том, что именно она является причиной корреляции, можно проверить, вычислив частную корреляцию гху_г по формуле 6.5. Если частная корреляция Хи Ус учетом 2 (гху-г) существенно меньше г^, то весьма вероятно, что именно ^является истинной причиной корреляции Хи У
Следует отметить, что за редким исключением факт наличия или отсутствия корреляции может быть объяснен влиянием некоторой «третьей» переменной, упущенной из поля зрения исследователя. Таким образом, всегда остается возможность альтернативной интерпретации обнаруженной корреляции.
Нелинейные связи
Еще одним источником низкой эффективности корреляций являются возможный нелинейный характер связи между переменными. То, какой характер имеет связь между переменными, можно заметить, рассматривая график двумерного рассеивания. Это свидетельствует о важности визуального анализа связи с помощью таких графиков во всех случаях применения корреляций.
К отклонениям от прямолинейной зависимости любого рода наиболее чувствителен коэффициент корреляции г-Пирсона. Однако если нелинейная
связь оказывается монотонной, то возможен переход к рангам и применение ранговых корреляций.
Довольно часто в исследованиях встречаются немонотонные связи — когда связь меняет свое направление (с прямого на обратное, или наоборот) при увеличении или уменьшении значений одной из переменной.
ПРИМЕРЫ_______________________________________________________________________
Наиболее типичный пример — это связь тревожности и результатов тестирования, или в общем случае — связь уровня активации (X) и продуктивности деятельности (У). Связь таких переменных напоминает перевернутую (инвертированную) II (рис. 6.7). Любой из рассмотренных коэффициентов корреляции будет в этом случае иметь значение, близкое к нулю.
Продуктивность
Рис. 6.7. Пример криволинейной немонотонной связи между уровнем активации и продуктивностью деятельности
Если наблюдается немонотонная нелинейность связи, то можно поступить двояко. В первом случае сначала надо найти точку перегиба по графику рассеивания и разделить выборку на две группы, различающиеся направлением связи между переменными. После этого можно вычислять корреляции отдельно для каждой группы. Второй способ предполагает отказ от применения коэффициентов корреляции. Необходимо ввести дополнительную номинативную переменную, которая делит исследуемую выборку на контрастные группы по одной из переменных. Далее можно изучать различия между этими группами по уровню выраженности (например, по средним значениям) другой переменной.
В приведенном примере (рис. 6.7) можно по переменной «активация» выделить 3 группы (низкий, средний и высокий уровень) и далее изучать различия между этими группами по продуктивности деятельности.
КАКОЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ВЫБРАТЬ
При изучении связей между переменными наиболее предпочтительным является случай применения г-Пирсона непосредственно к исходным данным. В любом случае, обнаружена корреляция или нет, необходим визуальный ана лиз графиков распределения переменных и графика двумерного рассеивания, если исследователя действительно интересует связь между соответствующими переменными. Применяя г-Пирсона, необходимо убедиться, что:
□ обе переменные не имеют выраженной асимметрии;
□ отсутствуют выбросы;
П связь между переменными прямолинейная.
Если хотя бы одно из условий не выполняется, можно попытаться применить ранговые коэффициенты корреляции: г-Спирмена или т-Кендалла. Но и ранговые корреляции имеют свои ограничения. Они применимы, если:
П обе переменные представлены в количественной шкале (метрической или ранговой);
□ связь между переменными является монотонной (не меняет свой знак с изменением величины одной из переменных).
Применение ранговых коэффициентов корреляции при расчете «вручную» требует предварительного ранжирования переменных. Если при этом встречаются одинаковые значения признаков (связи в рангах), применяется формула г-Пирсона для предварительно ранжированных переменных (в случае с г-Спирмена) либо вводятся поправки на связанные ранги (в случае с т-Кендалла).
Если есть предположение, что корреляция обусловлена влиянием третьей переменной, и все три переменные допускают применение г-Пирсона для вычисления корреляции между ними, возможна проверка этого предположения путем вычисления коэффициента частной корреляции этих переменных (при фиксированных значениях третьей переменной). Если значение частной корреляции двух переменных по абсолютной величине заметно меньше, чем их парная корреляция, то парная корреляция обусловлена влиянием третьей переменной.
Применяя коэффициенты корреляции, особое внимание следует уделять графикам двумерного рассеивания. Они позволяют выявить случаи, когда корреляция обусловлена неоднородностью выборки по той и другой переменной. Кроме того, эти графики позволяют определить характер связи: ее линейность и монотонность. Если связь является криволинейной и не монотонной (например, имеет форму Ц), то коэффициенты корреляции не подходят. В этом случае можно разделить выборку на группы по одной из переменных, для сравнения этих групп по выраженности другой переменной.
Если обе переменные представлены в бинарной шкале (0,1), для изучения связи между ними можно применять ф-коэффициент сопряженности, если для каждой переменной количество 0 и 1 приблизительно одинаковое.
Во всех случаях, когда исследователя интересует связь между переменными, а коэффициенты корреляции для этого не подходят, изучение этой связи возможно при помощи сравнения групп, выделяемых по одной из переменных. Если другая переменная метрическая или ранговая, то группы сравниваются по уровню ее выраженности, если номинативная — то по ее распределению.
ОБРАБОТКА НА КОМПЬЮТЕРЕ
1.Графики двумерного рассеивания. Выбираем СгарЬз... > 8са11ег... > 81тр1е. Нажимаем Бейпе. В появляющемся окне назначаем осям переменные: выделяем слева одну переменную, нажимаем > напротив «X Ах1§» (Ось X), выделяем другую переменную, нажимаем > напротив «У Ах1§». Нажимаем ОК. Получаем график рассеивания назначенных переменных.
2.Вычисление парных корреляций. Выбираем Апа1ухе > СоггеЫе > В|уапа(е... В открывшемся окне диалога переносим интересующие переменные из левой части в правую при помощи кнопки > (переменных должно быть как минимум две). По умолчанию стоит флажок «Реаг$оп» (корреляция /--Пирсона). Если интересует корреляция /--Спирмена или т-Кендалла, необходимо поставить соответствующие флажки внизу. Нажимаем ОК. В появившейся таблице строки и столбцы соответствуют выделенным ранее переменным. В ячейке на пересечении строки и столбца, соответствующих интересующим нас переменным, видим три числа: верхнее соответствует коэффициенту корреляции, нижнее — численности выборки тУ, среднее — уровню значимости.
3.Вычисление частной корреляции. Выбираем Апа1ухе > Согге1а(е > РагИа!... В открывшемся окне диалога переносим интересующие переменные из левой части в правое верхнее окно (УапаЫея:) при помощи верхней кнопки > (переменных должно быть как минимум две). Затем при помощи нижней кнопки > из левой части в правое нижнее окно (Соп*гоШп§ Гог:) переносим переменную, значения которой хотим фиксировать. Нажимаем ОК. Получаем таблицу, аналогичную таблице парных корреляций, но верхнее число в каждой ячейке — значение частной корреляции соответствующих двух переменных при фиксированном значении указанной третьей переменной. Нижнее число — уровень значимости, а посередине — число степеней свободы.
Часть II
МЕТОДЫ
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|