Основы дискриминантного анализа
Этот метод многомерной статистики служит для дискриминации, т. е. различения (дифференциации) и диагностирования (распознавания) биологических объектов и явлений, отличия между которыми неочевидны. В медицине этот метод используется для идентификации заболевания по ряду показателей (характерных симптомов), а в биологии – для установления групповой принадлежности отдельных особей (объектов). Иными словами, общая задача дискриминантного анализа заключается в том, чтобы определить, к какой из двух известных групп объектов принадлежит изучаемый объект. Как и в кластерном анализе, исследуемые объекты представлены несколькими численными признаками и (в простейшем случае) требуется сформировать один расчетный признак, однозначно характеризующий каждый объект. Однако задачи дискриминантного анализа прямо противоположны кластерному: не выделить из множества объектов группы близких, а отнести тот или иной объект к определенной, априорно выделенной группе. Эта идентификация (дискриминация) объекта выполняется с помощью уравнения дискриминации (дискриминантной функции), которое воплощает в себе максимальное отличие между предварительно заданными группами (дискриминация "с обучением").
Рассмотрим общий принцип использования этого метода на примере определения пола у пеночек-весничек. Визуально молодые самцы и самки этого вида не различаются, а распределения морфологических признаков (длина крыла, хвоста, цевки) у них довольно сильно перекрываются, что не позволяет с уверенностью диагностировать пол этих птиц. Например, для длины крыла степень трансгрессии составляет 20%, а длины цевки – 90%. Между тем дискриминантный анализ в силах справиться с подобной задачей.
Рис. 9.4. Зона трансгрессии – наложение "хвостов" распределений
На основе реальных признаков птиц математически рассчитывается искусственный и единственный признак, учитывающий все незначительные морфологические отличия полов в целом по всем признакам. Эти расчеты проводятся с условием, чтобы различия между группами самцов и самок стали наиболее выраженными, а трансгрессия между их распределениями – наименьшей. Так удается свести к минимуму долю животных неопределенного пола и с высокой степенью достоверности предсказывать пол по морфологическим признакам.
В основе дискриминантного анализа лежит дискриминантная функция; для двух признаков она имеет такой вид:
.
Как можно видеть, признаки х и у, объединяясь, дают один признак Z. Если в анализ будут включены размерные признаки, такие как длина крыла и длина хвоста, то новый признак можно назвать " относительные размеры тела".
Коэффициенты a и b оценивают "вклад" каждого из признаков в диагностические возможности функции. На первых этапах работы в расчеты обычно вовлекается большое число реальных признаков, многие из которых никак не влияют на диагностические возможности дискриминантной функции, для них дискриминантные коэффициенты близки к нулю. Такие признаки исключают из рассмотрения, а дискриминантую функцию рассчитывают заново. Формальным критерием для отбраковки "неинформативных" признаков служит аналог критерия Стьюдента для оценки значимости коэффициентов регрессии, который мы не рассматриваем.
Коэффициент Н – это граничная величина между значениями Z для самцов и самок. Свободный член уравнения ΔZ – поправка на разные объемы выборок.
Теперь сформулируем задачу более конкретно. У 10 самцов и 10 самок погибших по разным причинам пеночек-весничек (их пол был определен путем вскрытия) взяли промеры длины крыла и хвоста. По этим данным вычислены необходимые для дальнейших расчетов величины (суммы значений, их квадратов и произведений), сведенные в таблицу 9.5: Σx = 1218; Σx² = 74324 5; Σy² = 9275; Σy² = 43087.25;Σ(х∙у) = 56564.5. Таблица 9.5
Самцы (1)
| |
|
|
|
|
| 0.14
| |
|
|
|
|
| 0.01
| |
|
|
|
|
| 0.09
| | 63.5
|
| 4032.25
|
| 3238.5
|
| |
|
|
|
|
| 0.05
| |
|
|
|
|
| 0.02
| |
|
|
|
|
| 0.07
| | 63.5
|
| 4032.25
|
|
| 0.08
| |
|
|
|
|
| 0.03
| |
|
|
|
|
| 0.06
| | Σ1 = 631
|
| 39828.5
|
|
| –
| | | Самки (2)
|
|
|
|
|
| –0.08
| |
|
|
|
|
| –0.05
| |
|
|
|
|
| –0.17
| | 57.5
|
| 3306.25
|
| 2472.5
| –0.12
| |
| 46.5
|
| 2162.25
| 2836.5
| 0.0004
| | 60.5
|
| 3660.25
|
|
| –0.01
| | 57.5
|
| 3306.25
|
| 2722.5
| –0.09
| |
|
|
|
|
| –0.10
| | 60.5
|
| 3660.25
|
|
| –0.03
| |
|
|
|
|
| –0.04
| | Σ2 = 587
| 449.5
|
| 20215.25
| 26416.5
| –
| | Σ = 221218
| 927.5
| 74324.5
| 43087.25
| 56564.5
| –
| | | | | | | | | | | | | | | | | | Теперь определим средние арифметические:
Mx1= 631/10 = 63.1; My1 = 478/10 = 47.8; Mx2 = 58.7; My2 = 44.95
и их разности: dx = 63.1–58.7 = 4.4; dy = 47.8–44.95 = 2.85.
Находим также вспомогательные величины:
,
,
.
Наконец, для определения коэффициентов а и b необходимо решить следующую систему уравнений:
.
Ее корнями будут:
,
.
Теперь найдем средние значения признака Z для самцов и самок:
Z1 = a∙Mx1 + b∙My1 = 0.021423∙63.1 + 0.015335∙47.8 = 2.0848,
Z2 = a∙Mx2 + b∙My2 = 0.021423∙58.7 + 0.015335∙44.95 = 1.9468.
Определяем разность между этими средними, или центроидами:
(D = Z1 – Z2): D = 2.0848 – 1.9468 = 0.138.
Найдем границу между группировками самцов и самок:
Н = Z2 + D/2 = 1.9468 + 0.138/2 = 2.0158.
Так получен третий член уравнения дискриминации. Что касается четвертого, поправки на объем выборки, то он определяется по формуле:
, где nmax – объем большей,
nmin – объем меньшей выборки объектов разного качества.
В нашем случае поправка равна 0, так как группы имеют одинаковый объем (по 10). Теперь можно записать уравнение дискриминации в полном виде:
Z = 0.021423∙x + 0.015335∙у – 2.0158.
Рассчитаем с его помощью значения нового признака "относительные размеры тела" для конкретных особей. Для первого самца величина разницы составит:
Z11 = 0.021423∙65 + 0.015335∙50 – 2.0158 = 0.14.
Значения для всех остальных особей занесены в таблицу 9.5, из которой видно, что самцы имеют положительные, а самки (кроме одной) – отрицательные значения функции Z. Распределения нового признака перекрываются на одну двадцатую часть, всего на 5%. По исходным данным видно, что трансгрессия по признаку х составила 10% (значение 61), а по признаку у – 25% (значения 46 и 46.5). Таким образом, рассчитанный признак характеризуется меньшей трансгрессией по сравнению с реальными признаками, т. е. позволяет снизить число неверных определений пола у живых птиц. Дальнейшие операции, связанные с использованием дискриминантной функции, вполне очевидны. Для особи с неизвестным полом, но известными промерами частей тела (когда птица после отлова и взятия промеров отпускается живой) вычисляется значение функции. Если оно больше 0, значит, это самец, если меньше – самка.
Заключительный этап – оценка достоверности уравнения по критерию Фишера:
~ F(α, 2, n–3).
В нашем случае
.
По лученное значение критерия Фишера (0.32) меньше табличного (табл. 7П) для α = 0.05 и df1 = 2, df2 = 20–3 = 17 F(α, 2,n–3) = 3.6, значит, уравнение недостоверно. Это объясняется небольшим объемом выборки в нашем примере: для исходных данных из 50 экз. птиц каждого пола (обычный объем зоологического материала) критерий Фишера был равен F = 4.2 при F(α, 2, 47) = 3.1. Отсюда следует, что уравнение дискриминации для 50 особей достоверно и вполне пригодно для прижизненного определения пола пеночек-весничек.
Уверенность в результатах анализа может придать оценка работоспособности дискриминантной функции на независимой проверочной выборке особей с известным статусом.
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|