Основы дискриминантного анализа

Предыдущая 18 19 20 21 22 23 24 252627 28 29 30 31 32 33 Следующая

Этот метод многомерной статистики служит для дискриминации, т. е. различения (дифференциации) и диагностирования (распознавания) биологических объектов и явлений, отличия между которыми неочевидны. В медицине этот метод используется для идентификации заболевания по ряду показателей (характерных симптомов), а в биологии – для установления групповой принадлежности отдельных особей (объектов). Иными словами, общая задача дискриминантного анализа заключается в том, чтобы определить, к какой из двух известных групп объектов принадлежит изучаемый объект. Как и в кластерном анализе, исследуемые объекты представлены несколькими численными признаками и (в простейшем случае) требуется сформировать один расчетный признак, однозначно характеризующий каждый объект. Однако задачи дискриминантного анализа прямо противоположны кластерному: не выделить из множества объектов группы близких, а отнести тот или иной объект к определенной, априорно выделенной группе. Эта идентификация (дискриминация) объекта выполняется с помощью уравнения дискриминации (дискриминантной функции), которое воплощает в себе максимальное отличие между предварительно заданными группами (дискриминация "с обучением").

Рассмотрим общий принцип использования этого метода на примере определения пола у пеночек-весничек. Визуально молодые самцы и самки этого вида не различаются, а распределения морфологических признаков (длина крыла, хвоста, цевки) у них довольно сильно перекрываются, что не позволяет с уверенностью диагностировать пол этих птиц. Например, для длины крыла степень трансгрессии составляет 20%, а длины цевки – 90%. Между тем дискриминантный анализ в силах справиться с подобной задачей.

Рис. 9.4. Зона трансгрессии – наложение "хвостов" распределений

На основе реальных признаков птиц математически рассчитывается искусственный и единственный признак, учитывающий все незначительные морфологические отличия полов в целом по всем признакам. Эти расчеты проводятся с условием, чтобы различия между группами самцов и самок стали наиболее выраженными, а трансгрессия между их распределениями – наименьшей. Так удается свести к минимуму долю животных неопределенного пола и с высокой степенью достоверности предсказывать пол по морфологическим признакам.

В основе дискриминантного анализа лежит дискриминантная функция; для двух признаков она имеет такой вид:

Как можно видеть, признаки х и у, объединяясь, дают один признак Z. Если в анализ будут включены размерные признаки, такие как длина крыла и длина хвоста, то новый признак можно назвать " относительные размеры тела".

Коэффициенты a и b оценивают "вклад" каждого из признаков в диагностические возможности функции. На первых этапах работы в расчеты обычно вовлекается большое число реальных признаков, многие из которых никак не влияют на диагностические возможности дискриминантной функции, для них дискриминантные коэффициенты близки к нулю. Такие признаки исключают из рассмотрения, а дискриминантую функцию рассчитывают заново. Формальным критерием для отбраковки "неинформативных" признаков служит аналог критерия Стьюдента для оценки значимости коэффициентов регрессии, который мы не рассматриваем.

Коэффициент Н – это граничная величина между значениями Z для самцов и самок. Свободный член уравнения ΔZ – поправка на разные объемы выборок.

Теперь сформулируем задачу более конкретно. У 10 самцов и 10 самок погибших по разным причинам пеночек-весничек (их пол был определен путем вскрытия) взяли промеры длины крыла и хвоста. По этим данным вычислены необходимые для дальнейших расчетов величины (суммы значений, их квадратов и произведений), сведенные в таблицу 9.5: Σx = 1218; Σx² = 74324 5; Σy² = 9275; Σy² = 43087.25;Σ(х∙у) = 56564.5. Таблица 9.5

Самцы (1)
					0.14
					0.01
					0.09
63.5		4032.25		3238.5
					0.05
					0.02
					0.07
63.5		4032.25			0.08
					0.03
					0.06
Σ₁= 631		39828.5			–
	Самки (2)
					–0.08
					–0.05
					–0.17
57.5		3306.25		2472.5	–0.12
	46.5		2162.25	2836.5	0.0004
60.5		3660.25			–0.01
57.5		3306.25		2722.5	–0.09
					–0.10
60.5		3660.25			–0.03
					–0.04
Σ₂ = 587	449.5		20215.25	26416.5	–
Σ = 221218	927.5	74324.5	43087.25	56564.5	–

Теперь определим средние арифметические:

M_x₁= 631/10 = 63.1; M_y₁ = 478/10 = 47.8; M_x₂ = 58.7; M_y₂ = 44.95

и их разности: d_x = 63.1–58.7 = 4.4; d_y = 47.8–44.95 = 2.85.

Находим также вспомогательные величины:

Наконец, для определения коэффициентов а и b необходимо решить следующую систему уравнений:

Ее корнями будут:

Теперь найдем средние значения признака Z для самцов и самок:

Z₁= a∙M_x₁ + b∙M_y1= 0.021423∙63.1 + 0.015335∙47.8 = 2.0848,

Z₂= a∙M_x₂ + b∙M_y₂= 0.021423∙58.7 + 0.015335∙44.95 = 1.9468.

Определяем разность между этими средними, или центроидами:

(D = Z₁ – Z₂): D = 2.0848 – 1.9468 = 0.138.

Найдем границу между группировками самцов и самок:

Н = Z₂ + D/2 = 1.9468 + 0.138/2 = 2.0158.

Так получен третий член уравнения дискриминации. Что касается четвертого, поправки на объем выборки, то он определяется по формуле:

, где n_max – объем большей,

n_min – объем меньшей выборки объектов разного качества.

В нашем случае поправка равна 0, так как группы имеют одинаковый объем (по 10). Теперь можно записать уравнение дискриминации в полном виде:

Z = 0.021423∙x + 0.015335∙у – 2.0158.

Рассчитаем с его помощью значения нового признака "относительные размеры тела" для конкретных особей. Для первого самца величина разницы составит:

Z₁₁= 0.021423∙65 + 0.015335∙50 – 2.0158 = 0.14.

Значения для всех остальных особей занесены в таблицу 9.5, из которой видно, что самцы имеют положительные, а самки (кроме одной) – отрицательные значения функции Z. Распределения нового признака перекрываются на одну двадцатую часть, всего на 5%. По исходным данным видно, что трансгрессия по признаку х составила 10% (значение 61), а по признаку у – 25% (значения 46 и 46.5). Таким образом, рассчитанный признак характеризуется меньшей трансгрессией по сравнению с реальными признаками, т. е. позволяет снизить число неверных определений пола у живых птиц. Дальнейшие операции, связанные с использованием дискриминантной функции, вполне очевидны. Для особи с неизвестным полом, но известными промерами частей тела (когда птица после отлова и взятия промеров отпускается живой) вычисляется значение функции. Если оно больше 0, значит, это самец, если меньше – самка.

Заключительный этап – оценка достоверности уравнения по критерию Фишера:

~ F₍_α_{, 2,}_n_–3).

В нашем случае

По лученное значение критерия Фишера (0.32) меньше табличного (табл. 7П) для α = 0.05 и df₁= 2, df₂= 20–3 = 17 F₍_α_{, 2,}_n_–3)= 3.6, значит, уравнение недостоверно. Это объясняется небольшим объемом выборки в нашем примере: для исходных данных из 50 экз. птиц каждого пола (обычный объем зоологического материала) критерий Фишера был равен F = 4.2 при F₍_α_{, 2, 47)}= 3.1. Отсюда следует, что уравнение дискриминации для 50 особей достоверно и вполне пригодно для прижизненного определения пола пеночек-весничек.

Уверенность в результатах анализа может придать оценка работоспособности дискриминантной функции на независимой проверочной выборке особей с известным статусом.

Предыдущая 18 19 20 21 22 23 24 252627 28 29 30 31 32 33 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: