LINEBURG


<< Пред. стр.

страница 15
(всего 32)

ОГЛАВЛЕНИЕ

След. стр. >>

37,3
12
1666
36,6
+61
+1,4
+85,4
3721
1,96
37,3
13
1628
38,0
+23
+2,8
+64,4
529
7,84
36,0
14
1604
32,7
-1
-2,5
+2,5
1
6,25
35,2
15
2077
51,7
+472
+16,5
+7788
222784
272,25
51,6
16
2071
55,3
+466
+20,1
+9366,6
217156
404,01
51,4
S 25678

563,2
-
-
+28473,7
818533
1180,32
563,0

Немецкий психиатр Г. Т. Фехнер (1801 - 1887) предложил меру тесноты связи в виде отношения разности числа пар совпадающих и несовпадающих пар знаков к сумме этих чисел:

Конечно, коэффициент Фехнера - очень грубый показатель тесноты связи, не учитывающий величину отклонений признаков от средних значений, но он может служить некоторым ориентиром в оценке интенсивности связи. В данном случае он указывает на тесную связь признаков.
Вычислим на основе итоговой строки табл. 8.1 параметр парной линейной корреляции:

Он означает, что в среднем по изучаемой совокупности отклонение затрат на 1 корову от средней величины на 1 руб. приводило к отклонению с тем же знаком среднего надоя молока на 0,0347 ц, т. е. на 3,47 кг на корову. При нестрогой интерпретации говорят: «С увеличением затрат на корову на 1 руб. в среднем надой молока возрастал на 3,47 кг». Поскольку и до начала резкой инфляции стоимость 3,47 кг молока значительно превосходила рубль, увеличение затрат на корову было экономически целесообразным.
Свободный член уравнения регрессии вычислим по формуле (8.6):
а = 35,2 - 0,0347 • 1605 = - 20,49.
Уравнение регрессии в целом имеет вид:

Отрицательная величина свободного члена уравнения означает, что область существования признака у не включает нулевого значения признакам и близких значений. Можно рассчитать минимально возможную величину фактора х, при которой обеспечивается наименьшее значение признака у (разумеется, положительное).

- это наименьшая сумма затрат на 1 корову, при которых корова способна давать молоко. Если же область существования результативного признака^включает нулевое значение признака-фактора, то свободный член является положительным и означает среднее значение результативного признака при отсутствии данного фактора, например среднюю урожайность картофеля при отсутствии органических удобрений.
Графическое изображение корреляционной связи по данным табл. 8.1. приведено на рис. 8.1.
Коэффициент корреляции, рассчитанный на основе табл. 8.1,





Рис. 8.1. Корреляция затрат на корову с продуктивностью






8.5. Статистическая оценка надежности
параметров парной корреляции

Показатели корреляционной связи, вычисленные по ограниченной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом параметре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признаков. Поэтому необходима статистическая оценка степени точности и Надежности параметров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.
Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки. Для коэффициента парной регрессии Ъ средняя ошибка оценки вычисляется как:



Числитель подкоренного выражения есть остаточная дисперсия результативного признака.
В примере по данным табл. 8.1 средняя ошибка оценки коэффициента регрессии

Зная среднюю ошибку оценки коэффициента регрессии, можно-вычислить вероятность того, что нулевое значение коэффициента входит в интервал возможных с учетом ошибки значений. С этой целью находится отношение коэффициента к его средней ошибке, т. е. t-критерий Стьюдента:

Табличное значение t-критерия Стьюдента при 16-2 степенях свободы и уровне значимости 0,01 составляет 2,98 (см. приложение, табл. 2). Полученное значение критерия много больше, следовательно, вероятность нулевого значения коэффициента регрессии менее 0,01. Гипотезу о несущественности этого коэффициента можно отклонить: данные табл. 8.1 надежно говорят о влиянии вариации затрат на корову на вариацию надоя молока от коров. Расчет критерия Стьюдента для коэффициентов регрессии входит в программы ЭВМ и ПЭВМ для корреляционного анализа, например «Mikrostat», MAKR-4, «Statgraphics» и др.
Надежность установления связи можно проверить и по средней случайной ошибке коэффициента корреляции, вычисляемой по формуле:


Проверим значимость заведомо бессодержательного коэффициента корреляции надоя от коров с числом букв в названии сельхоз-предприятия:


Полученное значение t намного ниже его критического значения даже для значимости 0,1, составляющего 1,76. Следовательно, вероятность того, что нулевое значение коэффициента входит в возможный интервал его оценок значительно больше 0,1 и нулевая гипотеза не может быть отброшена. Конечно, анекдотический характер фактора «число букв» позволяет сделать решительный вывод об отсутствии связи. Если же проверяемый фактор на самом деле мог влиять на результативный признак, то вывод следует формулировать не в терминах отсутствия связи, а в том, что по изучаемой информации связь надежно не установлена.
Если коэффициент корреляции близок к единице, то распределение его оценок отличается от нормального или распределения Стьюдента, так как он ограничен величиной 1. В таких случаях Р. Фишер предложил для оценки надежности коэффициента преобразовывать его величину в форму, не имеющую такого ограничения:


Средняя ошибка величины z определяется по формуле


Величину z можно взять из табл. 6 приложения. Проверим этим способом надежность коэффициента корреляции надоя молока с затратами на 1 корову:


Значение критерия Стьюдента намного больше его критического значения для значимости 0,01. Следовательно, коэффициент корреляции с очень большой вероятностью больше нуля; связь установлена надежно. Для оценки надежности коэффициента корреляции можно воспользоваться таблицей критических значений для заданных уровней значимости (0,05 или 0,01) и числа степеней свободы (см. приложение, табл. 5).
Например, по выборке объемом 32 единицы получен парный коэффициент корреляции 0,319. Число степеней свободы для него равно 30, поскольку в расчете г участвуют две величины, значения которых закреплены - х? и у?. За счет этого мы теряем две степени свободы: 32 - 2. Так как критическое значение для 30 степеней свободы равно (при уровне значимости 0,05) 0,3494, то полученное значение ниже критического по модулю. Соответственно, гипотеза о связи признаков надежно не доказана. Неверен вывод и об отсутствии связи -он также надежно не доказан. Из табл. 5 приложения видно, что при малой выборке надежно можно установить только тесные связи, а при большой численности совокупности, например, 102 единицы, надежно измеряются и слабые связи. Этот вывод важен для практической работы по корреляционному анализу.
Можно рассчитать доверительный интервал оценки коэффициента корреляции с заданной вероятностью, скажем, 0,95. При этих условиях и 13 степенях свободы вариации значение t-критерия Стьюдента равно 2,16. Тогда доверительный интервал для z составит: 1,564 ± 2,16·0,2774, т. е. от 0,965 до 2,163. Подставив эти граничные значения z в формулу (8.18), получаем границы интервала значений коэффициента корреляции: от 0,974 до 0,747. Как видим, с большой вероятностью связь на самом деле является весьма тесной, коэффициент корреляции не ниже 0,7.

8.6. Применение парного линейного
уравнения регрессии

Прежде чем обсуждать вопросы использования уравнений парной регрессии, напомним, что парный корреляционный анализ не дает чистых мер влияния только одного изучаемого фактора. Если факторы взаимосвязаны, то парная связь измеряет влияние данного фактора и часть влияния прочих факторов, связанных с ним. И все же при тесной связи уравнение регрессии может стать полезным орудием анализа экономических, технологических, социальных или природных процессов.
Сравнивая фактические уровни надоя в табл. 8.1 с расчетными, т. е. такими, которые были бы получены при фактических затратах средств на корову и средней по совокупности эффективности, измеряемой коэффициентом регрессии, можно найти отклонения уi –?уi. Они показывают, насколько хозяйство получило от коров больше или меньше молока в условиях фактической эффективности использования средств, чем при средней по совокупности эффективности использования средств. Так, в хозяйстве № 6 получено от коровы в среднем 31,8 ц молока, хотя при низком уровне затрат 1355 руб. на корову и средней эффективности затрат было бы получено только по 26,5 ц молока. Фактически надой составил 120% к расчетному. Наоборот, хозяйство № 9 получило по 26,7 ц вместо расчетных 35,6 ц. Следовательно, эффективность использования средств на производство молока в этом хозяйстве (1616 руб. на корову) составила только 26,7 : 35,7 = 75% средней по совокупности.
Оценка хозяйственной деятельности по отклонениям от расчетных значений показателей на основе уравнений регрессии (тем более на основе многофакторных регрессионных моделей) гораздо более оправдана и содержательна, чем оценка результатов производства по отклонениям от среднего значения результативного признака в совокупности без учета факторов - характеристик возможностей и природных условий предприятия.
Уравнения регрессии применимо и для прогнозирования возможных ожидаемых значений результативного признака. При этом следует учесть, что перенос закономерности связи, измеренной в варьирующей совокупности, в статике на динамику не является, строго говоря, корректным и требует проверки условий допустимости такого переноса (экстраполяции), что выходит за рамки статистики и может быть сделано только специалистом, хорошо знающим объект (систему) и возможности его развития в будущем.
Ограничением прогнозирования на основании регрессионного уравнения, тем более парного, служит условие стабильности или по крайней мере малой изменчивости других факторов и условий изучаемого процесса, не связанных с ними. Если резко изменится "внешняя среда" протекающего процесса, прежнее уравнение регрессии результативного признака на факторный потеряет свое значение. В сильно засушливый год доза удобрений может не оказать влияния на урожайность сельскохозяйственной культуры, так как последнюю лимитирует недостаточная влагообеспеченность.
Прогнозируемое значение результативного показателя получается при подстановке в уравнение регрессии ожидаемой величины факторного признака. Так, если подставить в уравнение (8.14) расход средств на корову, равный 2200 руб., то получим ожидаемый надой молока от коровы, равный 55,85 ц. При таком прогнозировании следует соблюдать еще одно ограничение: нельзя подставлять значения факторного признака, значительно отличающиеся от входящих в базисную информацию, по которой вычислено уравнение регрессии. При качественно иных уровнях фактора, если они даже возможны в принципе, были бы другими параметры уравнения.
Можно рекомендовать при определении значений факторов не выходить за пределы трети размаха вариации как за минимальное, так и за максимальное значение признака-фактора, имевшееся в исходной информации.
Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения фактора, называют точечным прогнозом. Вероятность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значением средней ошибки прогноза или доверительным интервалам прогноза с достаточно большой вероятностью. Средняя ошибка положения линии регрессии в генеральной совокупности при значении факторного признака, равном хk, вычисляется для линии регрессии по формуле (8.20)

, (8.20)

где тyЮk - средняя ошибка положения линии регрессии в генеральной совокупности при х = хk,
п - объем выборки;
хk - ожидаемое значение фактора;
syост - оценка среднего квадратического отклонения результативного признака от линии регрессии в генеральной совокупности с учетом степеней свободы вариации.

По данным табл. 8.1 находим syост .

ц на одну корову


При хл = 2200 руб. на 1 голову имеем:

ц на 1 корову.

Для вычисления доверительных границ прогноза линии регрессии нужно умножить ее среднюю ошибку на t-критерий Стьюдента. При 14 степенях свободы и доверительной вероятности 0,95 (a = 0,05) значение t-критерия равно 2,14. Получаем доверительные границы:
55,85 ± 2,629·2,14, или от 50,22 до 61,48 ц от 1 коровы. Интервал довольно широкий. Значительная неопределенность прогноза линии регрессии связана с малым объемом выборки. При объеме совокупности, равном 400, и той же вариации надоев ошибка прогноза была бы в 5 раз меньше и доверительный интервал был бы уже.
Средняя ошибка прогноза для индивидуального значения по правилу о дисперсии суммы независимых переменных образуется из ошибки прогноза положения линии регрессии и среднего квадратического отклонения индивидуальных значений от линии регрессии (остаточной вариации), т. е.

. (8.21)

В нашем примере имеем:
ц на 1 корову.
Доверительные границы прогноза индивидуальных значений надоя молока на корову при расходе 2200 руб. на 1 голову составляют с вероятностью нахождения внутри границ, равной 0,95:
55,85 ± 4,568·2,14, или от 46,07 до 65,63 ц.
Главным источником ошибки неопределенности прогноза индивидуальных значений служит не столько неопределенность прогноза линии регрессии, сколько значительная вариация надоев за счет других факторов, кроме входящих в уравнение регрессии.

8.7. Вычисление параметров парной линейной
корреляции на основе аналитической
группировки

В главе 6 рассмотрен метод аналитической группировки, позволяющий установить наличие, вид и форму связи признаков. Но группировка не дает меры тесноты связи и уравнения регрессии. Теперь, пользуясь методикой корреляционно-регрессионного анализа, можно дополнить аналитическую группировку вычислением этих мер связи.
Возьмем в качестве примера приведенную в главе 6 группировку и рассчитаем необходимые показатели (см. табл. 8.2).
Таблица 8.2
Расчет корреляции по аналитической группировке

Группа предприятий по оборачваемости в днях
Число предприятий fj
Среднее число дней x'j
Средняя прибыль, млн руб.
y?j
y?j - y?
(y?j - y?)2
x' - x?
(x'j - x?) ґ (y?j - y?) fj
(x'j - x?)2fj
yЮxj
( yЮxj - y?)2 fj
А
1
2
3
4
5
6
7
8
9
10
40-50
6
45
14,57
2,80
47,04
-18
-302,4
1944
15,06
64,94
51 -70
8
60
12,95
1,18
11,14
-3
-28,0
72
12,36
2,78
71 - 101
6
86
7,40
-4,37
114,58
+23
-603,0
3174
7,69
99,88
Итого
20
63
11,77
-
172,76
-
-933,4
5190
11,77
167,60

Коэффициент линейной регрессии

,

свободный член уравнения регрессии
а = у? - bх? = 11,77 - (-0,18·63) = 23,15.
Итак, имеем уравнение связи: уЮ = 23,15 - 0,18х. Вычислим по этому уравнению расчетные значения прибыли уЮi для каждой группы. Подставив в уравнение середины интервалов групп х?', запишем уЮi в графу 9 табл. 8.2. Вариация расчетных значений прибыли связана с влиянием оборачиваемости х. Найдем сумму квадратов отклонений прибыли за счет вариации оборачиваемости - факторную вариацию (графа 10 табл. 8.2). Для расчета общей вариации результативного признака была вычислена сумма квадратов отклонений по индивидуальным данным:
.
Эта сумма квадратов - общая вариация объема прибыли - равна 222,4. Теперь можем построить меры тесноты связи:
теоретическое корреляционное отношение



эмпирическое корреляционное отношение (рассчитанное в гл. б)

.

Оба квадрата корреляционных отношений соответствуют по содержанию ранее рассмотренному коэффициенту детерминации (8.1) и (8.2) и интерпретируются как Показатели доли вариации результативного признака, объясняемой за счет вариации группировочного, факторного признака (и, конечно, связанных с ним прочих факторов). В данном примере связь является тесной. Различие в том, что в эмпирическом корреляционном отношении связь признаков не абстрагирована от случайных влияний прочих факторов на вариацию у, не связанных с вариацией х.
Наиболее рациональным приемом анализа и расчета параметров корреляционной связи с помощью группировки является построение так называемой «корреляционной решетки» (табл. 8.3). Это таблица, в которой изучаемая совокупность сгруппирована одновременно по обоим признакам, связь между которыми изучается (двумерное распределение). Число групп по признакам может быть как равным, так и неравным. Если наибольшие числа частот каждой строки и каждого столбца располагаются на первой диагонали (в табл. 8.3 эти цифры подчеркнуты), связь является прямой и близкой к линейной; если наибольшие числа частот располагаются вдоль второй диагонали (в табл. 8.3 эти цифры также подчеркнуты), связь обратная, линейная. Если частоты во всех клетках таблицы примерно равны, связи нет; если наибольшие числа расположены по дуге, связь криволинейная. В табл. 8.3 кроме частот приведены строки и графы для расчета необходимых сумм при вычислении параметров корреляционной

связи.

В табл. 8.3 наибольшие частоты в строках и графах расположены вдоль первой диагонали, что говорит в соответствии с логикой о прямой линейной связи возрастов женихов и невест. Связь эта далеко не полная; как видим, «любви все возрасты покорны», все клетки таблицы заполнены, значит, существуют браки между лицами любых возрастов.
Как средние величины признаков, так и все суммы, входящие в расчет параметров корреляции, при группировке взвешиваются на соответствующие частоты, поэтому формулы (8.9) и (8.11) приобретают следующий вид:
, (8.22)

, (8.23)

где x'i, yj. - середины интервалов i-й категории х и j-й категории y;
fi - частота i-го значения х;
fj - частота j-го значения у;
fij - частота совместного появления i-го значения х и j-гo значения у (это числа в клетках «корреляционной решетки»).

Взвешенные суммы квадратов отклонений подсчитаны и приведены в последней графе и в последней строке табл. 8.3. Для вычисления числителя в (8.22) и (8.23) необходимо умножить отклонения по обоим признакам (с учетом их знаков) на частоты совместного распределения и сложить все 25 произведений:
(-9).(-9,2)·18212 +1·(-9,2)·1914 + ... + 33·31,8·1701 = 5196031,6.
Это число записано в правом нижнем углу табл. 8.3. Рассчитаем параметры уравнения регрессии. Согласно (8.22)

Это означает, что в среднем с увеличением возраста женихов на 1 год возраст их невест возрастал на 0,83 года. Свободный член уравнения согласно (8.6)
a = 29,0 - 0,83·31,2 = 3,1.
Уравнение имеет вид:
у? = 3,1 + 0,83·х.
Так как оба признака равноправны, то можно получить уравнение зависимости среднего возраста жениха от возраста невесты. Поменяв местами х и у, получаем:

=0,859; а = 31,2 - 0,859·29 = 6,3; х? = 6,3 + 0,859у.

Коэффициент корреляции согласно формуле (8.23) составляет:


Коэффициент детерминации r2 = 71,3%, т. е. вариация возраста супруга или супруги на 71% зависит от вариации возраста «второй половины». Связь весьма тесная.
Конечно, расчет параметров корреляции на основе группировки является приближенным: реальные значения признаков заменяются серединами интервалов, а при открытых интервалах - их экспертными оценками. Не учитывается неравномерность изменения частот внутри интервалов. Казалось бы, с появлением программ для ЭВМ этот метод должен отмереть. Однако для больших совокупностей в десятки и сотни тысяч единиц большинство программ ввиду ограничений на объем оперативной памяти непригодно. Да и сам процесс занесения в память ЭВМ сотни тысяч чисел занял бы столь громадное время, что, выигрыш во времени расчета на ЭВМ был бы многократно превышен. Таким образом, иногда трудоемкость расчета с помощью группировки и простого калькулятора оказывается намного меньше, чем на ЭВМ, а степень точности достаточна для большинства задач анализа связи.

8.8. Коэффициент корреляции рангов

К мерам тесноты парной связи относится и предложенный английским психологом Ч. Спирменом (1863 - 1945) коэффициент корреляции рангов. Ранги - это порядковые номера единиц совокупности в ранжированном ряду. Если проранжировать совокупность по двум признакам, связь между которыми изучается, то полное совпадение рангов означает максимально тесную прямую связь, а полная противоположность рангов - максимально тесную обратную связь. Ранжировать оба признака необходимо в одном и том же порядке: либо от меньших значений признака к большим, либо наоборот. Если ранги единиц совокупности по признакам х и у обозначить какр^,, р ,, то коэффициент корреляции рангов согласно (8.11) имеет вид:

, (8.24)

где р?x = р?y - средние ранги в ряду натуральных чисел от 1 до п, равные, как известно, (п +1)/2. Также известно, что сумма квадратов отклонений чисел натурального ряда от их средней величины и равна (n3 - n)/12. Следовательно, знаменатель формулы (8.23) есть (п3 - п)/12.
Рассмотрим далее разности рангов di =pxi –pyi и сумму их квадратов:


Отсюда


Это числитель коэффициента корреляции рангов. Подставив в (8.24) найденные выражения для числителя и для знаменателя, имеем:


Это и есть формула Спирмена.
Преимущество коэффициента корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом, по личному обаянию и т. п, При экспертных оценках можно ранжировать оценки разных экспертов и найти их корреляции друг с другом, чтобы затем исключить из рассмотрения оценки эксперта, слабо коррелированные с оценками других экспертов. Коэффициент корреляции рангов, как будет показано в гл. 9, применяется для оценки устойчивости тенденции динамики.
Недостатком коэффициента корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для последних следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближенными мерами тесноты связи, обладающими меньшей информативностью, чем коэффициент корреляции числовых значений признаков.
В качестве примера рассчитаем коэффициент корреляции рангов по данным табл. 8.1 (табл. 8.4).
Коэффициент корреляции рангов по формуле Спирмена

Полученное значение больше коэффициента Фехнера, но намного ниже обычного коэффициента корреляции, составившего 0,916. Как видим, недоучет размеров отклонений признаков от их средних величин занижает меру тесноты связи.
Если среди значений признаков х и у встречается несколько одинаковых, образуются связанные ранги, т. е. одинаковые средние номера; например, вместо одинаковых по порядку третьего и четвертого значений признака будут два ранга по 3,5. В таком случае коэффициент Спирмена вычисляется как
, (8.26)

где:
;

j - номера связок по порядку для признака х;
Аj - число одинаковых рангов в j-й связке по х;
k - номера связок по порядку для признака у;
Вk — число одинаковых рангов в k-й связке по у.

Таблица 8.4
Расчет коэффициента корреляции рангов по данным табл. 8.1

Номера хозяйств
Ранг по затратам на 1 голову рx
Ранг по надою молока рy

d = px -py

d2
1
7
10
-3
9
2
1
1
0
0
3
2
3
-1
1
4
13
6
7
49
5
6
9
-3
9
6
3
5
-2
4
7
4
4
0
0
8
5
7
-2
4
9
9
2
7
49
10
14
14
0
0
11
11
12
-1
1
12
12
11
1
1
13
10
13
-3
9
14
8
8
0
0
15

<< Пред. стр.

страница 15
(всего 32)

ОГЛАВЛЕНИЕ

След. стр. >>

Copyright © Design by: Sunlight webdesign