LINEBURG


<< Пред. стр.

страница 4
(всего 32)

ОГЛАВЛЕНИЕ

След. стр. >>


Средняя квадратическая величина

Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменной сумму квадратов исходных величин, то средняя будет являться квадратической средней величиной (х^). Ее формула такова:


Например, имеются три участка земельной площади со сторонами квадрата: х1 = 100 м; х2 = 200 м; х3 =300 м. Заменяя разные значения длины сторон на среднюю, мы, очевидно, должны исходить из сохранения общей площади всех участков. Арифметическая средняя величина (100+ 200 + 300) : 3 =200 м не удовлетворяет этому условию, так как общая площадь трех участков со стороной 200 м была бы равна: 3•(200 м)2 = 120 000 м2. В то же время площадь исходных трех участков равна: (100 м)2 + (200 м) + (300 м)2 = 140 000 м . Правильный ответ дает квадратическая средняя:

Во второй части главы будет показано, что главной сферой применения квадратической средней в силу пятого свойства средней арифметической величины является измерение вариации признака в совокупности.
Аналогично, если по условиям задачи необходимо сохранить неизменной сумму кубов индивидуальных значений признака при их замене на среднюю величину, мы приходим к средней кубической, имеющей вид:


Средняя геометрическая величина

Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменным произведение индивидуальных величин, то следует применить геометрическую среднюю величину. Ее формула такова:


Основное применение геометрическая средняя находит при определении средних темпов роста, о чем сказано в главе 9. Пусть, например, в результате инфляции за первый год цена товара возросла в 2 раза к предыдущему году, а за второй год еще в 3 раза к уровню предыдущего года. Ясно, что за два года цена выросла в 6 раз. Каков средний темп роста цены за год? Арифметическая средняя здесь непригодна, ибо если за год цены возросли бы в раза, то за два года цена возросла бы в 2,5?2,5 = 6, 25 раза, а не в 6 раз. Геометрическая средняя дает правильный ответ: раза.
Геометрическая средняя величина дает наиболее правильный по содержанию результат осреднения, если задача состоит в нахождении такого значения признака, который качественно был бы равно удален как от максимального, так и от минимального значения признака. Например, если максимальный размер выигрыша в лотерее составляет миллион рублей, а минимальный - сто рублей, то какую величину выигрыша можно считать средней между миллионом и сотней? Арифметическая средняя явно непригодна, она составляет 500 050 руб., а это, как и миллион, крупный, никак не средний выигрыш; он качественно однороден с максимальным и резко отличен от минимального. Не дают верного ответа ни квадратическая средняя (707 107 руб.), ни кубическая (793 699 руб.), ни рассматриваемая далее гармоническая средняя (199,98 руб.), слишком близкая к минимальному значению. Только геометрическая средняя дает верный с точки зрения экономики и логики ответ: руб. Десять тысяч — не миллион, и не сотня! Это, действительно, нечто среднее между ними.

Средняя гармоническая величина

Если по условиям задачи необходимо, чтобы неизменной оставалась при осреднении сумма величин, обратных индивидуальным значениям признака, то средняя величина является гармонической средней.
Формула гармонической средней величины такова:

Например, автомобиль с грузом от предприятия до склада ехал со скоростью 40 км/ч, а обратно порожняком - со скоростью 60 км/ч.
Какова средняя скорость автомобиля за обе поездки? Пусть расстояние перевозки составляло s км. Никакой роли при расчете средней скорости величина s не играет. При замене индивидуальных значений скорости х1 = 60 и х2 = 40 на среднюю величину необходимо, чтобы неизменной величиной осталось время, затраченное на обе поездки, иначе средняя скорость может оказаться любой — от скорости чепепахи ло скорости света.


Арифметическая средняя 50 км в час неверна, так как приводит к другому времени движения, чем на самом деле. Если расстояние равно 96 км, то реальное время движения составит:

То же время дает гармоническая средняя:


Понятие степенной средней.
Соотношение между формами средних величин

Все рассмотренные выше виды средних величин принадлежат к общему типу степенных средних. Различаются они лишь показателем. Степенная средняя степени k есть корень k-й степени из частного от деления суммы индивидуальных значений признака в k-й степени на число индивидуальных значений:

При k = 1 получаем арифметическую среднюю, при k -2 - квад-рагическую, при k = 3 - кубическую, при k = 0 - геометрическую, при k = -1 — гармоническую среднюю. Чем выше показатель степени k, тем больше значение средней величины (если индивидуальные значения признака варьируют). Если все исходные значения признака равны, то и все средние равны этой константе. Итак, имеем следующее соотношение, которое называется правилом мажорантности средних:

Пользуясь этим правилом, статистика может в зависимости от настроения и желания ее «знатока» либо «утопить», либо «выручить» студента, получившего на сессии оценки 2 и 5. Каков его средний балл?
Если судить по средней арифметической, то средний балл равен 3,5. Но если декан желает «утопить» несчастного и вычислит среднюю гармоническую

то студент остается в среднем двоечником, не дотянувшим до тройки. Однако студенческий комитет может возразить декану и представить среднюю кубическую величину:

Студент уже выглядит «хорошистом» и даже претендует на стипендию! И только в том случае, если лентяй провалил оба экзамена, статистика помочь не в состоянии: увы, все средние из двух двоек равны все той же двойке!

5.4. Средняя величина как выражение
закономерности

После того как мы познакомились с различными видами и формами средних величин, включая и неявную их форму, можно перейти к понятию о средних. В широком понимании термина средней величиной является всякий обобщающий показатель, характеризующий обобщенное значение признака, связи признаков, их динамики и структуры в совокупности массовых явлений.
Так, средними в широком смысле слова являются такие показатели, как доля мужчин в общем числе жителей страны (ведь эта доля разная в разных регионах), плотность населения, коэффициент смертности, ожидаемая продолжительность жизни родившихся в данном году и др. Рассматриваемые далее в этой главе показатели вариации признака в совокупности, а также в главе 8 показатели корреляционной связи тоже средние в широком смысле слова, так как измеряют среднее различие между значениями одного признака у разных единиц совокупности или среднюю связь вариации одного признака с вариацией другого.
В такой же степени средними являются и показатели темпов роста продукции промышленности или национального дохода страны, обобщающие темпы разных отраслей и регионов; средними являются меры .колеблемости урожайности за ряд лет (гл. 9), обобщающие влияние на урожайность разных лет метеорологических и экономических условий производства.
Понятие средней в широком смысле слова сближается с такой философской категорией, как закон («закон есть общее в явлениях»), закономерность. Это далеко не случайное родство. Рассмотрим , сущность процесса осреднения на примере арифметической средней согласно формуле (5.1). Среднюю считаем типической, определенной по однородной совокупности. Однородность индивидуальных значений признака — это проявление их общих свойств, обусловленных основными условиями и закономерностями массового процесса, порождающего данную совокупность. Однако кроме общих условий, кроме закономерности на каждую единицу совокупности влияют индивидуальные, особенные условия, случайные события, не связанные причинно с общей закономерностью. Поэтому можно индивидуальные значения признака х, представить как состоящие из элемента, обусловленного общей закономерностью для всех единиц совокупности (обозначим этот элемент с), так и элемента ?i, индивидуального для каждой единицы совокупности. Итак, хi = с + ?i, где ?i может быть как положительной, так и отрицательной величиной, как малой, так и большой величиной в сравнении е c.
Теперь вычислим среднее значение признака для совокупности из п единиц:

Итак, средняя величина признака слагается из элемента, выражающего закономерность, общую для всей совокупности, и из средней величины элементов, отражающих индивидуальные условия отдельных единиц этой совокупности. Элементы Д, могут иметь положительные и отрицательные, большие и малые значения. При осреднении они согласно закону больших чисел взаимопогащаются в зависимости от объема совокупности: тем в большей мере, чем больше объем совокупности п. Об этом говорит формулировка закона больших чисел, данная великим русским математиком П. Л. Чебышевым (1821-1894). Чем больше объем однородной совокупности, тем полнее взаимопогашение случайных (по отношению к совокупности в целом и ее законам) элементов признака х; полнее и надежнее, с большей вероятностью среднее значение признака измеряет действие общих для совокупности закономерностей.
Однако случайная вариация индивидуальных величин признаков - это не только некоторая помеха, туман, «шум» в информационном смысле, затрудняющий познание закономерности. Вариация - неотъемлемая, необходимая черта, свойство массовых явлений, имеющее громадное самостоятельное значение в развитии природы и общества.
Создатель учения о средних величинах бельгийский статистик А, Кегле по этому поводу писал следующее: «В мире существует общий закон, предназначенный как бы для того, чтобы разливать жизнь во Вселенной; в силу этого закона все живущее подлежит бесконечному разнообразию... Каждый предмет подвержен флюктуациям» [4 Кетле А. Социальная система и законы ею управляющие: Пер. с фр СПб. 1866.-С. 16.]
.
В следующих разделах данной главы переходим к методам статистического изучения этого «общего закона Вселенной» - вариации массовых явлений и их признаков.

5.5. Вариация массовых явлений

Вариацией значений какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени.
В отличие от вариации различия значений признака у одного и того же объекта, у одной и той же единицы совокупности в разные моменты или периоды времени следует называть изменениями во времени и колебаниями. Методы их измерения и изучения отличаются принципиально от методов измерения вариации ( см. гл. 9).
Причиной вариации являются разные условия существования разных единиц совокупности. Даже однояйцовые близнецы в процессе своего развития приобретают различия в росте, весе, не говоря уже о таких признаках, как специальность, образование, заработная плата (доход), число детей и т.д. Еще больше причин влияют на различия промышленных предприятий, магазинов и т. д.
Вариация присуща всем без исключения явлениям природы и общества, кроме законодательно закрепленных нормативных значений отдельных социальных признаков: не варьирует признак «число председателей правления колхоза» — все они имеют по одному председателю. Не варьирующие признаки не представляют интереса для статистики; предметом изучения статистики является вариация. Большинство методов статистики - это либо методы измерения вариации, либо методы абстрагирования от нее.
Вариация, несомненно, необходимое условие существования и развития массовых явлений. Например, вариация геномов ( набора генов ) родительских организмов растений и животных обеспечивает жизнеспособность потомства. Близкородственный брак, т.е. слишком малая вариация геномов родителей, ведет к неполноценному потомству. Перекрестное опыление для многих растений - обязательное условие плодоношения. Гибридизация, т.е. получение потомства от неродственных, со значительной вариацией свойств сортов сельскохозяйственных растений и пород животных — важный прием повышения урожайности и продуктивности скота.
В то же время известно, что нельзя получить потомство от организмов со слишком разными свойствами — разных видов, родов и семейств, например от кошки и собаки. Чрезмерная вариация генотипов препятствует развитию. И в промышленном производстве, особенно массовом, вариация размеров, свойств деталей, из которых собирается станок, автомашина, телевизор, должна быть введена в жесткие рамки «допусков», т. е. пренебрежимо малых величин, чтобы сборка была возможной и не страдало качество собранного агрегата.
Итак, в жизни общества, как и в природе, каждой массовой совокупности, массовому процессу присуща некоторая специфическая мера вариации ее элементов, при которой данный процесс протекает оптимально.
Чтобы руководитель предприятия, менеджер, научный работник могли управлять вариацией и изучать ее, статистикой разработаны специальные методы исследования вариации, система показателей, с помощью которой вариация измеряется, характеризуются ее свойства.

5.6. Построение вариационного ряда.
Виды рядов. Ранжирование данных

Первым этапом статистического изучения вариации являются построение вариационного ряда - упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.
Существуют три формы вариационного ряда: ранжированный ряд, дискретный ряд, интервальный ряд. Вариационный ряд часто назы-вают рядом распределения. Этот термин используется при изучении вариации как количественных, так и неколичественных признаков. Ряд распределения представляет собой структурную группировку (см. гл. 6).
Ранжированный ряд — это перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.
Примером ранжированного ряда может служить табл. 5.5.

Таблица 5.5
Крупные банки Санкт-Петербурга, ранжированные по размерам
собственного капитала на 01.07.96

Название банка
Собственный капитал, млрд руб.
Петроагропромбанк 71
Петровский 146
Балтийский 196
Банк Санкт-Петербург 201
Промстройбанк 731


Если численность единиц совокупности достаточно велика, ранжированный ряд становится громоздким, а его построение, даже с помощью ЭВМ, занимает длительное время. В таких случаях вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.
Если признак принимает небольшое число значений, строится дискретный вариационный ряд. Примером такого ряда является распределение футбольных матчей по числу забитых мячей (табл. 5.1). Дискретный вариационный ряд - это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака хi и числа единиц совокупности с данным значением признака fi частот (f - начальная буква англ. слова frequency).

Определение числа групп

Число групп в дискретном вариационном ряду определяется числом реально существующих значений варьирующего признака. Если же признак может принимать хотя и дискретные значения, но их число очень велико ( например, поголовье скота на 1 января года в разных сельхозпредприятиях может составлять от нуля до десятков тысяч голов), тогда строится интервальный вариационный ряд. Интервальный вариационный ряд строится и для изучения признаков, которые могут принимать любые, как целые, так и дробные, значения в области своего существования. Таковы, например, рентабельность реализованной продукции, себестоимость единицы продукции, доход на 1 жителя города, доля лиц с высшим образованием среди населения разных территорий и вообще все вторичные признаки, значения которых рассчитываются путем деления величины одного первичного признака на величину другого (см. гл. 3).
Интервальный вариационный ряд представляет собой таблицу, (состоящую из двух граф (или строк) — интервалов признака, вариация которого изучается, и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа от общей численности совокупности (частостей).
При построении интервального вариационного ряда необходимо выбрать оптимальное число групп (интервалов признака) и установить длину интервала. Поскольку при анализе вариационного ряда сравнивают частоты в разных интервалах, необходимо, чтобы величина интервала была постоянной. Оптимальное число групп выбирается так, чтобы в достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределения, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.
Чаще всего число групп в вариационном ряду устанавливают, придерживаясь формулы, рекомендованной американским статистиком Стерджессом (Sturgess):

где k - число групп; n - численность совокупности.

Эта формула показывает, что число групп - функция объема данных.
Предположим, необходимо построить вариационный ряд распределения предприятий области по урожайности зерновых культур за какой-то год. Число сельхозпредприятий, имевших посевы зерновых культур, составило 143; наименьшее значение урожайности равно 10,7 ц/га, наибольшее - 53,1 ц/га. Имеем:

Так как число групп целое, следовательно, рекомендуется построить 8 или 9 групп.

Определение величины интервала

Зная число групп, рассчитывают величину интервала:

В нашем примере величина интервала составляет:
а) при 8 группах

б) при 9 группах

Для построения ряда и анализа вариации значительно лучше иметь по возможности округленные значения величины интервала и его границ. Поэтому наилучшим решением будет построение вариационного ряда с 9 группами с интервалом, равным 5 ц/га. Этот вариационный ряд приведен в табл. 5.6, а его графическое изображение дано на рис. 5.1.
Границы интервалов могут указываться разным образом: верхняя граница предыдущего интервала повторяет нижнюю границу следующего, как показано в табл. 5.6, или не повторяет.
В последнем случае второй интервал будет обозначен как 15,1-20, третий как 20,1-25 и т.д., т.е. предполагается, что все значения урожайности обязательно округлены до одной десятой. Кроме того, возникает нежелательное осложнение с серединой интер- вала 15,1-20, которая, строго говоря, уже будет равна не 17,5, а 17,55; соответственно при замене округленного интервала 40-60 на 40,1-6,0 вместо округленного значения его середины 50 получим 50,5, Поэтому предпочтительнее оставить интервалы с повторяющейся округленной границей и договориться, что единицы совокупности, имеющие значение признака, равное границе интервала, включаются в тот интервал, где это точное значение впервые указывается. Так, хозяйство, имеющее урожайность, равную 15 ц/га, включается в первую группу, значение 20 ц/га -во вторую и т. д.

Рис. 5.1. Распределение хозяйств по урожайности

Таблица 5.6
Распределение хозяйств области по урожайности зерновых культур

Группы хозяйств по урожайности,
ц/га хj
Число хозяйств
fj
Середина интервала,
ц/га хj'

x’j
Накопленная частота f’j
10- 15
6
12,5
75,0
б
15-20
9
17,5
157,5
15
20-25
20
22,5
450,0
35
25 -30
41
27,5
1127,5
76
30-35
26
32,5
845,0
102
35-40
21
37,5
787,5
123
40-45
14
42,5
595,0
137
45 - 50
5
47,5
23-7,5
142
50-55
1
52,5
52,5
143
Итого
143

4327,5

Графическое изображение вариационного ряда
Существенную помощь в анализе вариационного ряда и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные на оси абсцисс, — это интервалы значений варьирующего признака, а высоты столбиков - частоты, -соответствующие масштабу по оси ординат. Графическое изображение распределения хозяйств области по урожайности зерновых культур приведено на рис. 5.1. Диаграмма этого рода часто называется гистограммой (от греческого слова «гистос» - ткань, строение).
Данные табл. 5.5 и рис. 5.1 показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже - крайние; малые и большие значения признака. Форма этого распределения близка к рассматриваемому в курсе математической статистики закону нормального распределения. Великий русский математик А. М. Ляпунов (1857 - 1918) доказал, что нормальное распределение образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего влияния. Случайное сочетание множества примерно равных факторов, влияющих на вариацию урожайности зерновых культур, как природных, так и агротехнических, экономических, создает близкое к нормальному закону распределения распределение хозяйств области по урожайности.
Если имеется дискретный вариационный ряд или используются середины интервалов, то графическое изображение такого вариационного ряда называется полигоном (от греч. слова - многоугольник). Каждый из вас легко построит этот график, соединяя прямыми точки с координатами х, и /.
Отношение высоты полигона или диаграммы к их основанию рекомендуется в пропорции примерно 5:8.

Понятие частости
Если в табл. 5.6 число хозяйств с тем или иным уровнем урожайности выразить в процентах к итогу, принимая все число хозяйств (143) за 100%, то средняя урожайность может быть вычислена так:

где w - частость 7-й категории вариационного ряда;


Кумулятивное распределение
Преобразованной формой вариационного ряда является ряд накопленных частот, приведенный в табл. 5.6, графа 5. Это ряд значений числа единиц совокупности с меньшими и равными нижней границе соответствующего интервала значениями признака. Такой ряд называется кумулятивным. Можно построить кумулятивное распределение «не меньше, чем», а можно «больше, чем». В первом случае график кумулятивного распределения называется кумулятой, во втором - огивой (рис. 5.2).

Плотность, распределения
Если приходится иметь дело с вариационным рядом с неравными интервалами, то для сопоставимости нужно частоты или частости привести к единице интервала. Полученное отношение называется плотностью распределения:


Плотность распределения используется как для расчета обобщающих показателей, так и для графического изображения вариационных рядов с неравными интервалами.


Рис. 5.2. Огива и кумулята распределения по урожайности

5.7. Структурные характеристики вариационного
ряда

Медиана распределения
При изучении вариации применяются такие характеристики вариационного ряда, которые описывают количественно его структуру, строение. Такова, например, медиана- величина варьирующего признака, делящая совокупность на две равные части ˜ со значениями признака меньше медианы И со значениями признака больше медианы (третьего банка из пяти в табл. 5.5, т.е. 196 млрд руб.).
На примере табл. 5.5 видно принципиальное различие между медианой и средней величиной. Медиана не зависит от значений признака на краях ранжированного ряда. Если бы даже капитал крупнейшего банка Санкт-Петербурга был вдесятеро больше, величина медианы не изменилась бы. Поэтому часто медиану используют как более надежный показатель типичного значения признака, нежели арифметическая средняя, если ряд значений неоднороден, включает резкие отклонения от средней. В данном ряду средняя величина собственного капитала, равная 269 млрд руб., сложилась под большим влиянием наибольшей варианты. 80% банков имеют капитал меньше среднего и лишь 20% - больше. Вряд ли такую среднюю можно считать типичной величиной. При четном числе единиц совокупности за медийну принимают арифметическую среднюю величину из двух центральных вариант, например при десяти значениях признака - среднюю из пятого и шестого значений в ранжированном ряду.
В интервальном вариационном ряду для нахождения медианы применяется формула (5.14).

где Me - медиана;
х0 - нижняя граница интервала, в котором находится медиана;
f’ Mе-1 - накопленная частота в интервале, предшествующем медианному;
fMe - частота в медианном интервале;
i - величина интервала;
k - число групп.

В табл. 5,6 медианным является среднее из 143 значений, т.е. семьдесят-второе от начала ряда значение урожайности. Как видно из ряда накопленных частот, оно находится в четвертом интервале. Тогда

При нечетном числе единиц совокупности номер медианы, как видим, равен не , как в формуле (5.14), a , но это различие несущественно и обычно игнорируется на практике.
В дискретном вариационном ряду медианой следует считать значение признака в той группе, в которой накопленная частота;
превышает половину численности совокупности. Например, для, данных табл. 5.1 медианой числа забитых за игру мячей будет 2.

Квартили распределения
Аналогично медиане вычисляются значения признака, делящие совокупность на четыре равные по числу единиц части. Эти величины называются квартилями и обозначаются заглавной латинской' буквой Q с подписным значком номера квартиля. Ясно, что Q2 совпадает с Me. Для первого и третьего квартилей приводим формулы и расчет по данным табл. 5.6.

Так как Q2= Me = 29,5 ц/га, видно, что различие между первым квартилем и медианой меньше, чем между медианой и третьим квартилем. Этот факт свидетельствует о наличии некоторой несимметричности в средней области распределения, что заметно и на рис. 5.1.
Значения признака, делящие ряд на пять равных частей, называют квинтилями, на десять частей - децилями, на сто частей -перцентилями. Поскольку эти характеристики применяются лишь при необходимости подробного изучения структуры вариационного ряда, приводить их формулы и расчет не будем.

Мода распределения
Бесспорно, важное значение имеет такая величина признака, которая встречается в изучаемом ряду, в совокупности чаще всего. Такую величину принято называть модой и обозначать Мо. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой. Например, по данным табл. 5.1 чаще всего за футбольный матч было забито 2 мяча - 71 раз. Модой является число 2. Обычно встречаются ряды с одним модальным значением признака. Если два или несколько равных (и даже несколько различных, но больших, чем соседние) значений признака имеются в вариационном ряду, он считается соответственно бимодальным («верблюдообразным») либо мультимодальным. Это говорит о неоднородности совокупности, возможно, представляющей собой агрегат нескольких совокупностей с разными модами.
Так и в толпе туристов, приехавших из разных стран, вместо одной, преобладающей среди местных жителей модной одежды можно встретить смесь разных «мод», принятых у разных народов мира.
В интервальном вариационном ряду, тем более при непрерывной вариации признака, строго говоря, каждое значение признака встречается только один раз. Модальным интервалом является интервал с наибольшей частотой.. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения, т.е. число единиц совокупности, приходящееся на единицу измерения варьирующего признака, достигает максимума. Это условное значение и считается точечной модой. Логично предположить, что такая точечная мода располагается ближе к той из границ интервала, за которой частота в соседнем интервале больше частоты в интервале за другой границей модального интервала. Отсюда имеем обычно применяемую формулу (5.15):


где x0 - нижняя граница модального интервала;
fMo - частота в модальном интервале;
fMo-1 - частота в предыдущем интервале;
fMo+1 - частота в следующем интервале за модальным;
i - величина интервала.

По данным табл. 5.6 рассчитаем моду:

Вычисление моды в интервальном ряду весьма условно. Приближенно Мо может быть определена графически (см. рис. 5.1).
К изучению структуры вариационного ряда средняя арифметическая величина тоже имеет отношение, хотя основное значение этого обобщающего показателя другое. В ряду распределения хозяйств по урожайности (табл. 5.6) средняя величина урожайности вычисляется как взвешенная по частоте середина интервалов х (по формуле (5.2)):


Соотношение между средней величиной, медианой и модой
Различие между средней арифметической величиной, медианой и модой в данном распределении невелико. Если распределение по форме близко к нормальному закону, то медиана находится между , модой и средней величиной, причем ближе к средней, чем к моде.
При правосторонней асимметрии х? > Me > Mo;
при левосторонней асимметрии х? < Me < Mo.
Для умеренно асимметричных распределений справедливо равенство:


5.8. Показатели размера и интенсивности
вариации

Абсолютные средние размеры вариации
Следующим этапом изучения вариации признака в совокупности является измерение характеристик силы, величины вариации. Простейшим из них может служить размах или амплитуда вариации -абсолютная разность между максимальным и минимальным значениями признака из имеющихся в изучаемой совокупности значений. Таким образом, размах вариации вычисляется по формуле

Поскольку величина размаха характеризует лишь максимальное различие значений признака, она не может измерять закономерную силу его вариации во всей совокупности. Предназначенный для данной цели показатель должен учитывать и обобщать все различия значений признака в совокупности без исключения. Число таких различий равно числу сочетаний по два из всех единиц совокупности; по данным табл. 5.6 оно составит: С^ = 10 153. Однако нет необходимости рассматривать, вычислять и осреднять все отклонения. Проще использовать среднюю из отклонений отдельных значений признака от среднего арифметического значения признака, а таковых всего 143. Но среднее отклонение значений признака от средней арифметической величины согласно известному свойству последней равно нулю. Поэтому показателем силы вариации выступает не алгебраическая средняя отклонений, а средний модуль отклонений:

По данным табл. 5.6 средний модуль, или среднее линейное отклонение, по абсолютной величине вычисляется как взвешенное по частоте отклонение по модулю середин интервалов от средней арифметической величины, т.е. по формуле

Это означает, что в среднем урожайность в изучаемой совокупности хозяйств отклонялась от средней урожайности по области на 6,85 ц/га. Простота расчета и интерпретации составляют положительные стороны данного показателя, однако математические свойства модулей «плохие»: их нельзя поставить в соответствие с каким-либо вероятностным законом, в том числе и с нормальным распределением, параметром которого является не средний модуль отклонений, а среднее квадратическое отклонение (в англоязычных программах для ЭВМ называемое «the standard deviation», сокращенно «s.d.» или просто «s», в русскоязычных - СКО). В статистической литературе среднее квадратическое отклонение от средней величины принято обозначать малой (строчной) греческой буквой сигма (ст) или s (см. гл. 7):
для ранжированного ряда

для интервального ряда

По данным табл. 5.6 среднее квадратическое отклонение урожайности зерновых составило:

Следует указать, что некоторое округление средней величины и середин интервалов, например до целых, мало отражается на величине у, которая составила бы при этом 8,55 ц/га.
Среднее квадратическое отклонение по величине в реальных совокупностях всегда больше среднего модуля отклонений. Соотношение (у : а зависит от наличия в совокупностях резких, выделяющихся отклонений и может служить индикатором «засоренности» совокупности неоднородными с основной массой элементами: чем это соотношение больше, тем сильнее подобная «засоренность». Для нормального закона распределения у : а = 1,2.

Понятие дисперсии
Квадрат среднего квадратического отклонения дает величину дисперсии у2. Формула дисперсии:
простая (для несгруппйрованных данных):

или
взвешенная (для сгруппированных данных):


На дисперсии основаны практически все методы математической статистики. Большое практическое значение имеет правило сложения дисперсий (см. гл. 6).

Другие меры вариации
Еще одним показателем силы вариации, характеризующим ее не по всей совокупности, а лишь в ее центральной части, служит среднее квартцлъное расстояние, т.е. средняя величина разности между квартилями, обозначаемое далее как q:


Для распределения сельхозпредприятий по урожайности в табл. 5.2
q = (36,25 - 25,09): 2 = 5,58 ц/га. Сила вариации в центральной части совокупности, как правило, меньше, чем в целом по всей совокупности. Соотношение между средним модулем отклонений и средним квартальным отклонением также служит для изучения структуры вариации: большое значение такого соотношения говорит о наличии слабоварьирующего «ядра» и сильно рассеянного вокруг этого ядра окружения, или «гало» в изучаемой совокупности. Для данных табл. 5.6 соотношение а: q = 1,23, что говорит о небольшом различии силы вариации в центральной части совокупности и на ее периферии.
Для оценки интенсивности вариации и для сравнения ее в разных совокупностях и тем более для разных признаков необходимы относительные показатели вариации. Они вычисляются как отношения абсолютных показателей силы вариации, рассмотренных ранее, к средней арифметической величине признака. Получаем следующие показатели:
1) относительный размах вариации р:

2) относительное отклонение по модулю т:

3) коэффициент вариации как относительное квадратическое отклонение v:

4) относительное квартальное расстояние d:

где q - среднее квартильное расстояние.

Для вариации урожайности по данным табл. 5,6 эти показатели составляют:
с = 42,4 : 30,3 = 1,4, или 140%;
т = 6,85 : 30,3 = 0,226, или 22,6%;
v = 8,44 : 30,3 = 0,279, или 27,9%;
d= 5,58 : 30,3 = 0,184, или 18,4%.

Оценка степени интенсивности вариации возможна только для каждого отдельного признакам совокупности определенного состава. Так, для совокупности сельхозпредприятий вариация урожайности в одном и том же природном регионе может быть оценена как слабая, если v < 10%, умеренная при 10% < v < 25% и сильная при v > 25%.
Напротив, вариация роста в совокупности взрослых мужчин или женщин уже при коэффициенте, равном 7%, должна быть оценена и воспринимается людьми как сильная. Таким образом, оценка интенсивности вариации состоит в сравнении наблюдаемой вариации с некоторой обычной ее интенсивностью, принимаемой за норматив. Мы привыкли к тому, что урожайность, заработок или доход на душу, число жилых комнат в здании могут различаться в несколько и даже десятки раз, но различие роста людей хотя бы в полтора раза уже воспринимается как очень сильное.
Различная сила, интенсивность вариации обусловлены объективными причинами. Например, цена продажи доллара США в коммерческих банках Санкт-Петербурга на 24 января 1997 г. варьировала от 5675 до 5640 руб. при средней цене 5664 руб. Относительный размах вариации с = 35:5664 = 0,6%. Такая малая вариация вызвана тем, что при значительном различии курса доллара немедленно произошел бы отлив покупателей из «дорогого» банка в более «дешевые». Напротив, цена килограмма картофеля или говядины в разных регионах России варьирует очень сильно - на десятки процентов и более. Это объясняется разными затратами на доставку товара из региона-производителя в регион-потребитель, т.е. пословицей «телушка за морем - полушка, да рубль перевоз».

5.9. Моменты распределения и показатели
его формы

Центральные моменты распределения
Для дальнейшего изучения характера вариации используются средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели получили название центральных моментов распределения порядка, соответствующего степени, в которую возводятся отклонения (табл. 5.7), или просто моментов (нецентральные моменты используются редко и здесь не будут рассматриваться). Величина третьего момента ц-, зависит, как и его знак, от преобладания положительных кубов отклонений над отрицательными кубами либо наоборот. При нормаль- ном и любом другом строго симметричном распределении сумма положительных кубов строго равна сумме отрицательных кубов.

Показатели асимметрии
На основе момента третьего порядка можно построить показатель, характеризующий степень асимметричности распределения:



As называют коэффициентом асимметрии. Он может быть рассчитан как по сгруппированным, так и по несгруппированным данным. По данным табл. 5.6 показатель асимметрии составил:



т.е. асимметрия незначительна. Английский статистик К. Пирсон на основе разности между средней величиной и модой предложил другой показатель асимметрии




Таблица 5.7
Центральные моменты


По данным табл. 5.6 показатель Пирсона составил:



Показатель Пирсона зависит от степени асимметричности в средней части ряда распределения, а показатель асимметрии, основанный на моменте третьего порядка, - от крайних значений признака. Таким образом, в нашем примере в средней части распределения асимметрия более значительна, что видно и по графику (рис. 5.1). Распределения с сильной правосторонней и левосторонней (положительной и отрицательной) асимметрией показаны на рис. 5.3.

Характеристика эксцесса распределения
С помощью момента четвертого порядка характеризуется еще более сложное свойство рядов распределения, чем асимметрия, называемое эксцессом.


Рис. 5.3. Асимметрия, распределения


Показатель эксцесса рассчитывается по формуле
(5.30)



Часто эксцесс интерпретируется как «крутизна» распределения, но это неточно и неполно. График распределения может выглядеть сколь угодно крутым в зависимости от силы вариации признака: чем слабее вариация, тем круче кривая распределения при данном масштабе. Не говоря уже о том, что, изменяя масштабы по оси абсцисс и по оси ординат, любое распределение можно искусствен но сделать «крутым» и «пологим». Чтобы показать, в чем состоит эксцесс распределения, и правильно его интерпретировать, нужно сравнить ряды с одинаковой силой вариации (одной и той же величиной у) и разными показателями эксцесса. Чтобы не смешать эксцесс с асимметрией, все сравниваемые ряды должны быть симметричными. Такое сравнение изображено на рис. 5.4.

Рис.5.4. Эксцесс распределений

Для вариационного ряда с нормальным распределением значе- i ний признака показатель эксцесса, рассчитанный по формуле (5.30), j равен трем.
Однако такой показатель не следует называть термином «эксцесс», что в переводе означает «излишество». Термин «эксцесс» следует применять не к самому отношению по формуле (5.30), а к сравнению такого отношения для изучаемого распределения с величиной данного отношения нормального распределения, т.е. с величиной 3. Отсюда окончательные формулы показателя эксцесса, т.е. излишества в сравнении с нормальным распределением при той же силе вариации, имеют вид:
для ранжированного ряда


для интервального и дискретного вариационного ряда


Наличие положительного эксцесса, как и ранее отмеченного значительного различия между малым квартальным расстоянием и большим средним квадратическим отклонением, означает, что в изучаемой массе явлений существует слабо варьирующее по данному признаку «ядро», окруженное рассеянным «гало». При существенном отрицательном эксцессе такого «ядра» нет совсем.
По значениям показателей асимметрии и эксцесса распределения можно судить о близости распределения к нормальному, что бывает существенно важно для оценки результатов корреляционного и регрессионного анализа, возможностей вероятностной оценки прогнозов (см. главы 7,8,9). Распределение можно считать нормальным, а точнее говоря - не отвергать гипотезу о сходстве фактического распределения с нормальным, если показатели асимметрии и эксцесса не превышают своих двукратных средних квадратических отклонений Стц, и <т^. Эти средние квадратические отклонения вычисляются по формулам:



5.10. Предельно возможные значения
показателей вариации и их применение

Применяя любой вид статистических показателей, полезно знать, каковы предельно возможные значения данного показателя для изучаемой системы и каково отношение фактически наблюдаемых значений к предельно возможным. Особенно актуальна эта проблема при изучении вариации объемных показателей, таких, как объем производства определенного вида продукции, наличие определенных ресурсов, распределение капиталовложений, доходов, прибыли. Рассмотрим теоретически и практически данный вопрос на примере распределения производства овощей между сельхозпредприятиями в районе.
Очевидно, что минимально возможное значение показателей вариации достигается при строго равномерном распределении объемного признака между всеми единицами совокупности, т. е. при одинаковом объеме производства в каждом из сельхозпредприятий. В таком предельном (конечно, весьма маловероятном на практике) распределении вариация отсутствует и все показатели, вариации равны нулю.
Максимально возможное значение показателей вариации достигается при таком распределении объемного признака в совокупности, при котором весь его объем сосредоточен в одной единице совокупности; например, весь объем производства овощей - в одном сельхозпредприятий района при отсутствии их производства в остальных хозяйствах. Вероятность такого предельно возможного сосредоточения объема признака в одной единице совокупности не столь уж мала; во всяком случае она гораздо больше вероятности строго равномерного распределения.
Рассмотрим показатели вариации при указанном предельном случае ее максимальности. Обозначим число единиц совокупности п, среднюю величину признака х?, тогда общий объем признака в совокупности выразится как х?п . Весь этот объем сосредоточен у одной единицы совокупности, так что хmax= х?п. хmin = 0, откуда следует, что максимальное значение амплитуды (размаха вариации) равно:


Для вычисления максимальных значений средних отклонений по модулю и квадратического построим таблицу отклонений (табл. 5.8) [5 См.: Кривенкова Л. Н„ Юзбашев М. М. Область существования показателей вариации и ее применение//Вестник статистики. - 1991. - № 6. -С. 66-70.]
.






Таблица5.8
Модули и квадраты отклонений от средней при максимально

<< Пред. стр.

страница 4
(всего 32)

ОГЛАВЛЕНИЕ

След. стр. >>

Copyright © Design by: Sunlight webdesign