LINEBURG


<< Пред. стр.

страница 12
(всего 32)

ОГЛАВЛЕНИЕ

След. стр. >>

При любом виде проектируемой выборки расчет объема выборки начинают по формуле повторного отбора (7.20). Если в результате расчета п доля отбора превысит 5%, проводят второй вариант расчета по формуле бесповторного отбора, либо по формуле (7.21), либо как
.

Если доля отбора меньше 5%, к формуле бесповторного отбора не переходят, так как это не скажется существенно на величине п.
Выборка должна быть такой, чтобы выборочные показатели по всем основным характеристикам были репрезентативны. Поэтому численность выборки рассчитывают многократно исходя из допустимых ошибок разных показателей, значения которых в генеральной совокупности известны.
Например, при выборочном учете детей школьного возраста требуется определить число семей, которые надо обследовать. При этом надо учесть: а) число детей в возрасте 6-7 лет, б) число детей в возрасте 6-15 лет; в) число детей в возрасте 16-17 лет;
г) среднедушевой доход (например, для решения вопроса о строительстве базы отдыха).
Так как репрезентируемые признаки могут иметь разную размерность, то допустимая погрешность для каждого их них задается в виде относительной величины (? : х?) (например, планируется, что в определении среднего размера семьи ошибка должна быть не больше 2%, в определении дохода - не больше 3% и т.д.). В этом случае вместо дисперсии в формуле (7.20) берется квадрат коэффициента вариации.
Вычислив значение п, на основе каждой из характеристик получаем разные объемы выборки: 1200; 300; 700; 100. Обследовать необходимо 1200 семей, т.е. из рассчитанных численностей берется максимальная. При резких различиях необходимых объемов выборки для разных вопросов программы проводится многофазный отбор. В рассмотренном примере среднедушевой доход достаточно учитывать в одной из каждых 12 семей, попавших в выборку.
Многофазный отбор, как правило, довольно сложно организовать, может быть нарушен принцип случайности отбора. Поэтому для обеспечения репрезентативности оказывается выгоднее затратить больше средств на учет большего числа единиц совокупности. Многофазный отбор целесообразно применять, если соотношение между рассчитанными объемами выборки по крайней мере 1:6.
Поскольку расчет необходимой численности выборки основан не на точных, а на предположительных данных о колеблемости в совокупности, следует соблюдать следующие рекомендации: абсолютную величину п округлять только вверх; долю отбора округлять только вниз, т.е. из предосторожности планировать несколько больший объем выборки, чем показывают расчеты.
Объем многоступенчатой выборки рекомендуется увеличить не менее чем на 10% от рассчитанной численности, поскольку, как было показано в предыдущем параграфе, многоступенчатость отбора увеличивает ошибку выборки.
После проведения выборки рассчитывают возможные ошибки . выборочных показателей (ошибки репрезентативности), которые используются для оценки результатов выборки и для получения характеристик генеральной совокупности.
Пример. На электроламповом заводе взято для проверки 100 ламп. Средняя продолжительность их горения оказалась 1420 ч со средним квадратическим отклонением 61,03 ч. Поскольку приемщика продукции интересует качество всей партии (50 тыс. электроламп), оценивают точность полученной средней. Средняя возможная ошибка вычисленной выборочной средней
ч.

С вероятностью 0,954 предел возможной ошибки
?х = 2•6,1 = ± 12,2 ч.
С вероятностью 0,954 можно утверждать, что средняя продолжительность горения 1 электролампы во всей партии будет находиться в пределах от 1408 до 1432 ч; 46 электроламп из 1000 могут иметь срок горения, выходящий за эти пределы.
Приемщика продукции интересуют отклонения от вычисленных пределов только в сторону сокращения продолжительности горения. Меньше чем 1408 ч могут гореть 23 лампы из 1000. На основании этого приемщик продукции решает вопрос о годности всей партии электроламп.
Решение вопроса может быть уточнено: определим, у какой доли ламп срок службы окажется меньше установленного лимита. Для потребителя продукции таким лимитом являются 1410 ч, продукция с меньшим сроком горения неприемлема.
При контрольной проверке 100 ламп 100 ламп горели менее 1410 ч, их удельный вес р = 0,1, или 10%. Средняя возможная ошибка этой доли
, или ± 3%.
С вероятностью 0,954 предел ошибки доли Д^ = 2 • 0,03 = ± 0,06, или ±6%. Следовательно, во всей партии можно ожидать от 4 до 16% некачественных электроламп.
Чаще всего делают заключение об удовлетворительности выборки, сопоставляя получившиеся пределы ошибок выборочных показателей с величинами допустимых погрешностей. Может получиться, что предел ошибки, рассчитанный с заданной вероятностью, окажется выше допустимого размера погрешности. В этих случаях определяют вероятность того, что ошибка выборки не превзойдет допускаемую погрешность. Решение этой задачи и заключается в отыскании Fft) на основе формулы предела ошибки выборки:
,

где ? - допустимый размер погрешности оцениваемого показателя;
s2 - дисперсия показателя, рассчитанная по данным выборочного наблюдения;
п — объем проведенной выборки.

Продолжим пример с оценкой качества электроламп. Если при приемке партии электроламп ставится условие, что минимальный срок горения электроламп 1410 ч, то, учитывая среднюю продолжительность горения по выборке (х= 1420 ч), допустимая погрешность равна 10 ч: 1410 - 1420 = - 10 ч.
Как было установлено выше, с вероятностью 0,954 предел возможной ошибки выборочной средней составил 12,2 ч, что превосходит допустимую погрешность. Является ли это основанием для браковки всей партии? Для ответа на этот вопрос определяют вероятность риска при приемке продукции:
, отсюда t= 1,64.
Соответствующая доверительная вероятность 0,899 (см. приложение, табл. 1). Вероятность того, что средний срок горения лампы меньше 1410 ч, равна:

Следовательно, из 100 ламп 5 могут гореть менее 1410 ч - риск появления некачественной продукции достаточно высок.
Аналогично можно определить вероятность того, что предел ошибки доли не превысит допускаемую погрешность доли.
Оценки надежности выборочных показателей, как показано на примере, позволяют принять обоснованные решения в отношении генеральной совокупности.

7.6. Распространение данных выборочного
наблюдения на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности на основе данных, полученных по выборке. При этом исходят из того, что все средние и относительные показатели, полученные по выборке, являются несмещенными и эффективными характеристиками генеральной совокупности.
Выборочные средние и относительные величины распространяются на генеральную совокупность обязательно с учетом предела их возможной ошибки. Приводится выборочный показатель со справкой о пределах ошибки с указанием доверительной вероятности: x? ± ?x, p ± ?p. Или же указывают границы значений генеральной характеристики с определенной вероятностью F(t):


Последняя форма записи является основной.
Иногда требуется указать только один (верхний или нижний) предел характеристики генеральной совокупности. При испытании качества продукции часто нас не интересуют положительные ошибки выборки (качество фактически выше, чем получилось по выборке), беспокоит нижний предел, как в примере, рассмотренном в предыдущем параграфе. В некоторых случаях, напротив, интерес вызывают верхние границы оцениваемых показателей, например при анализе расхода материалов. Так что при характеристике генеральной совокупности всегда указывают неблагоприятный предел.
На основе выборки могут быть получены и значения объемных показателей, т. е. подсчетов для генеральной совокупности. Такой расчет осуществляется двумя способами: путем прямого расчета и способом коэффициентов. Прямой расчет заключается в том, что выборочная средняя или доля умножается на объем генеральной совокупности:
.
Так как средняя величина имеет ошибку репрезентативности ± А д то можно считать, что итоговый подсчет в генеральной совокупности находится в пределах
(7.24)
Итоговый подсчет по генеральной совокупности можно получить на основе итогового подсчета по выборке, разделив его на долю отбора единиц совокупности

Прежде чем проводить расчет объемных показателей для генеральной совокупности, нужно убедиться, что структура выборки соответствует структуре генеральной совокупности. При наличии значительных смещений в структуре выборки в долях отдельных групп (0,03 и выше) следует применить метод перевзвешивания, г. в. рассчитывать генеральную среднюю на основе выборочных средних по группам и удельного веса этих групп в генеральной совокупности:
,
где wi = NiN.

При способе коэффициентов также используются не только выборочные данные, но и сведения о генеральной совокупности.
Этот способ основан на связи признаков друг с другом. Например, в результате выборочного обследования семей города получены размер среднедушевого дохода (х?), средний доход семьи (у?) и среднее число человек в семье (z?). Так что x? = y? / z?.
Зная численность населения города, требуется рассчитать общую величину денежного дохода населения. Очевидно, это можно сделать, умножив душевой доход на общее число жителей в городе: x?N. Общий доход можно получить, суммируя доход отдельных семей; численность населения можно получить, суммируя данные о числе членов семей. Тогда
.

Средний душевой расход представляет собой коэффициент, подсчитанный по выборке, который связывает две характеристики. Этот коэффициент рассчитывается как отношение двух итоговых подсчетов по выборке:
.

Следовательно,
.

Последний сомножитель не что иное, как обратная величина доли отбора, рассчитанной по значениям признака z.
Итак, итоговый подсчет по генеральной совокупности может быть получен делением соответствующего итогового подсчета по выборке на долю отбора. При прямом расчете берется доля отбора единиц совокупности, при способе коэффициентов - доля отбора по значению какого-либо признака.
Эффективность способа коэффициентов по сравнению с методом прямого расчета зависит от того, насколько тесно связаны между собой признаки, лежащие в основе расчета коэффициента, т.е. признак, по которому подсчитывается итог, и признак, по которому определяется доля отбора. Эффект проявляется, если коэффициент корреляции между ними больше 0,8.
Способ коэффициентов используется для корректировки данных сплошного наблюдения. Например, перепись скота дала сведения, что поголовье свиней в районе составляет 10 000, в том числе в тех хозяйствах, которые потом были охвачены контрольным обходом, сплошное наблюдение показало число свиней 1100. Контрольный обход дал уточненную цифру: не 1100, а 1107 свиней. Тогда поправочный коэффициент
.
Отсюда скорректированная численность поголовья свиней во всем районе

N =Nў+?N; ?N = kNў = •10 000 = 64.

N = 10 000 + 64 = 10 064 голов.

7.7. Малая выборка

Таблицы интеграла вероятностей используются для выборок большого объема из бесконечно большой генеральной совокупности. Но уже при п < \ 00 получается несоответствие между табличными данными и вероятностью предела; при п < 100 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в генеральной совокупности не имеет значения, так как распределение отклонений выборочного показателя от генеральной характеристики при большой выборке всегда оказывается нормальным.
В выборках небольшого объема п Ј 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из совокупности, имеющей нормальное распределение.
Теория малых выборок разработана английским статистиком В. Госсетом (писавшим под псевдонимом Стьюдент) в начале XX в. В 1908 г. им построено специальное распределение, которое позволяет и при малых выборках соотносить t и доверительную вероятность F(t). При п > 100 таблицы распределения Стьюдента дают те же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 Ј п Ј 100 различия незначительны. Поэтому практически к малым выборкам относят выборки объемом менее 30 единиц (безусловно, большой считается выборка с объемом более 100 единиц).
Использование малых выборок в ряде случаев обусловлено характером обследуемой совокупности. Так, в селекционной работе «чистого» опыта легче добиться на небольшом числе делянок. Производственный и экономический эксперимент, связанный с экономическими затратами, также проводится на небольшом числе испытаний.
Как уже отмечалось, в случае малой выборки только для нормально распределенной генеральной совокупности могут быть рассчитаны и доверительные вероятности, и доверительные пределы генеральной средней.
Плотность вероятностей распределения Стьюдента описывается функцией
, (7.25)
где t - текущая переменная;
п — объем выборки;
В — величина, зависящая лишь от п.
Распределение Стьюдента имеет только один параметр: d.f. -число степеней свободы (иногда обозначается k).
Это распределение, как и нормальное, симметрично относительно точки t = 0, но оно более пологое. При увеличении объема выборки, а следовательно, и числа степеней свободы распределение Стьюдента быстро приближается к нормальному. Число степеней свободы равно числу тех индивидуальных значений признаков, которыми нужно располагать для определения искомой характеристики.
Так, для расчета дисперсии должна быть известна средняя величина. Поэтому при расчете дисперсии d.f. = п - 1
Таблицы распределения Стьюдента публикуются в двух вариантах:
1) аналогично таблицам интеграла вероятностей приводятся значения t и соответствующие вероятности F(t) при разном числе степеней свободы;
2) значения t приводятся для наиболее употребимых доверительных вероятностей 0,90; 0,95 и 0,99 или для 1 - 0,9 = 0,1, 1 - 0,95 = = 0,05 и 1 - 0,99 == 0,01 при разном числе степеней свободы. Такого рода таблица приведена в приложении (табл. 2), а также значение t-критерия Стьюдента при уровне значимости 0,10; 0,05; 0,01.
При малых выборках расчет средней возможной ошибки основан на выборочных дисперсиях, поэтому

.

Приведенная формула используется для определения предела возможной ошибки выборочного показателя:
.

Порядок расчетов тот же, что и при больших выборках.
Пример. Для изучения интенсивности труда было организовано наблюдение за 10 отобранными рабочими. Доля работавших все время оказалась равной 0,40, дисперсия 0,4•0,6 = 0,24. По табл. 2 приложения находим для F(t) = 0,95 и d.f. = n - 1 = 9, t = 2,26. Рассчитаем среднюю ошибку выборки доли работавших все время:

Тогда предельная ошибка выборки ?p = 2,26•0,16 = ± 0,36. Таким образом, с вероятностью 0,95 доля рабочих, работавших без простоев, в данном цехе предприятия находится в пределах
39,64% Ј р Ј 40,36%
или
39,6% Ј р Ј 40,4%.
Если бы мы использовали для расчета доверительных границ генерального параметра таблицу интеграла вероятностей, то t было бы равно 1,96 и ?p - ± 0,31, т. е. доверительный интервал был бы несколько уже.
Малые выборки широко используются для решения задач, связанных с испытанием статистических гипотез, особенно гипотез о средних величинах.

7.8. Статистическая проверка гипотез
(общие понятия)

Оценку генерального параметра получают на основе выборочного показателя с учетом ошибки репрезентативности. В другом случае в отношении свойств генеральной совокупности выдвигается некоторая гипотеза о величине средней, дисперсии, характере распределения, форме и тесноте бвязи между переменными. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими (теоретическими). Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных. Основой проверки статистических гипотез являются данные случайных выборок. При этом безразлично, оцениваются ли гипотезы в отношении реальной или гипотетической генеральной совокупности. Последнее открывает путь применения этого метода за пределами собственно выборки: при анализе результатов эксперимента, данных сплошного наблюдения, но малой численности. В этом случае рекомендуется проверить, не вызвана ли установленная закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых находится изучаемая совокупность.
Особенно часто процедура проверки статистических гипотез применяется для оценки существенности расхождений сводных характеристик отдельных совокупностей (групп): средних, относительных величин. Такого рода задачи, как правило, возникают в социальной статистике. Трудоемкость статистико-социологических исследований приводит к тому, что почти все они строятся на несплошном учете. Поэтому проблема 'доказательности выводов в социальной статистике стоит особенно остро. Применяя процедуру проверки статистических гипотез, следует помнить, что она может гарантировать результаты с определенной вероятностью лишь по «беспристрастным» выборкам, на основе объективных данных.
Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки. Обозначается гипотеза буквой Н от латинского слова hypothesis. Так, может быть выдвинута гипотеза о том, что средняя в генеральной совокупности равна некоторой величине Н : м = а, или о том, что генеральная средняя больше некоторой величины Н : м > b.
Различают простые и сложные гипотезы. Гипотеза называется простой, если она однозначно характеризует параметр распределения случайной величины. Например, Н : ц = а.'Сложная гипотеза состоит из конечного или бесконечного числа простых гипотез, при этом указывается некоторая область вероятных значений параметра. Например, Н : м > b. Эта гипотеза состоит из множества простых гипотез Н :м = с, где с — любое число, большее b.
Гипотезы о параметрах генеральной совокупности называются параметрическими, о распределениях - непараметрическими.
Гипотеза о том, что две совокупности, сравниваемые по одному или нескольким признакам, не отличаются, называется нулевой гипотезой (или нуль-гипотезой). Она обозначается Н0. При этом предполагается, что действительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный характер. Например, Н0 : м1 = м2. Нулевая гипотеза отвергается тогда, когда по выборке получается результат, который при истинности выдвинутой нулевой гипотезы маловероятен. Границей невозможного или маловероятного обычно считают б = 0,05, т.е. 5%, или 0,01, 0,001. Если ориентироваться на правило «трех сигм», то вероятность ошибки б должна быть .равна 0,0027. Однако для этого уровня вероятности ошибки значения критериев редко табулируются: как правило, значения критериев в статистико-математических таблицах рассчитаны для вероятностей ошибки 0,05; 0,01; 0,001.
Статистическим критерием называют определенное правило, устанавливающее условия, при которых проверяемую нулевую гипотезу следует либо отклонить, либо не отклонить. Критерий проверки статистической гипотезы определяет, противоречит ли выдвинутая гипотеза фактическим данным или нет.
Проверка статистических гипотез складывается из следующих этапов:
• формулируется в виде статистической гипотезы задача исследования;
• выбирается статистическая характеристика гипотезы;
• выбираются испытуемая и альтернативная гипотезы на основе анализа возможных ошибочных решений и их последствий;
• определяются область допустимых значений, критическая область, а также критическое значение статистического критерия (t, F, ч2 ) по соответствующей таблице;
• вычисляется фактическое значение статистического критерия;
• проверяется испытуемая гипотеза на основе сравнения фактического и критического значений критерия, и в зависимости от результатов проверки гипотеза либо отклоняется, либо не отклоняется.
При проверке гипотез по одному из критериев возможны два ошибочных решения:
1) неправильное отклонение нулевой гипотезы: ошибка 1-го рода;
2) неправильное принятие нулевой гипотезы: ошибка 2-го рода. В то время, как фактически нулевая гипотеза верна (1) и нулевая гипотеза не верна (2), принимают два ошибочных решения: 1) нулевая гипотеза отклоняется и принимается альтернативная гипотеза; 2) нулевая гипотеза не отклоняется. Возможные решения представлены в табл. 7.4.
Таблица 7.4
Возможные выводы при проверке гипотез

Решение
Фактически

по критерию
H0 верна
H0 не верна
H0 отклоняется
Ошибка 1-го рода
Правильное решение
H0 не отклоняется
Правильное решение
Ошибка 2-го рода

Если, например, установлено, что новое минеральное удобрение лучше, хотя на самом деле его действие не отличается от старого, то это ошибка 1-го рода. Если мы решили, что оба вида удобрений одинаковы, то допущена ошибка 2-го рода.
Вероятности, соответствующие неверным решениям, называются риском 1 и риском 2. Риск 1 равен вероятности ошибки а (уровню значимости), риск 2 равен вероятности ошибки р. Поскольку а всегда больше нуля, то всегда есть риск ошибки в. При заданных б и объеме выборки п значение в будет тем больше, чем меньше принятое б. Если п велико, то б и в могут быть сколь угодно малыми, т.е. решения будут более обоснованными. При малом объеме выборки и малом а возможность установить фактически существующие различия мала.
Обычно задают значение а и пытаются сделать возможно в малым. Вероятность 1 - в называется мощностью критерия: чем она больше, тем меньше вероятность ошибки второго рода.
Альтернативная гипотеза Н1 может быть сформулирована по-разному в зависимости от того, какие отклонения от гипотетической величины нас особенно беспокоят: положительные, отрицательные либо и те, и другие. Соответственно альтернативные гипотезы могут быть записаны как

.

От того, как формулируется альтернативная гипотеза, зависят границы критической области и области допустимых значений.
Критической областью называется область, попадание значения статистического критерия в которую приводит к отклонению Н0. Вероятность попадания значения критерия в эту область равна принятому уровню значимости.
Область допустимых значений дополняет критическую область. Если значение критерия попадает в область допустимых значений, это свидетельствует о том, что выдвинутая гипотеза Нц не противоречит фактическим данным ( H0 не отклоняется).
Точки, разделяющие критическую область и область допустимых значений, называются критическими точками или границами критической области. В зависимости от формулировки альтернативной гипотезы критическая область может быть двухсторонняя или односторонняя (левосторонняя либо правосторонняя).
Если вычисляемое значение критерия попадает в критическую область, нулевая гипотеза отклоняется, она противоречит фактическим данным.

7.9. Проверка гипотезы о законе распределения

Одна из важнейших задач анализа вариационных рядов заключается в выявлении закономерности распределения и определении ее характера. Основной путь в выявлении закономерности распределения - построение вариационных рядов для достаточно больших со-вокупностей. Большое значение для выявления закономерностей распределения имеет правильное построение самого вариационного ряда: выбор числа групп и размера интервала варьирующего признака.
Когда мы говорим о характере, типе закономерности распределения, то имеем в виду отражение в нем общих условий, определяющих вариацию. При этом речь всегда идет о распределениях качественно однородных явлений. Общие условия, определяющие тип закономерности распределения, познаются анализом сущности явления, тех его свойств, которые определяют вариацию изучаемого признака. Следовательно, должна быть выдвинута какая-то научная гипотеза, обосновывающая определенный тип теоретической кривой распределения.
Под теоретической кривой распределения понимается графическое изображение ряда в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением вариантов (значений признака). Теоретическое распределение может быть выражено аналитически - формулой, которая связывает частоты вариационного ряда и соответствующие значения признака. Такие алгебраические формулы носят название законов распределения.
Большое познавательное значение имеет сопоставление фактических кривых распределения с теоретическими.
Как уже отмечалось, часто пользуются типом распределения, которое называется нормальным. Формула функции плотности нормального распределения:
.

Следовательно, кривая нормального распределения может быть построена по двум параметрам - средней арифметической ц и среднему квадратическому отклонению ст.
Гипотезы о распределениях заключаются в том, что выдвигается предположение о том, что распределение в генеральной совокупности подчиняется какому-то определенному закону. Проверка гипотезы состоит в том, чтобы на основании сравнения фактических (эмпирических) частот с предполагаемыми (теоретическими) частотами сделать вывод о соответствии фактического распределения гипотетическому распределению. Может проводиться и сравнение частостей.
Под гипотетическим распределением необязательно понимается нормальное распределение. Может быть выдвинута гипотеза о биномиальном распределении, распределении Пуассона и т.д. Причина частого обращения к нормальному распределению в том, что в этом типе распределения выражается закономерность, возникающая при взаимодействии множества случайных причин, когда ни одна из них не имеет преобладающего влияния. Закон нормального распределения лежит в основе многих теорем математической статистики, применяемых для оценки репрезентативности выборок, при измерении связей и т. д. В социально-экономической статистике нормальное распределение встречается редко, но сравнение с ним важно для выяснения степени и характера отклонения от него фактического распределения.
В главе 5 отмечалось, что близость средней арифметической величины, медианы и моды указывает на вероятное соответствие изучаемого распределения нормальному закону. Но более полная и точная проверка соответствия распределения гипотезе о нормальном законе производится с использованием специальных критериев, из которых рассмотрим наиболее употребимый критерий c2 (хи-квадрат) К. Пирсона.
Для проверки гипотезы о соответствии эмпирического распределения закону нормального распределения необходимо частоты (частости) фактического распределения сравнить с частотами (частостями) нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения f? по формуле (для дискретных рядов):
, (7.27)

где п - объем выборки;
i - величина интервала вариационного ряда.

Значение ординат кривой нормального распределения f(t) можно получить по таблицам значения функции:
.
Проверяемая гипотеза формулируется как Н0: fj = f?j альтернаивная - как Н1: fj ? f?j.
Проверка гипотезы требует, чтобы был построен теоретический ряд распределения с частотами f?j, соответствующими нормальному закону, при тех же значениях параметров распределения


Методика построения теоретического ряда такова:
1. По фактическому интервальному ряду (табл. 5.6) вычисляются значения / для каждой группь< хозяйств по формуле (для интервальных рядов):
-для начала и конца интервала.

2. Вычисляется вероятность попадания единицы наблюдения в данный интервал при выполнении гипотезы о нормальном законе:
,
где |tj| > |tj+1|

3. Определяется теоретическая частота в данной группе, равная произведению объема совокупности на вероятность попадания в данный интервал:


4. Находится значение критерия c2 по формуле
(7.28)

где k — число категорий ряда распределения;
j - номер категории;
fj - частота эмпирического распределения;
f?j - частота теоретического распределения.

При расчете c2 частоты можно заменить частостями:
(7.29)

где pj - частости эмпирического распределения;
pj - вероятности теоретического распределения.

При этом, согласно Ф. Йейтсу (Jates), группы с теоретическими частотами менее 5 принято объединять, что снижает влияние случайных ошибок (см. [6]).
Если все эмпирические частоты равны соответствующим теоретическим частотам, то c2 равно нулю. Очевидно, что чем больше отличаются эмпирические и теоретические частоты, тем c2 больше; если расхождение несущественно, то c2 должно быть малым. Имеются специальные таблицы критических значений c2 при 5%-ном и 1%-ном уровнях значимости. Критические значения зависят от числа степеней свободы (d.f. - degrees of freedom) и уровня значимости.
Число степеней свободы рассчитывается так: если эмпирический ряд распределения имеет k категорий, то k эмпирических частот f1, f2, …, fk должны быть связаны следующим соотношением: Если параметры теоретического распределения известны, то только k - 1 частот могут принимать произвольные значения, т. е. свободно варьировать, а последняя частота может быть найдена из указанного соотношения. Поэтому говорят, что система из k частот благодаря наличию одной связи теряет одну «степень свободы» и имеет только k — 1 степеней свободы. Кроме того, если при нахождении теоретических частот р параметров теоретического распределения неизвестны, то они должны быть найдены по данным эмпирического ряда. Это накладывает на эмпирические частоты еще р связей, благодаря чему система теряет еще р степеней свободы. Таким образом, число свободно варьируемых частот (а значит, и число степеней свободы) становится равным:
d.f. = (k - 1) - р = k - (р + 1). (7.30)
Полученное значение критерия c2 сравнивается с табличным при числе степеней свободы, равном числу групп (с условием Ф. Йейтса), за минусом трех - по числу фиксированных параметров в формуле нормального закона распределения и с учетом равенства сумм теоретических и фактических частот (см. приложение, табл. 4).
В первой графе этой таблицы дано число степеней свободы, а в заголовках граф - уровни значимости. Если фактическое значение c2 превышает табличное при том же числе степеней свободы, то вероятность соответствия распределения нормальному закону меньше указанной. Результаты расчета c2 по данным табл. 5.6 (глава 5) приведены в табл. 7.5 при х = 30,3; s = 8,44.
Сумма теоретических частот нормального распределения меньше суммы фактических частот, так как нормальный закон не ограничен рамками фактических минимума и максимума.
Число групп после объединения малочисленных составило 7. Критическое значение c2 по табл. 4 приложения при 7-3 = 4 степеням свободы и значимости 0,05 составляет 9,49. Значит, вероятность расхождения распределения с нормальным меньше 0,05, и вероятность соответствия его нормальному закону больше 0,95. Табличное значение c2 для значимости 0,1 равно 7,78, что также больше фактического.
Таблица 7.5
Проверка соответствия распределения хозяйств по урожайности
зерновых культур нормальному закону

Группы
хозяйств

fj

tj

tj + i

Рj

f?j

(fj - f?j)2/ f??2j
1
6
-2,41
-1,81
0,0235
3
0,071
2
9
-1,81
-1,22
0,0798
11

3
20 -
-1,22
-0,63
0,1531
22
0,182
4
41
-0,63
-0,04
0,2197
32
2,531
5
26
-0,04
0,56
0,2282
33
1,485
6
21
0,56
1,15
0,1627
23
0,174
7
14
1,15
1,74
0,0842
12
0,333
8
5
1,74
2,33
0,0310
4
0,200
9
1
2,33
2,93
0,0082
1

S
143
ґ
ґ
0,9904
141
4,976

Ясно, что гипотеза о соответствии распределения хозяйств по урожайности нормальному закону не может быть отклонена.
Какое практическое значение может иметь произведенная проверка гипотезы? Во-первых, соответствие нормальному закону позволяет прогнозировать, какое число хозяйств (или доля совокупности) попадает в тот или иной интервал значений признака. Во-вторых, нормальное распределение возникает при действии на вариацию изучаемого показателя множества независимых факторов. Из этого следует, что нельзя существенно снизить вариацию урожайности, воздействуя только на один-два управляемых фактора, скажем удобрения или энергозатраты.
С помощью критерия c2 можно проверять не только гипотезу о согласии эмпирического распределения с нормальным законом, но и с любым другим известным законом распределения - равномерным распределением, распределением Пуассона и т. д. Например, суд рассматривает жалобу посетителей казино на то, что, по их мнению, игральная кость, которой там пользуются, фальшива, некоторые числа очков, якобы, выпадают чаще, чем другие, и этим пользуются крупье, обирающие игроков.
Суд назначает экспертизу игральной кости: эксперт делает 600 бросков и записывает число выпавших единиц, двоек, троек и т. д.
Полученное эмпирическое распределение сравнивается с теоретическим, т. е. равномерным: в правильной кости вероятность выпадения каждого числа очков должна быть равна 1/6, при 600 бросках это даст по 100 выпадений каждого числа очков. С помощью критерия c2 проверяется нулевая гипотеза о том, что различия эмпирического и теоретического распределений случайны, т. е. не являются систематическим результатом фальсификации формы кости или положения центра тяжести в ней; H0 : fфакт = fтеор. Результаты испытания и расчет у приводятся в табл. 7.6.
Таблица 7.6
Результаты испытания игральной кости

Число очков



1
2
3.
4
5
6
Итого
Количество
выпадений,
fфакт
101
86
107
94
97
117

600

fтеор

100
100 
100
100
100
100

600

fфакт - fтеор

1
-14
7
-6
-3
17

0

(fфакт- fтеор)2= fтеор

0,01
1,96
0.49
0,36
0.09
2,89

5,80

Табличное значение c2 при уровне значимости 0,05 (это вероятность ошибочного отклонения нулевой гипотезы при условии, что она верна) и при 6-2=4 степенях свободы (фиксировано 2 параметра: сумма числа бросков 600 и вероятность каждого числа очков - 1/6) составляет 9,49. Вычисленное значение c2 =5,8, что значительно ниже табличного. Следовательно, нулевая гипотеза не отклоняется: распределение бросков по числу выпавших очков нельзя считать неравномерным. Обвинение игроков против служащих казино не подтверждено достаточно надежно, но не доказано и то, что кость правильная. Можно назначить более дорогую экспертизу - сделать 100 000 бросков кости, но можно и согласиться, что вероятность ошибочного признания правильности кости мала - всего 5% - и отклонить обвинение.
Выбор закона распределения проводится на основе теоретического анализа. Кроме того, целесообразно руководствоваться следующей рекомендацией: выражение, определяющее функцию плотности распределения, должно зависеть от возможно меньшего числа параметров. Например, экспоненциальное распределение зависит от одного параметра - средней величины; нормальное и логнормальное распределение - от двух параметров.

7.10. Проверка гипотезы о связи на на основе
критерия c2 (хи-квадрат)

Одним из основных приложений критерия c2 является его использование при анализе таблиц сопряженности двух переменных для установления факта наличия и уровня значимости взаимосвязи. Как правило, критерий у2 применяется для анализа таблиц сопряженности номинальных признаков, однако" он может быть использован и при анализе взаимосвязи порядковых или интервальных (количественных) переменных, несмотря на то, что для последних . случаев существуют более мощные тесты.
Рассмотрим общий случай - таблицу сопряженности двух переменных размером r ґ s. Обозначим:
nij - наблюдаемая частота (число объектов) в ячейке (ij) таблицы, так называемая фактическая клеточная частота; n?ij - теоретически ожидаемая (по Н0) частота в этой ячейке, i = 1, 2, ..., r, j = 1, 2, ..., s; r - число строк, s - число столбцов.
- сумма по j-й строке маргинальные частоты
- сумма по j-у столбцу (7.31)
- общее число объектов или объем выборки.

В этом случае испытуемая гипотеза Н0: nij ? n?ij или Н0 : c2 =0, альтернативная гипотеза H1: nij ? n?ij . Критерий c2 для проверки Н0 имеет вид:
. (7.32)

Расчет теоретически ожидаемых частот в ячейках таблицы сопряженности должен производиться, как мы уже указывали выше, в предположении справедливости нулевой гипотезы. Нуль-гипотеза (Н0) в данном случае есть предположение о статистической независимости рассматриваемых переменных. Как известно из теории вероятностей, две случайные величины (события) являются статистически независимыми, если вероятность их совместной реализации равна произведению вероятностей реализации каждой из них по отдельности, т. е.
,
где

В нашем случае выборочными оценками соответствующих вероятностей p будут являться величины р(хi, хj) = пij/п,


и поэтому расчет теоретически ожидаемой по Н0 частоты п?ij следует производить по формуле

<< Пред. стр.

страница 12
(всего 32)

ОГЛАВЛЕНИЕ

След. стр. >>

Copyright © Design by: Sunlight webdesign