LINEBURG


<< Пред. стр.

страница 3
(всего 9)

ОГЛАВЛЕНИЕ

След. стр. >>

8. Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала равнозначности сырого балла). При наличии разнородных подвыборок для каждой из них должна быть своя таблица.
9. Определить критические точки (верхнюю и нижнюю) для доверительных интервалов (на уровне Р < 0,01) с учетом стандартной ошибки в определении среднего значения.
10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма выполнения того или иного теста.
11. В случае негативного результата: отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точностью прогноза критериальной деятельности) - осуществить обследование более широкой выборки или отказаться от использования, данного теста.

3.2. НАДЕЖНОСТЬ ТЕСТА

В дифференциальной психометрике проблемы валидности и надежности тесно взаимосвязаны, тем не менее мы последуем традиции раздельного изложения методов проверки этих важнейших психометрических свойств теста.
Надежность и точность. Как уже отмечалось в разделе 3.1, общий разброс (дисперсию) результатов произведенных измерений можно представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это представление выражено в формуле, описывающей надежность теста и виде отношения истинной дисперсии к дисперсии эмпирически зарегистрированных баллов:

(3.2.1)

Так как истинная дисперсия и дисперсия ошибки связаны очевидным соотношением, формула (3.2.1) легко преобразуется в формулу Рюлона:

(3.2.2)

где а - надежность теста; . -дисперсия ошибки.
Величина ошибки измерения - обратный индикатор точности измерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипотезы о значимости отличия балла испытуемого от среднего значения оказывается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в положении индивидуального балла (рис. 7).



Рис. 7. Соотношение распределений Sm – стандартное отклонение эмпирического среднего, St – стандартное отклонение ошибки

Как же определить ошибку измерения? На помощь приходят корреляционные методы, позволяющие определить точность (надежность) через устойчивость и согласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его пунктов.
Надежность целого теста имеет две разновидности.
1. Надежность-устойчивость (ретестовая надежность). Измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для интервальных шкал подсчитывается хорошо известный коэффициент корреляции произведения моментов Пирсона:

где х1i. - тестовый балл i-го испытуемого при первом измерении;
х2i. - тестовый балл того же испытуемого при повторном измерении;
n - количество испытуемых.
Оценка значимости этого коэффициента основывается на несколько иной логике, чем это обычно делается при проверке нулевой гипотезы - о равенстве корреляций нулю. Высокая надежность достигается тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле

(3.2.4)

Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко удается достичь коэффициентов, превышающих 0,8. При г = 0,75 относительная доля стандартной ошибки равна . Этой ошибкой, очевидно, нельзя пренебречь. При такой ошибке эмпирически полученное отклонение индивидуального тестового балла от среднего по выборке оказывается, как правило, завышенным. Для того чтобы выяснить «истинное» значение тестового балла индивида, применяется формула
(3.2.5)
где - истинный балл; '
хi — эмпирический балл i-го испытуемого;
r - эмпирически измеренная надежность теста;
- среднее для теста.
Предположим, испытуемый получил балл IQ по шкале Стэнфорда.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тогда истинный балл = 0,9 120 + 0,1 100 =118.
Конечно, требование ретестовой надежности является корректным лишь по отношению к таким психическим характеристикам индивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний (бодрости, тревоги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.
Для шкал порядка в качестве меры устойчивости к перетестированию используется коэффициент ранговой корреляции Спирмена:
, (3.2.6)

где di — разность рангов /-го испытуемого в первом и втором ранговом ряду.
С помощью компьютера определяется более надежный коэффициент ранговой корреляции Кендалла (1975).
2. Надежность- согласованность (одномоментная надежность).
Эта разновидность надежности не зависит от устойчивости, имеет особую содержательную и операциональную природу. Простейшим способ ее измерения состоите коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллельные формы теста получают расщеплением составного теста на «четную» и «нечетную» половины: к первой относятся четные пункты, ко второй - нечетные. По каждой половине рассчитываются суммарные баллы и между двумя рядами баллов по испытуемым определяются допустимые (с учетом уровня измерения) коэффициенты корреляции. Если параллельные тесты не нормализованы, то предпочтительнее использовать ранговую корреляцию. При таком расщеплении получается коэффициент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:

(3.2.7)

где rx - эмпирически рассчитанная корреляция для половин.
Делить тест на две половины можно разными способами, и каждый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки синхронной надежности, который соответствует разбиению теста на такое количество частей, сколько в нем отдельных пунктов. Такова формула Кронбаха:

(3.2.8)

где а - коэффициент Кронбаха;
k- количество пунктов теста;
- дисперсия по j-му пункту теста;
- дисперсия суммарных баллов по всему тесту.

Обратите внимание на структурное подобие формулы Кронбаха (3.2.2) и формулы Рюлона (3.2.8).
Несколько раньше была получена формула Кьюдера - Ричардсона, аналогичная формуле Кронбаха для частного случая - когда ответы на каждый пункт теста интерпретируются как дихотомические переменные с двумя значениями (1 и 0):

(3.2.9)
где KR20 - традиционное обозначение получаемого коэффициента;
-дисперсия i-и дихотомической переменной, какой является
i-й пункт теста; р = , q = 1 - p
В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a:

(3.2.10)

где - эмпирическое значение статистики % квадрат с п-1 степенью свободы;
k - количество пунктов теста;
n - количество испытуемых;.
a - надежность.
Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласованность пунктов теста, используя при этом только подсчет дисперсий. Однако коэффициенты а и KR2I> позволяют оценить и среднюю корреляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой:

11)

где - средняя корреляция между пунктами теста. Легко увидеть идентичность формулы (3.2.11) обобщенной формуле Спирмена - Брауна, позволяющей прогнозировать повышения синхронной надежности теста с увеличением количества пунктов теста в k раз (Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое значение может сочетаться с высокой надежностью. Пусть = 0,1, a k =100, тогда по формуле (3.2.11)


Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще одной достаточно эффективной формулы надежности теста, которой легко воспользоваться, получив стандартную распечатку компьютерных результатов факторного анализа по методу главных компонент:

(3.2.12)

где ? - коэффициент, получивший название тета-надежности теста;
k - количество пунктов теста;
?1 - наибольшее значение характеристического корня матрицы
интеркорреляций пунктов (наибольшее собственное значение, или абсолютный вес первой главной компоненты).
Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной характеристики. Но, кроме того, она применима и для многофакторного теста, хотя и нуждается в пересчете после первоначального отбора пунктов, релевантных фактору (после того, как на основании многофакторного анализа отобраны пункты по одному фактору, снова проводится факторный анализ - только для этих отобранных пунктов).
Надежность отдельных пунктов теста. Надежность теста обеспечивается надежностью пунктов, из которых он состоит. Чтобы повысить ретестовую надежность теста в целом, надо отобрать из исходного набора пунктов, апробируемых в пилотажных психометрических экспериментах, такие пункты, на которые испытуемые дают устойчивые ответы. Для дихотомических пунктов (типа «решил - не решил», «да - нет») устойчивость удобно измерять с использованием четырехклеточной матрицы сопряженности:
Тест 1

Да Нет
a
B
c
D
Да Тест 2
Нет

Здесь в клеточке а суммируются ответы «Да», данные испытуемым при первом и втором тестировании, в клеточке b - число случаев, когда испытуемый при первом тестировании отвечал «Да», а при втором - «Нет» и т. д. В качестве меры корреляции вычисляется фи-коэффициент:

(3.2.13)

Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:

(3.2.14)

Если вычисленное значение хи-квадрат выше табличного с одной степенью свободы, то нулевая гипотеза (о нулевой устойчивости) отвергается. Удобство использования фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта теста по силе (трудности): фи-коэффициент оказывается тем меньшим, чем сильнее частота ответов «да» отличается от частоты ответа «нет».
Кроме того, сама четырехклеточная матрица позволяет проследить возможную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может оказаться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестировании; это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, приобретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной выборке величина превышает 0,71. При этом ?< 0,5.
Для т<?го чтобы повысить одномоментную (синхронную) надежность теста, следует из исходной пилотажной батареи пунктов отбросить те, которые плохо согласованы с остальными. В отсутствие компьютера согласованность для пунктов также очень просто определяется с помощью четырехклеточной матрицы. В этом случае в первом столбце суммируются ответы испытуемых из «высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».

Высокая Низкая
A
B
C
D
Да
Нет

При нормальном распределении частот суммарных баллов «высокая» и «низкая» группы отсекаются справа и слева 27%-ными маргинальными квантилями (рис. 8).
Для оценки согласованности с суммарным баллом применяется полная или упрощенная формула фи-коэффициента:

(3.2.15)

где - количество ответов «верно» («да») на i-й пункт теста;
N* - сумма всех элементов матрицы;
N* = n • 0,54 где n - объём выборки;
Pi = а + b - При включении в эстремальную группу 1/3 выборки
N* = 0,66 • n.


Рис. 8. Квантили «высокой» и «низкой» группы на графике распределения тестовых баллов

В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэффициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно исключить из теста.
При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме выборки в 100 человек и уровне значимости р < 0,01 пороговое значение вычисляется так:

(3.2.16)

При постоянном использовании компьютера при подсчете суммарных баллов ключ для каждого пункта Q целесообразно определить в виде самого фи-коэффициента (или другого коэффициента корреляции), определенного при коррелировании ответов на пункт с суммарным баллом. Тогда тестовый балл подсчитывается по формуле

(3.2.17)
где хi — суммарный балл i-го испытуемого;
- ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;
Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обратного.
Более чувствительный коэффициент, который также применяется для дихотомических пунктов, - это точечный бисериальный коэффициент корреляции, учитывающий амплитуду отклонения индивидуальных суммарных баллов от среднего балла:

3.2.18)

где x* - сумма финальных баллов тех индивидов, которые дали утвердительный ответ на i-й пункт теста (решили i-ю задачу);
Sx - стандартное отклонение для суммарных баллов всех индивидов из выборки;
- стандартное отклонение по i-му пункту;
- средний балл по всем пунктам.
А. Анастази относит критерий внутренней согласованности теста к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая согласованность снижает внешнюю валидность теста по критерию (см. раздел 3.3). Если проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетельствует о внутренней валидности (согласованности) разработанного диагностического понятия (конструкта).
В компьютерных данных факторного анализа аналогом корреляции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази). Если прибегать к геометрическому изображению нагрузки как проекции вектора-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка векторов, плотно прилегающих к фактору и вытянувшихся вдоль его оси (рис. 9).



Рис. 9. Векторная модель соотношения «прямых» и «обратных» эмпирических пунктов с релевантным (измеряемым) фактором и иррелевантными («шумовыми») факторами

Последовательность действий при проверке надежности:
1. Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.
2. Произвести повторное тестирование на всей выборке стандартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов позволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу (высокий r) или только диагностичен для крайних групп (высокий ?), насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз - проекция тестового балла на будущее), в каких своих пунктах тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунктов с испытуемыми).
3. Если возможности обследования испытуемых ограниченны, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую или четырех-клеточную корреляцию для оценки внутренней согласованности и стабильности теста в целом.

3.3. ВАЛИДНОСТЬ ТЕСТОВ

Проблемы валидизации психологических тестов являются центральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии.
Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения «объекта» и «предмета» измерения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность -способность устойчиво различать объекты, но вопрос о валидности остается открытым.
Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятельством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференциальной психометрике значимость проблемы валидности резко возрастает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует сравнивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по размеру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относительно объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера».
При измерении способностей предъявляемый тест отнюдь не обязательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречавшейся однажды задачей (например, с анаграммой «дзиканпр»), испытуемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту задачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возможности интеллекта, например, методика «креативного поля» Д. Б. Богоявленской.
Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:

валидность ? надежность.

Это означает, что валидность теста не может превышать его надежность.
Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к повышению валидности. В терминах А. Анастази валидность определяется репрезентативностью теста относительно измеряемой области поведения. Если эта область поведения складывается из разнообразных феноменов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответствует термин «вербальный интеллект»). Сюда относятся такие относительно независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (субтесты), мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (об этом уже говорилось в разделе 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.
Эмпирическая валидность. Если в случае с содержательной ва-лидностью оценка теста производится за счет экспертов (устанавливающих соответствие заданий теста содержанию предмета измерения), то эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.
Прагматические традиции западной тестологии привязывали эмпирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных областей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической психологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в медицине - «состояние здоровья пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юридической психологии - «преступность» (которую надо понизить) и т. п.
Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).
Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике психолога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консультирование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает одновременно и валидность-эффективность диагностики, и эффективность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным отделить неэффективность вмешательства от низкой валидности диагностики.
Ориентация на социально-прагматические критерии, приводящие к склейке понятий «валидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдерживала и продолжает сдерживать развитие концептуального аппарата дифференциальной психологии. При этом суть самого предмета измерения: измеряемого психического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное признание.
Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: x— сумма баллов по тесту, полученных «высокой» группой по критерию; - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.
Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований известно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреждающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) порядка 100 человек. Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры. Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.
Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования личностной предрасположенности к совершению краж проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт «тревожности», «агрессивности» и т. п. еще не может интерпретироваться как свидетельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-психологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой категории госпитализированных больных (обычно он выражается в повышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя интерпретировать в смысле симптомов предрасположенности к определенным психогенным заболеваниям, ибо они относятся к следствиям, а не к причинам этих заболеваний.
Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказывается провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия, чем сам тест.
Наиболее благополучная ситуация имеется тогда, когда для измерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между баллами двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает на то, обладает ли новый тест конвергентной валидностью по отношению к старому. Если новый тест обнаруживает высокую конвергентность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого.
Однако во многих случаях для измеряемого свойства психодиагност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулировать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтверждение указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполагаемой валидностью (assumed validity).
Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические исследования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.
С другой стороны, понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений его автора об измеряемом свойстве. Для иллюстрации приведен пример взаимоотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала MAS (тревожность) Ж. Тейлор положительно коррелирует со шкалой «нейротизм» и отрицательно со шкалой «экстраверсия» Айзенка. Эти соотношения можно проиллюстрировать графически (рис. 10): вектор MAS оказывается расположенным в квадранте «Нейротизм - Интроверсия», образованном системой из ортогональных (статистически независимых) факторов EPL С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой точки зрения, опросник EPI оказывается просто нечувствительным к особой разновидности «нейротизма» - к нейротизму (тревожности) экстравертов; в перечне пунктов MAS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения тоготеоретического смысла, который приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом - следствием дефекта их диагностического средства. Согласно К. Спенсу, пытавшемуся перенести на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйва - неспециализированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая активация по Г. Айзенку) и интро-версии (неспецифическая активация)


Рис. 10. Векторная модель соотношения показателя «Тревожность» по тест-опроснику MAS с факторами тест-опросника EPI

Таким образом, вовсе не всегда краткие названия тестов однозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве.
Конвергентная и дискриминантная валидность. От того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство «нейротизм» как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты (векторы этих пунктов должны быть примерно поровну распределены в правом и левом нижних квадрантах; см. рис. 10).-Если же на практике окажется, что в тесте будут преобладать пункты из квадранта «Нейротизм-Интроверсия», то, с точки зрения теории Айзенка, это означает, что фактор «нейротизм» оказывается нагруженным иррелевантным фактором - «интроверсией». (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов.)
Для того чтобы не сталкиваться с такими сложностями, психологи хотели бы иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным не ; только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения (рис. 11).
На рис. 11 постоянным для всех показателей является релевантный фактор А, но каждый раз он оказывается сопряжен с иррелевант-ными факторами - X, К и Z. Задача состоит в таком подборе пунктов,

чтобы все потенциальные иррелевантнв!е факторы были уравновешены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест.


Рис, 11. Связь эмпирических показателей П1, П2, П, с релевантным (измеряемым) фактором А и с иррелевантными («шумовыми») факторами X, Y, Z, обусловливающими невалидность показателей

Таким образом, по отношению к факторам, которые концептуально определяются как ортогональные к измеряемому (встречающиеся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования (Готтсданкер Р., 1982);
Соответствие пунктов измеряемому фактору обеспечивает конвергентную валидность теста. Сбалансированность пунктов относительно иррелевантных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство.
С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам «экстраверсия-интроверсия», хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - «нейротизм».
Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необходимостью привлечения экспертов к валидизации теста. В отличие от экспертного анализа содержания теста., эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.
Необходимо экспертам обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций (см. главу 4), то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности.
Поэтому на практике часто прибегают к оценкам особого типа -к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, процедура оценивания приспосабливается к обычным людям, не являющимся психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой; тех, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу. В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - «групповая оценка личности» (Кузьмин Н. В., Семенов В. С., 1977).
Для того чтобы групповая оценка личности была источником действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию. Для измерения согласованности должна быть составлена таблица с оценками (табл. 6).
Таблица 6

Оценщики
Испытуемые
О1
О2

Оk

И1
x11
x12

x1k
C1
И2
x21
x22

x2k
C2






Иn
xn1
xn2

xnk
Cn

Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц «испытуемые - пункты» (см. раздел 3.1), В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли пунктов теста. Рассчитывая попарные корреляции между различными столбцами этой таблицы, можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить коэффициент надежности а Кронбаха - см. формулу (3.2.8).
Если же групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста.
Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений: тестовыми баллами и суммарными баллами экспертной оценки. Это эмпирическое значение при наличии невысокого коэффициента надежности критерия корректируют по формуле
(3.3.1)

где - эмпирическая корреляция с критерием;
ас — надежность критерия;
rtx - корреляция с «истинным» критерием («истинная» валидность теста).
Анализ пунктов по критерию валидности. Валидность всего теста целиком зависит от валидности входящих в него пунктов. Максимальная валидность достигается за счет отбора таких пунктов из пилотажной батареи, которые, обладая значимой корреляцией с критерием, минимально коррелируют между собой. Отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста. Вручную (на калькуляторе) такой отбор можно произвести, рассчитав бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи, - см. формулы (3.2.15) и (3.2.17). Компьютер позволяет использовать более эффективный алгоритм, основанный на анализе частных корреляций между критерием и пунктами и предполагающий построение уравнения множественной регрессии (Аванесов В. С., 1982, с. 153-157). В результате в таком уравнении каждый пункт получает весовой коэффициент, количественно выражающий его вклад в критерий, не сводимый к вкладу других пунктов, т. е. поиск оптимального набора пунктов автоматизируется. X. Гаррет приводит следующую яркую иллюстрацию эффективности алгоритма, позволяющего подобрать оптимальный набор пунктов. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию с критерием порядка 0,30. Оказывается, если эти пункты в среднем коррелируют друг с другом на уровне = 0,60, то множественная корреляция суммарного тестового показателя с критерием равняется 0,38, если же га = 0,30, множественная корреляция повышается до 0,52. Наконец, при rtj= 0,10
эффективность (валидность) теста достигает весьма высокого уровня: 0,79. Те же самые проблемы возникают при подборе оптимальной батареи тестов, направленных на прогнозирование какого-то одного социально ценного показателя (успеваемость, производительность труда и т. п.).
Как уже указывалось в разделе 3.1, тест, обладающий высокой критериальной валидностью должен давать монотонную зависимость величины критерия от тестового балла (см. рис. 6). Для того чтобы получить монотонную линию регрессии, психодиагност должен включить в тест X только такие пункты, которые являются валидными по критерию С. В противном случае на кривой неминуемо появятся провалы. Крутизну линии регрессии можно существенно повысить за счет нацеленного отбора из первоначальной батареи только таких заданий, которые обладают значимо высокой корреляцией (или регрессионным коэффициентом в уравнении множественной регрессии) с критерием.
После отбора валидных пунктов должна быть произведена перекрестная валидизация (см. Анастази А., 1982, с. 197). В чем ее смысл? Если при анализе корреляций между батареей из 200 заданий и каким-то критерием получают 10 заданий, значимо коррелирующих е критерием на уровне ошибки р < 0,05, то это может быть следствием чисто случайного совпадения (сравните 10/200=0,05). Чтобы убедиться в том, что отобранные пункты теста действительно могут различать (или прогнозировать) критерий, нужно рассмотреть, как коррелируют с критерием эти пункты на другой выборке, которая не использовалась при их отборе.
Простой метод реализации принципа перекрестной валидизации состоит в том, что вся выборка делится на две случайные половины и производится раздельный расчет корреляций пунктов с критерием для-. каждой половины выборки. Если выделенные (значимые) пункты совпадают, то перекрестную валидизацию можно считать удачной.
Метод критериального тестирования очень трудоемок. .Практически невозможно построить критериальный тест за счет одной статистики, сколь бы мощными выборками и батареями заданий мы ни располагали. Необходима работа над содержательной валидностью заданий. Критериальное тестирование имеет ограниченное применение в задачах построения методик с широкой областью применения.
Следует еще раз подчеркнуть, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства: на основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства.
Достоверность самоотчета. Рассматривая общую проблемы валидности целесообразно выделить вопрос об обеспечении валидности процедур стандартизованного самоотчета. Сюда относятся различные техники шкалирования, классифицирования, сравнения и тест-опросники. Вербальная форма тестового материала порождает у испытуемого определенные встречные гипотезы о цели тестирования. Если ситуация диктует испытуемому необходимость фальсификации ответов, то он редко отказывается от этой возможности.
Валидность — характеристика любых измерений, в том числе и физических. Специфические проблемы валидности, связанные с активностью человека как объекта психодиагностики, целесообразно обозначить особым образом - проблемы обеспечения достоверности.
Психологические факторы, от которых зависит достоверность самоотчета, условно можно сгруппировать в следующие классы:
1. Факторы знания. У испытуемого может быть более или менее четкое представление о следующем: а) свойственно ли ему в действительности или нет тестируемое поведенческое проявление (с некоторыми ситуациями, имплицитно подразумеваемыми в вопросе тест-опросника, испытуемый мог на практике никогда не встречаться: например, утверждение «После выигрыша в спортлото Вы покупаете больше лотерейных билетов» подразумевает, что испытуемый, во-первых, играет в спортлото и, во-вторых, выигрывает); б) какое личностное свойство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении; в) как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха.
2. Фактор социальной желательности. Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испытуемого на морализацию «Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования. Однако эта тенденция не будет давать систематического искажения, если испытуемые не смогут разгадать направленность теста-опросника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фактора до некоторой степени опосредовано действием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической «нормальностью» или «социальной успешностью», фактор социальной желательности ответа обусловливает очень серьезные искажения.
3. Факторы индивидуальной тактики. Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для других) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами. Как правило, в ситуациях высокого социального риска «Я-образ» полностью доминирует: например, преступник при экспертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонны подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу или психотерапевту (чтобы вызвать к себе его повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе.
Заслуживают внимания и особые формы отказа испытуемого от тестирования: позиционный стиль ответа (соглашательство или, наоборот, отрицание), случайные ответы. Для выявления подобных отказов обычно достаточно довольно простых мер: 1) для исключения влияния соглашательства (отрицания) применяются перечни с «прямыми» (ответ «верно» в пользу измеряемого свойства) и «обратными» (ответ «неверно» в пользу измеряемого свойства) пунктами. Кроме того, производится подсчет баланса подтверждающих и отвергающих ответов: если баланс резко нарушается, то протокол признается бракованным; 2) для выявления случайных ответов в большие перечни вводят вопросы-дубли (синонимические перефразы) или прямые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит, он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке.
Более изощренные методы требуются для борьбы с социальной желательностью. Ниже рассмотрены три наиболее часто используемых варианта.
1. Введение особых «шкал лжи» в диагностический вариант методики. Они составляются из вопросов-ловушек: тот или иной ответ на эти вопросы явно предопределен социальной желательностью. Если испытуемый набирает слишком высокий балл по этой шкале, его протокол бракуется. Более тонкий вариант — введение «шкал коррекции» (например, в MMPI): получение определенного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скоррелированным со шкалой коррекции. Величина поправок определяется коэффициентом линейной регрессии (измеренным в нормативном эксперименте) между баллами, полученными по шкале коррекции и основной диагностической шкале (шкале свойства).
2. Устранение или сбалансирование социальной желательности с помощью использования инструкции на преднамеренную фальсификацию результатов. Участникам пилотажных замеров кроме обычной инструкции дается дополнительная (во вторую очередь): «Заполните опросник от лица человека, желающего произвести самое благоприятное впечатление». Затем производится отбор пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (значение, ожидаемое для пунктов, являющихся нейтральными с точки зрения социальной желательности).
В качестве меры желательности в данном случае можно воспользоваться следующим коэффициентом:

(3.3.2)

где N (+) — сумма ответов «верно» на данный пункт при инструкции на фальсификацию;
N (-) - сумма ответов «неверно» в тех же условиях;
n - объем выборки.
Значимость коэффициента приближенно оценивается по критерию «хи-квадрат», определенному формулой (3.2.14), которой в правой части вместо ? подставляется .
Поскольку инструкция на преднамеренную фальсификацию создает условия, в которых социальная желательность суждений акцентируется, то значимыми следует считать такие высокие по модулю значения при которых , превышает теоретическое значение для квантиля
р < 0,001. Из таблицы для распределения «хи-квадрат» находим =10,83. Таким образом, при наличии выборки объемом 50 человек . Это означает следующее: если
на i-й пункт более чем 36 испытуемых из 50 ответили «верно», то его нужно отнести к положительному полюсу шкалы социальной желательности, если менее чем 14 ответили «верно» — к отрицательному. Такие пункты должны быть либо полностью исключены из опросника (что редко удается), либо количество положительных и отрицательных пунктов должно быть уравновешено.
Таким образом могут быть отобраны и пункты для шкалы лжи. Суммарный балл по этой шкале распределяется так, как показано на рис. 12. В качестве критерия разделения испытуемых выбирается критическая точка, которая позволяет минимизировать ошибки типа «пропуск» (зачисление лживых испытуемых в число правдивых) и ошибки типа «ложная тревога» (зачисление правдивых в число лживых). Положение критической точки на шкале можно менять в зависимости от баланса цены двух типов ошибок: в некоторых случаях «пропуск» гораздо опаснее, чем «ложная тревога».



Рис. 12. Смещение распределения тестовых баллов по «шкале лжи» к полюсу высоких значений X при инструкции на выполнение теста-опросника с позиции «идеального» человека

Фальсифицирующая инструкция используется также и для исследования степени «скрытности-открытости» формулировок вопросов. Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику MAS Ж. Тейлор. В этом случае, как это уже было показано, ответы на многие пункты значимо изменяются. Такие пункты являются слишком открытыми — они информируют испытуемого об измеряемом свойстве и позволяют ему вносить тенденциозные искажения в результаты в своих интересах.
3. С распространением факторного анализа чаще стала применяться стратегия «балансирования социальной желательности». При этом исследователь-психометрист задается целью обеспечить дискриминативную валидность своего теста относительно шкалы «социальной желательности». Это достигается с помощью факторного анализа корреляций между пунктами. Факторный анализ в применении к одномерному тесту-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к социальной желательности. На рис. 13 схематически представлено факторное пространство для опросника «Склонность к риску».



Рис. 13. Иллюстрация рассеяния векторов (., изображающих пункты теста-опросника в пространстве двух факторов: релевантного и иррелевантного. Выше и ниже штриховых линий - области низкой достоверности

Каждый вопрос представлен вектором, задаваемым проекцией на релевантный фактор - Склонность к риску и иррелевантные «Социальное одобрение» и «Социальное порицание». Требование конвергентной валидности по отношению к измеряемому свойству формулируется как требование к пунктам - иметь высокую проекцию (нагрузку) на горизонтальную ось. Дискриминативная валидность по отношению к социальной желательности - это требование иметь пренебрежимо малую нагрузку на вертикальную ось. Очевидно, имеются два способа устранить эффект социальной желательности: либо выкинуть все пункты, нагруженные фактором социальной желательности (выше или ниже штриховых линий, либо уравновесить их количество на полюсах социальной желательности.
Понятно, что при таком способе освобождения от социальной желательности диагностическая шкала всегда оказывается так называемой «?-шкалой», в отличие от «а-шкал», у которых максимум желательности достигается на одном из полюсов, у «?-шкал» максимум желательности достигается в «золотой середине», т. е. линия регрессии желательности по «бетта-шкале» оказывается криволинейной (рис. 14). Если применить такой метод к построению опросника «Склонность к риску - Осторожность», то в результате диагностический конструкт автоматически становится «бета-шкалой»: и слишком высокая склонность к риску, и излишняя осторожность - одинаково нежелательны, тогда как оптимум лежит посередине между крайностями.



Рис. 14. Схематическая иллюстрация «-шкалы, связанной с фактором социальной желательности монотонной зависимостью, и ?-шкалы, связанной с этим фактором криволинейно – с максимумом в области «золотой середины»

Из трех перечисленных выше методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы «лжи». Второй и третий методы позволяют отобрать только такие пункты, которые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно становятся ортогональным к социальной желательности. При необходимости диагностирования свойств, обязательно коррелированных с желательностью, единственный метод состоит в применении шкал коррекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с социальной желательностью, в ситуациях экспертизы всегда рискованна.
С другой стороны, в ситуации, когда сам испытуемый заинтересован в точных результатах («ситуация клиента»), психодиагност может пользоваться тестами-опросниками, не опасаясь артефакта социальной желательности.
Обычно в ходе практической проверки достоверности опросника психологу при обработке результатов пилотажного исследования приходится иметь дело с матрицей данных, подобной таблице, представленной на рис.15.
Ключ по шкале лжи L изображен на рис. 15 в виде второго столбца — справа от столбца, содержащего ключ по основной диагностической шкале С. Если в строке k+1 зафиксированы баллы, подсчитанные по основному ключу, то в строке k+2 - баллы, подсчитанные по ключу для шкалы лжи. Баллы Хk+2 отражают величину тенденции диссимуляции (социальной желательности) у данного испытуемого (низкие значения Хk+2 отражают тенденцию симуляции асоциальности или агравации - отягощения психической дезадаптации).


Рис. 15 Схематическое представление таблицы «пункты (t) - испытуемые (S)», вектора суммарных баллов Хk+1, вектора с баллами по шкале лжи Хk+2, вектора С со значениями ключа по основной шкале, вектора L с ключом по шкале лжи

Для успешного использования шкалы лжи пункты, относящиеся к этой шкале (имеющие ненулевые значения L), должны быть перемешаны в тестовом буклете с пунктами-вопросами, тестирующими основное психическое свойство (в противном случае -если все они собраны вместе - достоверность искусственно возрастает).
Оценка достоверности пунктов достигается с помощью статистической процедуры, аналогичной процедуре измерения внутренней валидности пунктов (надежности-согласованности - см. раздел 3.2): если при измерении внутренней валидности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+l, то при измерении достоверности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+2 (подходят точечно-бисериальный или четырехклеточный коэффициенты корреляции). Наиболее высокие по модулю значения корреляции должны быть получены в этом случае для пунктов, из которых составлена сама шкала лжи (это подтверждает ее консистентность, дифференцирующую силу для данной выборки). Положительная значимая корреляция для г (ti., Хk+2) пункта из основной шкалы Сi О указывает на то, что данный пункт оказывается «прямым» по шкале социальной желательности; отрицательная значимая корреляция указывает на то, что данный пункт является «обратным» по этой шкале.
При подготовке особенно значимого психодиагностического обследования, в котором надо принципиально исключить всякую возможность преднамеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы лжи еще одним критерием, основанным на использовании «фальсифицирующей инструкции», Для этого после обычной инструкции той же самой пилотажной выборке психолог дает инструкцию: «А теперь снова выполните задание, но старайтесь описать себя так, чтобы выглядеть максимально благоприятно в глазах большинства других людей». В результате применения такой инструкции психолог получает дополнительную таблицу, аналогичную таблице на рис. 15, только содержащую фальсифицированные данные. В таком случае кроме подсчета очень грубого индекса «желательности» по формуле (3.3.2) у психолога возникает возможность поэлементного сравнения ответов испытуемых на один и тот же вопрос в обычной и фальсифицированной диагностических ситуациях. Очевидно, что недостоверным следует считать вопрос, ответы на который будут изменены в фальсифицированной ситуации в определенном систематическом направлении. Здесь пригодится простейший критерий значимости изменений, основанный на распределении «хи-квадрат» (Рунион Р., 1982, с. 57-61). Для каждого пункта строится четырехклеточная матрица сопряженности:
«После»
+ -
А=40
В=36
С=22
D=48
«До» +


Здесь в клеточке А указана частота сохранения ответа «верно» на некоторый /-и вопрос (из 76 ответивших «верно» таких оказалось только 40 испытуемых), в клеточке В - частота изменения ответа «верно» на ответ «неверно» и т. д. Как видим, смена инструкции привела к значительным изменениям. Но для оценки значимого направления этих изменений автор критерия Макнимар предложил сравнивать между собой по критерию «хи-квадрат» только элементы В и С этой матрицы:

(3.3.3)

где - вычисленное эмпирическое значение статистики хи-квадрат
с одной степенью свободы. Для нашего примера =2,91, что ниже, чем граничное значение =3,84, и, следовательно, нулевая гипотеза об отсутствии значимых направленных изменений не может быть отвергнута - пункт не является значимо нагруженным артефактным фактором социальной желательности и может быть включен в диагностический вариант теста-опросника без изменений.
По результатам такого исследования удобно составить табличку К 2: в первом столбце -показатели корреляции пунктов со шкалой лжи, во втором - показатели значимости изменений при переходе к фальсификации. Безусловно достоверными можно считать только те пункты, которые не получили значимых :коэффициентов ни в первом, ни во втором столбце. Если таких пунктов оказывается слишком мало для составления надежной шкалы и если среди недостоверных пунктов достаточно много таких, которые обладают существенной внутренней (корреляция с суммарным баллом по основной шкале) или внешней (корреляция с критерием) валидностью, то следует прибегнуть к тактике балансирования: ввести в основную шкалу одинаковое количество «прямых» и «обратных» пунктов по шкале социальной желательности так, чтобы все четыре квадранта на рис. 13 были заполнены пунктами равномерно (среди «прямых» по основной шкале было бы поровну «прямых» и «обратных» по желательности, и среди «обратных» по основной - также поровну).
Без указанных предосторожностей тест-опросник неизбежно будет давать систематическое искажение результатов (в сторону повышения или понижения баллов по основной шкале) всякий раз, когда испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы.
Указанные проблемы и приемы обеспечения достоверности относятся не только к тест-опросникам, но и к другим техникам стандартизованного самоотчета, подверженным мотивационным искажениям. Существует теоретическая возможность преодолеть все эти проблемы. Но на практике это оборачивается огромной эмпирико-методической работой.
Другой путь - управление процессами категоризации в ходе самой диагностики. В так называемой «репертуарной модификации» тест-опросника испытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного репертуара ролей: «большинство людей», «моральный человек», «преуспевающий человек» и т. п. (Шмелев А. Г. и др., 1984). Извлечение практических выгод из подобной модификации обусловлено возможностью компьютерной обработки результатов либо сразу же после тестирования, либо даже в ходе самого тестирования (см. раздел 3.6).
Порядок действий психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ. Для прагматически ориентированных тестологов (каковыми традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности, по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы автоматически -в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов. Но, конечно, неверно было бы приписывать этому подходу «бездумность в опоре на статистику»: ведь статистика только тогда позволяет выявить валидное подмножество пунктов, когда исходное множество подобрано не случайно - с использованием априорных корректных содержательно-психологических представлений.
Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности. Перечислим этапы этой стратегии.
1. Теоретический анализ диагностического конструкта, разработка теоретической концепции тестируемого психического свойства. Выявление (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которой новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности.
2. Выделение составных частей теоретического конструкта, формулирование системы «эмпирических индикаторов» - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях. Конструирование пунктов теста.
3. Формулирование релевантного социально-прагматического критерия для проверки валидности.
4. Планирование и проведение корреляционного исследования (или квазиэксперимента) на специально подобранной выборке испытуемых, для которых известно значение критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых проводятся дополнительные тесты с целью получить возможность корреляционной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации). Оценка валидности эмпирических индикаторов.
5. Исследование достоверности результатов (если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с настороженностью). Оценка достоверности эмпирических индикаторов.
6. Отсев пунктов, не удовлетворяющих критериям валидности и достоверности. Измерение надежности для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 - уточняет теоретические представления.

3.4. ТЕХНОЛОГИЯ СОЗДАНИЯ И АДАПТАЦИИ МЕТОДИК

Рассматривая в предыдущем разделе вопрос о порядке проверки валидности, мы вплотную подошли к вопросу о целостной стратегии создания, эмпирической апробации и внедрения методики в практику.
Создание оригинальной методики или адаптация зарубежной методики не могут сводиться только к проверке (или перепроверке) отдельных психометрических свойств - репрезентативности, надежности, валидности, достоверности - в произвольной последовательности. В одних случаях целесообразно начинать с одного этапа работы, в других - с другого.
В действительности любая реальная ситуация использования теста не является ситуацией только «конструирования» или только «применения». Можно без преувеличения сказать, что существует континуум между крайними полюсами:

«конструирование» __________________ «применение»

и каждая ситуация до определенной ступени удалена от обоих полюсов. Трудно назвать такой случай, когда бы конструирование совершенно нового теста начиналось с нуля, «на пустом месте». Также трудно найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно исследованную нормативную ситуацию применения готового теста.
Но все это многообразие ситуаций, всю комбинаторику независимых параметров психологи-практики, как правило, пытаются свести к двум-трем типовым ситуациям.
1. Ситуация применения. Тест кем-то разработан (возможно, В: других социокультурных условиях), известны тестовые нормы, полученные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным).
2. Ситуация адаптации. Тест кем-то разработан – проверены надежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм.
3. Ситуация конструирования. Есть концепция психического свойства, но нет процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Надо придумать измерительную процедуру, проверить ее надежности валидность, построить тестовые нормы.
Остановимся прежде всего на вопросах адаптации так называемых переводных тестов. Путь быстрого пополнения репертуара методик за счет множества готовых зарубежных методик кажется многим психологам наиболее экономичным, кратчайшим путем к надежной и валидной психодиагностике. Но ведь если при этом адаптация сводится только к построению нормативного распределения тестовых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теоретическая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без изменений (ведь для любой, в том числе и для невалидной и ненадежной методики, можно получить распределение).
Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психических свойств (таких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, причем с использованием объективных процедур (психофизиологическая регистрация, тесты с «физическими» критериями успеха и т. п.). При тестировании интегральных психических свойств личности и индивидуального сознания (черты, мотивы, установки, самооценка, общие способности, стиль общения, ценностные ориентации, интересы и т. п.), а также при употреблении любых лингвистических средств в самой процедуре тестирования (включая не только формулировки задач, вопросов; но и исходную формулировку инструкции к тесту) и использовании культурно-специфических критериев оценки правильности .результата (определения шкального ключа) ограничиваться только сбором тестовых норм при адаптации - недопустимо!
Требуется серьезная эмпирическая работа по проверке надежности и валидности в новых социокультурных условиях, работа, фактически соответствующая по своему объему созданию оригинальной методики. С этой точки зрения, заимствование зарубежных общедиагностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики.
Перечислим необходимые этапы эмпирико-статиетической работы при адаптации многомерного переводного тест-опросника.
1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ совершенно необходим, если в зарубежной методике он применялся в качестве средства самого конструирования методики. Этот-анализ призван показать, что существует некое (еще неясно, какое именно) общее диагностическое свойство, лежащее на пересечении всех эмпирических индикаторов (в центре «пучка» скоррелированных пунктов-векторов). Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например к тест-опросникам EPI Айзенка и 16PF Кеттелла. А вот к опроснику «локус контроля» или ко многим основным клиническим шкалам MMPI требование внутренней согласованности применять не обязательно, так как пункты в эти шкалы подбирались по внешнему критерию и не связаны в один «пучок». Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам. В первом случае достаточно иметь настольный калькулятор. Для многомерных тестов необходимо использование специальной компьютерной программы «Анализ пунктов».
По отношению к негомогенным шкалам анализ внутренней согласованности позволяет осуществить в снятом виде необходимую проверку информативности пунктов (процент правильных или подтверждающих ответов должен соответствовать оригинальной авторской версии).
2. Проверка устойчивости к перетестированию. Эта проверка совершенно необходима при диагностике свойств, по отношению к которым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть (так же как анализ надежности -согласованности) совмещен с исследованием информативности отдельных пунктов теста, а также, возможно, и устойчивости отдельных пунктов. Без сведений о ретестовой надежности психолог не имеет права использовать тест для построения любого элементарного статического экстраполирующего прогноза (см. раздел 3.5).
3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался изначально как критериально-ориентированный, т. е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана коллективом Ф. Б. Березина для сокращенной модифицированной версии MMPI (Березин Ф. Б. и др., 1976).
4. Проверка или ре стандартизация тестовых норм. Об этом этапе уже говорилось выше. К сожалению, только этот этап работы по адаптации тестов до недавнего ывремени признавался всеми психологами как необходимый. Но и в этом случае далеко не всегда воспроизводилась необходимая статистическая работа по проверке устойчивости полученного распределения тестовых баллов к расщеплению выборки (см. раздел 3.1).
5. Специфичный этап для многомерных тестов - проверка воспроизводимости структуры отношений между шкалами. Например, для теста Айзенка принципиальна ортогональность, статистическая независимость факторов «экстраверсия - интроверсия» и «нейротизм - стабильность». На воспроизводимости структуры связей шкал между факторами 16PF основывается корректность подсчета вторичных факторов (Ямпольский Л. Г., 1981; Мельников В. М., Ямпольский Л. Г., 1985).
Даже беглый взгляд на пять перечисленных этапов позволяет убедиться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы созданию оригинальных методик. Здесь было бы даже более адекватным использование не термина «адаптация», а выражения «исследование зарубежной методики на отечественной выборке».
Тем не менее не следует понимать сказанное как призыв к полному отказу от работы с зарубежными методиками. Нет, конечно же, такая работа должна проводится интенсивно и планомерно. Особенно по отношению к тем методикам, которые уже получили международное распространение, доказали свою кросскультурную универсальность, адаптированы и успешно применяются во многих странах. Создание отечественных эквивалентов международных тестов позволяет использовать международный опыт валидизации, теоретического осмысления и практического использования этих тестов. Сравнение результатов, структурно-функциональных характеристик адаптированных зарубежных и отечественных тестов позволит российским психологам глубже понять, установить на конкретно-эмпирическом уровне специфику влияния образа жизни на психологический склад личности россиян, раскрыть разнообразие исторических и актуальных детерминант, обусловливающих социально полезные и социально вредные тенденции в психологической дифференциации индивидов в современных условиях, что совершенно необходимо для научного управления процессами воспитания и формирования человека.
Особые задачи ставит перед психологом ситуация «внутрикуль-турного переноса» теста на новую популяцию, отличающуюся от выборки стандартизации половозрастными или профессионально-культурными особенностями. В этом случае необходимо:
1. Проверить валидность методики в тмо случае, если методика чувствительна по своему содержанию к профессиональной или региональной специфике (могут ли отвечать пенсионеры, или школьники, или жители отдаленных регионов на вопросы, подразумевающие типичные ситуации из жизни студента, обучающегося в крупном городе европейской части России?). Для этого надо выбрать по возможности максимально экономичную процедуру проверки валидности. Размеры выборки в эксперименте по проверке валидности должны быть такими, чтобы можно было надеяться на получение статистических значимых связей между тестовым показателем и критерием валидности (это, как правило, не менее 30 испытуемых).
Если результаты проверки валидности оказываются неудовлетворительными (коэффициент корреляции явно ниже 0,5, и дальнейшее наращивание выборки все равно не оправдает применение .теста со столь низким показателем валидности), то по собранным результатам следует произвести простейший анализ пунктов: посмотреть, не оказались ли некоторые пункты явно неинформативными (все испытуемые отвечают одинаково), не оказались ли некоторые вопросы явно бессмысленными или слишком «прямыми», социально значимыми в данной ситуации. Не исключено, что при исключении неудачных пунктов из подсчета тестового балла (после приравнивания С=0).,искомая валидность будет обнаружена.
В отсутствие доступного внешнего критерия необходимо прибегнуть к проверке внутренней валидности, консистентности методики.
2. Проверить соответствия тестовых норм. Только после получения позитивного результата при проверке валидности целесообразно расширять выборку и реконструировать эмпирическое распределение тестовых баллов (см. раздел 3.1). Квантили этого распределения необходимо сравнить с квантилями нормативного распределения; если расхождения оказываются пренебрежимыми (не превышают ошибку измерения), то, можно принять вывод о приложимости к данной популяции универсальных тестовых норм. Но на к практике чаще возникают значимые отличия (оценка близости двух распределений производится по формуле (3.1.15) на с. 9.6). В этом случае психолог должен построить так называемые частные тестовые нормы, причем не только для использования в собственной диагностической практике, но и для пополнения информационно-методического банка данных отечественной психодиагностики (копию таблицы распределения тестовых баллов психолог должен послать в тот диагностический методический центр, с которым он поддерживает методические связи - получает методические материалы, проходит переподготовку и т. п.).
Подчеркнем, что абсолютное большинство ситуаций, которые обычно расцениваются как ситуации «применения», на самом деле являются ситуациями более или менее серьезного «внутрикультурного переноса». Именно эти обстоятельства предопределяют высокий уровень требований к психометрической подготовке психологов-психодиагностов (см. раздел 3.6).
При создании методики, как это уже было сказано в предыдущем разделе, решающее значение имеют методологическая ориентация и статус психолога.
Под статусом в данном случае понимаются существенные различия в нормативных (закрепленных в должностных инструкциях) требованиях к продукту деятельности психолога, работающего в исследовательском учреждении, и психолога, работающего в практическом учреждении. Если в первом случае психолог имеет право считать своим «конечным продуктом» внутрипсихологическую валидизацию сконструированной методики, то во втором случае он, как правило, обязан обеспечить практическую эффективность своей психодиагностической программы - указать на статистически значимую связь результатов диагностики с величиной какого-то социально ценного показателя - критерия, а затем построить на основе этой связи психологическую концепцию «вмешательства» (административного или психологического воздействия на ситуацию с целью ее изменения в желаемом направлении – в сторону максимизации данного показателя).
Указанные изначальные различия в статусах психолога-исследователя и психолога-практика предопределяют оправданные различия в стратегии конструирования тестов и тестовых батарей. Для психолога-исследователя главная ценность - это теоретическая обоснованность и эмпирическая однозначность диагностического конструкта, которой он достигает с помощью оправданной ориентации на конструктную валидизацию. У исследователя хватает ресурсов для того, чтобы обеспечить множественность разнообразных по своему статусу критериев валидности - от субъективных оценок валидности включенных наблюдателей (L-данные по Кеттеллу) до экспериментального моделирования реальных ситуаций проявления измеряемого свойства (Г-данные по Кеттеллу, см. также: Мельников В. М., Ямпольский Л. Г., 1985). Для психолога-практика главная ценность - это эффективность, пусть даже она будет достигнута с помощью теоретически эклектичного инструмента - эмпирического средства, не имеющего соответствующего научно строгого конструкта.
Появление и размножение прагматических тестов, очевидно, обусловлено действием объективного социально-исторического механизма, который можно было бы кратко назвать «опережающим запросом практики». Этого феномена не было бы, если бы все запросы практики можно было заранее предвидеть и рационально спланировать, подготавливая релевантные научно обоснованные диагностические процедуры. Но такое предвидение всегда удается осуществить лишь в определенной мере - реальная практика тем и отличается от дедуктивного движения в плоскости абстракций, что всегда приводит к столкновению с новыми и неожиданными явлениями, что обусловливает и появление неожиданных запросов.
Большинство ценных прагматических тестов с исторической неизбежностью становятся предметом для изучения со стороны психологов-исследователей, апостериорно реконструирующих научную концепцию валидности этих тестов, что значительно улучшает их характеристики и адекватизирует сферу применения.
Психодиагностика как специфический институт, реализованный в форме управляющего кольца «наука - практика - наука - практика...», достигнет оптимальных режимов в своем функционировании, если любые попытки конструирования и применения любых тестов будут тщательно документироваться, будут доступны для повторения в любом звене (исследовательском или практическом) психологической службы. При обеспечении эффективной информационной базы, оперативных форм информационной связи между звеньями этой системы (как методологическими, так и практическими) всякое практическое применение тестов станет одновременно и работой по созданию новых методик.

3.5. ПРОГНОЗИРОВАНИЕ И РАСПОЗНАВАНИЕ ОБРАЗОВ

Кардинальное значение для психодиагностики имеет проблема прогнозирования. Существует точка зрения, разделяющая психодиагностику и так называемую психопрогностику (Забродин Ю. М., 1984). Это указывает на самостоятельное значение проблемы прогнозирования.
В действительности, любая психодиагностика служит прогнозированию - на больших или меньших отрезках времени. То, что называется диагностикой текущего состояния объекта, имеет следующий смысл. В технике сконструированный агрегат подвергают стендовым испытаниям. Полученные результаты приписывают текущему состоянию объекта, имея в виду, что выключенный агрегат до его эксплуатации в реальных условиях уже не будет изменяться сколь-нибудь существенным образом. При этом подразумевается, что именно при работе включенного агрегата может измениться его состояние, в частности, выход из допустимого режима.
В психологии дело, конечно же, обстоит по-другому. И перенос подразумеваемых, имплицитных представлений из технической диагностики в психодиагностику неправомерен, как, впрочем, неправомерен такой перенос уже и по отношению к медико-биологической диагностике человеческого организма. Организм человека, его психика - это не агрегат, который произвольно можно выключить на период от тестирования до реального испытания. Все это время человек продолжает жить, активно взаимодействовать со средой. Даже в изоляции, даже во сне мозг человека проделывает большую работу, переводя полученную информацию из одних отделов памяти в другие (Касаткин В. Н., 1967). Все это означает, что принцип статистической экстраполяции результатов психодиагностического измерения нельзя считать оправданным без проведения специальных проверок.
Когда психолог по результатам тестирования регистрирует у некоторого индивида А показатель Ха, а у некоторого индивида В показатель Хb, так что Хa> Хb, то из этого вовсе не следует автоматически, что соотношение Хa> Хb сохранится в течение следующей недели, месяца, года. Для принятия стратегии экстраполяционного статистического прогноза требуется предварительно произвести эмпирическое измерение надежности - устойчивости (ретестовой надежности) на заданном промежутке времени.
При этом важна не только длина отрезка времени между двумя измерениями, но и его заполненность теми или иными значимыми для индивида событиями. Приведем простой пример. Организовано психологическое обследование абитуриентов вуза. Психологи пытаются измерить уровень интереса поступающих к избранной специальности Однако они применяют «лобовые» методики опроса, не защищенные от преднамеренной фальсификации (абитуриенты сознательно, или даже бессознательно, будут искажать результаты в сторону повышенного интереса - чтобы произвести благоприятное впечатление). Фальсификация здесь - только один из возможных источников некорректности статистического прогноза. Для эмпирического измерения силы этого артефакта не обязательно проводить повторное измерение через несколько лет. Имеет смысл провести повторное обследование по той же методике всех студентов, сразу же после их зачисления на первый курс. Если возникнет слишком много перестановок типа Ха < Хb, то ранговая корреляция «тест -ретест» окажется слишком слабой, и это доказывает неправомерность использования «лобовой» методики для статического прогноза. Другой возможный источник нестабильности ранговой шкалы (порядковой шкалы теста) обусловлен в данном примере зависимостью уровня интереса к предметной области от уровня знаний о предмете. В ходе обучения в вузе студенты приобретают более детальные знания о предмете, о своей успешности в освоении специальности, и от этого уровень интереса может существенно изменяться. Конечно, этот фактор - в отличие от фактора фальсификации - действует на более длительных промежутках времени. И здесь опять же требуются специальные измерения ретестовой устойчивости для применения статического прогноза.
Приведенный выше пример показывает, что в некоторых случаях целесообразно начинать решать проблемы психопрогностики без всякого привлечения внешней по отношению к тесту критериальной информации, т. е. средствами проверки надежности, но не средствами проверки валидности. Если уже таким способом будет получен отрицательный результат, то заведомо будет получен и для измерения валидности статического прогноза (вспомним основной принцип: валидность методики не превышает ее надежность).
Однако надежность лишь необходимое, но, естественно, недостаточное условие прогностической валидности. Можно убедиться в высокой устойчивости тестового показателя на длительных промежутках времени, но из этого вовсе не следует, что будут получены значимые линейные корреляции этого показателя с требуемым критерием валидности -эффективности.- корреляции, оправдывающие статический прогноз.
Как правило, на основе диагностики принимаются решения, которые соотносятся между собой как события на шкале наименований или на шкале порядка. Каким образом учитываются сегодня при приеме в вуз показатели школьной успеваемости абитуриентов? Существуют три варианта, три градации, соотносимые друг с другом по шкале порядка: выпускникам школы - медалистам предоставляются льготные условия (при успехе на первом экзамене от остальных вступительных экзаменов медалист освобождается), лица с удовлетворительным средним баллом допускаются к конкурсным вступительным экзаменам и сдают все экзамены; наконец, лица с неудовлетворительным средним баллом могут вообще не допускаться к вступительным экзаменам. На этом примере видно, что средний балл аттестата используется как некоторый показатель «теста», в соответствии с которым абитуриентов разделяют на три категории, по отношению к которым неявно применяется «порядковый» прогноз: предполагается, что медалисты будут успешнее обычных выпускников школ, а обычные выпускники - успешнее тех, кто учился в школе очень слабо.
«Порядковый» прогноз сохраняет свою эффективность не только в статических условиях, но и в условиях таких динамических изменений объектов прогнозирования, при которых порядковая структура оказывается неизменной. Предположим, что в: ходе обучения в вузе все студенты по мере более глубокого ознакомления с предметом испытывают нарастающий интерес к своей специальности, но если порядковая структура сохраняется (Ха продолжает превышать Xb, несмотря на то что Xb приближается к Ха), то «порядковый» прогноз все равно остается корректным.
Линейные и порядковые прогностические стратегии на практике применяются не к одномерным, а к многомерным данным. Среди математических моделей прогнозирования до сих пор наибольшей популярностью пользуются относительно простые (а иногда и неоправданно упрощенные) регрессионные модели.
При этом для многомерного случая задача психометриста сводится к построению уравнения множественной регрессии:

Y= ?1X1+ ?2X2…..+ ?iXi+ ?kXk (3.5.1)

где Y- прогнозируемая переменная (критерий прогностической ва-лидности);
Xi - значение i-го тестового показателя из рассматриваемой батареи тестовых показателей;

<< Пред. стр.

страница 3
(всего 9)

ОГЛАВЛЕНИЕ

След. стр. >>

Copyright © Design by: Sunlight webdesign