LINEBURG


страница 1
(всего 2)

ОГЛАВЛЕНИЕ

След. стр. >>

Статья подготовлена для публикации в №2 журнала "Педагогические измерения"
ПРОБЛЕМА КАЧЕСТВА ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ
Аванесов В.С.
докт. пед. наук, проф.
testolog@mtu-net.ru
Качество педагогических измерений - главная проблема теории и практики педагогических исследований. Достижение качества связано с концептуализацией интересующей переменной величины и операционализацией главного понятия, с определением исходных постулатов, аксиом и принципов, с разработкой формализмов и критериев пригодности результатов.
Введение. Для педагогических измерений проблема качества является ключевой. Потому что только качество позволяет распознать подлинные измерения от псевдоизмерений. Не случайно в теории вопросы достижения и проверки качества являются основным предметом исследования. В практике некачественное измерение порождает ошибочные решения при аттестации выпускников школ, вузов, оценке кадров в профотборе и при приёме абитуриентов в вузы, создаёт иллюзию измерений там, где таковые в действительности отсутствуют. На актуальность рассматриваемой проблемы указывает и нынешняя практика, основанная на спорных идеях и метафорических названиях[1].
Проблему качества относят к числу фундаментальных, ввиду её погруженности в глубины науки. При измерении исследователи используют методы концептуализации интересующего свойства и операционализации основного понятия, определяют постулаты, аксиомы и формализмы, выдвигают и проверяют гипотезы, разрабатывают модели измерения и определяют правила научной интерпретации получаемых результатов. В отличие от педагогики и других наук, в педагогических измерениях заложена обязательность рефлексивной оценки получаемых результатов. А потому измерение, не содержащее в себе рефлексии относительно собственного качества, не есть измерение в строгом смысле этого понятия. Без оценок качества научный статус самих измерений являются весьма сомнительным.
Понятие "качество измерения" относится больше к философии, чем к традиционной педагогике. Качество является традиционной философской категорией, рассматриваемой обычно в паре с другой сопряженной категорией - "количество". Гегель определял качество как тождественную с бытием определенность предмета. Последний перестаёт быть таковым, если теряет своё качество. Поэтому качеством называют существенную определенность каждого предмета, что выражается в закономерной связи частей и свойств этого предмета.
Выделяется три главных признака качества. Во-первых, качество - это определенность; во вторых - это определенность, тождественная с бытием, неотъемлемая от существования объекта; в-третьих, эта определенность является внешней, в силу чего она представляет собой границу, выделяющую данный материальный объект среди других, порождающую его своеобразие, специфику, индивидуальность[2].
Естественно, что к педагогике ближе понятие "качество педагогических измерений". Главным средством педагогического измерения является тест, а основной частью теста является тестовое задание. Тестовые задания отбирают из подходящих заданий в тестовой форме[3]. Качество педагогических измерений - явление многомерное, а потому представляет собой комплексную проблему. Оно зависит от концептуализации измеряемого качества (свойства), от правильности основного понятия, поставленного в соответствие измеряемому свойству личности, от системы понятийных и эмпирических индикаторов интересующего свойства, от используемых аксиом, теорий и формализмов, а также от принимаемых критериев качества педагогических измерений.
К настоящему времени только в отношении тестов утвердилась рефлексивная норма обязательной проверки их качества. Это, пожалуй, самое существенное требование, выгодно отличающие измерения от остальных методов педагогического контроля. При формальном оценивании главным становится не работа, а несовершенные показатели работы. Подмена такого рода приводит к работе на показатель, к его овеществлению, реификации.
Качество педагогических измерений можно определить как меру соответствия получаемых результатов заранее сформулированным целям. В западной теории педагогических измерений сложились два основных требования - это так называемые надежность и валидность.
1. Определение. Педагогическое измерение представляет собой процесс количественного сопоставления изучаемого свойства личности с некоторым эталоном, принимаемым за единицу измерения. Из этого определения можно вывести, что основная цель измерения в педагогике - это получение численных эквивалентов проявления интересующего признака. При педагогическом измерении свойство фиксируется в виде содержания понятия, например, знание учебной дисциплины.
Измерения проводятся посредством различных шкал, тестов и других методов. Объектом измерения являются конкретные носители интересующих свойств - студенты и другие испытуемые. Получаемые при измерении числа позволяют глубже проникнуть в суть изучаемых явлений, что особенно важно для научно - обоснованной постановки тестового контроля.
Предметом педагогических измерений часто бывает подготовленность испытуемых, которая представляет собой единство знаний, умений, навыков, представлений. К подготовленности можно отнести и чрезмерно используемое сейчас понятие "компетентность", представляющую собой прагматическую, или утилитарную, проекцию общего содержания образования личности.
Основной предмет педагогических измерений - разработка качественных тестов для измерения уровня подготовленности учащихся. В наши дни такие тесты используются не только для измерения уровня подготовленности, но и для проведения рейтинга студентов, мониторинга учебного процесса, для организации адаптивного обучения и адаптивного тестового контроля, дистанционного образования: в общем, тесты используются во всех современных образовательных технологиях.
Актуальность тестового метода объясняется его несомненными преимуществами перед другими педагогическими методами. Здесь выделено пять основных преимуществ:
1) высокая научная обоснованность самого теста, позволяющая получать объективированные оценки уровня подготовленности испытуемых;
2) технологичность тестовых методов;
3) точность измерений;
4) наличие одинаковых, для всех пользователей, правил проведения педагогического контроля и адекватной интерпретации тестовых результатов;
5) сочетаемость тестовой технологии с другими современными образовательными технологиями.
По критерию "содержание" можно выделит три вида педагогических тестов:
Гомогенный тест измеряет знание по одной учебной дисциплине. Задания такого теста охватывают содержание только этой дисциплины.
Гетерогенный включает в себя несколько гомогенных тестов (иногда говорят шкал). Содержание гетерогенного теста охватывает содержание нескольких дисциплин.
Интегративный тест состоит из таких заданий, что ответы на каждое из них требует знания нескольких учебных дисциплин. Таким образом, содержание интегративного теста охватывает содержание нескольких учебных дисциплин. В процессе итоговой аттестации выпускников образовательных учреждений лучше было бы использовать интегративные тесты. Но таких тестов пока нет, либо о них нет информации.
2. Структура. Структура педагогических измерений представлена на рис.1.
Рис.1

Из рисунка видно, что в педагогические измерения входят тестирование, рейтинг и мониторинг, в той части последнего, которая касается разработки показателей. Общая же часть мониторинга относится к сфере управления образованием. Основным видом педагогических измерений и понятием является тест. Другие основные понятия - задания в тестовой форме и тестовое задание.
3. Латентность. Педагогические измерения осложняются тем, что интересующие свойства даны не явно. Эти свойства считаются латентными, т.е. скрытыми от прямого наблюдения, а потому они недоступны для прямого, непосредственного измерения. Латентными называются положительные и отрицательные свойства личности, не поддающиеся непосредственному измерению. Примерами являются "подготовленность студентов", "знание учебной дисциплины", "способность понимать" "интеллектуальное развитие" и многое другое. Попытки измерения подобных качеств[4] на уровне обыденного сознания оканчиваются словесными или численными оценками, содержащими в себе немалые погрешности.
Если сравнить ситуацию педагогического измерения знаний и физического объекта, например, длины стола, то данная ситуация заметно выигрышнее для проведения физического измерения. Там явно выделен объект измерения - стол, предмет или интересующий признак - длина, есть некий инструмент - рулетка, с нанесёнными на неё значениями интервальной шкалы. И, наконец, есть общепринятые правила проведения такого измерения.

4. Индикаторы. Подготовленность приходится измерять косвенно, через эмпирически фиксируемые проявления признаков (индикаторов) знания. Поэтому каждое задание теста желательно рассматривать как индикатор, выявляющий какой-то один фрагмент знаний у тех испытуемых, у которых такие знания есть.
Сколько индикаторов (заданий) нужно иметь в одном тесте? Здравый смысл подсказывает, что судить о знаниях всего проверяемого материала по ответу только на одно задание довольно опрометчиво, хотя в каждой учебной дисциплине есть задания, правильные ответы на которые говорят о многом.
Устойчивые выводы лучше делать по результатам применения достаточного числа эмпирических индикаторов, обычно от двадцати до сорока. Индикаторы, сведенные в одну систему, образуют тест.
5. Концептуализация. В самом начале педагогических измерениях нет ни предмета, ни метода, ни правил измерения и интерпретации. Поэтому педагогическое измерение начинается с концептуализации. Вначале делаются предположения относительно предмета измерения. Например, что такое знания учащихся или студентов, из чего они состоят, можно ли найти показатели наличия или отсутствия знаний, каковы эти показатели, хорошо ли они указывают на меру знаний? В процессе концептуализации самой существенной частью является идея латентности интересующего признака.
Первым шагом в поисках ответов на эти и другие подобные вопросы является процесс концептуализации измеряемого свойства. В педагогических измерениях это обычно знания, умения, навыки и представления. В последние годы много говорят об измерении компетентности, или различных компетенций, однако, похоже, что до реальных измерений уровня компетентности дело пока что не дошло. Причиной такого положения стало отсутствие общепринятого понимания - что такое компетентность, является ли это устойчивым свойством личности, можно ли компетентность измерять, или хватает каких-либо элементарных показателей или оценок?
Как уже отмечалось, в отличие от элементарных оценок и некоторых простых физических измерений, педагогические измерения требуют определения ведущего понятия, уточнения имени измеряемого качества, определения предмета измерения. Важно построить систему индикаторов, понятийных и эмпирических, указывающих на наличие или отсутствие интересующего качества[5]. Важная часть процесса концептуализации - определение возможного источника погрешностей измерения.
6. Операционализация. Операционализация понятия есть его идентифицированность с совокупностью конкретных эмпирических действий - операций, синонимичных содержанию понятия[6]. В операциональных понятиях подготовленность по учебной дисциплине выражается правилами измерения, с перечислением конкретных элементов (например, должен знать принципы, формы, методы, определенные формулы, уметь их применять и т.д.). Именно отсюда возникает прагматическое определение знания предмета - когда студент отвечает правильно на такие-то задания, таких-то разделов учебной дисциплины.
Процесс операционализации понятий нужен, когда возникает задача измерения неявно определяемого свойства. Использование операциональных понятий оказывается правильным там, где они занимают свое место в общей системе понятий изучаемого предмета, и неправильным, где они абсолютизируются и применяются вместо специально-научных, общих и философских понятий.
Операционализация позволяет расчленить, уточнить и детализировать основное понятие, поставить ему в соответствие некоторый набор понятийных и эмпирических индикаторов. Структурирование последних методами, например, факторного анализа, позволяет получить новую эмпирическую структуру понятия, обычно не совпадающую с исходной, концептуальной. В таких случаях рассматривается степень их совпадения - несовпадения, состав эмпирических индикаторов, особенности того или иного метода факторного анализа. Если большинство концептуально выделенных индикаторов образует фактор - понятие, то результат рассматривается как успешный для проверки выдвинутой концепции знания.
Операциональные определения обеспечивают правильный переход от теоретического уровня исследования к эмпирическому уровню. Основными элементами перехода выступают понятийные индикаторы различного уровня общности. Так, основному понятию ставится в логическое соответствие некоторое небольшое (обычно не более пяти-шести) число частных понятий, становящихся понятийными индикаторами первой ступени. Затем этим индикаторам ставятся в соответствие еще более частные понятия, которые становятся индикаторами второй и т.д. ступени, вплоть до эмпирических индикаторов, соответствие которых основному понятию проверяется эмпирически. Применительно к педагогическим измерениям в качестве эмпирических индикаторов обычно выступают задания, подобранные с целью проверить знания по какой-либо учебной дисциплине[7].
7. Принципы организации педагогических измерений. Принципы - это основные требования, которыми специалисты по педагогическим измерениям руководствуются в своей деятельности[8]. В педагогическую теорию и практику принципы вводятся как совокупность исходных правил, способствующих эффективности учебного процесса. Помимо известных в литературе общих принципов обучения и воспитания, представлены следующие принципы:
Принцип связи педагогических измерений с целями образования и обучения. Он признан ассоциацией директоров американских школ, считающих, что обучение без последующего применения тестовых форм немыслимо; только по итогам измерения можно знать - что достигнуто, и в каком направлении дальше следует двигаться. Формулирование целей тестирования должно отвечать критериям социальной полезности и значимости, научной корректности и общественной поддержки.
Принцип объективности измерений нацеливает на устранение субъективизма и предвзятости. Сейчас часто применяется традиционный метод оценивания - формирование коллегиальной оценки, для чего создаются комиссии, что является неточным, нетехнологичным, дорогостоящим, а потому тупиковым методом. Получаемые при этом оценки нередко называются объективными, хотя они продолжают оставаться субъективными, а точнее, интерсубъективными. Второй путь повышения объективности - это использование стандартных тестовых программ и технических средств, что позволяет добиться точности измерения и адекватности цели;
Принцип справедливости и гласности измерений означает одинаково доброжелательное отношение ко всем, без исключения тестируемым, открытость всех этапов процесса, своевременность ознакомления с результатами тестирования.
Все испытуемые выполняют задания сходного содержания, из одних и тех же укрупненных дидактических единиц. Даются задания одинаковой трудности, в одинаковое время, с одинаковыми правилами оценивания. Никому не позволяется списывать. Гласность означает возможность контроля со стороны общественных и профессиональных организаций. Содержание теста соответствуют объявленной цели тестирования.
Принцип научности и эффективности предписывает необходимость проверки содержания и правильности формы тестов, что выполняется независимыми общественными ассоциациями педагогов по учебным дисциплинам. Особое значение для повышения качества контроля имеет методология и теория.
Методология педагогических измерений определяется как учение об основных положениях, формах, методах, принципах научного исследования и эффективной организации практики применения, главным образом, тестов. В круг основных методологических проблем входят формулирование главных идей, целей и задач, определение содержания, сущности и принципов педагогического измерения. Наиболее эффективный путь влияния методологии на практику - через разработку теории научной организации измерений.
Принцип систематичности. Относится к организации учебного тестирования, осуществляемого для улучшения знаний по результатам самопроверки - самой гуманной формы контроля. Самопроверке планомерно подвергаются знания каждого учебного модуля, раздела, каждой темы. Тем самым систематически формируется рефлексия относительно изученного и недоученного знания. Этим принципом подчеркивается необходимость согласования целей и результатов текущего, рубежного, тематического и итогового измерения (или оценивания), регулярности этой работы. Всесторонность акцентирует внимание на необходимости репрезентативного представления содержания учебного курса в содержании теста.
Принцип гуманности и этичности педагогических измерений означает, что этим исключается нанесение какого-либо вреда развитию личности. Не допускается ущемление по национальному, этническому, материальному, расовому, территориальному, культурному и другим признакам.
Тестирование может быть только добровольным. Различные опыты и эксперименты на детях и гражданах запрещены ст. 21, ч.2 Конституции РФ. При добровольном тестировании всем испытуемым требуются одинаковые инструкции, задания, условия, правила интерпретации и оценивания результатов, одинаковое время, недопустимость списывания и других форм нарушения. Все эти и другие требования этического характера относятся к словосочетанию "Test Fairness", что регулируется на Западе профессиональными стандартами [9].

8. Исходные постулаты педагогической теории измерений. Уже со времён Гельмгольца сложилась традиция рассмотрения любого измерения вместе с вопросами оценки допускаемых при этом погрешностей. Постепенно сложился и был принят так называемый постулат о неизбежной погрешности любого измерения, который гласит: результат эксперимента - пишет Л.Яноши, - всегда содержит ошибку, как бы тщательно ни проводились измерения"[10]. По мнению В.М.Свириденко, этот постулат может рассматриваться как выражение эмпирического факта. Что необходимо приводит к другому исходному положению теории измерений, а именно: к тезису о невозможности знания абсолютного значения измеряемой величины [11].
Постулат и тезис объясняют - почему проблему качества педагогического измерения естественным образом стали рассматривать в тесной связи с вопросами оценки погрешностей. Обычно принимается общее концептуальное утверждение: чем больше ошибок в проводимых измерениях, тем хуже качество самих измерений. И с этим согласны многие, если не все. Однако в практике педагогических измерений возникает много спорных вопросов о природе ошибок, возможности их фиксации и коррекции, особенно если это касается так называемых систематических ошибок измерения. Например, в физических измерениях для систематических ошибок сложилась практика внесения поправок. Поправки иногда применяются и в педагогических измерениях, что делается при сравнении результатов испытуемых, полученных одним тестом, в группах с различными уровнями подготовленности. Тем не менее, теория педагогических измерений имеет дело, в основном, со случайными ошибками измерения. При этом большую роль играют суждения относительно того - что считать ошибками измерения, как фиксировать последние, как связаны ошибки измерения с истинными значениями тестовых баллов?
Для педагогической теории тестов можно определить следующую систему исходных постулатов:
1) тест создаётся для получения результатов, помогающих развитию личности, практике образования и науке;
2) из множества возможных форм исследованы и признаны тестовыми всего четыре формы заданий[12]. Каждая форма может иметь варианты. Например, в заданиях с выбором одного или нескольких правильных ответов определены три варианта: задания с выбором одного правильного ответа, с выбором одного наиболее правильного ответа и задания с выбором нескольких правильных ответов. Третий вариант наиболее предпочтителен[13]. Каждой форме и каждому варианту предшествует своя инструкция для испытуемых. Каждая инструкция задаёт испытуемым точно определённый вид деятельности.
3) в отличие от смысла элементарного перевода слова "тест", в образовании тест означает метод, результат и интерпретацию результатов педагогического измерения;
4) главные критерии качества тестов - это точность результатов измерения и адекватность интерпретации результатов в соответствии с целью.
9. Аксиомы и формализмы. Для достижения качества педагогических измерений требуется аксиоматика (система аксиом). Аксиомы - первоначальные утверждения теории, которые принимаются без доказательств. Для педагогической теории измерения можно предложить следующую систему аксиом:
1) устойчивого существования интересующего качества, признака, свойства или характеристики личности, в виде латентной переменной величины;
2) представления интересующего свойства как непрерывно измеряемой латентной величины. Как считал великий математик Л.Эйлер, понятие "величина охватывает всё то, что изменяется и может быть измерено";
3) существования истинного значения интересующего качества у каждого испытуемого. Измеряемая величина предполагается варьирующей на множестве испытуемых;
4) существования положительной связи между наблюдаемыми результатами испытуемых и уровнем развития латентного качества. Результат испытуемого при ответе на каждое задание теста рассматривается как вероятностная функция от уровня латентного качества; чем чаще, количественно, у испытуемых, проявляется интересующее качество, тем определённее выражено измеряемое качество личности.
5) аксиома неизбежной погрешности измерения, в соответствии с которым измеряемое значение (X) не равно истинному (T): X предполагается отягощенным некоторой погрешностью. Таким образом, , откуда следует, что у каждого испытуемого i
Xi = Ti + Ei (1)
где Ei - некоторая случайная ошибка измерения, состоящая из суммы возможных ошибок различного происхождения, значения и знака.
В реальном процессе педагогического измерения каждый испытуемый имеет свои значения Хi, Тi, и Еi. Значения Хi рассматриваются как функция от истинного уровня подготовленности (Тi)[14] и от значений ошибок измерения (Ei). Каждый из компонентов последнего равенства варьирует на множестве испытуемых.
Операция суммирования в формуле (1), справа и слева, дает
. Деление на N приводит к равенству:
6) Аксиома о случайных погрешностях измерений, распределяемых по нормальному закону.
7) Аксиома независимости (некоррелируемости) истинных и ошибочных компонентов измерений. Этой аксиоме ставится в соответствие следующий формализм: вычитание из равенства Xi = Ti + Ei соответствующих средних арифметических, т.е. дает значения отклонений от соответствующих средних арифметических
(2)
Возводя в квадрат члены равенства (2), слева и справа, и, затем, суммируя, имеем (3)
Раскрывая скобки в (3), получаем
(4)
Деление на N дает
(5)
где - два значения ковариации истинных компонентов с ошибочными. Эта ковариация в теории тестов принимается равной нулю, вследствие чего это равенство принимает вид т.н. классического равенства (6), в котором дисперсия тестовых баллов принимается состоящей из двух компонентов:
(6)
8. Формализмы. Как вытекает из равенства [6] дисперсия тестовых баллов включает, аддитивно, два компонента: . Такому представлению ставятся в соответствие некоторые формализмы[15].
Почленное деление выражения на даёт
1 = + (7)
После переноса влево получится
1 - = (8)
Концептуально надежность тестовых результатов равна правой части равенства [8] ; а операционально это понятие выражается левой частью [8], потому
rtx = 1 - (9)
что существует несколько простых методов, позволяющих оценить значение . Формула [9] в западной литературе названа классической, вероятно, ввиду её концептуальной простоты и широкой применимости в разработке тестов.
10. Надежность. Раньше было принято писать и говорить о надежности тестов. Теперь в зарубежной литературе утвердилась другая норма: считается правильнее обсуждать вопрос не надежности тестов, а надежности тестовой информации (результатов). Этот поворот в истолковании объясняется новым пониманием вопросов соотношения метода, условий его применения и интерпретации получаемых данных. Свойства метода могут переноситься на свойства результатов, а могут, по разным причинам, и не переноситься.
Формулы [8-9] дают концептуальное выражение общего понятия "надежность тестовых результатов". В каждом отдельном эмпирическом исследовании это общее понятие может быть выражено посредством различных смыслов и операций, в зависимости от интересующей концепции, от интерпретации общего понятия "надежность результатов" и главное - от источника возникновения случайных погрешностей измерения.
Из соображений наглядности и доступности методы определения надёжности удобно показать на небольшом примере данных. Эти данные[16] приведены в табл. 1. Первый столбец таблицы представляет номера испытуемых, с 1 по 13, из чего видно, что общее число испытуемых равно 13 (N =13). Вектор-столбцы Х1, Х2, Х3, ...Х10 представляют ответы испытуемых по десяти заданиям. Таким образом, таблица 1 содержит результаты 13 испытуемых по 10 заданиям. 13 Х 10 = 130 упорядоченных по строкам и столбцам результатов образуют матрицу исходных данных, включенных в состав табл.1.
Таблица тестовых результатов[17] Табл.1
№№
Х1
Х2
Х3
Х4
Х5
Х6
Х7
Х8
Х9
Х10
Хi
Хi2
1.
1
1
1
0
1
1
1
1
1
1
9
81
2.
1
1
0
1
1
1
1
1
1
0
8
64
3.
1
1
1
1
0
1
1
0
1
0
7
49
4.
1
1
1
1
0
1
0
1
0
0
6
36
5.
1
1
1
1
1
1
0
0
0
0
6
36
6.
1
1
1
1
0
0
1
0
0
0
5
25
7.
1
1
0
1
1
0
1
0
0
0
5
25
8.
1
1
1
1
1
0
0
0
0
0
5
25
9.
1
0
1
0
1
1
0
0
0
0
4
16
10.
0
1
1
0
0
0
0
1
0
1
4
16
11.
1
1
1
0
0
0
0
0
0
0
3
9
12.
1
1
0
0
0
0
0
0
0
0
2
4
13.
1
0
0
0
0
0
0
0
0
0
1
1
Rj
12
11
9
7
6
6
5
4
3
2
65
387
Wj
1
2
4
6
7
7
8
9
10
11


pj
.923
.846
.692
.538
.462
.462
.385
.308
.231
.154
5

qj
.077
.154
.308
.462
.538
.538
.615
.692
.769
.846


pjqj
.071
.130
.213
.248
.248
.248
.236
.213
.178
.130


Вектор исходных тестовых результатов испытуемого Yi получается как результат суммирования баллов, у каждого испытуемого, за выполнение всех десяти заданий. В этой таблице за каждый правильный ответ давался один балл, за неправильный ответ - нуль баллов.
Yi2 означает квадраты значений исходных тестовых баллов;
Rj - число правильных ответов, полученных в заданиях;
Wj - число неправильных ответов, полученных в заданиях;
pj - доля правильных ответов по заданию j; определяется по формуле pj = ;
qj- доля неправильных ответов по заданию j; находится по формуле qjj = ;
pjqj - значения дисперсии тестовых баллов по каждому заданию, для случаев использования оценок 1 и 0.
Yi - исходные тестовые баллы испытуемых, получаемые в результате сложения баллов по строкам.
Yi2- квадраты значений баллов Yi.
11. Методы определения надежности тестовых результатов. Существует довольно много методов обоснования надежности тестовых результатов. Одни из них проще, другие - сложнее. И хотя в данной статье приводятся самые распространенные методы, лексика, однако, заметно отличается, от лексики других авторов.
11.1. Один из самых привлекательных методов определения надежности тестовых результатов связан с идеей определения мер структурированности знаний как отдельного испытуемого, так и группы испытуемых. Совокупность единичек и нулей, полученных каждым испытуемым, представлена в соответствующей строке матрицы, включенной в табл. 1. Эта совокупность образует т.н. профиль испытуемого, который свидетельствует о структуре знаний. Если предположить, что тест представляет собой систему заданий возрастающей трудности, то правильным можно назвать такой профиль баллов испытуемого, в котором все нули следуют за всеми единицами. Испытуемый знает правильные ответы на легкие задания и не может ответить правильно на трудные задания. Это предположение совпадает с естественной педагогической логикой.
Примеры правильных профилей знаний дают вектор-строки испытуемых табл. 1, под номерами 5, 8, 11, 12, 13. В остальных профилях испытуемых есть ошибки. Ошибкой считается каждый элемент, стоящий не на своем месте. Например, у первого испытуемого сумма полученных баллов равна 9. При идеальной структуре теста и такой же структуре знаний эти девять баллов должны были располагаться на первых девяти местах, если помнить, что тест представляет систему заданий возрастающей трудности. Отклонение от этого идеала может быть вызвано незнанием, или неудачной попыткой угадать правильный ответ. В первой строке не на своём месте стоят нуль по четвертому заданию (он должен стоять в десятом задании), а также единица в десятом задании - там должен стоять нуль. Таким образом, в профиле первого испытуемого имеется две ошибки. Аналогично, по две ошибки содержат профили испытуемых 2, 3, 4, 6, 7. По четыре ошибки содержатся в профилях 9-го и 10-го испытуемых. Итого в матрице насчитывается 20 ошибок. Естественно предположить - чем больше ошибок (инвертированных элементов, стоящих не на своих местах), тем хуже структура знаний, тем ниже может оказаться и надежность результатов, полученных данной группой испытуемых. В соответствии с похожей концепцией измерения и интерпретацией результатов L.L.Guttman ввёл следующую меру:
rg = 1 - (10)
где rg - коэффициент структурированности тестовых результатов испытуемых данной группы.
- количество ошибочных элементов в профилях всех испытуемых;
N - число испытуемых в матрице данных;
K - число заданий в тесте.
Подставляя полученные данные в формулу [10], получим
rg = 1 - = 0,846
В качестве нижней границы допустимой надежности измерения обычно принимается значение 0,800. Всё, что хуже этого значения обычно считается недостаточным. Поскольку полученное значение rg > 0,800, то принимается решение о достаточной надежности измерения. Эта надежность складывается из двух основных профилей: заданий и испытуемых. Не случайно матрицы такого типа в западной литературе названы conjoint, что переводится с английского как "соединённый, объединённый; общий, совместный". В этом методе в качестве источника погрешностей измерения рассматриваются инверсии в профилях испытуемых и заданий теста.
11.2. Второй метод оценки надежности основанный на идее стабильности результатов испытуемых. В связи с этим методом возникает ассоциация с известной древнегреческой притча о человеке, который побывал на острове Родос и, якобы, умел там далеко прыгать. Ему было предложено: "здесь Родос, здесь и прыгай"! В этом методе испытуемым предлагается дважды выполнить одно и то же задание, после чего результаты коррелируются. Если r > 0,800, то результаты полагают приемлемо устойчивыми (стабильными), причём, тем стабильнее, чем выше значение коэффициента r. Такого рода показатель надежности лучше называть коэффициентом стабильности или устойчивости результатов испытуемых. Здесь источник погрешностей - различия результатов первого и второго измерения.
11.3. Классическим методом определения надежности результатов считается, корреляция результатов испытуемых, полученных при ответах на параллельные варианты одного и того же теста[18]. Хорошим способом достижения параллельности вариантов теста является фасетная технология разработки заданий в тестовой форме. Эта технология изложена в трудах автора[19]. Получаемое при этом значение r интерпретируется в смысле похожести, близости, параллельности результатов испытуемых по данным вариантам теста. Здесь источник погрешностей - возможная непараллельность заданий теста по содержанию.
11.4. В практике укоренился метод деления тестовых результатов на две части. По данным, например, табл.1 считают отдельно, баллы испытуемых в нечетных (1,3,5, и т.д.) и в четных заданиях (2, 4, 6, и т.д.). Полученные суммы образуют два вектора, Х и Y, представленные в табл. 2.
Табл.2 Корреляция балов испытуемых в нечетных и четных заданиях.
№№ испытуемых
Баллы, полученные в нечётных заданиях (Х)
Баллы, полученные в чётных заданиях Y)
ХY
Х2
Y2
1
5
4
20
25
16
2
4
4
16
16
16

3
4
3
12
16
9

4
2
4
8
4
16

страница 1
(всего 2)

ОГЛАВЛЕНИЕ

След. стр. >>

Copyright © Design by: Sunlight webdesign