LINEBURG


страница 1
(всего 6)

ОГЛАВЛЕНИЕ

След. стр. >>



Батурин Н.А
Курганский Н.А











Пособие по разработке тестов
достижений
(тестов по учебным дисциплинам)






























Челябинск - Санкт-Петербург
2000











Батурин Н.А
Курганский Н.А












Пособие по разработке тестов
достижений
(тестов по учебным дисциплинам)




























Челябинск - Санкт-Петербург
2000








Минобразование РФ
Южно-Уральский государственный университет

Батурин Н.А.
Курганский Н.А.
Пособие по разработке тестов достижений
(тесты по учебным дисциплинам).- Челябинск - Санкт-Петербург, 2000. - 86 c.


В первых разделах пособия приведена характеристика различных видов тестов, изложены общие принципы тестирования и описана специфика тестов достижений. Последующие разделы посвящены подробному описанию практических вопросов разработки и предварительной адаптации тестов достижений по учебным дисциплинам.
При подготовке пособия авторы опирались как на опыт
разработки тестов различных видов, изложенный в литературе, так и на собственный опыт разработки тестов достижений.
Пособие предназначено для психологов, педагогов, методистов, занимающихся разработкой, адаптацией и внедрением тестов достижений по учебным предметам.








(c)БатуринН.А.,Курганский Н.А.

























Содержание

Введение......................................................
Общая характеристика тестов............................
Тесты достижений, их виды и специфические
Особенности..................................................
Общие подходы к разработке тестов достижений...
Принципы разработки тестовых заданий...............
Количество тестовых заданий и специфика их
Оформления...................................................
Формирование блока заданий на стадии
предварительной апробации...............................
Эмпирическая проверка созданных форм...............
Создание окончательного варианта теста...............
Стандартизация теста........................................
Использованная литература................................

Приложения
Приложение №1
О сертификации качества педагогических
тестовых материалов........................................

Приложение №2
Временное положение о сертификации
качества педагогических тестовых материалов,
используемых для оценки знаний обучающихся в
образовательных учреждениях РФ.......................

Приложение №3
Методические указания по подготовке педаго-
гических тестовых материалов к сертификации.......

Приложение №4
О координационном совете Минобразования
России по вопросам сертификации качества
педагогических тестовых материалов....................

Приложение №5
Примеры заданий тестов из сборника Центра тестирования выпускников общеобразовательных учреждений РФ для государственного абитуриентского (11 класс).

Примеры заданий по русскому языку.....................
Примеры заданий по математике...........................
Примеры заданий по физике..............................
Примеры заданий по химии...............................
Примеры заданий по информатике ......................
Примеры заданий по биологии............................
Примеры заданий по истории.............................
Примеры заданий по географии............................
Примеры заданий по основам государства и права...
Примеры заданий по английскому языку...............
Примеры заданий тестов из сборника Центра тестирования выпускников общеобразовательных учреждений РФ для государственного аттестационного тестирования (9 класс).

Примеры заданий по русскому языку..................
Примеры заданий по алгебре.............................
Примеры заданий по физике ..............................
Примеры заданий по биологии...........................
Примеры заданий по истории.............................
Примеры заданий по химии...............................
Примеры заданий по географии..........................
Примеры заданий по геометрии...........................




























Введение

Установить точную дату создания первого теста достижений вряд ли удастся. Можно лишь с уверенность сказать, что первым стандартизированным тестом по измерению результатов школьного обучения уже около 100 лет.
За это время разработаны сотни тестов и батарей тестов достижений. В некоторых странах измерению достижений придается особое значение. Так, в США еще в 1947 году была создана общегосударственная служба тестирования в образовании, принявшая на себя ответственность за все программы тестирования в образовании, в том числе для профессиональных училищ и университетов.
В нашей стране первые тесты достижения использовались еще педологами, но после запрета педологии они надолго исчезли из обихода педагогов и психологов, появившись в виде программированного контроля только в 70-х годах и только через 10-15 лет в виде достаточно стандартизированных процедур контрольных испытаний.
В настоящее время разработка и использование тестов достижения осуществляется главным образом только в двух областях педагогической практики.
Во-первых, это школьные учреждения и связанные с ними структуры. В этой сфере потребность в тестах достижения стала ощущаться после появления различных типов учебных заведений (лицеев, гимназий, колледжей и т.д.), обучение в которых проводится по экспериментальным и авторским учебным планам и программам, и после появления проекта стандарта образования. Оба этих фактора стимулируют разработку стандартизированных процедур контроля за достижениями учащихся.
Во-вторых, это высшие учебные заведения и техникумы, причем главным образом проблема разработки тестов достижений пока наиболее остро стоит при отборе абитуриентов. Для ее решения приказом Госкомвуза России (№ 223 от 17.02.95) создан Центр тестирования выпускников общеобразовательных учреждений Российской Федерации, преобразованный в 2000 году в Центр тестирования Минобразования РФ.
Исследовательским центром проблем качество подготовки специалистов Госкомвуза проводится подготовка преподавателей вузов по методике разработки и применению педагогических тестов.
В апреле 2000 гола издан приказ о сертификации качества педагогических тестовых материалов и создан Координационный совет Минобразования РФ по вопросам сертификации качества тестовых материалов (см. приложения).
Однако до сих пор у нас в стране издано очень мало систематизированных руководств по разработке тестов достижения. Видимо, поэтому многие из уже созданных и использованных в различных учреждениях тесты существенно отличаются по качеству, в некоторых из них допущены серьезные ошибки и просчеты.
Данное пособие направлено на разрешение тех проблем, которые постоянно встают перед разработчиками тестов достижений. В нем нашли отражение как опыт разработки и адаптации тестов достижения различных и в основном зарубежных исследователей, так и собственный опыт авторов.
В первых разделах пособия дана классификация различных видов тестов, изложены общие принципы тестирования и описана специфика тестов достижений. Последующие разделы посвящены описанию практических вопросов разработки и адаптации тестов достижений по учебным предметам.

Общая характеристика тестов

В психологии и педагогике под тестом понимается упорядоченная процедура получения сведений о человеке, основанная на регистрации его ответов (реакций) на стандартные задания (стимулы) с последующей единообразной обработкой и интерпретацией этих ответов, позволяющая сравнивать полученные данные с данными других людей.
Основные преимущества тестирования по сравнению с нестандартизированными методами сбора данных - экономичность (сокращение времени, сил и средств) и объективность (максимальная независимость результатов от позиции исследователя).
Тесты могут быть классифицированы по целому ряду оснований. Приведем некоторые из них.
1. По назначению тесты делятся на общедиагностические (структуры личности, общего интеллекта и т.п.) и специализированные (например, музыкальных способностей или результатов обучения иностранному языку).
2. По качеству тесты бывают стандартизированные и нестандартизированные. Последние могут быть названы тестами лишь условно. Как правило, в них не представлены стандарты (нормы) для описания результатов, в то время как стимульный материал и процедура проведения упорядочены.
3. По материалу оперирования тесты делятся на бланковые, предметные и аппаратурные.
4. В соответствии с количеством одновременно обследованных людей тесты подразделяются на индивидуальные и групповые. Последние могут проводиться и индивидуально, но, как правило, не наоборот.
5. По ведущей ориентации выделяют тесты на скорость, тесты результативности и смешанные тесты. В тестах на скорость задания просты, а время их выполнения резко ограничено, так что мало кому удается выполнить все задания. В тестах результативности задачи трудные, а время решения теоретически не ограничено. На практике чаще всего применяются смешанные тесты, в которых задания различаются по уровню сложности, а время ограничивается, хотя и не очень жестко.
6. По характеру ответов на задания тесты подразделяются на тесты с предписанными ответами (с заданиями "закрытого" типа) и тесты со свободными ответами (с заданиями "открытого" типа).
7. Наконец, по области охвата психического могут быть выделены личностные тесты (личностные опросники, проективные тесты, шкалы настроений и состояний и др.) и когнитивные тесты (тесты интеллекта, тесты специальных способностей, тесты достижений и др.).
Разработка и применение тестов любых видов опирается на соблюдение важнейших принципов тестирования. Среди них диагностическая значимость теста, стандартизация, надежность, валидность и дискриминативность.
Диагностическая, или предсказательная, значимость теста зависит от того, насколько он может служить показателем относительно избранной существенной области поведения. Измерение особенностей поведения, представленных в самом тесте, очень редко оказывается исключительной целью тестирования. Поэтому ценность теста как диагностического инструмента должна быть доказана эмпирически путем установления соответствия деятельности субъекта в тесте его действиям в иных, реальных ситуациях.
Стандартизация теста подразумевает единообразие процедуры проведения и оценки выполнения теста. Чтобы показатели разных индивидов можно было сравнивать между собой, условия тестирования должны быть одинаковыми для всех. Стандартизация включает точные указания относительно используемых материалов, временных ограничений, устных инструкций испытуемому, способов обработки и трактовки результатов и т.п. В тестовой ситуации единственной варьирующей переменной обычно оказывается тестируемый субъект. Важным этапом стандартизации теста является получение норм.
Под надежностью понимается согласованность показателей, полученных у одних и тех же испытуемых, как приповторном тестировании, так и внутри теста. Существует несколько способов определения надежности: ретестирование, т.е. проведение того же теста через определенный промежуток времени; повторное тестирование с использованием параллельной (аналогичной) формы теста; сопоставление показателей двух частей теста, деленного пополам (как правило, разносятся задания с четными и нечетными номерами); вычисление коэффициентов согласованности ответов по отдельным заданиям между собой. Надежность теста может зависеть от влияния личности экспериментатора или интерпретатора на результат тестирования (разумеется, чем меньше такое влияние, тем выше надежность).
Важнейшая характеристика любого психологического или педагогического теста - это его валидность (обоснованность), т.е. степень, в которой тест действительно измеряет то, для чего он предназначен. Обычно выделяют три основных вида валидности: содержательную, конструктную и критериальную.
Содержательная валидность может быть установлена для тестовой деятельности, близкой или совпадающей с реальной, например, для тестов достижений по конкретным учебным предметам. Валидность здесь выводится из оценок экспертов по шкале близости тестовых задач к реальным, встающим перед человеком в процессе учебы или работы.
Конструктная валидность определяется в тех случаях, когда представление об измеряемом психическом феномене сформировалось в процессе развития психологической науки, а сам феномен (конструкт) достаточно сложен и не может в принципе совпадать с конкретной тестовой деятельностью. К числу таких феноменов относятся черты характера, интеллект и другие высшие психические функции. Доказательства конструктной валидности могут быть получены путем сопоставления результатов по тесту с данными других методик, с помощью которых оценивается избранная характеристика, а также с объективными или принимаемыми за таковые поведенческими реакциями человека или группы людей.
Критериальная валидность - это основной вид валидности, измеряемой посредством сопоставления данных по тесту с эмпирически очевидными показателями (критериями). На практике в качестве критерия чаще всего выступают проявления изучаемой характеристики в повседневной жизни (например, успешность обучения в вузе, количество аварий на производстве по вине работника, развитие нервно- психических заболеваний и т.п.). Нахождение подходящего и легко доступного критерия принадлежит к важнейшим и сложнейшим задачам валидизации теста.
Помимо надежности и валидности существенной характеристикой теста является его дискриминативность - способность отдельных заданий и теста в целом дифференцировать обследуемых относительно "максимального" и "минимального" результатов теста. Если при тестировании достаточной выборки испытуемых все возможные значения показателей по тесту встречаются одинаково часто, то дискриминативность теста является наивысшей.
Следует также указать на основные сферы практического применения тестов: образование; профессиональная подготовка и отбор; психологическое консультирование.

Тесты достижений, их виды и специфические особенности

Тесты достижений - это группа методов психолого-педагогической диагностики, выявляющих уровни овладения испытуемыми различными знаниями, умениями и навыками. От других видов тестов, прежде всего интеллекта, общих и специальных способностей, тесты достижений отличаются по двум ключевым признакам.
Во-первых, тесты достижений измеряют влияние относительно стандартизированных курсов обучения при частично известных и контролируемых условиях, в то время как выполнение тестов интеллекта и способностей отражает совокупное влияние разнообразного опыта повседневной жизни при неизвестных и мало контролируемых условиях.
Во-вторых, тесты достижений обычно дают оценку результатам, достигнутым индивидом по завершению обучения. В них основной интерес сосредоточен на том, что индивид знает и может делать к настоящему времени. Напротив, тесты способностей служат для предсказания последующего выполнения той или иной деятельности и применяются для оценки целесообразности прохождения индивидом того или иного специального курса обучения или для предсказания уровня его достижений в новой ситуации.
Разумеется, провести жесткое разграничение по указанным признакам между тестами достижений и тестами способностей можно лишь теоретически. На практике различия между этими видами тестов не столь однозначны и определяются не только содержанием тестовых заданий, но и ориентацией во времени получаемых показателей. Для преимущественного использования тестов достижений в ситуациях отбора существует определенное этическое обоснование, которое приблизительно выражается следующей фразой: "Любой, кто хочет и может упорно трудиться, имеет хорошие шансы добиться успеха".
В сфере образования тесты достижений имеют определенные преимущества перед традиционными (субъективными) методами оценки знаний. Эти преимущества касаются не только скорости и простоты проведения этих тестов и обработки полученных по ним результатов. Основное их достоинство состоит в объективности, единообразии и независимости от случайных факторов при оценке умений и знаний учащихся.
Обычно тесты достижений подразделяются на батареи общих достижений, стандартизированные тесты по конкретным областям знаний и тесты локального предметного содержания.
Батареи общих достижений приспособлены для измерения общих результатов образования, реализуемых в виде универсальных знаний, умений и форм поведения, охватываемых почти всеми программами обучения. Применение этих батарей дает профиль показателей по отдельным субтестам или по основным областям школьных знаний. Преимущества таких батарей по сравнению с частными тестами достижений связаны с тем, что их использование позволяет осуществить не только горизонтальное (между учениками одной параллели), но и вертикальное (от класса к классу) сравнение уровней знаний и умений одного и того же ученика. Значительная часть подобных батарей, разработанных в США, охватывает все классы школы, а иногда даже колледжи. Перечислим некоторые из показателей, диагностируемые батареями общих достижений: словарный запас; понимание прочитанного; применение математики; понимание природных явлений; грамотность; навыки анализа; социальный кругозор.
Методы измерения достижений в конкретных учебных предметах, как правило, ориентированы на охват целостных, завершенных курсов обучения в школе и вузе. Особый интерес представляют используемые в ряде зарубежных стран скоординированные серии тестов достижений по разным учебным предметам, проходимым в старших классах школы, включенные в ежегодную программу тестирования в качестве вступительных экзаменов в университеты и колледжи. Отличительной чертой таких скоординированных серий является единая система сравнимых показателей по всем тестам. Тесты достижений по конкретным учебным предметам могут использоваться не только для выявления индивидуальных различий в усвоении этих предметов, но и как средство оценки, совершенствования и постановки задач обучения, поскольку дают информацию о соответствии знаний и навыков, усвоенных обучающимися тому, что они действительно должны были усвоить.
Тесты локального предметного содержания чаще всего проводятся учителями, а нередко ими же и создаются. Как правило, такие тесты не имеют общепринятых стандартов. Тем не менее они весьма эффективны в решении задач текущего контроля за процессом обучения по конкретным разделам программы в рамках одной школы или даже класса. В частности, проведение тестирования в начале учебного года позволяет предпринять конструктивные шаги по ликвидации обнаруженных при выполнении тестов основных пробелов в знаниях учащихся.
В отличие от общедиагностических тестов тесты достижения не могут быть адекватно переведены с одного языка на другой и адаптированы к иной, чем в стране, разработавшей их, культуре и системе образования. Во всяком случае это не имеет смысла. По этой причине, по-видимому, в нашей стране, где традиционным было использование переводных и (иногда) адаптированных зарубежных тестов, тесты достижений не получили широкого распространения. Однако в последнее время делаются попытки разработать оригинальные тесты достижений по конкретным учебным дисциплинам. Продуктивность этих попыток будет, в частности, зависеть от соблюдения ряда требований, предъявляемых к разработке таких тестов, от постановки проблемы до окончательного запуска тестов в практику.

Общие подходы к разработке тестов достижений

В этом и последующих разделах основное внимание будет уделено процедуре создания тестов достижений, а точнее, тому их виду, который ориентирован на измерение достижений по конкретным учебным предметам после завершения целостных курсов. Разумеется, не будут обойдены многие общие принципы разработки психологических и педагогических тестов, приложимые к указанному виду тестов. При этом не предполагается акцентировать внимание на разграничении общих и специфических особенностей описываемой процедуры, которая обычно включает в себя несколько этапов.
Первый из них состоит в предварительном планировании. На этом этапе решается вопрос, кто, что и почему подлежит исследованию с помощью теста.
Второй этап включает анализ учебников, учебных планов и программ для уяснения учебных целей, заложенных в них, их иерархии и уровней предъявляемых к ним требований.
На третьем этапе происходит непосредственная разработка тестовых заданий. Это наиболее сложный и ответственный этап в создании теста, заканчивающийся формированием предварительных тестовых наборов.
Четвертый этап охватывает эмпирический анализ сконструированных заданий. На этом этапе предварительные тестовые формы апробируются на подходящей выборке испытуемых. Всестороннее рассмотрение результатов апробации позволяет оформить окончательный вариант теста.
На пятом этапе, перед внедрением теста в практику, определяются стандартные характеристики теста: статистические нормы, надежность, валидность и дискриминативность.
Вопрос о целях тестирования на стадии предварительного планирования немаловажен для обеспечения последующей процедуры создания теста. На этой стадии обсуждается педагогическое значение теста, его дидактическая корректность и диагностическая функция, а также возможные последствия его применения в связи с осуществлением в школе и обществе определенных реформистских тенденций. Тест должен создаваться лишь в том случае, если он может зафиксировать поведение учащегося более корректно, чем это позволяют делать другие методы и тесты, если проверка учебных достижений действительно необходима и если с появлением теста она не приобретет неоправданно большого значения, если создание теста согласуется с задачами образования.
Чтобы избежать несбалансированности и диспропорции охватываемых тестом тем, его спецификация должна предшествовать составлению заданий. Поэтому для обеспечения адекватности содержания теста привлекаются ряд экспертов (опытных преподавателей-методистов), которые указывают, что именно могут или должны знать учащиеся соответствующего возраста по разным предметам. Если сформированы цели учебных курсов, то можно определить релевантность заданий по отношению к этим курсам. Известно, что фактический материал частного характера со временем по большей части забывается, а усвоенные основные принципы и их применение в новой ситуации или вообще не забываются, или после завершения обучения обобщаются. Основные критические замечания в адрес плохо построенных объективных тестов связаны с их перегруженностью несущественными деталями и акцентом на механическое запоминание учебного материала.
В конечном счете, квалифицированные педагоги - разработчики тестов - сами смогут решить, какое содержание должно быть заложено в их тесты. Поэтому далее стоит уделить внимание тому, как эти специальные сведения из конкретных учебных предметов могут быть превращены в приемлемые психолого-педагогические тесты.

Принципы разработки тестовых заданий

Когда отобран содержательный материал для включения в тестовые задания, предстоит решить, какую форму должны принять эти задания, чтобы наилучшим образом реализовать цели разработки теста.
Если на первый план выдвигаются объективность и экономичность тестирования, целесообразно выбрать форму заданий с предписанными ответами. Подобные задания ("закрытого" типа) имеют несколько разновидностей (идентификация, выбор альтернативы, перестановка, установление связи и др.), но чаще всего, и это вполне обоснованно, используются задания с несколькими вариантами выбора, пригодные для включения в них самой разнообразной информации в рамках практически любого учебного предмета.
Такое задание состоит из двух частей: (1) основной части, которая содержит утверждение (указание), вопрос или незавершенную фразу, и (2) вариантов выбора или некоторого количества возможных ответов (обычно таких вариантов четыре или пять), из которых испытуемые должны выбрать правильный ответ. Неправильные ответы (их называют дистракторами) призваны играть отвлекающую роль.
Можно указать ряд преимуществ заданий с несколькими вариантами выбора:
(1) Есть возможность сделать каждое задание высоко надежным, т.к. отсутствуют факторы снижения надежности, связанные с субъективными оценками лиц, проводящих обследование.
(2) Для таких заданий легко вычислить различные показатели. Это очень важно, особенно в больших по размерам тестах.
(3) В заданиях, где дистракторы примерно эквивалентны, вероятность простого угадывания правильного ответа сводится в 1/количество ответов.
(4) Поскольку тесты с несколькими вариантами выбора оцениваются точными показателями, становится возможным получить более или менее точную оценку содержательности теста. Это важно при определении соответствия теста той группе испытуемых и той цели, для достижения которой он был создан.
Прежде чем перейти к практической формулировке тестовых заданий, необходимо ознакомиться со следующими правилами:
1. Задания, включаемые в тест достижений, должны быть ориентированы на проверку знаний и понимания ведущих положений соответствующей учебной дисциплины, на определение степени владения практическими умениями и навыками, принципиально важными для освоения курса.
2. Совокупность заданий должна охватывать законченный курс учебного предмета и в связи с этим может включать задания, соответствующие программе нескольких лет обучения.
3. Следует избегать включения в тестовые задания тех вопросов, которые в учебном курсе изложены слабо, неточно или чрезмерно упрощенно, а также тех, понимание которых принципиально различается у разных преподавателей и в разных учебниках.
4. Задания должны быть написаны настолько просто, насколько это возможно для их точного понимания. Нежелательно, чтобы на результаты тестирования достижений оказывали влияние уровень словарного запаса испытуемого или его общие способности.
5. Сама проблема должна содержаться в основной части задания, а не выноситься в часть с вариантами выбора, которые должны быть настолько краткими, насколько это возможно.
6. Правильные ответы на тестовые задания должны быть однозначными, не содержать двусмысленностей или неопределенностей. Только один вариант из предложенного набора должен соответствовать правильному ответу.
7. Правильные ответы не должны выделяться грамматически или графически, большей конкретностью или обобщенностью. Ключевые слова правильного ответа не должны быть однокоренными с ключевыми словами основной части задания, либо однокоренными должны быть ключевые слова всех ответов.
8. Следует делать дистракторы (неправильные варианты ответов) такими, чтобы каждый из них мог привлечь внимание испытуемого (т.е. быть как бы "похожим" на правильный ответ, представлять характерный вариант неправильного знания и решения). В идеале каждый дистрактор должен в равной мере использоваться всеми испытуемыми, не выполнившими задание.
9. Ответ на один вопрос не должен давать ключа к ответам на другие. По возможности следует избегать использование правильных и неправильных ответов из одного задания в перечне ответов в других.
10. Рекомендуется как можно реже использовать отрицания в основной части заданий, так как это может привести к противоречиям при чтении заданий, да и негативные знания все-таки не настолько важны, как позитивные.
11. Также не рекомендуется использовать в ответах выражения типа "все перечисленные" или "ни один из перечисленных", поскольку это может привести к определенной двусмысленности в формулировке задания.
12. Диапазон предварительно оцененной сложности заданий должен быть достаточно широким. Однако следует избегать заданий, требующих чрезмерно трудоемкого или многоступенчатого решения.
13. Поскольку предполагается создание нескольких параллельных форм теста, возможна разработка аналогичных, близких по структуре и содержанию заданий.
14. Количество предварительно конструируемых заданий, учитывая их значительный отсев в процессе апробации, должно как минимум в 1,5 раза превышать требуемое на выходе.
Когда задания подготовлены, следует проверить их объективность по содержанию и корректность формулировок. Для этого они предъявляются независимым экспертам, которыми могут быть как опытные педагоги-предметники, знакомые с принципами формулирования тестовых заданий, так и психологи-специалисты в области составления тестов, знающие и понимающие избранный учебный предмет. Эксперты оценивают тестовые задания с точки зрения (а) соответствия назначению теста; (б) однозначности формулировок; (в) пригодности вариантов ответов. Если эксперты приходят к выводу, что какая-либо тестовая задача (или вся их совокупность) не соответствует требуемым критериям, она должна быть заменена или переформулирована.

Количество тестовых заданий и специфика их оформления
Еще до начала разработки тестовых заданий следует определить, сколько их будет в окончательных вариантах теста и сколько вариантов теста достижений по конкретному предмету требуется создать.
Поскольку тест предполагает групповое проведение, создавать менее двух вариантов не имеет смысла. Однако практика показывает, что целесообразно этот минимум довести до четырех вариантов. Во всяком случае такое или большее количество вариантов создает меньше проблем (для проводящих тестирование), связанных с рассаживанием испытуемых, раздачей тестовых наборов, передачей информации во время тестирования или утечкой ее после его окончания и т.п.
Что касается количества заданий в одном варианте, то здесь следует исходить из таких критериев, как минимально допустимое число заданий в тесте; максимально допустимое время тестирования; оптимальное представительство разделов программы учебного курса. Считается, что в тесте, где оценка выполнения задания имеет только две градации ("верно" - "неверно"), должно быть не менее 20 заданий, иначе надежность результатов будет низкой. Также считается, что время тестирования не должно превышать полутора часов (или двух академических часов).
Конечно, решение о том, какие разделы учебной программы и в каком объеме должны быть представлены в заданиях, выносят сами педагоги-предметники, создающие тест. Однако не стоит добиваться того, чтобы все, даже самые мелкие, пункты программы обязательно вошли в задания теста. Ведь выборка в несколько десятков заданий, затрагивающих вопросы, принципиальные для понимания учебного предмета, вполне представительна, чтобы оценить уровень знаний и умений учащегося.
Очевидно, что среднее время выполнения одного задания там, где требуется производить вычисления или другое преобразование информации (как, например, в математике), будет больше, чем время выполнения задания там, где нужно лишь вспомнить какой-либо факт или правило (как, например, в биологии). Поэтому для тестов достижений по тем учебным предметам, где преобладают задания первого вида, следует планировать меньшее количество заданий, чем для тестов с преобладанием заданий второго вида. Кроме того, для последних не всегда удается априори, даже приблизительно, установить трудность, зависящую не только от сути вопроса, но и от дистракторов (в большей степени, чем в точных науках). Следовательно, на предварительной стадии превышение числа таких заданий над требуемым на выходе должно быть более, чем полуторным. Вообще же, чем выше квалификация разработчика тестов (именно в сфере разработки тестов, а не только в учебном предмете), тем с меньшим запасом разработчик может конструировать тестовые задания.
Формулировки всех тестовых заданий (в т.ч. и по математике) должны быть рассчитаны на то, что ответ на них, при соответствующих знаниях и умениях, может быть найден в уме. Тем не менее, это не исключает возможности оставления на бланке для ответов (прежде всего, это касается математики) чистого поля для промежуточных черновых расчетов или выкладок. Записи на таком поле никак не оцениваются и не являются обязательными, но избавляют некоторых испытуемых от необходимости делать их в местах не предусмотренных процедурой тестирования.
Располагать задания на листе, следует одно под другим, с определенными промежутками. Перенос части тестового задания, включая ответы, на соседнюю, правую страницу (если речь идет о тестовой брошюре) крайне нежелателен, а на обратную сторону листа или на другой отдельный лист недопустим. Ответы на задание должны располагаться один под другим, за исключением случаев, когда они представляют собой простейшие числа или символы; последние можно разместить на одной строке, на некотором расстоянии друг от друга. Естественно, тексты заданий по математике, физике и другим предметам могут сопровождаться рисунками.
Следует сразу выбрать количество ответов в тестовых заданиях (число 5 здесь кажется более приемлемым) и придерживаться его не только в рамках теста по одному предмету, но и всех тестов достижений в пределах одной программы тестирования. Желательно также, чтобы число окончательных вариантов для тестов по всем учебным предметам планировалось одинаковым.

Формирование блока заданий на стадии предварительной апробации

К предварительному набору заданий необходимо составить инструкцию, которая не должна сколь - либо существенно меняться вплоть до окончательного издания теста. Поэтому так важно соблюсти определенные правила написания инструкции:
(1) Инструкция должна быть настолько краткой, насколько это возможно для ее правильного понимания.
(2) Язык инструкции должен быть настолько прост, насколько это возможно; желательно употребление простых предложений без уточняющих придаточных.
(3) Примеры, а в необходимых случаях разъяснения к ним, должны помогать понять инструкцию, приобрести первичный навык ответов на задания.
(4) Примеры (оптимальное число - два) следует брать из разных разделов учебного курса; в них должны быть продемонстрированы разные аспекты освоения предмета (знание, понимание, умение).
Инструкция должна быть напечатана на первой странице каждого из предварительных наборов заданий. Сами задания должны начинаться на обратной стороне листа (или со следующего листа). Во всяком случае задания не должны находиться перед глазами испытуемых, когда они изучают инструкцию.
Кроме того, следует составить общую инструкцию, предъявляемую устно или письменно перед началом тестирования. В общей инструкции должны быть описаны формы представленных заданий, способы ответов на них, другие особенности процедуры тестирования. Допускается вместо раздельного представления общей и специальной инструкции включение основных положений общей инструкции в текст инструкции к тесту по конкретному учебному предмету.
При формировании наборов тестовых заданий для предварительной апробации необходимо учесть следующие рекомендации:
1. Количество наборов тестовых заданий должно быть большим (в два-четыре раза), чем количество планируемых окончательных вариантов теста по одному учебному предмету.
2. Задания должны располагаться в порядке возрастающей предполагаемой сложности (другие способы сочетания заданий по сложности будут рассмотрены дополнительно).
3. Тематика заданий и способы нахождения правильного ответа (вспоминание, решение, суждение) должны чередоваться.
4. Расположение правильных ответов в последовательности заданий должно быть случайным; "ключи" к разным наборам теста не должны совпадать.
5. Параллельные, аналогичные задания не должны попадать в один набор.
6. Предварительные тестовые наборы должны быть равноценными по тематике и ориентировочной сложности, содержать равное количество заданий.
Могут быть предложены иные, более эффективные, но и более трудоемкие при апробации способы составления предварительных наборов.
Первый из них более пригоден для тестовых заданий по тем предметам, где ответы прежде всего ориентированы на знание (вспоминание) какой-либо информации. В этом случае формируются равноценные тестовые наборы не с возрастающей, а с перемежающейся сложностью заданий, причем к каждому набору добавляется набор-дублер с обратным порядком следования заданий. Т.е. количество наборов для одного теста удваивается.
Второй из дополнительных способов мог бы быть предпочтителен для тех предметных тестов, где ответы на задания требуют главным образом преобразования информации, содержащейся в тексте этих заданий, лишь с привлечение знаний. Даже при исчерпывающих знаниях не каждый учащийся может легко найти ответ на некоторые задания такого рода. Предлагается перед составлением наборов поделить все задания, исходя из их ориентировочной сложности, на три равные группы: легкую, среднюю и сложную. Затем задания каждой из групп делятся на равное число наборов, равноценных для одной группы, и к ним добавляются наборы-дублеры.
Когда наборы составлены и нужным образом скомпонованы на листах бумаги, их размножают вместе с инструкцией в необходимом количестве экземпляров. На первой странице каждого набора (т.е. там, где инструкция) следует четко указать его буквенный и числовой индекс (очевидно, что лучше всего использовать первую букву названия учебного предмета). Там, где используются наборы-дублеры, нумерация должна быть такой же сквозной, как и в случае их отсутствия, чтобы их индексы никак не выделялись.

Эмпирическая проверка созданных форм

В комплект тестирования при предварительной апробации, как правило, входят: (а) тестовые брошюры или листы с инструкцией и заданиями; (б) регистрационные бланки (протоколы); (в) секундомер; (г) краткое руководство для проводящих тестирование; (д) "ключи" к тестовым формам.
Состав тестовых брошюр (листов) описан в предыдущем разделе. Регистрационный бланк представляет собой лист бумаги, на котором в цифровой табличной форме отражена последовательность заданий с буквенными обозначениями вариантов ответов. На бланке (обычно вверху) имеются графы для фиксации социально-демографических сведений об испытуемых (фамилия и имя, возраст или дата рождения, место работы или учебы и т.п.), даты обследования, буквенно-цифрового индекса тестовой формы. Размер бланка обычно позволяет разместить на нем две или более последовательности ответов на предварительные тестовые формы. В некоторых случаях, упомянутых выше, на бланке справа оставляется чистое поле для черновых расчетов.
Секундомер предназначен не только для точного отмеривания времени, отводимого на выполнение тестовой формы, но и для демонстрации испытуемым темпового характера их работы, необходимости попытаться за ограниченное время дать ответы на возможно большее число заданий.
Наличие руководства важно тогда, когда предварительное тестирование проводят лица, не являющиеся организаторами (специалистами) разработки тестов. В кратком руководстве - инструкции для проводящих тестирование - следует указать назначение теста, описать процедуру его апробации, обратить внимание тестирующих на возможные коллизии, могущие возникнуть при реализации этой процедуры (что отвечать на различные вопросы испытуемых, что делать при нарушении последними инструкции и т.п.). К руководству прилагается общая инструкция для зачтения испытуемым (если ее положения отсутствуют в тестовой брошюре).
Важно, чтобы испытуемые представляли собой обычный контингент учащихся. Количество испытуемых для предварительной апробации заданий подбирается с тем расчетом, чтобы каждое из них было предъявлено хотя бы 30-40 испытуемым. Ничто не мешает увеличить это количество при любой неясности предварительных результатов. Рекомендуется при апробации предлагать каждому испытуемому последовательно два разных набора тестовых заданий.
Каждый раз группе испытуемых (обычно это учащиеся одного класса) объясняются цели тестирования и зачитывается общая инструкция с демонстрацией на классной доске графических способов регистрации ответов (это может быть зачеркивание буквенных обозначений ответов одной чертой или обведение их кружками), а также показывается, как исправить один ответ на другой. Обращается внимание, что на каждое задание нужно отмечать на специальном бланке только один ответ (либо пропустить номер с этим заданием, не отмечая ничего). Указывается на недопустимость делания каких-либо надписей или пометок в тестовой брошюре или в непредусмотренных для этого местах на регистрационном бланке. Подчеркивается необходимость дать за отведенное время ответы на возможно большее число заданий, не задерживаясь слишком долго на одном из них. Испытуемых просят убрать со столов учебники и тетради и не доставать их во время тестирования.
Одновременно на розданных регистрационных бланках испытуемыми записываются сведения о себе. Далее проводящие тестирование раздают тестовые брошюры, стараясь, чтобы рядом сидящим испытуемым не достались одни и те же наборы заданий, включая, если таковые имеются, и наборы-дублеры. Испытуемым предлагается отметить на бланке буквенно-цифровой индекс полученного набора и ознакомиться с инструкцией и примерами. На вопросы, кроме чисто технических, задаваемые испытуемыми до и во время тестирования, рекомендуется отвечать фразами из общей и специальной инструкций. На вопросы по существу тестовых заданий ответы не даются.
После ознакомления с инструкцией к конкретному тесту дается команда о начале работы и включается секундомер. При первом тестировании время может отмеряться достаточно гибко, возможно, даже с некоторым запасом. Во всяком случае, оно должно быть достаточным для того, чтобы знающий и умелый ученик успел ответить на все задания. При последующих тестированиях время уже не должно меняться. По истечении указанного времени дается команда "стоп!" и брошюры собираются; при этом важно проконтролировать, все ли индексы наборов заданий занесены на регистрационные бланки. Если не предполагается продолжить тестирование, бланки собираются вместе с брошюрами.
При повторении процедуры тестирования нужно снова раздать тестовые брошюры, следя за тем, чтобы не только одному и тому же испытуемому второй раз не достался тот же набор заданий, но и чтобы этот набор не достался сидящему рядом (особенно внимательными следует быть при раздаче наборов-дублеров). Если используются наборы заданий, предварительно поделенные на три группы сложности, то раздаваемые последовательно наборы должны иметь разную сложность для одного испытуемого. Для последнего случая целесообразно заранее спланировать алгоритм повторной раздачи тестовых наборов.
После окончания тестирования брошюры вместе с вложенными в них бланками собираются. При проведении тестирования в следующих группах учащихся необходимо скомпенсировать возможную диспропорцию в количестве испытаний того или иного набора заданий (что естественно, так как число учеников в классе не всегда кратно количеству вариантов тестовых наборов).
Первичная обработка результатов производится с помощью специальных "ключей", т.е. упорядоченных наборов правильных ответов. На стадии предварительной апробации "ключи" могут иметь произвольную форму. Если тестирование проводят лица, не являющиеся организаторами разработки (или собственно разработчиками) тестов, "ключи" для самостоятельной обработки данных им представлять не следует. Чрезвычайно важно также следить за сохранностью тестовых брошюр, так как пропажа любой из них может привести к утечке информации о содержании и структуре тестовых заданий и, соответственно, к девальвации конечного продукта.

Создание окончательного варианта теста

Обработка протоколов с отмеченными на них ответами испытуемых позволяет не только зафиксировать, правильно ли ответил субъект на конкретное задание, но и рассчитать индивидуальные и средние баллы для каждого набора заданий, а также определить долю тех испытуемых, которые дали ключевые ответы на данное задание. Последний показатель именуется трудностью задания. Точнее, чем численно ниже этот показатель, тем выше эмпирическая трудность задания.
Кроме того, может быть посчитана корреляция ответов по каждому заданию с общим показателем того набора, в который это задание было включено. Поскольку процедура подсчёта таких коэффициентных коррелят является довольно трудоёмкой процедурой, то для тестов, предложенных для внутришкольного использования, они могут не расчитываться. В этом случае следует ориентироваться на другие критерии отбора заданий (см. далее)
Считается, что однородный и дискриминативный тест может быть получен путем отбора заданий, имеющих высокую корреляцию с общим показателем и, помимо того, долю правильно ответивших (в соответствии с "ключом") испытуемых в пределах 80% - 20%.
Для определения величины коэффициента корреляции задания с общим показателем используется формула точечно-бисериальной корреляции (только для дихотомических заданий, т.е. с ответами вида ключевой/неключевой). Эта формула для конкретного задания имеет следующий вид:

Rp bis =
где среднее значение показателей по набору заданий для испытуемых, давших правильный (ключевой) ответ на данное задание,
среднее значение показателей по набору заданий для испытуемых, давших неправильный ответ на данное задание,
стандартное отклонение показателей по набору заданий,
доля испытуемых (в виде десятичной дроби), давших правильный ответ на данное задание,
и

страница 1
(всего 6)

ОГЛАВЛЕНИЕ

След. стр. >>

Copyright © Design by: Sunlight webdesign