LINEBURG


<< Пред. стр.

страница 2
(всего 2)

ОГЛАВЛЕНИЕ


5
3
3
9
9
9

6
3
2
6
9
4

7
3
2
6
9
4

8
3
2
6
9
4

9
3
1
3
9
1

10
1
3
3
1
9

11
2
1
2
4
1

12
1
1
1
1
1

13
1
0
0
1
0

S:
35
30
92
113
90

По данным таблицы далее считают коэффициент корреляции, используя формулы расчета классического коэффициента корреляции Пирсона.
SSх = SХ2 - ;
SSу = SY2 - ;
Второй шаг. Находим сумму произведений Х и Y, скорректированную на средние значения (SPxy), по формуле
SPxy = -
Третий шаг. Находим коэффициент корреляции по формуле
r = (11)

Получаемые при этом значения r бывают ниже других r , что объясняется делением числа заданий на две части. Поэтому применяется коррекция посредством формулы Spearman-Brown, где n указывает на множитель (в нашем случае надо удвоить), а k, с индексами, показывает коэффициент корреляции, полученный по половинам заданий.
r = (12)
Подставляя в формулу [12] данные таблицы 2, получаем
r = =
Полученное значение не дотягивает до желаемых 0,800, что указывает на недостаточную надежность результатов испытуемых, при оценке данным методом, что не случайно. Здесь источник погрешностей измерения - уменьшение числа заданий и, возможно, их недостаточная параллельность по содержанию.
Параллельный вариант теста, имея внешне отличающееся содержание, должен, концептуально, измерять то же самое, что и исходный тест, с той же точностью. Параллельными называются варианты, которые имеют сходное предметное содержание в пределах укрупненной учебной единицы, равные средние арифметические, равные дисперсии и равные интеркорреляции. Ошибочные компоненты одного параллельного варианта не коррелируют с такими же компонентами другого варианта теста (ree = 0).
Этот метод применим для случаев с достаточно большим числом заданий, причём, каждое четное задание должно измерять то же, что и нечетное задание. Хорошим примером, содержащим в себе два параллельных варианта заданий открытой формы, является тест по арифметике[20], выполняемый в течение 2-3 минут, в зависимости от уровня подготовленности тестируемой группы. Тест построен по принципу сдвоенных параллельных заданий: при расчете коэффициента надежности теста нечетные номера заданий образуют первую половину теста (Х1), четные - вторую половину (Х2). Содержание каждой пары заданий, начиная с первой, измеряет общие способности быстро выполнять в уме одну арифметическую операцию на определенном множестве чисел. Тест приводится в табл. 3.
АРИФМЕТИЧЕСКИЙ ТЕСТ Табл. 3.
1. 5 + 2 =____
25. 0,83 + 0,12 =____
2. 4 + 5 = ___
26. 0,47 + 0,35 =____
3. 6 - 2 =____
27. 0,22 - 0,13 =____
4. 9 - 6 = ____
28. 0,87 - 0,43 =____
5. 3 x 2 =____
29. 0,22 x 0,10 =____
6. 2 x 4 =____
30. 0,15 x 0,2 = ____
7. 9 : 3 = ____
31. 0,21 : 0,1 = _____
8. 6 : 2 = ____
32. 0,48 : 0,24 =_____
9. 10 + 6 = ___
33. 1/4 + 1/4 = _____
10. 12 + 4 =_____
34. 1/4 + 2/4 = _____
11. 16 - 4 = _____
35. 3/5 - 1/8 = _____
12. 19 - 7 = _____
36. 9/16 - 5/16 =____
13. 4 x 3 =_____
37. 1/3 x 1/3 = _____
14. 6 x 3 = _____
38. 2/8 x 3/8 = _____
15. 18 : 3 = _____
39. 4/5 : 2/5 = _____
16. 15 : 5 = _____
40. 5/16 : 3/16 = ____
17. 25 + 32 = ____
41. 1/2 + 2/4 = _____
18. 41 + 23 = ____
42. 8/32 + 3/4 =_____
19. 43 - 17 = ____
43. 9/10 - 2/5 = _____
20. 67 - 21= _____
44. 9/16 - 3/4 = _____
21. 16 x 5 = _____
45. 2/6 x 1/2 = _____
22. 22 x 4 = _____
46. 3/16 x 3/4 = _____
23. 48 : 12 = _____
47. 4/12 : 2/3 = ____
24. 84 : 14 = _____
48. 8/32 : 4/16 =_____
11.5. Если в табл.2. из числового вектора Х вычесть баллы Y, (или наоборот, из Y вычесть баллы испытуемых Х, разницы нет), то дисперсия полученных разностей и есть , используемая в формулах [8-9] для определения надежности.
Определить можно сделать в рамках идеи внутренней состоятельности (когеренции) тестовых заданий по результатам теста. Например, это может означать, что в таком тесте число баллов в нечетных заданиях теста не должно отличаться от числа баллов в четных заданиях теста. Возможные отличия можно отнести к погрешностям измерения.
№№
испытуемых
Рез-ты Х
Рез-ты Y
e
e 2
1
5
4
1
1
2
4
4
0
0
3
4
3
1
1
4
2
4
-2
4
5
3
3
0
0
6
3
2
1
1
7
3
2
1
1
8
3
2
1
1
9
3
1
2
4
10
1
3
-2
4
11
2
1
1
1
12
1
1
0
0
13
1
0
1
1
S:
35
30
5
19
SSe = Se2 - ;
=
Подставляем полученное значение в числитель дроби формулы [9]. В знаменателе должно стоять значение дисперии тестовых баллов. Обратимся к данным табл. 1, где SХ2 = 387, а SХ = 65. Подставляем эти значения в формулу для расчета суммы квадратов отклонений тестовых баллов от среднего арифметического балла.
SSх = SХ2 - ;
=
Это и есть искомая дисперсия тестовых баллов. Остаётся подставить полученные значения в формулу [9]
r = 1 - (9, повторно)
r = 1 -
Это и есть мера надежности тестовых результатов испытуемых, подсчитанная методом разделения тестовых результатов на две части. Из чего видно, что разделение теста на части всегда снижает показатель надежности.
11.6. Несколько формул для определения надежности тестовых результатов были разработаны Kuder G.F., Richardson M.W[21]. Одна из них, KR-20 , где буквы означают фамилии авторов, а цифра 20 - порядковый номер самой распространенной в практике тестирования формулы: r = () (13; K-R 20)
Чаще используется более удобный вариант этой формулы
r = (1 - ) (13; K-R 20)
где r - коэффициент надежности. Для данных табл. 1, k - число заданий, равно 10, ?pjqj = 1,915, = 4, 769. Подставляем в формулу K-R 20, получаем:
r =(1 - ) = 0, 664.
В компьютерных программах для разработки тестов обычно закладывается коэффициент альфа (?). Этот коэффициент предложен на случай, когда оценки за выполнение тестовых заданий даются не только 1 и 0, но и другие, например, 2, 3, и т.д. Формула коэффициента альфа
r = (1 - ) (14)
11.7. Если предположение о гомогенности заданий теста находит подтверждение, то надежность тестовых результатов теоретически более обоснованно считать по другой формуле тех же авторов, по КR-8. С момента своего создания она практически не применялась из-за некоторой громоздкости. Появление компьютеров изменило ситуацию в ее пользу[22].
12. Валидность. Валидность (от англ. слова valid - действительный, пригодный, действенный) - один из основных критериев качества педагогических измерений.
Первый вопрос - валидность чего? Раньше считалось - валидность теста, как мера его пригодности. В последние годы понятие "валидность" стали соотносить с тестовыми результатами. Валидность результатов - это характеристика их возможности измерять именно то свойство, которое должно измеряться у испытуемых.
Второй вопрос - от чего зависит валидность тестовых результатов. Валидность результатов зависит от цели разработки и применения теста, от содержания и формы тестовых заданий, от качества теста, условий проведения измерений и от интерпретации результатов. Валидность результатов зависит также от подбора контингента испытуемых, от их физического и психического состояния, и от других условий.
Третий вопрос - о критериях валидности результатов педагогических измерений. В качестве критериев валидности выступают показатели обоснованности получаемых результатов:
а) Формальный критерий. Нарушение тестовой формы всегда - а это хотелось бы подчеркнуть - приводит к худшему выражению содержания и к худшему пониманию смысла задания студентами.
Форма заданий должна:
- соответствовать видам проверяемых знаний;
- минимизировать вероятность угадывания правильных ответов в случае незнания учебной дисциплины;
- быть технологичной;
- обеспечивать создание параллельных вариантов заданий.
б) Содержательный критерий. На содержательном уровне основным критерием оценки качества результатов измерения является мнение преподавателей-предметников, разработчиков заданий в тестовой форме. Они часто верят в то, что их задания - это и есть тест, пригодный для задуманной цели. Основанием подобной веры нередко становится поддержка того или иного авторитетного педагога. В этом случае валидность результатов основана на субъективной убежденности (вере) в адекватности заданий для поставленной цели. На Западе такого рода валидность результатов именуют face validity.
На экспертном уровне задания в тестовой форме проверяются с точки зрения правильности их содержания, а также правильности использованных тестовых форм. После такой экспертизы прежняя убежденность в качестве заданий снижается, так как многие из них приходится переделывать заново. После чего валидность результатов педагогического измерения заметно повышается,
Тест может быть пригодным для оценки знаний у студентов первого курса и непригодным для второго и последующих курсов, по понятной причине различий в содержании теста и в уровне трудности. Валидность по содержанию играет решающую роль в педагогическом измерении. Правильность отбора учебного материала обеспечивается привлечением опытных преподавателей - экспертов, которые хорошо различают, каким тестом можно оценивать знание предмета, а каким нельзя.
Если педагоги-эксперты подтверждают соответствие содержания заданий цели тестирования, то ожидаемые результаты пригодны для измерения знаний; такие результаты обладают свойством content validity, или по-русски, свойством валидности измерений по содержанию заданий теста.
в) Концептуальный критерий. Если понятие "знание учебного предмета" включает в себя такие, например, понятийные индикаторы как знание определений, принципов, фактов, законов, формул, и организация контроля позволяет все это эмпирически проверить, то результаты называют валидными относительно содержания данного понятия (концепции). В противном случае тест невалиден - тем больше, чем больше содержание понятия и концепции расходится с содержанием заданий теста. Если в роли эмпирического показателя теоретического понятия выступает тот или иной тест, то возникает проблема обоснования теста как показателя отображаемого им понятия. В процессе теоретического анализа иногда оперируют такими понятиями, как "знания", "интеллект", "общественная активность" и т.п., не всегда беспокоясь о реальном содержании этих понятий. В эмпирическом же исследовании дело обстоит иначе. Там каждому понятию приходится искать подходящие эмпирические референты, т.е. показатели содержания этого понятия.
Например, если преподавателя вуза интересует вопрос - как связана успеваемость студентов (Y) с их общественной активностью (ОА), то для корректного ответа надо найти, а точнее, построить эмпирические показатели как успеваемости (Y), так и общественной активности (ОА). В качестве показателя (Y) могут выступать тестовые баллы, экзаменационные оценки, рейтинг преподавателей, ведущих занятия с этими студентами и др. Аналогично, в качестве показателя (ОА) может выступать сумма баллов, полученная каждым студентом за участие в работе молодежных, благотворительных, воспитательных и т.п. организаций, связанная с понятием общественной активности. Теоретическими понятиями (Y) и (ОА) оперировать в эмпирическом исследовании мы не можем, и потому вместо них используем их эмпирические референты.. Это случай так называемой концептуальной валидности результатов, определяемой мерой логического соответствия понятия и показателя. На Западе адекватность результатов концепции называют construct validity.
г) Прогностический критерий. Он применяется в программах профессионального отбора. Если есть тесты, которые помогают повысить точность прогнозирования успешности принимаемых абитуриентов, то это означает, что результаты теста обладают прогностической валидностью. Здесь главным являются корреляционные исследования. Чем выше корреляции - тем более валидны результаты тестов для поставленной цели.
В отечественной и западной тестовой литературе много пишется не только о валидности тестов, но и, ошибочно, о валидности отдельных заданий. Научные разработки последних лет позволяют подойти по-новому и к этому вопросу, а именно: вместо валидности оперировать другим понятием - эффективность заданий. Естественным следствием такого подхода является обогащение определения теста: в этом случае тест становится не просто системой заданий, а система эффективных заданий. Понятно, что система неэффективных заданий порождает неэффективный тест, а в некотором пределе - уже не тест.
13. Эффективность теста. Эффективным можно назвать тест, если он лучше, чем другие тесты, измеряет знания студентов интересующего уровня подготовленности, с меньшим числом заданий, качественнее, быстрее, дешевле, и все это - по возможности, в комплексе. С понятием "эффективность" сопряжено и близкое к нему по содержанию понятие "оптимальность". Последнее трактуется как наилучшее из возможных вариантов, с точки зрения удовлетворения нескольким критериям, взятым поочередно или вместе.
Эффективный тест не может состоять из неэффективных заданий. В таком случае естественно поставить вопрос о признаках, которые отличают эффективное задание от не эффективного. С точки зрения содержания, эффективное задание проверяет важный элемент содержания учебной дисциплины, который нередко называют ключевым для требуемой структуры знаний студентов. В тест соответственно включаются только такие задания, которые эксперты признают в качестве ключевых элементов изучаемой учебной дисциплины.
В определении эффективности обращается внимание на два ключевых элемента - это число заданий теста и уровень подготовленности студентов. Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образоваться система, не уступающая заметно по своим свойствам тесту со сравнительно большим числом заданий. Тест с меньшим числом заданий, в таком случае, можно называть сравнительно более эффективным.
Помимо этого, эффективность теста можно оценить с точки зрения соответствия уровня его трудности уровню подготовленности тестируемых в данный момент студентов. Эту оценку в литературе нередко относят к валидности, имея в виду идею валидности теста, так сказать, по уровню. Легко понять практическую бесполезность того, чтобы давать слабым студентам трудные задания; большинство студентов, вероятнее всего, не сумеют правильно на них ответить. Так же обстоит дело и с легким тестом: его бесполезно (неэффективно) давать знающим студентам, потому что и здесь высока вероятность, но теперь уже правильных ответов, и потому практически все испытуемые получат по тесту одинаково высокий балл. И в том, и в другом случае испытуемые не будут различаться между собой. Измерение, таким образом, не состоится по причине несоответствия уровня трудности теста уровню подготовленности. Из этих соображений легко вывести, что самый эффективный тест - это тест, точно соответствующий по трудности заданий уровню подготовленности испытуемых. С этой точки зрения т.н. КИМы, рассчитанные, одномоментно, на слабых и сильных выпускников, являются, вероятно, самым неэффективным методом измерения.
Эффективность теста зависит также и от принципа подбора заданий. Если подбирать задания для измерения на всем диапазоне изменения трудности, то снижается точность измерения на отдельном участке. И наоборот, если стремится точно измерить знания испытуемых, например, среднего уровня подготовленности, то для этого потребуется иметь больше заданий именно данного уровня трудности. Поэтому тест не может быть эффективным вообще, на всем диапазоне подготовленности студентов. Он может быть более эффективен на одном уровне знаний, и менее - на другом. Именно такой смысл вкладывается в понятие эффективности теста. Соответствие уровня трудности теста уровню подготовленности студентов можно попытаться оценить показателем количества информации, получаемой в процессе измерения. Впервые этот показатель в практику тестирования ввел A. Birnbaum[23].
Отношение большей дисперсии к меньшей при одинаковом, например, числе заданий, с последующим умножением на сто, может служить в качестве одного из показателей сравнительной эффективности теста с позиции его дифференцирующей способности.
Эффективность теста можно оценить и по соответствию уровня трудности заданий уровню подготовленности тестируемых студентов. Эту оценку в литературе нередко ошибочно относят к т.н. "валидности теста".
Эффективность теста можно оценить и как дифференцированную точность измерения испытуемых различного уровня подготовленности.
Тест называется эффективным для измерения знаний студентов с уровнем, соответствующим точке оси, если он обеспечивает в этой точке максимум информации о значении при минимуме числа заданий. Эффективность измерений достигается за счет дифференцированного подбора заданий требуемого уровня трудности для каждого студента, имеющего уровень знаний q.
Если сравнить понятие эффективность с понятиями надежность и валидность, то самое существенное отличие нового понятия от двух традиционных заключается в переходе от усредненного к дифференцированному показателю.
Надежность относится к тестовым результатам; только тогда можно найти коэффициент надежности, как усредненную меру точности измерения. Аналогично, находится и валидность тестовых результатов. Эффективный же тест, напротив, предполагает отход от усреднения и от фиксированного для всех испытуемых числа заданий. Число выбираемых заданий меняется в процессе тестирования, в зависимости от ответа каждого испытуемого. Таким образом, эффективное тестирование - это обязательно индивидуализированное измерение знаний каждого испытуемого с помощью оптимального по трудности и минимального по количеству набора заданий. Поэтому самый эффективный - это адаптивный тест.
14. Этапы достижения качества педагогических измерений. Для достижения качества педагогических измерений всю работу по созданию педагогических тестов желательно вести в три этапа.
Первым этапом является разработка заданий в тестовой форме. Как в искусстве, овладение формой является необходимым, но недостаточным условием для разработки качественного теста. На первом этапе требуется подготовка в области преподаваемого предмета, знание тестовых форм, владение логикой и умение трансформировать фрагменты содержания учебной дисциплины в содержание заданий.
На втором этапе разрабатываются тестовые задания. В отличие от распространенной в России и на Западе вопросно-ответной формы заданий, в качестве новой основы используется логика высказываний. Преимущества этой основы вытекают из отличия высказываний от вопросов: истинность или ложность высказывания легко определяется по логическим правилам, в то время как вопросы сами по себе ни истинны, ни ложны. Предлагаемая основа открывает возможности эффективной компьютеризации контроля знаний.
Для успешной деятельности на втором этапе от разработчиков потребуется, дополнительно, некоторая подготовка в области применения статистических методов, обработки и интерпретации данных.
На третьем этапе отбираются задания и создают тесты, повышают качество и эффективность теста. Наличие достаточного числа тестовых заданий позволяет перейти к разработке теста как системы, обладающей целостностью, составом и структурой.
Путь к достижению этого идеала лежит через трудности создания качественных тестов, Разработка тестов начинается с анализа содержания преподаваемых знаний и овладения принципами формулирования тестовых заданий. К сожалению, на тесты все еще смотрят как на средство, которое легко придумать, в то время как сильная сторона тестов - их эффективность, проистекающая из теоретической и эмпирической обоснованности.
На третьем этапе от разработчика тестов потребуется некоторая математико-статистическая подготовка, знание основных тестовых теорий и методов многомерного статистического анализа, опыт правильной интерпретации тестовых результатов. Кроме того, потребуется умение тактично обсуждать с авторами явные и скрытые дефекты их заданий в тестовой форме, психологическая готовность к совместному поиску аргументов.
Главная задача третьего этапа разработки теста - это проверка качества и эффективности каждого задания.



[1] Примером являются т.н. "контрольно-измерительные материалы - КИМЫ" единого государственного экзамена. Естественно поставить вопрос - КИМы относятся к педагогическим измерениям, и если да, то каковы основания для подобного суждения? Чем они отличаются от педагогических тестов?
См. также: Аванесов В.С. Метафоры российского образования// Российская Федерация сегодня, №2, стр. 36-38, 2001г.
11Ахлибинский Б.В., Храпченко Н.И. Теория качества в науке и практике: Методологический анализ. - Л.: Изд-во Ленингр. Ун-та, 1989. - 200с.
[3] Тестовое задание отвечает всем логическим и формальным требованиям, предъявляемым к заданиям в тестовой форме, плюс требуется знание меры трудности, дифференцирующей способности, коррелируемости ответов испытуемых на задание с суммой баллов и др. См. с. 17 книги: Аванесов В.С. Форма тестовых заданий. М.: Центр тестирования, 2005. - 156с.
[4]Понятия "качество", "свойство", "признак" удобно рассматривать как обобщенный аналог английского понятия trait.
[5]Об этом процессе подробнее см., например, на стр. 87-105 книги: Аванесов В.С. Тесты в социологическом исследовании. М.: Наука , 1982.- 199с.
[6] Bridgman P.W. The Logic of Phisics. N-Y, 1958. -228p.
[7] Подробнее об операционализации понятий см., напр.: Аванесов В.С. Тесты в социологическом исследовании. М.: Наука, 1982. -199с.
[8] Переработано по изданию: Аванесов В.С. Научные проблемы тестового контроля знаний. М. Иссл. Центр проблем качества подготовки специалистов. М.: 1994, с. 72-73.
[9] Code of Fair Testing Practices in Education. (1988) Washington, D.C.: Joint Committee on Testing Practices. (Mailing Address: Joint Committee on Testing Practices, American Psychological Association, 200 17th Street, NW, Washington, D.C. 20036.).
[10] Яноши Л. Теория и практика обработки результатов измерений. М.: Мир, 1965, с.15.
[11] Свириденко В.М. О гносеологической природе постулата неизбежности погрешности измерения. _ вопросы философии, 1972.ю №6, с.24.
[12] Аванесов В.С. Форма тестовых заданий. Учебное пособие. Первое издание. М.: Иссл..Центр. 1991. -33с. Второе издание -М.: Центр Тестирования, 2005г. -155с.
[13] На занятиях для профессорско-преподавательского состава различных вузов автор этой статьи обращает главное внимание на овладение вариантом заданий с выбором нескольких правильных ответов. Такие задания позволяют проверить знания более высокого уровня, и сделать это полнее, глубже, точнее. Подробности - в книге "Форма тестовых заданий", изд. 2005г. и на веб-сайте:http://testolog.narod.ru
[14] В Latent Trait Theory вместо Тi чаще других используется символ ?i.
[15] Gulliksen, H. Theory of Mental Tests. N - Y. Wiley. 1950 - 486 p.
[16] С.160 пособия "Композиция тестовых заданий". М.: Центр Тестирования. 2002. -239с.
[17] Переработано по книге: Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М.: Иссл. Центр, 1989. -167стр.
[18] В русско- и англоязычной литературе часто пишут о "параллельных вариантах или формах тестов", что представляет существенную ошибку. Правильнее говорить о вариантах теста.
[19] Аванесов В.С. Форма тестовых заданий. Учебное пособие. 1 изд. М.: Иссл..Центр. 1991. -33с. 2 изд. -М.: Центр Тестирования, 2005г. -155с. Композиция тестовых заданий. 1 и 2 изд. 1996, 1998гг.; 3изд. М.: Центр Тестирования. 2002. -239с.
[20]Oetting, E.R., Thorton, G.C. Exercises in Psychological Testing. Harper & Row, Publishers, N-Y, 1968 - 229pp.
[21] Kuder G.F., Richardson M.W. The Theory of Estimation of Test Reliability // Psychometrika, 2: 151 - 160, 1937.
[22] Применение этой формулы читатель найдёт в книге "Композиция тестовых заданий", М.: Центр Тестирования, 2002с. С.216-217.
[23] Birnbaum A. Some Latent Trait Models and Their Use in Inferring an Examinee's Ability / F.M. Lord and M.R. Novick. Statistical Theories of Mental Test Scores. Reading, Mass. : Addison - Wesly, 1968. - 568p.
Конец формы


















Яндекс.Афиша







<< Пред. стр.

страница 2
(всего 2)

ОГЛАВЛЕНИЕ

Copyright © Design by: Sunlight webdesign