Статистические характеристики заданий |
Проверка качества теста |
Рассмотрим самые простые и необходимые процедуры статистической обработки результатов тестирования знаний и методы оценки качества теста в соответствии с классической теорией тестирования.
Обозначим через xij числовую оценку успешности выполнения j-го задания, выполненного i-м испытуемым. Результаты тестирования обычно представляются в виде матрицы {xij} с n строками и m столбцами (i=1,…,n; j=1,…,m). В практике тестирования принято, как правило, пользоваться дихотомической шкалой оценок результатов, когда множество возможных оценок состоит всего из двух элементов {0;1}: 0 – задание не выполнено, 1 – выполнено правильно. Это, конечно, не единственно возможная шкала. Расчет, однако, ведется по формулам, приведенным ниже, независимо от выбранной для оценок шкалы.
Процесс статистической обработки матрицы результатов тестирования будем рассматривать последовательно, по шагам.
Поскольку для проверки статистических гипотез, которые применяются в классической теории тестов, используют предположение о нормальном распределении суммарных баллов испытуемых, то рекомендуется исследовать распределение частот. Для сравнения распределения баллов с нормальным можно использовать любой из критериев, применяемых обычно для этой цели.
Чем больше коэффициент Ij, тем больше дискриминативность задания.
При наличии больших выборочных совокупностей дихотомических данных и нормального распределения индивидуальных сумм баллов рекомендуют рассчитывать для всех заданий бисериальные коэффициенты корреляции Вj (j=1, 2, … m):
Чтобы полученное собрание тестовых заданий можно было считать тестом, оно должно удовлетворять определенным критериям надежности и валидности.
Надежность теста r
тем выше, чем более согласованы результаты одного и того же человека при повторной проверке знаний посредством того же теста или эквивалентной его формы (параллельного теста). Согласованность результатов можно измерять коэффициентом корреляции Пирсона.
Если значения коэффициента r попадают в интервал 0,80-0,89, то говорят, что тест обладает хорошей надежностью, а если этот коэффициент не меньше 0,90, то надежность можно назвать очень высокой.
Другие, более практичные, методы оценки надежности теста, основаны на однократном применении единственной формы теста.
При применении метода расщепления откорректированную выше описанным образом тестовую матрицу разбивают на две половины, состоящие из заданий с четными и нечетными номерами. Коэффициент корреляции r1/2 Пирсона между двумя совокупностями суммарных баллов результатов сам по себе уже может служить оценкой надежности всего теста.
Оценку надежности полного теста можно делать также с использованием коэффициента корреляции r1/2, по формуле Спирмана-Брауна :
.
,
- дисперсия суммарных баллов результата,а
- дисперсия разностей между результатами каждого испытуемого по обеим половинам теста. Она вычисляется по формуле :
Здесь ( yiчет-yiнечет), (i=1,2,…n) - разность сумм баллов в строках с номером i субматриц с четными и нечетными заданиями.
Еще один метод определения надежности, основанный на однократном предъявлении единственной формы теста, носит имя Кьюдера-Ричардсона. Он использует данные о выполнении испытуемыми каждого задания. Коэффициент надежности Кьюдера-Ричардсона вычисляется по следующей формуле:
Показано, что такой коэффициент равен среднему арифметическому значений коэффициентов надежности, найденных по методу расщепления при всех возможных разбиениях теста.
Чем выше показатель надежности, тем меньше стандартная ошибка измерения индивидуального результата. Показатель надежности можно использовать для построения доверительного интервала, в пределах которого с выбранной вероятностью Р находится истинное значение оценки знаний испытуемого: , где tP – значение статистики Стьюдента, найденное для выбранной вероятности P, когда число испытуемых равно n.
Валидность теста показывает, насколько хорошо тест делает то, для чего он был создан. Определить коэффициент валидности теста – значит определить, как выполнение теста соотносится с другими независимо сделанными оценками знаний испытуемых. Для определения валидности требуется независимый внешний критерий, то есть оценка эксперта (преподавателя). За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия. Если экспертная оценка знаний испытуемых, полученная независимо от процедуры тестирования, представлена числовой последовательностью Y1,Y2, …, Yn, то коэффициент валидности теста может быть рассчитан по формуле:
Из двух тестов, предназначенных для одной и той же цели, более эффективен тот, который быстрее, дешевле и качественнее измеряет знания данной группы испытуемых.
Материалы подготовлены с.н.с. Регионального центра проблем качества при ДВГУ Л. Я. Ащепковой как вспомогательный к семинару по тестированию кафедры прикладной математикии информационных технологий Дальневосточного государственного университета в октябре 2001 г. При подготовке материала использованы следующие литературные источники:
© Все права защищены. При любом использовании материалов опубликованных на сайте ссылки на автора и сайт обязательны. |