Статистика тестов. Определение характеристик качества тестов

Статистика тестов. Определение характеристик качества тестов 

6. Статистика по позициям теста

Рассмотрим статистические параметры, рассчитанные путем обработки результатов тестирования по позициям теста.

рис 050

Рис. 6.1. Пример статистики по позиции теста

Индекс легкости заданий в позиции (Facility index)

рис 051

рис 052

При  рис 053 и рис 054  этот индекс равен среднему значению количества баллов, полученных всеми студентами за выполнение заданий в позиции p, выраженному в процентах.

При дихотомичных заданиях,

рис 055

Чем больше студентов выполнили задания в позиции p, тем меньше величина индекса легкости, тем данные задания легче (для этой группы студентов).


Стандартное отклонение оценок за задания в позиции (Standard Deviation – SD)

Стандартное отклонение характеризует разброс баллов полученных испытуемыми за выполнение заданий в конкретной позиции теста.

Снова используется процентная шкала.

рис 057

где

рис 058

это дисперсия баллов, полученных за выполнение задания p.

При и , рис 060 или

рис 061

Для дихотомичных тестовых заданий

V(xp)=qp(1-qp),  где qp это доля правильных ответов на задания позиции p, и

рис 062

Чем стандартное отклонение больше, то есть чем больше разброс баллов за выполнение заданий в позиции p, тем лучше способность этих заданий разделять испытуемых по уровню их подготовки. И наоборот, если разброс баллов мал или равен нулю, то есть все испытуемые получают в этой позиции близкие или одинаковые оценки, то такие задания, по сути, не являются тестовыми и должны отбраковываться и исключаться из теста.


Коэффициент дифференциации оценок за задания в позиции теста (Discrimination index – Dp)

Это выраженный в процентной шкале корреляционный момент между значениями xp(s) и Xp(s), т. е. между количеством баллов, полученных студентом s за задание в позиции p, и суммой баллов за задания во всех остальных позициях.

рис 065

где

рис 066

рис 066а

рис 067

откуда

рис 068

Идея этого параметра состоит в том, что мы вправе ожидать, что за хорошее (правильное) тестовое задание (или хотя бы задание, которое вписывается в систему других заданий теста), студенты, набравшие высокие баллы в других частях теста (и за тест в целом), должны также иметь более высокие результаты (в среднем) и при ответе на это задание. Поэтому оценка для задания в конкретной позиции и суммарные баллы за тест в целом должны быть хорошо коррелированы.

Недостаток этой статистики состоит в том, что в случае, когда индекс легкости Fp составляет 50%, невозможно получить коэффициент дифференциации, имеющий значение 100%, а в случаях, когда Fp  близко к 0% или 100%, коэффициент Dp всегда будет очень маленьким. Это затрудняет интерпретацию этой статистики.


Эффективность дифференциации оценок за задания в позиции (Discriminative Efficiency – DE)

Эта характеристика позволяет преодолеть недостатки коэффициента дифференциации  C(xp,Xp) путем его нормирования на максимальное значение, т. е. выражения в виде процента от максимального значения,  которое могло бы быть получено из оценки студента, отвечавшего на этот вопрос, и из оценки этого студента за тест в целом. Выражение для этой характеристики имеет вид:

рис 072

где рис 073  определено следующим образом.

Когда вычисляется рис 074, то мы вычисляем сумму

которая включает в себя термы-слагаемые для каждого студента, в которых объединяются его оценка за вопрос в p-й позиции и остаток оценки за остальные вопросы теста. Для вычисления рис 073 мы также начинаем суммировать с произведения элемента массива рис 075 с соответствующим элементом массива рис 076, по одному для каждого s. Перед этим следует только отсортировать по величине значения этих двух массивов перед применением вышенаписанной формулы. То есть, для  намерения вычислить рис 077, мы делаем вид, что первый студент набрал наименьший xp и наименьший Xp, второй студент набрал второй от наименьшего xp и второй от наименьшего Xp, и так до последнего студента, который набрал наибольшие xp и Xp .

Параметр Эффективность дифференциации также позволяет оценить, насколько задания в позиции теста способны разделять испытуемых по уровню их подготовки. Чем значения этого параметра больше, тем эта способность выше. Напротив, малые значения этого коэффициента 0,1) свидетельствуют о слабой дифференцирующей способности заданий в рассматриваемой позиции теста. Отрицательные же значения этого параметра свидетельствуют о дефекте заданий, предъявляемых в этой позиции, выражающемся в том, что слабые студенты получают за  их выполнение более высокие баллы, чем сильные студенты.

Для наглядности, в конце страницы со статистикой тестов, Moodle выводит диаграмму распределения значений Индекса легкости и Эффективности дифференциации по позициям теста (пример диаграммы на рис. 3.5.2). Диаграмма позволяет легко определить позиции теста с дефектными заданиями, для которых Эффективность дифференциации принимает отрицательные значения.

рис 079

Рис. 3.5.2. Пример диаграммы распределения Индекса легкости и Эффективности дифференциации по позициям теста

Предполагаемый вес оценок за задания в позиции (Intended Question Weight)

Этот параметр определяет, какой вклад вносит задание в данной позиции теста в общую оценку теста. Он определяется исходя из назначенных составителем теста минимальных и максимальных значений оценок за данный вопрос и остальные вопросы теста.

рис 080

рис 081

рис 082

Если рис 082а, то

рис 083

Эффективный вес оценок за задания в позиции (Effective Question Weight)

Этот параметр является оценкой того, какова реальная доля этой позиции теста в суммарных баллах студентов за тест в целом.

рис 084

Здесь

рис 085

рис 086  – итоговая оценка s-го студента за весь тест.

Следует обратить внимание на то, что в случае, когда ковариация оценки с общей оценкой попытки рис 087 является отрицательной величиной, вычисление эффективного веса тестового задания по этой формуле перестает быть корректным.


Отрицательное значение ковариация оценки с общей оценкой попытки свидетельствует о том, что оценка по данному тестовому заданию для этого набора попыток теста изменяется противоположным образом по отношению к общей оценке студентов по всем попыткам. Это означает, что общая оценка студента по всем попыткам имеет тенденцию быть ниже средней, когда оценка за данное задание выше средней, и, наоборот. Отрицательная ковариация (и, следовательно, отрицательные значения коэффициента дифференциации Dp и эффективность дифференциации DEp )  свидетельствует о дефекте тестовых заданий в данной позиции теста, и такие тестовые задания Moodle выделяет подсвечиванием (см. рис. 6.3).

рис 090

Рис. 6.3. Позиция тестового задания с отрицательной ковариацией

Эта аномалия тестового задания приводит к искажению результатов тестирования и увеличению погрешности измерения. В частности делает некорректным и расчет эффективного веса вопросов. Такого рода тестовые задания с отрицательным значением ковариации оценки за него с общей оценкой попытки должны из теста исключаться. Практическая проблема, однако, состоит в том, что в системе Moodle после того, как сделана хотя бы одна завершенная попытка выполнить тест, возможность изменения его сценария, т. е. состава тестовых заданий блокируется. Это сделано для того, чтобы все, выполняющие тест студенты находились в эквивалентных условиях с точки зрения состава предъявляемых им тестовых заданий.

Тем не менее, существует возможность исключить влияние заданий с отрицательным значением ковариации на точность измерения и, в частности, на вычисление эффективного веса.

Вычисление эффективного веса для других вопросов в этом тесте станет действительно корректным, если для подсвеченных вопросов с отрицательной ковариацией задать нулевое значение максимальной оценки. Если вы, редактируя тест, установите для этих заданий с отрицательной ковариацией максимальную оценку равной нулю, то эффективный вес этого вопроса также станет равным нулю и реальные эффективные веса для других вопросов станут рассчитываться корректно.