Статистика тестов. Определение характеристик качества тестов

Статистика тестов. Определение характеристик качества тестов 

8. Статистика теста в целом

Этот раздел посвящен статистикам, относящимся к тесту в целом (см. рис. 8.1). Возможность автоматизированного расчета этих характеристик появилась в Moodle версии 2.

рис 112

Рис. 8.1. Раздел Информация о тесте

Количество полных оцененных первых попыток

Обозначается  и представляет собой количество студентов, хотя бы один раз выполнивших данный тест. Обращаем внимание на то, что в зависимости от настройки теста, мы можем учитывать одну или все попытки одного студента выполнить этот тест (если разрешено несколько попыток).

Количество полностью оцененных попыток

Может не совпадать с предыдущим значением, если студентам разрешено несколько попыток прохождения теста.

Средняя оценка для первой попытки (Mean Score)

Средняя оценка (количество баллов) за тест среди S студентов, сдававших тест.

рис 114

Напомним, что

рис 115

откуда

рис 116

Средняя оценка по всем попыткам

Средняя оценка, рассчитанная с учетом всех завершенных попыток тестирования. Отличается от предыдущего значения, если студентам разрешено несколько попыток прохождения теста.

Медианная оценка для первой попытки (Median Score)

Медиана распределения оценок S студентов, сдававших тест. Для ее вычисления сортируются суммарные баллы студентов за весь тест Ts, и берется значение из середины, если S нечетное, или среднее между двумя средними значениями, если S четное.

Стандартное отклонение для первой попытки (Standard Deviation – SD)  

Стандартное отклонение суммарных баллов S студентов, сдававших тест

рис 118

Этот параметр характеризует способность теста разделять испытуемых по уровню подготовки.

Асимметрия и эксцесс для первой попытки (Skewness and Kurtosis)

Коэффициент асимметрии является мерой асимметрии в распределении баллов за тест.

рис 119

Коэффициент эксцесса – является характеристикой островершинности графика плотности унимодального распределения баллов, рассматриваемой в качестве меры отклонения от нормального распределения. Эксцесс говорит, что ваше распределение имеет более выраженную выпуклость, но тонкие хвосты или наоборот.

рис 120

Для определения этих характеристик вначале вычисляются:

рис 121

рис 122

рис 124

Затем вычисляются:

рис 124

рис 125

рис 126

И, наконец,

Коэффициент асимметрии  рис 127

Коэффициент эксцесса рис 128

В более качественном тесте средний арифметический балл испытуемых \overline{T} равен среднему числу используемых заданий, коэффициенты асимметрии и эксцесса не отклоняются от значений для стандартной кривой нормального распределения результатов. Хорошо также, если значения средней арифметической, моды и медианы совпадают. Это признак точной нацеленности общего уровня трудности теста на уровень подготовленности испытуемых.

Коэффициент внутренней согласованности (надежности) теста (для первой попытки) (Coefficient of Internal Consistency – CIC)

Согласованность заданий теста определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждое отдельное задание измеряет признак, на который направлен весь тест.

В процентной шкале выражение для этого коэффициента, который в литературе также известен, как альфа Кронбаха (Cronbach Alpha) [9-11], имеет вид

рис 131

где

рис 132

это параметр, характеризующий способность тестового задания в позиции p разделять испытуемых по уровню подготовки, а

рис 133

это параметр, характеризующий способность теста в целом разделять испытуемых по уровню подготовки.

Для теста, состоящего из дихотомических заданий эта формула переходит в формулу Кьюдера-Ричардсона (KR-20) [9-10].

рис 134

где qp это доля правильных ответов на задания позиции .

Коэффициент внутренней согласованности, вычисляемый по этим формулам, является одной из принятых в тестологии мер, характеризующих надежность теста.

 

Для того чтобы лучше понять смысл этой характеристики, обратим внимание на то, что величина параметра CIC зависит от соотношения двух величин – в числителе рис 136 и в знаменателе V(T).

Первая из этих величин рис 136 является суммой для всех P заданий теста дисперсий результатов, полученных студентами за выполнение заданий в каждой позиции, то есть величин рис 138,

характеризующих способность тестовых заданий в каждой позиции разделять испытуемых по уровню подготовки.

 

Второй параметр (в знаменателе) рис 139 это дисперсия результатов, полученных всеми студентами за выполнение теста в целом. Этот параметр, в свою очередь, характеризует способность теста в целом разделять испытуемых по уровню подготовки.

Можно рассмотреть соотношение этих величин для двух крайних состояний согласованности заданий теста. А именно, когда задания теста полностью согласованы друг с другом и когда они полностью не согласованы.

Если все задания теста полностью согласованы, то есть все они посвящены одному объекту, ответы конкретного студента на разные задания теста должны совпадать. Студент, который знает объект, которому посвящен тест, ответит правильно на все вопросы, а незнающий студент, напротив, выполнит все задания неправильно.

Другими словами для полностью согласованных заданий значения xp(s) не зависят от номера позиции , т. е.  рис 140 и рис 141 В этом случае суммарное значение дисперсий тестовых заданий по всем позициям теста равно

рис 142

Дисперсия результатов выполнения теста в целом равна

рис 143

то есть в P раз больше. Отсюда

рис 144

Т. е. показатель CIC для надежного теста с полностью согласованными заданиями равен 100%.

Во втором случае, когда задания теста полностью не согласованы, т. е. каждое из них посвящено разным объектам, выражение для дисперсии результатов теста в целом рис 145 можно преобразовать следующим образом.

рис 146

Для полностью несогласованных тестовых заданий оценки по заданиям для не совпадающих позиций p будут полностью некоррелированными. Поэтому второе слагаемое в этом выражении будет равно нулю. Получаем

рис 147

то есть совпадает с суммой дисперсий результатов тестовых заданий по всем позициям теста. Отсюда получаем

рис 148

Таким образом, для полностью несогласованного теста показатель надежности CIC равен нулю.

Считается [9-10], что внутренняя согласованность теста CIC не должна быть ниже 80%, а для профессионально разработанных тестов должна быть на уровне не менее 90%.

Следует, однако, иметь в виду, что показатель надежности альфа Кронбаха наиболее целесообразно использовать в случаях, когда все пункты теста изначально направлены на измерение одного и того же явления, свойства, феномена, т. е. для гомогенных тестов.

Если все задания теста являются согласованными в высокой степени, баллы по ним будут сильно коррелировать друг с другом, и, следовательно, надежный (в этом смысле) тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. Если тест является заведомо не гомогенным, то он будет характеризоваться низкой надежностью по внутренней согласованности его заданий.

Эти обстоятельства следует учитывать при создании тестов различного назначения. Например, тест для оценки знаний по конкретной узкой теме учебной дисциплины должен быть гомогенным и составляющие его задания должны быть хорошо согласованы друг с другом. С другой стороны, можно ожидать, что экзаменационный тест для итоговой аттестации по дисциплине, касающийся всех ее разделов, будет в меньшей степени гомогенным. Входящие в такой тест задания, посвященные разным темам дисциплины, уже будут менее согласованы, чем задания по одной теме. Следовательно, значение показателя альфа Кронбаха для такого теста может оказаться не высоким. Для таких тестов  для увеличения показателя надежности следует увеличивать количество входящих в него заданий.

Error Ratio (для первой попытки) – ER

Так же в процентной шкале:

рис 149

Этот параметр вычисляется на основании предыдущего (CIC) и характеризует степень внутренней рассогласованности теста.

Чем это значение меньше, тем вопросы теста считаются более согласованными.

Учитывая приведенные выше комментарии относительно двух крайних ситуаций полностью согласованного теста и полностью несогласованного, можно видеть, что для полностью согласованного теста значение ER будет равно нулю, а для теста с полностью несогласованными заданиями – 100%.

Нетрудно получить, что при рекомендуемом значении рис 153  значение параметра ER не должно превышать 31,6%.

Стандартная ошибка (для первой попытки) (Standard Error – SE)

В отличие от параметра ER стандартная ошибка SE представляет величину ошибки в том же масштабе, что и суммарный балл, полученный студентом за тест в целом.

Выражение для стандартной ошибки имеет вид:

где

рис 156

Если исходить из одного из постулатов классической теории тестов [9], что баллы, полученные студентом за тест, являются комбинацией его действительной способности и случайной ошибки (насколько удачлив он был в день тестирования), то стандартная ошибка является оценкой фактора удачливости. Эта статистическая характеристика отражает степень точности измерений, осуществляемых с помощью теста.

Величину стандартной ошибки SE можно использовать для определения границ доверительного интервала, внутри которого должен находиться истинный балл студента. Если распределение полученных значений фактических баллов считать нормальным, то при вероятности ошибки 0,05 истинная оценка студента должна находиться в интервале (рис 157), где Ts – наблюдаемый суммарный балл испытуемого, а 1,96 табличная константа для вероятности ошибки равной 0,05.

Так, если студент набрал за тест 60 баллов из 100 и стандартная ошибка SE≈7%, то можно быть уверенными, что оценка его подлинной способности с вероятностью ошибки 0,05  будет располагаться в доверительном интервале 60±14 баллов, т. е. от 46 баллов до 74 баллов.

Надежность теста и количество в нем тестовых заданий

Интуитивно понятно, что надежность теста зависит не только от его внутренней согласованности. При этом, чем тест длиннее, тем его надежность должна быть выше (если не учитывать такие факторы, как утомляемость испытуемого при выполнении длинного теста).  Теория тестов подтверждает возможность повышения надежности теста за счет увеличения его длины. Для этих целей можно использовать обобщенный вариант формулы Спирмена—Брауна [9, 10]

рис 159

Здесь rн – прежнее значение коэффициента надежности теста, рис 161 – новое значение коэффициента надежности теста, k– число раз, в которое увеличивается длина теста.

Например, если надежность теста была rн=0,7 и длина теста увеличена в три раза, то новое значение коэффициента надежности будет

рис 164

В отличие от 0,7, это значение является вполне приемлемым для профессионального теста.

Эту формулу можно использовать и по-другому. А именно, для определения того, во сколько раз требуется увеличить длину теста, чтобы увеличить надежность теста до необходимой величины.

рис 165

Для рассмотренного выше примера рис 166   и  

рис 168

Из приведенных зависимостей можно сделать важный вывод. Вследствие того, что у экзаменационных тестов для итоговой аттестации коэффициент надежности объективно уменьшается из-за снижения показателя согласованности заданий, относящихся к разным разделам дисциплины, для таких тестов для повышения показателя их надежности необходимо увеличивать длину теста. Для этого, при формировании такого теста, следует не ограничиваться включением в него минимального количества заданий по каждой теме, а включать в тест наборы заданий по каждой теме.