Статистика тестов. Определение характеристик качества тестов

Статистика тестов. Определение характеристик качества тестов 

9. Рекомендации по использованию статистики Moodle для анализа качества тестов

Приведенные выше формулы поясняют смысл математических операций, которые система Moodle производит при вычислении перечисленных статистических характеристик качества тестовых материалов. Имеет смысл коротко повторить смысл этих характеристик и методические рекомендации по их интерпретации и практическому использованию для повышения качества тестов как инструмента для измерения успешности овладения студентами изучаемого материала.

Анализ качества теста рекомендуется начинать с рассмотрения характеристик, относящихся к позициям сценария теста и к предъявляемым в них тестовым заданиям.

  1. В первую очередь следует обратить внимание на распределение значений Индекса легкости по позициям сценария теста (пример на рис. 4). Считается, что большая часть заданий теста должна иметь средний уровень сложности (значения Индекса легкости в области 50%). Но при этом в тесте должны обязательно присутствовать задания с уровнем сложности ниже и выше среднего. Следует помнить, что значения показателя сложности/легкости тестовых заданий не абсолютны, а зависят от уровня подготовки проходящего тестирование контингента испытуемых. Если обнаруживаются позиции теста и тестовые задания, у которых Индекс легкости равен 0% (никто из испытуемых не смог выполнить эти задания) или 100% (все испытуемые правильно выполнили эти задания), то такие позиции и тестовые задания надо исключать из теста. Такие задания не являются по сути тестовыми, так как не решают задачу разделения испытуемых по уровню подготовки и искажают итоговые оценки успешности испытуемых.
  2. Следующим показателем, на который следует обратить внимание, это Стандартное отклонение. Этот показатель характеризует разброс оценок испытуемых при выполнении заданий по позициям сценария теста. Чем значение этого показателя больше, тем сильнее различаются оценки  студентов, то есть тем лучше задания в данных позициях решают задачу разделения испытуемых по уровню их подготовки. Считается, что в хорошем тесте значения этого показателя не должны быть меньше 25-30%. Позиции и задания с низкими значениями Стандартного отклонения должны отбраковываться и из теста исключаться.
  3. Третьим важным показателем является Эффективность дифференциации. Как указывалось выше, этот показатель свидетельствует о степени корреляции оценок испытуемого за конкретную позицию теста или тестовое задание с его суммарной оценкой за тест в целом. Чем больше эта корреляция, тем лучше качество тестовых заданий. Напротив, низкие значения Эффективности дифференциации и, тем более, ее отрицательные значения свидетельствуют о низком качестве и дефекте тестовых заданий. Отрицательные значения корреляции показывают, что слабые студенты в среднем выполняют такие тестовые задания лучше сильных студентов. Наличие таких заданий в тесте ухудшает точность оценки уровня успешности испытуемых, и они должны исключаться из теста.

 

Затем можно перейти к анализу характеристик качества теста в целом.

  1. В теории тестов считается, что частотное распределение результатов выполнения заданий теста, по возможности, должно приближаться к нормальному распределению. В связи с этим, среднее значение полученных за задание баллов и медианное значение распределения этих баллов должны быть близки друг к другу. Также коэффициенты асимметрии и эксцесса должны иметь значения близкие к параметрам нормального распределения.
  2. Важными интегральными показателями качества теста являются значения Коэффициента внутренней согласованности теста (его надежность) и Стандартная ошибка. Как уже говорилось выше, в теории тестов считается, что надежность профессиональных тестов должна быть в районе 90%, а значения надежности ниже 80% считаются неудовлетворительными.
  3. Стандартная ошибка позволяет оценить долю случайности в измерении уровня подготовки испытуемых, оценить насколько полученные в результате выполнения теста оценки отличаются от истинной оценки уровня подготовки испытуемых. В частности, она позволяет оценить доверительный интервал оценки.

 

В приводимом выше примере, если студент набрал за тест 60 баллов из 100 и стандартная ошибка равна 7%, то можно быть уверенными, что оценка его подлинной способности с вероятностью ошибки 0,05  будет располагаться в доверительном интервале 60±14 баллов, т. е. от 46 баллов до 74 баллов.

Следует всегда помнить о конечной точности измерения фактического уровня подготовки испытуемых. Реальные измерения, в том числе и использование тестов, никогда не могут дать абсолютно точной оценки, поэтому очень важно иметь адекватное представление о величине погрешности таких измерений. Без статистической оценки точности измерения результаты тестирования могут оказаться просто сомнительными, а использование, например, 100-балльной шкалы для фиксации результатов аттестации студентов создавать ничем не подкрепленную иллюзию точности оценки в 1%.

 

Рассмотрим, какие возможности и пути улучшения качества тестовых материалов и увеличения точности тестовых измерений имеются в распоряжении преподавателя–составителя тестов, являющегося пользователем системы Moodle, имеются.

Качество теста и точность измерения уровня подготовленности испытуемых могут быть улучшены путем исключения из теста заданий, у которых Индекс легкости равен 0% или 100%, мало Стандартное отклонение, мала или отрицательная Эффективность дифференциации. При этом надо учитывать следующие аспекты. 

  • Помимо рекомендации исключения из теста такого рода дефектных заданий,  для разработчика теста это должно явиться поводом для более глубокого анализа содержания и структуры таких заданий. Очень часто в таких заданиях просто обнаруживаются ошибки, неточности и неоднозначности в их содержании, исправление которых устраняет обнаруженные дефекты.
  • Обнаружение в тесте очень легких и/или очень сложных заданий со значениями Индекса легкости, близкими к 0% или 100%, может послужить поводом не только к тривиальному исключению таких заданий из теста. На самом деле это является для преподавателя полезной методической информацией, которую можно использовать для пересмотра учебной программы дисциплины, а именно, сокращению времени на изучение тем, вопросы по которым оказываются тривиальными для всех испытуемых, и, напротив, увеличение времени и внимания на изучение разделов, вопросы по которым оказались непосильными для тестируемой группы.

Следует обратить внимание на одно обстоятельство, связанное с возможностью практического применения указанных рекомендаций повышения качества теста путем исключения их него обнаруженных дефектных тестовых заданий. Тестовая система Moodle, устроена таким образом, что после того, как была реализована хотя бы одна попытка выполнения конкретного теста, возможность изменения состава его заданий блокируется. Эта блокировка сделана умышленно для того, чтобы исключить возможность изменения состава заданий теста для разных испытуемых и создать одинаковые условия для всех студентов, выполняющих данный тест. По этой причине, рекомендация исключения из теста дефектных заданий, казалось бы, оказывается не применимой «задним числом» по отношению к тестам, по которым тестирование уже произведено. Тем не менее, можно рекомендовать следующую возможность исключения влияния обнаруженных дефектных тестовых заданий на качество. Для этого достаточно установить для дефектных тестовых заданий значение максимальной оценки равной нулю. Этот простой рецепт предоставляет эффективную возможность коррекции качества существующего теста и точности измерения с помощью него оценки уже после проведения по нему сеансов тестирования.

Говоря о возможностях переработки теста для улучшения его рассчитанных качественных характеристик для последующих тестирований, следует обратить внимание еще на такую возможность увеличения надежности теста, как увеличение длины теста (конечно в разумных пределах). Используя для этих целей приведенную выше формулу Спирмена-Брауна,

где , соответственно, достигнутая и плановая надежности теста, а k число, указывающее, во сколько раз должна быть увеличена длина теста.

В частности, снижение надежности экзаменационного теста для итоговой аттестации по всем темам дисциплины, вследствие ухудшения его внутренней согласованности из-за необходимости проверки знаний по слабосвязанным темам дисциплины, может быть скомпенсировано увеличением количества согласованных заданий по каждой теме дисциплины. Очевидно, конечно, что практическое увеличение длины теста имеет свои ограничения, связанные, в частности, с утомляемостью тестируемых.

Внешние факторы, влияющие на погрешности тестирования

Приведенный выше материал говорит о том, что измерение уровня подготовки испытуемых при использовании тестов всегда осуществляется с не равной нулю погрешностью, определяемой качеством тестовых заданий и теста в целом. Однако при практическом использовании тестов следует учитывать еще и внешние факторы, которые могут существенно влиять на увеличение этой погрешности.

Эти факторы связаны с нарушением принципа равенства требований и условий проведения тестирования для всех испытуемых.

К ним можно отнести фактор «угадываемости» правильных ответов на тестовые задания, когда при выполнении задания испытуемый вместо того, чтобы опираться на  свои знания, отвечает путем случайного выбора ответов.  Это относится к типу тестовых заданий с выбором одного или нескольких правильных ответов, в которых существует неравная нулю вероятность угадывания правильных ответов.

Очевидно, что в этом случае полученный результат выполнения такого задания не будет отражать реального уровня подготовки испытуемого. В особенности этот фактор является выраженным для заданий с выбором 1‑го ответа из 2-х, для которых вероятность угадывания правильного ответа равна 0,5. Высокая вероятность угадывания в такого рода тестовых заданиях даже провоцирует испытуемых при неуверенных знаниях отвечать наугад. В связи с этим использование такого типа заданий в тесте является очень нежелательным, так как приводит к существенному искажению результатов педагогического измерения. В этих случаях даже тогда, когда предметная область вопроса подразумевает дихотомичность ответа, рекомендуется использовать более сложные конструкции задания, например, объединяющие в одном задании нескольких дихотомичных вопросов, для снижения вероятности угадывания.

Другим фактором, искажающим результаты тестирования, является компрометация тестирования, когда при его выполнении испытуемые получают правильные ответы из какого-либо стороннего источника. Эта проблема не является прерогативой только системы электронного тестирования. Она испокон веков сопровождает и традиционные экзамены, когда испытуемые используют при сдаче шпаргалки, подсказки и списывание у других испытуемых. В связи с этим очевидны и традиционные организационные меры борьбы с этим злом, состоящие в создании условий для прохождения экзамена, исключающих возможности использования шпаргалок, подсказок и списывания. Другое дело, что современные электронные технологии, в частности средства мобильной связи и доступа в Интернет, существенно расширяют используемый для этих целей технический арсенал нерадивых студентов.

Система Moodle предлагает ряд дополнительных возможностей для нейтрализации возможностей нарушения студентами чистоты процедуры тестирования:

-    возможность открытия теста для доступа строго на время проведения тестирования;

-    для исключения «подмены» испытуемого, когда тестовые задания за него выполняет кто-то другой из другой физической точки доступа в Интернет, авторизовавшись в портале Moodle под логином и паролем аттестуемого, может быть использован доступ к тесту по кодовому слову, которое вводит проводящий тестирование преподаватель;

-    также для этих целей может использоваться привязка сеанса тестирования к IP-адресу компьютера, с которого проводится тестирование;

-    может быть запрещен доступ во время сеанса тестирования к любым Интернет-источникам, кроме портала Moodle.

Для снижения вероятности угадывания правильных ответов в тестовых заданиях с единственным или множественным выбором рекомендуется увеличивать количество ответов-дистракторов в этих заданиях, с учетом того, однако, что теория педагогического тестирования не рекомендует использовать более 8-10-ти дистракторов в одном задании.  

Для существенного затруднения возможности списывания заранее известных ответов на задания теста рекомендуется также:

-    использовать случайное перемешивание ответов-дистракторов, в предъявляемых разным студентам одинаковых тестовых заданиях,

-    выдача заданий теста разным студентам в случайном порядке,

-    наконец, при формировании выдаваемого конкретному студенту набора заданий использовать их случайный выбор из групп (категорий) однотипных тестовых заданий.

Для того чтобы эффективно реализовать последний прием, при котором фактически для каждого студента формируется индивидуальный набор тестовых заданий, принципиально важным является наличие в банке тестовых заданий достаточного количества однотипных заданий, из которых осуществляется случайный выбор заданий в конкретные позиции теста. Вообще, большое количество тестовых заданий, имеющихся в распоряжении преподавателя электронного курса, является принципиальным фактором, в большой степени определяющим эффективность использования тестовых контрольно-измерительных материалов. В качественном электронном курсе их общее количество должно составлять несколько сотен и более, и десятки по каждой теме дисциплины. Большое количество тестовых заданий по всем темам электронного курса принципиальным образом решает проблему компрометации процедуры тестирования, когда банк тестовых заданий вместе с правильными ответами оказываются известным студентам до прохождения тестирования. Практика показывает, что совершенно нереально обеспечить «секретность» банка тестовых заданий при их регулярном использовании в разные учебные годы преподавания дисциплины. В этой ситуации именно большое исходное число заданий, используемых при формировании теста, позволяет обеспечить эффективное тестирование независимо о того, что студенты до тестирования могут иметь эти задания с указанием правильных ответов на них. Большое число тестовых заданий и вариантов предъявления их набора студентам при тестировании делает для них практически нереализуемой возможность оперативного использования нелегальных источников с информацией о правильных ответах («бумажных» или электронных шпаргалок). В силу этого отпадает и актуальность проблемы обеспечения конфиденциальности такого банка тестовых заданий.