Статистика тестов. Определение характеристик качества тестов

Статистика тестов. Определение характеристик качества тестов 

1. Введение

Важной особенностью и достоинством тестовых технологий является возможность получения объективных характеристик, позволяющих судить о качестве тестов как инструмента для оценки (измерения) уровня учебных успехов испытуемых. Такие характеристики получаются в результате статистической обработки результатов тестирования.

Статистические теории педагогических измерений имеют более чем столетнюю историю развития. В 1904 году Чарльз Спирман  разработал основы первой статистической модели оценки истинного балла испытуемых. В последующие десятилетия появились новые исследования данной модели. Харольд Галиксен обобщил результаты  многих исследований в целостную теоретическую систему взаимосвязанных теорем и уравнений, которая стала известна как классическая статистическая теория измерений [6]. С начала 50-х годов прошлого века Фредерик Лорд и датский математик Георг Раш  независимо один от другого работали над созданием другой теории измерений, известной сегодня под названием Item Response Theory (IRT) [5‑10]. В 1963 году Ли Кронбах и его коллеги создали новую теорию и назвали её Generalizability Theory (GT) [5, 6].

Не вдаваясь в детали различия перечисленных моделей, важнейшим общим для всех них постулатом является то, что практическое использование тестов  является бесполезным в отрыве от рассмотрения и оценки характеристик их качества. Бессмысленно использовать измеритель, если мы не имеем никакого представления о том, что и с какой точностью он измеряет.

Тем не менее, с большим сожалением приходится констатировать, что уровень практического использования этих моделей для оценки качества тестов (и даже просто знакомство с ними), в настоящее время является совершенно неадекватным масштабам реального использования тестовых технологий широким кругом учебных заведений и преподавателей.

В связи с этим отметим важное достоинство системы Moodle, состоящее в том, что у нее имеются встроенные штатные средства для автоматизированной статистической обработки результатов тестирования и получения характеристик качества тестовых заданий и тестов в целом, теоретической базой которых является классическая теория тестов. Тем самым снимается принципиальный барьер для практического использования теории педагогических измерений, состоящий в необходимости выполнения сложных вычислений с использованием аппарата математической статистики, непреодолимый для большинства использующих тесты преподавателей. Тем не менее, по нашим наблюдениям, среди сообщества преподавателей – пользователей системы Moodle, во всяком случае Российской его части, эти возможности системы используются совершенно недостаточно. Возможно из-за отсутствия методической литературы по этой возможности Moodle на русском языке

Целью данного раздела является описание возможностей системы Moodle в части получения статистики характеристик качества тестов, пояснения их математического обоснования и интерпретации их смысла для практической оценки качества практически используемых тестов.