С удивлением узнал, что против меня и издания, которое опубликовало мой репортаж с пресс-конференции Министерства народного образования, Государственный центр тестирования подал в суд и требует опровержения и возмещения морального ущерба. Предоставляя юристам юридическую сторону вопроса, а вопросы свободы слова — специалистам в этой сфере (я не являюсь ни тем, ни другим), хотел бы обратить внимание на научные вопросы, которые у меня как специалиста в области педагогики и педагогического оценивания (тестологии) возникли после ознакомления с исковым заявлением ГЦТ.

ГЦТ заявляет: «Вышеуказанные некачественные тестовые задания никак не могли оказаться в базе заданий ГЦТ по объективным и субъективным причинам. Поскольку формирование базы тестовых заданий — это сложный процесс, который осуществляется в несколько этапов. Оценивается соответствие заданий требованиям тестологии и проводится экспертиза в несколько этапов, после чего они включаются в базу заданий».

В современной науке о тестах — тестологии — валидность, или точнее, конструктивная валидность, является единственным критерием качества тестовых заданий. Чтобы иметь право заявлять, что тестовые задания соответствует требованиям тестологии и являются качественными, т. е. являются валидными, организация должна предоставлять как теоретические, так и эмпирические (практические) доказательства.

Первое. Мы уже говорили, что валидность — это адекватность интерпретации (толкования) результатов теста по отношению к цели тестирования. Тест — это инструмент измерения, только мы мерим не физические величины, которые легко поддаются измерению (например, рост, вес, объем), а более абстрактные, сложно измеряемые понятия, такие как, например, психологические свойства человека, его знания, компетенции (в науке эти понятия называются «конструктами» — отсюда и «конструктивная валидность»). Так же как мы не можем использовать одни и те же инструменты для измерения разных физических свойств, например, линейку для измерения и длины, и веса, тестологи не могут использовать одни и те же инструменты (тестовые задания) для измерения разных конструктов. Выбор инструмента измерения (тестовых заданий) всегда будет зависеть от цели тестирования.

Отвечая на мой вопрос о тестовых заданиях, первый заместитель министра народного образования сказал, что для тестирования учителей ГЦТ использовал ту же базу, которая используется для тестирования абитуриентов. Здесь у меня возникает вопрос к специалистам ГЦТ: неужели в этих двух совершенно разных ситуациях — отборе абитуриента, вчерашнего школьника, для дальнейшего обучения в вузе и оценке профессиональной компетенции педагога — измеряемые конструкты настолько схожи, что можно использовать одни и те же инструменты измерения (тестовые задания) как в первом, так и во втором случае? Если быть более научным, могут ли результаты использования одной и той же базы тестовых заданий позволять делать совершенно разные выводы о совершенно разных категориях тестируемых?

Второе. ГЦТ отмечает, что «тестовые задания разрабатываются в соответствии с учебными планами общего среднего и среднего специального и профессионального образования». Тестовые задания не могут быть разработаны в соответствии с учебными планами.

Тестовые задания должны быть разработаны в соответствии с образовательными стандартами — документами, где прописывается, какими умениями, навыками, компетенциями должен обладать выпускник того или иного уровня образования.

Например, если стандарты говорят, что выпускник должен уметь «проанализировать реальность, отраженную в художественном произведении» или «оценить идейно-художественные характеристики произведения», значит, тест должен позволять делать вывод, умеет ли тестируемый это делать. А учебные планы — это не что иное, как путь, который намечает для себя образовательная организация или отдельно взятый педагог для достижения целей, заложенных в стандартах. И эти пути могут существенно различаться, несмотря на общность цели.

Например, если взять опыт России, где школы свободны в выборе учебных планов, методик, учебников для достижения целей, заложенных в Федеральных образовательных стандартах, Единый госэкзамен не составляется на основе учебных планов или учебников, используемых теми или иными образовательными учреждениями, а измеряет, насколько учащиеся достигли целей стандарта — насколько они овладели компетенциями, прописанными в стандартах. То же самое и с другими экзаменами, такими как, например, международные тесты по английскому языку IELTS или TOEFL — они измеряют уровень сформированности компетенций, заложенных в международных стандартах по английскому языку, независимо от того, где, при каких обстоятельствах, с помощью каких учебных планов или учебников тестируемый изучал этот язык до экзамена.

Возвращаясь к вопросу о компетенциях. Мне как специалисту интересно, какие компетенции, заложенные в образовательных стандартах, проверяют следующие тестовые задания: «Какая семья владела имением Лысые горы в „Войне и мире“ Толстого?» (официальный сборник ГЦТ по русскому языку и литературе, стр. 106, задание 4)? В части второй третьего тома произведения читаем: «Лысые Горы, именье князя Николая Андреича Болконского, находились в шестидесяти верстах от Смоленска, позади его, и в трех верстах от Московской дороги». Какую компетенцию хотят увидеть авторы этого задания? Запоминание учеником текста четырехтомного произведения? А если авторы задания хотят здесь увидеть ассоциацию «Лысые горы — Голгофа» и «князь Андрей — мученик и Христос — мученик», как это видят некоторые филологи, насколько правомерно требовать такого рода анализы, требующие глубоких знаний не только литературы, но и истории и религиоведения, с ученика школы?

Другие примеры. «Кто подарил скатерть-самобранку мужикам-правдоискателям в поэме „Кому на Руси жить хорошо?“ Некрасова?» (тот же сборник, стр. 106, задание 27). «Как звали арбакеша, о котором так печется мать, в романе „День и ночь“ Чулпана?» (официальный сборник ГЦТ по узбекскому языку и литературе, стр. 112, задание 17). «В семнадцатой песне"Наставлений"Абая связанность чего с телом поддерживает Знание? Варианты: сердца, энергии, ума, ума и сердца» (тот же сборник по узбекскому языку и литературе, стр. 117, задание 15). «Кто сказал ту или иную фразу в таком-то эпосе?» (тот же сборник, стр. 70−75) «Какое сооружение изображено на рисунке?», «Какое божество изображено на рисунке?» или «Какой деятель изображен на рисунке?» (официальный сборник ГЦТ по истории, стр. 110−116). Опять же, на измерение каких компетенций, заложенных в образовательных стандартах, направлены такие задания? Какие обоснованные выводы о компетенциях тестируемых можно сделать, анализируя их ответы на подобные задания? Или с какой целью в сборник по английскому языку включены задания, основанные на текстах, по лексическому, грамматическому и стилистическому строю превышающие уровень B1, требуемый от абитуриента к концу средней школы?

Я как специалист, изучавший тестологию в рамках программы магистратуры, не вижу принципиальной разницы между образцами заданий, озвученных мной на пресс-конференции МНО и приведенными выше. А ведь примеры, которые я привел выше, взяты из сборников, официально опубликованных ГЦТ из базы заданий 2019 года. И те, и другие не валидны — не позволяют измерить те конструкты, которые они должны измерять.

Третье. Надежность тестов является одной из характеристик, напрямую влияющих на их валиднось — ненадежные тесты не могут быть валидными. Объясняя простыми словами, если сегодня Иванов по вашим тестам набрал 90 баллов, а через некоторое время он же по этим же тестам набрал, скажем, 50 или 150 баллов, значит, тесты не надежные и, соответственно, не валидные. Для вычисления надежности проводится апробация всей (!) базы заданий на репрезентативной выборке. Цифры, полученные в результате апробаций, вставляются в формулы, которые показывают различные характеристики этих заданий: их уровень сложности, дискриминационная сила и другие. Полученные цифры непосредственно влияют на надежность тестового варианта, в котором используется эти задания. Причем задания могут показывать разные характеристики в разных комбинациях — вполне «нормальные» задания в одном варианте могут «повести себя ненормально» (т. е. показывать неприемлемые характеристики), если их включить в другой вариант.

В науке о тестах существуют определенные стандарты, которым должны соответствовать тестовые задания и варианты. Например, сложность заданий должна быть в пределах 0,3−0,7, дискриминационная способность должна быть выше 40%, DIF (Differential item functioning &mdash уровень дискриминации различных групп тестируемых заданием) должен быть равен нулю. Коэффициент надежности всего варианта должен быть выше 0,85.

Мы говорили, что организации, занимающиеся тестированием, публикуют для общественности всю статистику, необходимую для получения представления о качестве заданий и сопоставимости результатов. Если, как утверждает ГЦТ, качество заданий соответствует требованиям тестологии, то почему на сайте ГЦТ нет каких-либо цифр, позволяющих в этом убедиться? Проводилась ли апробация заданий, предложенных педагогам в Сырдарьинской области, на репрезентативной выборке педагогов? В каких пределах были такие характеристики, как сложность заданий, дискриминационная способность, DIF тестовых заданий? В каких пределах были коэффициенты надежности вариантов и стандартная ошибка измерения? Учитывая невозможность добиться идентичного уровня сложности всех вариантов при использовании многовариантной системы, как проводилось шкалирование результатов тестирования педагогов до того, как эти результаты были представлены МНО и другим организациям?

Четвертое. Как правильно отметил ГЦТ, формирование базы тестовых заданий — это сложный процесс, который осуществляется в несколько этапов. Эти этапы зафиксированы в основополагающем документе любой организации, занимающейся тестированием, — «Стандартах педагогического и психологического тестирования». К каждому этапу — начиная от составления спецификации теста и подбора составителей теста, апробацией заданий и анализом результатов апробации, компиляцией вариантов тестов и заканчивая проведением (администрацией) теста, обработкой и оглашением результатов — предъявляются конкретные требования. Насколько процедуры, принятые в ГЦТ, соответствуют этим требованиям, чтобы некачественные тестовые задания не могли оказаться в базе заданий по объективным и субъективным причинам?

Например, одним из требований «Стандартов» является прозрачность. Все участники тестирования должны знать и понимать, что требуется в тесте, как работа тестируемых будет оценена и как будут интерпретированы результаты тестирования. Обладали ли педагоги в Сырдарье достаточной информацией по этому поводу? Каким образом была доведена до их сведения спецификация теста с подробной информацией, какие их компетенции будут измерены и каким образом?

Подобные вопросы, равно как и другие, я пытаюсь поднять благодаря «Газете.uz», которая предоставляет мне площадку для моих анализов. Эти вопросы поднимаются мной не с целью «дискредитации Государственного центра тестирования и его сотрудников, ущемление чести, достоинства и деловой репутации», как это, к сожалению, видит ГЦТ.

Тесты ГЦТ обладают огромной силой «эффекта отлива» — влияют на дальнейшие действия участников системы образования и через них — на систему образования в целом. Например, в случае с тестированием педагогов ответственные органы, такие как МНО, Госинспекция по надзору за качеством образования, Кабинет Министров принимают определенные решения, намечают мероприятия, требующие, в том числе, бюджетных затрат. Поэтому крайне важно, чтобы организация, на которую возложено измерение, следовало всем требованиям науки о тестах и информировало общественность об этом.

К сожалению, ни я, ни читатели «Газеты.uz» до сих пор не получили четких ответов на многие вопросы, поднятые в публикациях. Но проблема существует, и ее надо решать. Это значит, что к подобным вопросам мы вынуждены постоянно возвращаться, нравится это кому-то или нет.

С уважением,
Комил Джалилов