Скандал вокруг национальной тестовой системы, вспыхнувший аккурат накануне совещания под председательством президента Шавката Мирзиёева, посвященного приоритетным задачам в системе высшего образования, стал одной из самых обсуждаемых тем недели. Стало известно об утечке тестовых заданий по отдельным предметам до экзаменов.

Пресс-служба Государственного центра тестирования заявила, что тестовые задания были разработаны Министерством народного образования и Госинспекцией по надзору за качеством образования. МНО же выступило с заявлением, что договоры с экспертами на разработку тестов заключал ГЦТ, тестовые задания были разработаны непосредственно в здании ГЦТ, а министерство не участвовало в организации тестов и доставке тестовых материалов до места тестирования. Аналогичное заявление сделала госинспекция. Образовательный центр Profi Education в Facebook потребовал аннулирования результатов сертификата. Источники сообщили, что проблемой заинтересовались в Сенате и направили запрос в соответствующие ведомства.

ГЦТ не опроверг факт утечки тестовых заданий и выдвинул версию, что тестовые задания могли быть воссозданы по памяти и набраны на компьютере после тестирования лицами, участвовавшими в тестировании. Эту версию повторил заместитель директора ГЦТ Сардор Раджабов во время онлайн-чата в Телеграм-канале юриста и блогера Хушнудбека Худойбердиева. Однако в эту версию поверить сложно — практически невозможно по памяти так точно воссоздать структуру варианта, даже если заучивание поручалось не одному, а нескольким абитуриентам.

Проблемы с тестами ГЦТ наблюдались и ранее. В ходе вступительной кампании 2020 года появились сообщения о возможной продаже тестовых заданий, использованных на вступительных экзаменах в Ташкентский государственный юридический университет. Кроме того, из-за технической ошибки были пересчитаны результаты тестов в некоторых областях. Годом раньше были зафиксированы многочисленные жалобы на тесты по химии.

Попробуем разобраться, какие стандарты приняты в международных экзаменах для предотвращения подобных ситуаций и какие действия предпринимаются, если все-таки существуют подозрения в нарушении правил тестирования. Попробуем также провести параллели с национальной системой тестирования.

Лицензирование, разработка теста и его администрирование — разграничение полномочий и процессов

Если проанализировать практику международных экзаменов, мы увидим, что процессы лицензирования деятельности по разработке тестов (если такая лицензия требуется по законодательству страны), разработке тестовых материалов и администрированию (проведению) экзаменов разграничены.

Разработкой тестовых материалов занимаются организации с большой армией специалистов по тестологии, психометрии, статистике. В таких организациях не только занимаются разработкой тестов, но и проводят научные исследования по их валидности.

Эти организации также разрабатывают требования к проведению тестов и дают организациям, доказавшим соответствие этим требованиям, право на проведение тестов, то есть выбирают тестовые центры. Тестовый центр получает тестовые материалы от разработчика центра, проводит экзамен и отправляет материалы теста обратно разработчику теста. При этом центр обязан соблюдать все протоколы и требования, предъявляемые разработчиком теста. Центры периодически проходят проверку (аудит) на соблюдение правил. Кроме того, разработчик теста постоянно анализирует статистику результатов теста по каждому из центров.

Лицензирующий же орган следит за соблюдениями правил и стандартов в разработке и проведении тестов.

К примеру, материалы экзамена IELTS разрабатывает Cambridge Assessment English, один из ведущих игроков на рынке международного тестирования и разработчик экзаменов по английскому языку. На территории Узбекистана экзамен проводят Британский Совет или организация Edu Action, имеющая лицензию на проведение экзамена от организации IDP, одного из совладельцев IELTS. То же самое с экзаменами TOEFL или GRE — тестовые материалы теста разрабатывает Educational Testing Service (ETS), одна из крупнейших в мире некоммерческих организаций по тестированию и оценке, базирующаяся в США, но сама эта организация экзамены не проводит.

Как я писал ранее, в Британии Управление по квалификациям и экзаменам при парламенте Ofqual является регулятором в сфере экзаменов и разрабатывает правила для экзаменов. Ofqual само не проводит экзамены, но ставит требования, обязательные для выполнения организациями, их проводящими, а также проверяет соблюдение этих требований.

В России составлением тестовых заданий Единого госэкзамена (ЕГЭ) занимается Федеральный институт педагогических измерений, а проведением — Федеральный центр тестирования.

Такое разграничение полномочий приводит к тому, что каждая из сторон отвечает за свою работу и работает система «сдержек и противовесов». Лицензирующая (контролирующая) организация беспристрастно следит за соблюдением правил и требований всеми организациями, занимающимися оценкой. Организация — разработчик теста заинтересован в соблюдении всех правил разработки и проведения теста для обеспечения его валидности, а тестовый центр — в соблюдении правил проведения, установленных разработчиком теста, для сохранения права проведения теста. Кроме того, при таком подходе проще выявлять и расследовать факты нарушения правил, если таковые имеются.

Насчет валидности — это очень важный момент, так как результаты экзамена признаются образовательными учреждениями и работодателями в силу валидности экзамена, а не в силу каких-то постановлений правительства. Наука о тестах — тестология — рассматривает валидность результатов теста как единственный критерий качества теста. Стандарты по педагогическим и психологическим тестам — документ, на который ориентируются организации, занимающиеся тестированием, — гласят, что тесты должны быть разработаны таким образом, чтобы обеспечивать валидность их результатов, и все меры, принимаемые для обеспечения справедливости, надежности и валидности тестов должны быть задокументированы. Кроме того, должны быть разработаны процедуры по проведению теста, обеспечивающие валидность результатов теста и соблюдение этих процедур должно постоянно проверяться.

Попробуем объяснить вышесказанное на примере. Представим, что некая организация разработала тесты по химии для поступающих в медицинский вуз. Для того, чтобы медицинские вузы начали признавать результаты теста, то есть, начали принимать абитуриентов на основе этого теста, необходимо доказать валидность результатов теста. То есть, что тест действительно может определить, обладает ли абитуриент достаточным уровнем подготовки по данному предмету для обучения на медика.

В Узбекистане Государственный центр тестирования (ГЦТ) одновременно выполняет все три функции:

  • регулятора — согласно положению о ГЦТ, утвержденному постановлением Кабинета министров №130 от 20 февраля 2018 года, ГЦТ является «полномочным органом госуправления, отвечающим за выработку и реализации политики тестового отбора в образовательные учреждения, а также за контроль над соблюдением правил проведения тестовых испытаний»;
  • разработчика тестовых материалов — ГЦТ нанимает экспертов и разрабатывает тесты;
  • администратора тестов — ГЦТ непосредственно проводит тесты (является «тестовым центром» в узком понимании).

Обратите внимание: ГЦТ сам проводит тесты по материалам, разработанным им самим, но также должен осуществлять «контроль над соблюдением правил проведения тестовых испытаний». Получается, если на каком-либо этапе — разработки или проведения теста — правила не соблюдались, центр должен, как небезызвестная унтер-офицерова жена из комедии Гоголя, «сам себя высечь». Но насколько заинтересован центр в этом? К примеру, если я одновременно произвожу колбасу и контролирую выполнение требований госстандарта, предъявляемых к колбасе, не мудрено, что моя колбаса всегда будет соответствовать госстандартам, даже если на самом деле это не так.

Несмотря на то, что постановлением Кабмина ГЦТ определен как администратор национальной тестовой системы по общеобразовательным предметам (причем, одним из — проведением тестов и выдачей сертификатов могут заниматься ГЦТ или другая организация по оценке качества образования, созданная в установленном законодательством порядке), а МНО и Госинспекция — разработчиками теста, как следует из заявлений, сделанных МНО и Госинспекцией после скандала с утечкой тестовых заданий, в данном случае ГЦТ выступал и как разработчик теста, заключая договор с экспертами, предоставляя им работу на своей территории, принимая и используя тесты, разработанные этими экспертами.

Достаточное время для разработки и валидации

Как объясняет Cambridge Assessment English, тестовые задания проходят несколько этапов апробации до того, как их используют на экзамене. Как правило, от начала разработки тестового задания до его использования проходят несколько лет. В пособии по разработке тестов и проведению экзаменов Европейской ассоциации экзаменационных советов по иностранным языкам (ALTE) также говорится, что должно пройти достаточное время между предварительной апробацией тестового задания и его использованием на реальном экзамене.

Финальный вариант генерируется компьютером на основе специальных алгоритмов и проводятся исследования по валидности и надежности этого варианта. Существуют разные уровни доступа к материалам для разных участников системы, так что автор задания никогда не знает, когда и где будет использован его материал.

Постановление о внедрении национальной тестовой системы было принято в октябре прошлого года. В марте текущего года было объявлено, что первые тесты пройдут уже в апреле. Как сообщают источники, непосредственно к разработке тестов приступили в марте. При таких сжатых сроках, скорее всего, не было времени проводить исследования по валидности и надежности тестов, как это было обещано на пресс-конференции.

Сжатые сроки еще и означают, что приступая к разработке тестов, эксперты знали, когда и где их тесты будут использованы. Я не хочу никоим образом высказывать сомнения в порядочности экспертов, участвовавших в разработке тестов. Однако сама система, когда всем заранее известно, где и когда будет использован разрабатываемый тестовый материал, не может считаться надежной.

Комментируя использование одного и того же варианта с 50 заданиями для всех, заместитель министра народного образования Усмон Шарифходжаев в ходе онлайн-чата сослался на опыт экзамена IELTS. Да, на экзамене IELTS тестируемые, сдающие тест одновременно, решают один и тот же вариант теста, но следует учитывать, что, во-первых, как я сказал выше, этот вариант не разрабатывается за месяц до тестирования и во-вторых, IELTS содержит задания открытого типа, на которые тестируемый не может ответить путем заучивания готовых ключей.

Хранение данных

Вышеупомянутые стандарты требуют, чтобы организации, использующие тесты, принимали все меры для безопасности тестовых материалов. Это означает, что на всех этапах разработки и использования теста материалы должны быть доступны только лицам, которым дано право доступа. Как правило, разные лица имеют разные уровни доступа в зависимости от их роли в разработке, валидации и использованию теста.

Для хранения тестовых заданий, принятых для последующей обработки и использования, разработчики тестов обычно используют специальную программную оболочку, защищенную от несанкционированного доступа и копирования, К примеру, специалисты, имеющие доступ к тестовым материалам международного исследования PISA, работают в специальной программе, не позволяющем копировать данные в другие программы. Помещения, где хранятся данные, также, как правило, защищены системами ограничения доступа, например, кодовыми замками.

В систему вносятся не только сами тестовые задания, но и подробная информация, позволяющая идентифицировать задание и понять, на какой стадии разработки оно находится: уникальный идентификационный номер задания, чеклист этапов валидации, которые прошло задание, описание изменений, внесенных в задание и другие данные.

Как рассказывают эксперты, участвовавшие в разработке тестов для национальной системы, в ГЦТ для таких целей используется обычный редактор Word — не самое лучшее решение для хранения конфиденциальной информации. Эксперты работают в комнате, где компьютеры подключены к сети и защищены обычным паролем — тоже не самое надежное средство защиты компьютера с конфиденциальными данными. Когда эксперты приходят работать, сотрудник ГЦТ разблокирует компьютер путем ввода пароля. Эксперт, работающий на компьютере, может видеть папки и файлы, созданные на этом компьютере другими экспертами. Так как сотрудник ГЦТ знает пароли от всех компьютеров, на которых работают эксперты, он имеет доступ ко всем компьютерам и соответственно, материалам, которые на этом компьютере хранятся. USB-порты компьютеров заклеены скотчем, который, наверняка, можно оторвать при необходимости, да и человеку, обладающему базовыми навыками работы с сетями, не составить труда вытащить данные с компьютера по локальной сети.

Статистический анализ результатов

Стандарты гласят, что должны быть приняты все меры для устранения возможностей тестируемым получать баллы обманным путем — путем нарушения правил тестирования, в том числе получения доступа к тестовым материалам до экзамена. Так как получение доступа к материалам теста до экзамена серьезно ставит под удар валидность результатов теста, то результаты такого теста не могут быть использованы для приняты каких-либо решений и должны быть аннулированы.

Существуют определенные меры, позволяющие выявлять нарушения правил тестирования как со стороны лиц, сдающих экзамен, так и со стороны тестового центра. Одним из таких мер является статистический анализ результатов тестирования по отдельно взятым тестируемым, а также по дням и местам тестирования. Такой анализ в обязательном порядке проводится разработчиком теста после каждого тестирования.

Случаи, когда, например, ответы двух или более тестируемых совпадают, когда наблюдаются большие разногласия по результатам тестируемого по разным разделам теста, или когда зафиксированы большие отклонения от нормального распределения баллов в разрезе отдельных дней или центров тестирования, попадают под подозрение, а результаты не публикуются до проведения расследования специальной комиссией. К примеру, Educational Testing Service (ETS) использует систему, которая автоматически формирует отчеты о любых отклонениях в распределении баллов.

По итогам расследования результаты могут быть аннулированы, а тестируемый может попасть под запрет на сдачу теста в течение определенного времени. Если обнаружены нарушения в правилах администрирования (проведения) теста со стороны тестового центра, аннулируются результаты теста для всех, кто сдавал тест в этом центре. Как правило, в таких случаях плата за тест возвращается тестируемому или ему предоставляется возможность бесплатно пересдать тест.

Конечно, на практике международных экзаменов также бывали казусы. К примеру, в 2018 году в Катманду Британский Совет отменил экзамены IELTS после того, как полиция накрыла группу, продающую тестовые задания экзамена. Организация экономического сотрудничества и развития (OECD) исключила результаты Казахстана по тестам PISA 2015 года из международного рейтинга в связи с нарушениями в порядке выбора школ, участвующих в тестировании, а также с подозрениями в предвзятой оценке. Однако система выстроена таким образом, что любые нарушения правил расследуются и на них реагируют, кроме того, попытки скрыть нарушения в одной цепи звена неизбежно вскрылись бы в одной из последующих звеньев.

Выступая в ходе онлайн-чата в Телеграм-канале Хушнудбека Худойбердиева, заместитель директора ГЦТ Сардор Раджабов обещал, что будет проведен статистический анализ результатов теста в тех регионах, где, предположительно, была утечка и результаты этого анализа будут обнародованы. Однако важно провести такой анализ не только по отдельно взятым регионам, но по всем дням и регионам тестирования, выявлять любые отклонения в распределении баллов и расследовать их причины. Пока идет расследование, необходимо повременить с публикацией результаты тестов, а по результатам расследования, возможно, придется их вовсе аннулировать. Иначе сложно будет восстановить доверие к национальной тестовой системе.

Предложения

Итак, тестирование — это не просто «собрали экспертов, разработали задания, провели экзамен». Тестирование требует серьезного научного подхода и соблюдения определенных стандартов на каждом этапе разработки тестовых материалов, проведения экзамена и публикации его результатов. Конечно, можно разрабатывать и проводить тесты по принципу «и так сойдет» — есть правительственное постановление, гарантирующее признание результатов теста образовательными учреждениями даже в отсутствие доказательств валидности результатов теста. Но как это аукнется в будущем?

Для того, чтобы проблемы тестовой системы все-таки не аукнулись серьезными последствиями в будущем, на мой взгляд, необходимо на основе Стандартов по педагогическим и психологическим тестам разработать четкие протоколы и правила, обеспечивающие валидность результатов тестирования. Эти правила и протоколы (включая правила информационной безопасности) должны охватывать все этапы разработки и проведения тестов, а также обработки и публикации его результатов. Результаты тестов должны приниматься не в силу правительственных постановлений, а после публикации научных доказательств валидности.

Чтобы эти правила и протоколы соблюдались, крайне важно четко разграничить функции разработки тестовых материалов, проведения тестирования и контроля за соблюдением правил проведения тестовых испытаний. Как мы видели выше, ситуация, когда все три функции сосредоточены в руках одной организации, разрушает систему сдержек и противовесов и делает невозможным объективное расследование, если на каком-либо из этапов нарушены стандарты. Необходимо определиться, кем является ГЦТ: регулятором, разработчиком или же организатором тестов и соответственно, создавать условия для появления других игроков на рынке услуг по оцениванию — конкуренция заставит их дорожить своей репутацией.

Также, необходимо отказаться от принципа «срок был вчера». Организации, занимающиеся разработкой тестов, должны иметь в своем распоряжении достаточное время, чтобы серьезно, по-научному отнестись к такому важному делу. Вообще, тестами следует заниматься научно или не заниматься вообще — ведь на кону интеллектуальное будущее страны.

Мнение автора может не совпадать с мнением редакции.