Государственный центр тестирования (ГЦТ) обнародовал результаты опроса, проведённого совместно с U-Report, цифровой платформой ЮНИСЕФ и партнёров. На вопрос, прозрачно ли прошли вступительные экзамены в вузы в 2020 году, из 3813 респондентов 28% ответили положительно, 24% — отрицательно, 38% оценили прозрачность на «средне».

14% из 3766 респондентов указали, что были свидетелями коррупционных или других незаконных явлений во время вступительных экзаменов. 32% из 3717 стали свидетелями нарушений со стороны абитуриентов во время экзаменов. 24% из 10059 респондентов предложили ввести сертификаты по предметам, чтобы сделать вступительные экзамены более справедливыми. За проведение экзаменов негосударственными организациями или самими вузами проголосовали 8% и 7% соответственно.

Опрос был проведён для того, чтобы «изучить отношение молодежи к процессу сдачи вступительных экзаменов в высшие образовательные учреждения, выявить имеющиеся проблемы и усовершенствовать систему вступительных экзаменов», сообщает ГЦТ. Результаты опроса могут быть интересны, однако не помогут, на мой взгляд, выявить коренные проблемы. Для этого нужно проанализировать процессы, связанные со вступительными тестами, на соответствие требованиям тестологии — науки о тестах.

Редакция «Газеты.uz» обратилась в ГЦТ с рядом вопросов, связанных со вступительными экзаменами и деятельностью центра. 3 декабря были получены ответы, которые помогут проанализировать тесты, проводимые ГЦТ, с научной точки зрения.

Качество тестовых заданий — «и так сойдёт»?

Тестирование с научной точки зрения есть измерение знаний, навыков, умений или компетенций. Если посмотреть на процесс тестирования как на процесс измерения, главным инструментом измерения служат тестовые задания. По выполнению абитуриентами этих заданий делается вывод: абитуриент А знает, умеет больше (или меньше), чем абитуриент Б, готов (не готов) к продолжению обучения по выбранному направлению, поэтому его принимаем (не принимаем) в вуз (колледж и т. д.).

Любой инструмент измерения должен проходить процедуру проверки качества. Например, государство заставляет проводить сертификацию и поверку приборов учёта электроэнергии, газа, воды до их установки и во время эксплуатации.

Точно так же, инструменты измерения знаний — тестовые задания — должны проходить сложную и трудоёмкую процедуру проверки качества до того, как с их помощью можно будет проверять чьи-либо знания. Этот процесс может занимать до нескольких лет. Одним из обязательных этапов в этой процедуре является апробация тестовых заданий, так как по её итогам получают статистические данные — цифры, показывающие, насколько качественно были разработаны тестовые задания.

Как и любой инструмент измерения, тесты имеют погрешность, которая в науке называется стандартной ошибкой измерения. Апробация также помогает убедиться, что эта ошибка измерений находится в пределах приемлемых значений.

На вопрос о том, как в условиях пандемии, когда были запрещены массовые мероприятия, была проведена апробация, нам ответили: «Предварительная апробация тестовых заданий была проведена в октябре 2019 года в городе Ташкенте, Республике Каракалпакстан и областях. Следующая апробация была запланирована на апрель 2020 года, но не удалось её провести из-за пандемии. Несмотря на это, тестовые задания были включены в онлайн-систему E-Sinov, и тестовые задания, использованные системой, были проанализированы. Кроме того, были использованы тестовые задания, опубликованные в сборниках 2019 года».

Попробуем проанализировать этот ответ. После предварительной апробации следующие этапы апробации не были проведены. А в качестве тестовых заданий нельзя убедиться по одной апробации. Как правило, после предварительной апробации в задания вносятся необходимые изменения, и они выносятся на апробацию ещё и ещё, пока полученные цифры не будут приемлемы. Это значит: нет гарантий или доказательств, что задания, использованные в 2020 году, отвечают требованиям качества.

Что касается анализа заданий, включенных в онлайн-систему, необходимо понимать: апробация подразумевает «полевые условия», то есть ситуацию, когда люди решают тесты в условиях, максимально приближенных к реальным экзаменам. В случае с решением абитуриентами заданий онлайн, эти условия не соблюдаются, а это исключает возможность опираться на данные, полученные в результате «онлайн-апробации» при анализе качества заданий.

Использование в тестах опубликованных заданий из предыдущих лет также не способствует повышению качества теста как инструмента измерения. Во-первых, абитуриент может правильно ответить не из-за того, что знает предмет, а из-за того, что запомнил правильный ответ, подсказанный ему, например, репетитором. Это значит, что в данном случае проверяется память, а не знание предмета. Во-вторых, после любых изменений в составе тестов необходимо убедиться в их качестве путём апробации.

Попробуем объяснить последнее утверждение наглядным примером. Представим гири для весов, изготовленные из специальных сплавов металлов и прошедшие поверку перед использованием. Но если поменять состав сплава гирь, их свойства изменятся, а то значит, что необходима повторная поверка. Точно так же один тестовый вариант, как одна гиря для измерения, состоит из набора определённых тестовых заданий, и при любом изменении этого набора, например, при включении других заданий, необходима повторная апробация, чтобы убедиться в его качестве.

В ГЦТ отметили, что количество абитуриентов с максимальными баллами было больше по сравнению с предыдущими годами и объяснили это «упрощением тестовых заданий», «уменьшением количества предметов тестирования», «увеличением времени на решение тестовых заданий» и «присуждением максимального балла обладателям языковых сертификатов».

Однако наука — вещь упрямая. Есть такое понятие, как «нормальное распределение баллов», и если наблюдаются проблемы с нормальным распределением (а увеличение количества максимальных баллов и есть отклонение от нормального распределения), то это означает проблему с качеством тестов. И её нельзя «списывать» на разные другие факторы.

Резюмируя вышесказанное: любое тестовое задание, используемое в тесте, должно пройти апробацию, причём не один раз, так как только апробация может дать цифры для анализа качества заданий.

При любом изменении состава тестового варианта также необходима апробация. Представители ГЦТ не отрицали, что и до пандемии апробация проводилась выборочно, а не для всей базы, а тестовые варианты в том виде, каком их увидят абитуриенты, никогда не проходят апробацию — их генерируют перед экзаменами.

Значит, соответствие научным требованиям качества тестов, используемых для решения дальнейшей судьбы миллионов абитуриентов, поступающих в вузы, колледжи, техникумы, отдельные направления магистратуры, а со следующего года — также в лицеи и специализированные школы, остаётся под большим вопросом.

Содержание тестов: проблема с далеко идущими последствиями

О том, что тесты не должны проверять степень зубрёжки, я говорил не раз. Также я писал, что несмотря на неоднократно принятые нормативные акты, «воз и ныне там». Анализ образцов тестовых заданий, просочившихся в соцсети после экзаменов нынешнего года, а также образцов, опубликованных на сайте ГЦТ и изобилующих вопросами типа «кто?», «что?», «где?», «когда?», показывает, что от проверки памяти мы вряд ли откажемся в обозримом будущем.

На вопрос редакции «Газеты.uz» о том, когда будет переход от проверки памяти к проверке компетенций, заложенных в образовательных стандартах, нам ответили, что «ГЦТ всегда уделяет внимание повышению качества тестовых заданий», что «тестовые задания формируются на основе образовательных стандартов, учебных программ и действующих учебников» и что «создана рабочая группа по разработке тестовых заданий, направленных на проверку компетенций».

Необходимо понимать одно. Тест, проверяющий компетенции, и тест «на основе учебников» — это взаимоисключающие понятия. Компетенция, согласно определению в Государственном образовательном стандарте, — это способность применять знания, навыки и умения в повседневной жизни. Это значит: если ставится цель проверить компетенции, то тест должен показать, насколько ученик может выйти за пределы учебника и использовать полученные с помощью учебника знания в различных ситуациях.

Простой пример. Представим, что по математике была пройдена тема «квадратные уравнения». Если учитель хочет проверить, сформировался ли у учащихся навык решения квадратных уравнений, то на контрольной он даёт им решать новые уравнения, которых нет в учебнике и которые не решались на уроках. В противном случае ученик может просто воспроизвести решения, которые он запомнил. А если учитель хочет проверить компетенцию, необходимо дать жизненную проблему, для решения которой требуется применение квадратных уравнений.

Как проверку памяти можно рассматривать и использование в тестах на определение надбавки учителям иностранных языков заданий, ранее опубликованных в пособиях и на сайтах по подготовке к различным международным экзаменам. Педагог может показать необходимый результат не в силу достаточного владения проверяемым языком, а из-за того, что заранее выучил ответы. Кроме того, если отсутствует юридически оформленное согласие авторов материала на его воспроизведение в тестах ГЦТ, такие действия могут расцениваться как нарушение госорганом законов об авторских правах.

Если взглянуть на международный опыт, то такие экзамены, как IELTS, TOEFL, SAT, A-Level и другие не разрабатываются на основе учебников. Они проверяют компетенции, а для развития компетенций педагог и учащийся могут использовать любые учебники. А у нас, судя по перечню учебников, обнародованному ГЦТ, одиннадцатиклассник, заканчивающий школу в этом году, должен проштудировать учебники 5-го класса 2020 года издания, хотя в его бытность пятиклассником этих учебников ещё не было.

В чём проблема тестов, проверяющих память? Во-первых, как известно, система оценки указывает на приоритеты в системе образования и направляет действия учащихся и учителей. Если система оценки делает упор на память, то и ученики будут «зубрить», не пытаясь развивать умения и навыки, необходимые в дальнейшей учебе и жизни.

Во-вторых, вступительные тесты должны проводиться для того, чтобы выяснить: кто действительно готов к обучению по выбранной специализации. Тесты — это не телеигра, когда надо найти победителя, ответившего на большее количество «закорюченных» вопросов. Неправильный отбор претендентов на ограниченное количество мест в учреждения высшего или профессионального образования может обернуться пустой тратой ресурсов и времени, а страна рискует недополучить квалифицированных кадров.

В-третьих, тесты, направленные на проверку памяти, не отвечают требованиям надёжности — одного из важных параметров качества тестов. Надёжность — это когда при повторном использовании тестов на одной и той же аудитории мы получаем схожие результаты. Человеческая память обычно недолго удерживает в памяти информацию, которую считает незначительной. Это значит, что абитуриент, который зубрил информацию ради прохождения тестов, но у которого не сформировались необходимые компетенции, забудет эту информацию после экзамена.

Обработка результатов тестирования: компромиссы со справедливостью

Представим такую ситуацию. Устроили конкурс на поднятие тяжестей. Один претендент на победу продемонстрировал силу, подняв 100 пудов, другой — 105 фунтов, третий — 110 килограммов. Кого же мы объявим победителем? Будет ли справедливо, если мы объявим победителем, того кто поднял 110 кг, просто потому, что 110 больше 100 и 105? Никак нет. Нам надо сначала привести все эти значения в единую систему измерения, и только потом можно будет сравнивать, кто больше поднял.

В тестах, проводимых ГЦТ, каждый абитуриент решает свой вариант теста, сгенерированный компьютером. Даже если компьютер выбирает задания для включения в вариант по определённому алгоритму, невозможно обеспечить идентичный уровень сложности всех вариантов. Абитуриент, который знает больше, но которому попался более сложный вариант, может набрать меньше баллов, чем абитуриент, который знает меньше, но которому выпал более легкий вариант. А если учитывать, что даже десятая доля балла играет решающее значение в результатах экзаменов, возникает ситуация, которую мы описали выше: победителем объявляется тот, кто на самом деле «поднял» меньше. И это несправедливо.

На вопрос о том, как ГЦТ обеспечивает справедливость в отношении абитуриентов, которые решали разные варианты тестов, нам ответили: «Мы стараемся обеспечивать, чтобы варианты тестов были максимально одинаковыми. Например, использование параллельных тестов, формирование вариантов на основе заранее утверждённых спецификаций помогает обеспечивать одинаковый уровень сложности вариантов».

Позвольте не согласиться. Использование спецификаций помогает обеспечить сопоставимость вариантов тестов на уровне проверяемого содержания. (Мы уже говорили, что отсутствие этих самых заранее утверждённых спецификаций в свободном доступе — нарушение принципа прозрачности, но сейчас не об этом речь.) Говоря проще, при следовании спецификациям мы добиваемся, что каждый вариант теста включает одинаковое количество заданий по разным разделам проверяемого предмета.

Но чтобы утверждать, что разные варианты тестов одинаковы по уровню сложности, необходимо удостовериться, что погрешность измерения, о которой мы выше говорили, одинакова. Об этом, например, пишут Крокер и Альгина в своём знаменитом учебнике по теории тестов. Но как можно убедиться, что погрешность измерения одинаковая, если вариант теста не проходил апробацию, а на экзамене его решал всего один абитуриент?

Возвращаясь к вопросу о справедливости в отношении абитуриентов, решивших разные варианты теста, в науке придуман метод «шкалирования», которым пользуются организации, занимающиеся тестированием. Точно так же, как мы используем специальные формулы для того, чтобы фунты и пуды привести в килограммы, прежде чем их сравнивать, в тестологии также используются специальные формулы, чтобы привести результаты абитуриентов, полученные по разным вариантам, в единую шкалу. И публикуются именно результаты, полученные по этим формулам, а не количество правильных ответов. Но опять-таки, чтобы использовать эти формулы, нужно знать погрешность каждого варианта, а когда вариант решает всего один абитуриент, это невозможно. Это означает, что не обеспечивается справедливость в отношении абитуриентов, решивших разные варианты теста.

Несправедливость проявляется и в разных подходах к одной и той же ситуации, когда не по вине абитуриента в тестовых заданиях были допущены ошибки. Дело в том, что если абитуриент изложил свои возражения по тестовым заданиям во время тестирования и комиссия экспертов ГЦТ признала эти возражения справедливыми, то дополнительные баллы присуждаются всем абитуриентам, которым такое задание попалось. Однако если абитуриент доказал ошибки в тестовых заданиях во время апелляции или суда, то пересматриваются результаты только этого абитуриента. Результаты абитуриентов, которым также попались эти самые проблемные задания, но у которых не было возможности или желания подавать в апелляцию или судиться с ГЦТ, не пересматриваются.

Когда мы поднимали этот вопрос, нам ответили, что «у ГЦТ нет полномочий смотреть или менять результаты других абитуриентов» и «если абитуриент не удовлетворён результатами, он должен подать на апелляцию в установленный срок». Однако такой подход к проблеме не решает саму проблему — абитуриент страдает из-за того, на экзамене были использованы тестовые задания, не прошедшие должным образом через все этапы проверки качества.

Как проявление несправедливости можно рассматривать и случаи, когда из-за отсутствия должных механизмов контроля могут быть допущены технические ошибки и уже опубликованные результаты могут меняться. Отвечая на вопрос редакции о том, какие механизмы внедрены в ГЦТ для предотвращения ситуаций, когда результаты любого абитуриента могут поменяться под предлогом «технической ошибки», в ГЦТ отметили, что «проводится работа по исключению, по мере возможности, человеческого фактора на каждом этапе процессов».

Уроки пандемии

Пандемия коронавируса и ограничения, введённые во многих странах для сдерживания распространения болезни, не могли не сказаться и на процессах, связанных с тестированием. Обращая внимание на проведение в Узбекистане экзаменов на открытом воздухе, издание New York Times написало, что «в то время как некоторые абитуриенты сдавали тесты в тени, в благоприятных условиях, другим приходилось спасаться от прямых лучей солнца с помощью бумаги или одежды».

Одним абитуриентам приходилось вставать ни свет ни заря, чтобы прибыть на место тестирования в назначенное время, другие сдавали тесты во второй половине дня, когда организм начинает уставать. Одним выдавали кепки, другим — нет. Где-то удавалось абитуриентам заносить мобильные телефоны на экзамен, где-то — нет. Для абитуриентов, пропустивших тестирование по причине коронавируса или повышенной температуры, было организовано дополнительное тестирование, для абитуриентов, которые, возможно, не смогли прийти на тесты по другим уважительным причинам, — нет.

Если анализировать всё это с точки зрения стандартов тестирования, где говорится, что «тестируемые должны получить сопоставимое отношение во время проведения тестирования и обработки его результатов», налицо нарушение стандартов.

К примеру, можно рассматривать как нарушение стандартов и проблемы с аудиозаписью и отоплением помещений при проведении тестов на определение надбавки преподавателям иностранных языков. Отвечая на претензии учителей, пресс-служба центра привела цифры по нарушениям правил тестирования учителями: мол, заносили телефоны и шпаргалки, разговаривали, передавали друг другу материалы. Однако нарушение правил экзамена со стороны тестируемых не может служить оправданием нарушений стандартов тестирования со стороны организаторов.

Отвечая на вопрос редакции о том, какие уроки были извлечены из тестовой кампании нынешнего года, ГЦТ отметил, что «главным приоритетом была безопасность (здоровье) абитуриентов, и, изучая опыт зарубежных стран, наилучшим вариантом было выбрано проведение тестирования в открытых местах». Также, отметили в ГЦТ, «главным достижением было отсутствие проблем с коронавирусной инфекцией у абитуриентов и сотрудников» и «центр приобрёл опыт проведения тестирования в необычных условиях, в открытых местах».

Если посмотреть на опыт международных организаций, занимающихся тестированием, то они предпочли получить опыт в несколько ином направлении — проведении тестирования с помощью информационных технологий, без необходимости массового скопления людей. Некоторые международные вузы, работающие в Узбекистане, например, Международный Вестминстерский университет в Ташкенте или Туринский политехнический университет в Ташкенте, тоже организовали онлайн-экзамены, разработав для этого правила, которым должны следовать тестируемые и наблюдатели с целью обеспечения честности и прозрачности. Да, возможно, на онлайн-экзаменах сложнее обеспечить соблюдение правил всеми участниками, но когда-то стоит начинать. Например, пандемия заставила нас внедрить дистанционное обучение, которое мы до этого напрочь игнорировали.

Равные условия и чёткие правила для всех игроков

Вообще, если взглянуть на международный опыт, результаты тестов, проводимых различными организациями, признаются не в силу правительственных решений. Например, вряд ли мы найдём постановление, подписанное главой правительства Британии, о признании британскими вузами результатов экзаменов IELTS или A-level. Результаты таких экзаменов признаются в силу научных доказательств их качества — валидности и надёжности.

Если мы хотим, чтобы наши экзамены также отвечали научным требованиям качества, на наш взгляд, необходимо демонополизировать сферу услуг, связанных с оценкой знаний. Благо, прецедент есть — результаты экзаменов по иностранным языкам, проводимых международными неправительственными организациями, уже признаются отечественными вузами. И есть постановление, разрешающее негосударственным организациям оказывать услуги в сфере сертификации качества обучения.

Сказавши «А», надо сказать и «Б». Необходимо чётко указать условия, которым должны следовать все организации, желающие работать в области тестирования. Одним из таких условий должно быть проведение исследований качества своих инструментов оценки и публикация результатов таких исследований. И эти условия должны быть одинаковы как для государственных организаций, как ГЦТ, так и для негосударственных.

Мнение автора может не совпадать с мнением редакции.