Знаете ли вы, как звали старшего сына Арины Петровны? Или сколько детей было у Арины Родионовны? Чья мать скончалась в горести и муках? Чья жена бросила семью из-за материальных проблем? В каком произведении Навои упоминает внука историка Мирхонда? А кем был младший брат Джелалиддина Мангуберды? Если вы не знаете всего этого, значит, вы не усвоили программу средней школы. Так считает Государственный центр тестирования.

Закончились вступительные тесты в вузы Узбекистана. В этом году они длились 17 дней — с 29 июля по 15 августа, и в них приняло участие около 1 миллиона абитуриентов. Согласно данным ГЦТ, для тестовых испытаний были подготовлены более 180 тысяч тестовых заданий (вопросов), которые проходили двухступенчатую экспертизу.

Выступая на пресс-конференции перед стартом тестовых испытаний, директор ГЦТ Маджид Каримов заверил, что они будут открытыми, прозрачными и справедливыми. Действительно, процесс тестовых испытаний транслировался по телевидению и на специальном сайте, листы ответов обрабатывались в течение одного дня, и пофамильные списки абитуриентов с их баллами на следующий день выставлялись на сайте ГЦТ (благо, закон, запрещающий раскрывать и распространять персональные данные без согласия их владельца, еще не вступил в силу).

Конечно, по сравнению с прошлыми годами, когда за «закрытыми дверями» работали разные коррупционные схемы, известные как «бункеры», «паровозы» и другие, положительные изменения налицо. Но всё-таки, что такое прозрачность тестовых испытаний и может ли прямая трансляция обеспечить эту прозрачность?

Прозрачность, которой нет

«Стандарты образовательных и психологических тестов» — документ, которого придерживаются организации, занимающиеся тестированием, — приводит такое определение термина «прозрачность»: «Прозрачность — это насколько все участники тестирования — преподаватели, учащиеся, родители, экзаменаторы, администраторы, конечные пользователи — знают и понимают, что требуется в тесте и как работа тестируемых будет оценена».

То есть, прозрачность — это не тестирование под прицелом камер и выдача результатов теста на следующий день. Ведь, например, процесс сдачи международного экзамена IELTS нигде не транслируется, а результаты объявляются через две недели, но никто не думает обвинять организаторов экзамена в отсутствии прозрачности. Как раз-таки наоборот, ведь результатам экзамена охотно верят более 10 тысяч организаций в 140 странах.

Прозрачность — это когда и учащийся, который заходит на экзамен, и его преподаватели, и родители знают, что его ожидает на экзамене, какие навыки и каким способом будут проверены, как будут считаться результаты. Прозрачность — это когда организации, которые признают результаты экзамена, четко представляют, что означает тот или иной балл, что умеет и не умеет делать учащийся, который набрал этот балл. Но, согласитесь, с вопросами, подобными тем, что приведены в начале статьи, о прозрачности в ее настоящем, принятом в науке о тестах понимании, не может быть и речи.

На прошлой неделе 7 августа в социальных сетях, в том числе в Telegram-каналах Troll.uz и Xushnudbek.uz, появились жалобы на качество тестовых заданий по химии. Специалисты утверждали, что распределение тестовых заданий по темам и уровням сложности в вариантах не соответствует спецификации теста, а также объясняли, что за отведенное время решить задачи без использования калькулятора было невозможно.

Недовольные своими результатами абитуриенты организовали специальный Telegram-канал, где обсуждали, что тестовые задания, использованные на экзамене, были совершенно далеки от тех образцов, что публиковались в периодической печати от имени ГЦТ. А ГЦТ ограничился тем, что напомнил в своем Telegram-канале о праве абитуриентов подавать апелляцию, хотя апелляция в данном случае не решает проблему. Однако ГЦТ рассматривает апелляции только в тех случаях, когда тестовое задание не имеет правильного ответа или имеет более одного правильного ответа. В данном же случае речь идет о совершенно другой проблеме.

Описанный случай можно рассматривать как пример отсутствия прозрачности. Абитуриенты и готовившие их преподаватели, опираясь на кодификаторы и спецификации, а также образцы тестовых заданий, официально опубликованные организацией, проводящей тестирование, ожидают одно, а на экзамене видят совершенно другое. Сама организация, вместо того чтобы разбираться в проблеме, выступает с не относящимися к сути вопроса заявлениями.

А ведь разбираться в проблеме нужно. Насколько распределение заданий по темам, проверяемым навыкам, уровням сложности в тестовых вариантах по химии (да и не только по химии, а по всем предметам) соответствует утвержденным кодификаторам и спецификациям? Чтобы ответить на этот вопрос, нужно сравнивать варианты тестовых заданий с этими документами.

Насколько сами кодификаторы и спецификации грамотно составлены? Чтобы ответить на этот вопрос, нужно сравнивать навыки, заложенные в этих документах, с навыками, заложенными в Государственных образовательных стандартах.

Может ли среднестатистический абитуриент за три часа, отведенных на тестирование, ответить на 90 заданий по трем предметам? Чтобы ответить на этот вопрос, нужно вычислить время, необходимое для решения всех заданий, в том числе и для математических подсчетов без использования калькулятора, если таковые потребуются, причем не репетитору с многолетним стажем, а именно абитуриенту, буквально вчера покинувшему школьную скамью.

Насколько сопоставимы по уровню сложности варианты тестовых заданий, использованные в разные дни, в разные смены, для разных абитуриентов? Чтобы ответить на этот вопрос, нужно сравнивать графики распределения баллов по всем вариантам.

Учитывая, что невозможно добиться идентичного уровня сложности всех вариантов (об этом мы уже писали), как проводится шкалирование до оглашения результатов тестирования? Чтобы ответить на этот вопрос, нужно иметь данные о стандартной ошибке измерения и перевести баллы тестируемых в стандартную оценку. Если в заданиях, проходивших двухуровневую подготовку, все-таки обнаружатся ошибки, как это отразится на баллах всех абитуриентов, у кого в вариантах были эти задания, и насколько присуждение максимального балла абитуриенту отразится на сопоставимости результатов с другими абитуриентами, у кого не было таких заданий?

Только когда есть чёткие ответы на все эти вопросы, причём не в «талмудах аналитики», спрятанных где-то в «научном отделе», а на официальном сайте организации, отвечающей за тестирование, можно говорить о прозрачности.

Небольшой экскурс в теорию. Если результаты теста представить в виде графика, для нормальных тестов график будет иметь следующий «колоколообразный» вид, т. е. баллы большинства тестируемых будут в среднем диапазоне:


Нормальное распределение баллов.

Если тест слишком лёгкий, «колокол» будет «скошен» направо, т. е. большинство тестируемых наберут высокие баллы, а если тест слишком сложный, «колокол» будет «скошен» влево, т. е. большинство тестируемых наберут низкие баллы:


Распределение баллов в слишком легком тесте.


Распределение баллов в слишком трудном тесте.

Так как одинаковый подсчёт баллов для тестовых вариантов с разными уровнями сложности был бы несправедливым в отношении тех, кому попался более сложный вариант, баллы переводятся в стандартную оценку, чтобы можно было сравнивать результаты абитуриентов, решавших разные варианты. Об этом можно почитать в любом учебнике по тестологии, например, в «Азбуке тестирования» Анны Кирейцевой.

Итак, прозрачность — это когда все четко понимают, что и каким образом будет проверяться в тестах, и что означает тот или иной балл. Прозрачность — это когда организация, составляющая задания, публикует для широкой публики всю статистику, необходимую для получения представления о качестве заданий и сопоставимости результатов (об этом мы также писали).

Но пока мы не видим такой подробной статистики. Может быть, такой статистики и нет, учитывая, что согласно данным ГЦТ, чуть более трети всей базы тестовых заданий прошли апробацию, хотя использование тестовых заданий, не прошедших апробацию, и последующий анализ качества сводит на нет валидность теста. Говорится, что в апробации участвовали 1500 абитуриентов, но нет информации, насколько эта выборка репрезентативна — представляет разные слои абитуриентов, насколько в этой выборке были учтены разные факторы, такие как, например, город/село, школа/лицей/колледж, материальное и социальное положение семей, наличие/отсутствие возможностей для дополнительного образования, первый/не первый год поступления.

Единственное, что мы пока видим — это отчеты о том, сколько абитуриентов участвовали в тестировании и сколько не пришли, сколько абитуриентов было отстранено от тестирование за нарушение правил (как говорил начальник управления ГЦТ Барно Раджабов, некоторые абитуриенты возвращались из туалетов со шпаргалками и телефонами, но он не уточнил, откуда в туалетах появлялись такие вещи).

Кстати, о шпаргалках. Когда тест проверяет степень зубрежки, запоминания любой информации, «высосанной» из учебника, будут попытки заносить шпаргалки, телефоны, получить помощь извне. Ведь человеческий мозг не устроен для того, чтобы помнить все детали из всех книг, прочитанных когда-либо. Да и целью школьного образования не является запоминание школьных учебников от корочки до корочки. (В наш век информации, когда любой желающий может узнать любую информации из всемирной паутины за считанные секунды, насколько важно помнить все и вся?)

Все те же вопросы к тестам

Мы приводили примеры абсурдных заданий, использованных на вступительных тестах в прошлые годы. Судя по заданиям, которые распространяются в социальных сетях и Telegram-каналах через абитуриентов, участвовавших тестировании, в этом году ситуация особо не изменилась. А ведь валидность заданий, чёткое регламентирование навыков, проверяемых в тестах — очень важные критерии в обеспечении той самой прозрачности.

Существуют определенные правила написания тестовых заданий, без соблюдения которых невозможно обеспечить качество, валидность, прозрачность теста. Например, Стивен Даунинг, систематизируя свод таких правил в «Руководстве по составлению тестов», пишет: «Тестовое задание должно опираться на значимое содержание» (стр. 294). Исследователь Марина Челышкова также пишет, что в тест должны включаться только те элементы содержания, которые являются наиболее важными для данного предмета («Теория и практика конструирования педагогических тестов», стр.101). Ведь любое тестирование ограничено по времени и по количеству заданий, и зачастую для проверки понимания какого-либо раздела предмета или наличия определенного навыка, нам приходится ограничиваться одним-двумя заданиями. Значит, эти задания должны быть составлены очень грамотно, чтобы дать корректное представление о степени усвоения данного раздела предмета.

А можно ли с помощью вопроса о младшем брате Джелалиддина узнать, насколько абитуриент имеет представление о борьбе Хорезмшахов против Чингизхана? Или насколько вопрос о количестве детей Арины Родионовны поможет измерить глубину понимания абитуриентом творчества Пушкина? Можно ли, получив ответ на вопрос о матери, скончавшейся в горести и муках, выяснить, насколько хорошо знает абитуриент творчество публициста и литературного критика Озода Шарафиддинова? Можно ли по ответу на вопрос о жене, бросившей семью из-за житейских проблем, составить представление о степени понимания абитуриентом творчества поэта-просветителя Мукими? Насколько имя старшего сына Арины Петровны отражает суть романа «Господа Головлёвы» Салтыкова-Щедрина? Абитуриент в стрессовой ситуации (любой психолог скажет, что экзамен, решающий дальнейшую судьбу, является стрессовой ситуацией) может даже не понять, о ком или о чем вообще идет речь. К сожалению, список таких абсурдных заданий, использованных для отбора абитуриентов в высшие учебные заведения, можно продолжать очень долго.

Другое правило касается использования графической (нетекстовой) информации (карт, рисунков, иллюстраций и подобного) в тестовых заданиях. ГЦТ заявлял, что использование графической информации является одним из нововведений в этом году, однако насколько такое нововведение оправдано?

Халедина и Родригес в книге «Разработка и валидация тестовых заданий» пишут, что графика должна стимулировать когнитивные (мыслительные) процессы более высокого уровня (стр. 80). Если дать изображение Навои и спросить, при дворе какого правителя он занимал высокие должности, или если дать изображение Шекспира и спросить, какое из перечисленных произведений он написал, нет смысла использовать графику — она не помогает задействовать мыслительные процессы более высокого уровня (анализ, синтез, применение знаний на практике).

Но графика в данном случае вводит дополнительную проблему, называемую в научной литературе термином «construct-irrelevant variance». Под ним понимается, когда на демонстрацию тестируемым навыка, являющегося целью проверки, влияет совершенно другой навык, который в данном случае не является целью теста (см., например, «Понимание и применение оценки в образовании», стр.18). В приведенных выше примерах целью проверки является проверка знания абитуриентом деятельности Навои или творчества Шекспира, но не узнавание этих персон по портретам.

Возможна и другая ситуация с «construct-irrelevant variance». Составитель теста хочет проверить один навык, а тестируемый правильно отвечает на задание без наличия этого навыка. Культуролог и лингвист Алексей Улько рассказывал, как он в вузе получал пятерки по узбекскому языку, не особенно понимая этот язык. То же самое можно сказать и о тестовых заданиях по английскому языку: опытный репетитор может «натаскать» абитуриента на распознавание грамматических структур, проверяемых в тестах, при этом понимать или уметь общаться на языке не обязательно.

Вот конкретный пример из заданий, использованных в нынешнем году: «Marina … to her friend right now. A) is speaking B) speak C) have spoken D) speaks». Можно научить абитуриента по ключевому слову «right now» выбирать вариант с «am/is/are» и глаголом с окончанием «-ing», при этом можно совершенно не понимать, что говорится в предложении. То есть, умение решать подобные тесты не есть показатель владения иностранным языком. Поэтому аргумент начальника управления ГЦТ Сардора Раджабова о том, что присуждение максимального балла по иностранному языку абитуриенту, успешно доказавшему реальное владение языком на уровне требований госстандарта, является несправедливостью по отношению к абитуриенту, решавшему подобные тесты, звучит нелогично.

Итак, из года в год ГЦТ заверяет о «приложении максимума усилий для проведения тестовых испытаний на самом высоком уровне, как по организации, так и содержанию используемых тестовых заданий». И из года в год мы наблюдаем отсутствие прозрачности и валидности в настоящем, научном их понимании, а также полное игнорирование правил составления тестов и обработки их результатов. С увеличением количества предметов для поступления в вузы со следующего года, проблема усугубится.

Предложение вице-премьера Азиза Абдухакимова, озвученное на одной из сессий Международного пресс-клуба, о разделении функций составления тестовых заданий и администрирования процедуры тестирования, как это принято во многих странах, и о создании отдельного научного института, отвечающего за содержание тестов — их разработку и валидизацию, — в этом плане может способствовать решению проблемы.

Но начать действовать необходимо уже сейчас. Следующий год не за горами, и продолжение отбора абитуриентов в вузы с помощью тестов, не отвечающих элементарным требованиям тестологии, есть прямая угроза интеллектуальному будущему страны.

Мнение автора может не совпадать с мнением редакции.