В «Газету.uz» поступило открытое письмо преподавателя английского языка Комила Джалилова директору Государственного центра тестирования при Кабинете Министров Маджиду Каримову. Автор письма выражает обеспокоенность качеством тестов, а также изменениями, вносимыми в систему тестирования. Редакция «Газеты.uz» приветствует дискуссию заинтересованных сторон, предоставляя площадку для обоснованных высказываний.

Уважаемый Маджид Маликович!

В педагогике успех любой образовательной программы зависит от того, насколько слаженно работают три важных компонента («кита») образования — стандарты и учебные программы (чему мы хотим обучать), методики обучения и учебные материалы (как мы хотим этому обучать) и система оценки или тестирования (как мы поймем, что достигли цели).

К сожалению, в нашей стране сложилась ситуация «Лебедя, Рака и Щуки», когда эти три компонента системы образования, вместо того, чтобы работать в едином ключе, тянут обоз в разные стороны (в статье «Зачем дети идут в школу» дана попытка анализа). Когда декларируемые в стандартах и программах цели одни, но на выходе системой оценки проверяется совсем другое, участники системы (учителя, ученики, родители) будут выбирать последнее, что приводит к негативному «эффекту отлива», рассмотренному в недавней статье. В контексте сложившихся в нашей стране реалий именно тесты Государственного центра тестирования в конечном итоге решают, что будут знать и уметь делать выпускники школы.

Тесты — это инструмент измерения, подобно весам. Только если весы мерят массу, тесты мерят знания, умения, навыки — то, что не поддается непосредственному измерению. Для того, чтобы тесты как инструмент измерения показывали правильные результаты, специалисты в области педагогических измерений (тестологии) придумали два важных критерия качества тестов — валидность и надежность. Говоря простыми словами, валидность — это правильность подобранного инструмента оценки (действительно ли мы мерим то, что хотим измерить), а надежность — это насколько точен наш инструмент оценки.

Тесты Государственного центра тестирования не отвечают критерию валидности. Как средство отбора выпускников школ (лицеев, колледжей) в высшее образование, они должны показывать, насколько знания, умения, навыки, полученные на предыдущем этапе образования, помогут абитуриенту успешно справиться с обучением в вузе (в науке это называется «предиктивной валидностью»).

Тесты Государственного центра тестирования в подавляющем большинстве своем направлены на умение запоминать и воспроизводить информацию, порой даже незначительную, изложенную в утвержденных учебниках. Судя по образцам тестовых заданий, публикуемых на официальном сайте ГЦТ и в периодических изданиях, составители тестовых заданий не намерены отойти от этой практики.

В одной из статей я приводил пример друга, который смог поступить в один из престижных вузов страны только с третьей попытки. Причина — в первые два года он выбрал неправильную тактику для подготовки к тестам по истории: пытался понимать исторические события, анализировать, установить причинно-следственные связи. А в третий год он просто «зубрил» учебники, после чего и поступил.

Но тесты, проверяющие память, не могут обладать предиктивной валидностью — ведь память далеко не главное и не единственное, что будет нужно абитуриенту для успешной учебы в вузе.

Многие ученые, проводившие исследования в области педагогических измерений, предлагают разные методики валидации тестовых заданий.

Какую именно методику валидации использует Государственный центр тестирования? Каким образом Государственный центр тестирования выявляет и устраняет факторы, негативно влияющие на валидность («construct-irrelevant variances» и «construct under (over)representation»)?

Для того, чтобы вступительные тесты в вузы обладали предиктивной валидностью, необходимо также, чтобы предметы, по которым проводится тестирования, были связаны с будущей специализацией. Как, например, знание исторических дат и фигур поможет будущему переводчику или юристу? Или как знание видов морфологических единиц языка поможет будущему инженеру или врачу? За 20 с лишним лет функционирования Государственного центра тестирования не обнародованы результаты какого-либо исследования по данному вопросу.

Начиная с 2020/2021 учебного года количество предметов, по которым проводятся тестовые испытания, будет увеличено вместо нынешних трех до пяти. В комментарии к указу приводятся примеры Южной Кореи, Казахстана, США и Турции, где поступающих в вузы тестируют по 4−10 предметам. Здесь важно понимать следующее.

Во многих странах функции выпускного школьного и вступительного вузовского экзаменов объединены. Во многих из стран, где эти экзамены разъединены, вузы принимают результаты стандартизированных экзаменов, предлагаемых разными независимыми организациями (например, такими как ACT, SAT, Advanced Placement — AP, International Baccalaureate — IB, экзамены, предлагаемые Cambridge Assessment или Pearson и т. д.) и абитуриент выбирает, какой экзамен сдавать. Такая конкуренция заставляет организации, занимающиеся тестированием, проводить исследования по валидности и надежности своих тестов и публиковать их результаты. В тех странах, где вступительные экзамены в вузы проводятся только одной организацией, в исследованиях часто отмечаются негативные последствия таких экзаменов для абитуриентов и системы образования в целом.

Государственный центр тестирования утверждает, что тестовые задания в обязательном блоке (родной язык, математика, история) будут упрощенными и направлены на проверку общей грамотности и базовых знаний абитуриента. Но по этим предметам абитуриент уже сдает Государственную итоговую аттестацию в своем учебном заведении и доказывает наличие той самой «общей грамотности и базовых знаний» до получения аттестата или диплома, то есть до того, как стать абитуриентом.

Чем Государственный центр тестирования обосновывает необходимость повторного тестирования по этим же предметам? Имеются ли исследования, подтверждающие, что увеличение количества предметов положительно отразится на валидности и надежности тестов? Как сдача тестов по пяти разным предметам в один день будет влиять на психическое состояние проходящего экзамен и не отразится ли это на его результатах? По каким критериям Государственный центр тестирования будет определять «упрощенность» заданий?

Кстати, об упрощенности. Сложность тестового задания (Item Facility), так же как и другие статистические параметры, как, например, его дискримиционная способность (способность отличить знающего от незнающего — Item Discrimination), отсутствие негативных факторов (Differential Item Functioning), внутренняя согласованность (Internal Consistency) и другие непосредственно влияют на надежность теста. Для вычисления этих параметров и определения надежности теста необходимо провести апробацию на репрезентативной выборке — выборке, включающей представителей разных слоев целевой аудитории.

Проводится ли апробация тестовых заданий и вариантов тестов на репрезентативной выборке целевой аудитории? Соответствуют ли вышеуказанные статистические параметры тестовых заданий, используемых в экзаменах, нормам, принятым в науке о тестах?

Государственный центр тестирования проводит тестовые испытания в течение нескольких дней и смен и при этом использует многовариантную систему, когда абитуриенты решают разные варианты тестов. Задания, предложенные одному абитуриенту, отличаются от заданий, предложенных другому абитуриенту.

Учитывая, что в реальности создание двух вариантов с идентичной степенью сложности невозможно (этого не могут добиться даже такие мировые лидеры в области тестирования, как Educational Testing Service или Cambridge Assessment с их мощным научным аппаратом), до объявления результатов проводится «шкалирование» (equating), т. е. сравнение степени сложности варианта теста с эталоном и коррекция результатов с учетом результатов этого сравнения (см. статью «Мамлакатимиз тест тизими тестология талабларига мос келмайди (ми?)»)

Проводит ли Государственный центр тестирования подобную процедуру и какую методику при этом использует? Если не проводится, не нарушаются ли права абитуриентов в силу того, что кто-то на экзамене решает более сложный вариант, а кто-то — менее сложный?

При подсчете результатов тестирования Государственный центр тестирования умножает количество правильных ответов абитуриента на определенный коэффициент (3.1, 2.1 или 1.1, в зависимости от «очередности» или «важности» предмета). Интересно, что при этом отсутствует какое-либо научное обоснование такой «очередности» того или иного предмета для будущей специализации и порой методика подсчета баллов для смежных или даже одинаковых специализаций может быть разной для разных вузов (например, одинаковые предметы имеют разные «очередности» для юридических направлений ТГЮУ, УМЭД и Каракалпакского государственного университета).

Здесь возникает вопрос, связанный с одним из положительных нововведений в системе приема в вузы — разрешением абитуриенту участвовать в конкурсе до трех направлений образования бакалавриата вузов с одинаковым блоком предметов. Анализируя тексты проекта и утвержденного варианта законодательного акта, юрист и блогер Хушнудбек Худайбердыев резонно пришел к выводу, что «очередность» предметов тестирования не важна в данном случае.

Действительно, компьютерам не составит труда подсчитать баллы абитуриента для разных направлений с одинаковыми предметами, но разной «очередностью» — не вручную же считаются эти результаты. Однако другие блогеры, участвовавшие в пресс-конференции с участием Государственного центра тестирования 15 мая, отмечают, что «очередность» будет учитываться. Это значит, что в нашей системе, в которой большинство вузов узкопрофильные и многие направления обучения присутствуют только в одних вузах, а многие регионы имеют только по одному-два вуза, право выбора абитуриентом трех направлений будет лишь для галочки.

При этом объявлено, что будет также учитываться «приоритетность» — если абитуриенту хватило баллов на обучение на платной основе в первом направлении, он не сможет претендовать на бюджетное место в других направлениях, даже при наличии достаточных баллов. И это при том, что сумма платного обучения в вузах несопоставима со средними доходами населения.

Так не вернемся ли мы к тому, от чего, согласно комментарию к изменениям, хотели уйти — ситуации, когда в одни направления набираются крайне слабые абитуриенты, а в других направлениях не смогут учиться абитуриенты с более сильной подготовкой? Почему бы не дать абитуриенту реальное право выбора, без приоритетности и очередности, тем более что технически это возможно?

Еще одним нововведением в системе является взимание платы за участие в тестовых испытаниях с абитуриентов, закончивших образовательные учреждения в предыдущие годы. Помнится, Министерство юстиции резко выступало против этого, отмечая, что это идет вразрез с положениями Конституции. В комментарии к указу представители Государственного центра тестирования приводят пример Южной Кореи, Турции, Франции и США, где абитуриенты платят от 10 до 300 долларов США за допуск к тестированию. Действительно, в некоторых странах существуют практика взимания платы за участие в стандартизированных тестах. Однако попробуйте сравнить, какой процент среднемесячного дохода семьи составляет такая плата в вышеуказанных странах, и какой у нас.

Кроме того, как было указано выше, во многих странах стандартизированные тесты проводятся независимыми организациями, которые не финансируются за счет бюджета и куда не направляется определенный процент с платы за обучение в государственных вузах. И самое главное: собранные средства в первую очередь идут на научные исследования, обеспечивающие валидность и надежность тестов. Результаты таких исследований публикуются в СМИ и научных журналах.

Ведь тестирование — это не только процесс (где, когда и как проводить тесты). Это, в первую очередь, качество тестового материала — их валидность и надежность, которое должно быть научно доказано. Продолжая аналогию с весами: если они у нас криво настроены, то неважно, как мы ими будем пользоваться, — все равно результаты будут неправильными.

Собирается ли Государственный центр тестирования заниматься научной составляющей тестов? Сможем ли мы в обозримом будущем ознакомиться с данными исследований по валидности и надежности тестового материала, используемого во вступительных экзаменах в вузы?

Еще одно весьма спорное нововведение — это требование наличия сертификата уровня B2 для освобождения от тестовых испытаний по иностранному языку начиная с 2020/2021 учебного года. Давайте попробуем проанализировать это нововведение с точки зрения валидности. Согласно действующим образовательным стандартам, утвержденным Кабинетом Министров, абитуриент должен иметь уровень B1. Наличие этого уровня означает, что он готов приступить к изучению иностранного языка на следующем уровне — уровне B2, которому, согласно тем же образовательным стандартам, его должны вывести к концу обучения в вузе. Значит, тестирование абитуриента, поступающего в вуз, на уровень, который тот должен иметь к окончанию вуза, не отвечает требованиям валидности.

Кроме того, попытка заставить абитуриентов «прыгнуть выше головы» просто-напросто убьет в них желание получить так называемую «льготу» (хотя не совсем понятно, почему возможность абитуриента доказать тому же Государственному центру тестирования свой уровень языка до вступительных тестов преподносится как «льгота»). Если это изменение было принято с учетом практики международных вузов, которые действительно требуют наличие уровня B2 при поступлении, то, извините, там совсем другая ситуация. В международных вузах английский — не просто иностранный язык, а язык, на котором ведется обучение и уровень ниже B2 не позволяет студенту понимать лекции, читать научную литературу, писать курсовые работы. В преобладающем количестве национальных вузов обучение ведется на узбекском или русском языке.

Отдают ли себе отчет инициаторы данного нововведения в том, что они своим решением «поставили крест» на Национальной тестовой системе оценки уровня знания иностранных языков? Что абитуриенту проще будет зубрить «голую» грамматику — то, от чего должна была увести абитуриентов национальная система, — чем попытаться получить сертификат непосильного для себя уровня ради пресловутой «льготы»?

И последнее. В ходе обсуждения на портале СОВАЗ теперь уже принятых нововведений очень многие — среди которых не только обыватели, но и специалисты — высказали свои резонные замечания против наиболее неоднозначных новшеств, а именно: увеличения количества предметов, введения платы за участие в тестировании, требования сертификата более высокого уровня. Тем не менее, эти мнения не были учтены в утвержденных редакциях документов.

Возникает вопрос: если Государственный центр тестирования не считает нужным учитывать результаты всеобщего обсуждения или считаться с мнениями специалистов, то зачем вообще выносить свои проекты на обсуждение?

Линейкой можно измерить длину, а можно и попытаться вбить гвозди. Хочется надеяться, что тесты — инструмент измерения — находятся в руках специалистов, понимающих, как этим самым инструментом пользоваться.

Уважаемый Маджид Маликович, позвольте надеяться получить от вас обоснованные ответы на вышеприведенные вопросы. Тем более что эти ответы, я уверен, будут интересны очень многим, как специалистам в области образования, так и просто неравнодушным к интеллектуальному будущему страны.

С уважением,

Комил Джалилов,

стипендиат международных программ Fulbright (2008) и Chevening (2018), выпускник Колумбийского университета (Нью Йорк, США) по направлению «Педагогическая психология и методика преподавания языков» (2008), выпускник Международного Вестминстерского университета в Ташкенте по направлению «Теория и методика преподавания и обучения» (2013), выпускник магистратуры Института образования университетского колледжа Лондона (Великобритания) по направлению «Учебные программы, методика и тестология» (2018)