Государственный центр тестирования опубликовал ответ (озаглавленный «Ҳолат аслида қандай?» — «Каково настоящее положение дел?») на открытое письмо преподавателя Комила Джалилова о проблемах, связанных с системой тестирования при поступлении в вузы. Ответ ГЦТ содержал призыв к автору «действовать практически», не занимаясь лишь критикой существующей ситуации. Комил Джалилов подготовил предложения, которые могут быть учтены в процессе совершенствования тестирования.

Сам факт того, что орган государственного управления, коим является Государственный центр тестирования, реагирует на публикации в прессе и вступает в диалог, радует. Сразу оговорюсь: целью моих выступлений не является дискредитация ГЦТ или критика ради критики. Ни в коем случае.

Цель — пригласить ГЦТ к обсуждению возможных проблем и к совместному поиску их решений. Надеюсь, что прошли времена, когда критика или обсуждение системы воспринимается представителями системы как личное оскорбление или обида.

Что касается предложения представителей ГЦТ «заниматься практическими делами, а не только написанием критических статей», позвольте заметить: статьи — пока единственное, чем я могу помочь ГЦТ. Мое предложение помочь ГЦТ практически, на основе моих знаний и опыта, полученных в Великобритании, озвученное лично директору, а также руководителям некоторых подразделений ГЦТ, пока остается без ответа в силу неизвестных мне причин. Тем не менее, это предложение остается в силе. Но вернемся к вопросам, поднятым в открытом письме и к полученным ответам.

Как обеспечить валидность тестов

Первый вопрос касался валидности тестов, используемых ГЦТ для отбора абитуриентов в вузы. Мы уже говорили, что валидность — это правильность подобранного инструмента оценки (действительно ли мы мерим то, что хотим измерить).

Если подходить к проблеме валидности с более научной точки зрения, то согласно принятому с современной науке определению, валидность — это адекватность интерпретации (толкования) результатов теста по отношению к цели тестирования. Тесты не проводятся просто так. Они проводятся для принятия каких-либо решений на основе их результатов. Например, учитель в классе проводит тестирование своих учеников, чтобы определить, насколько они усвоили материал, и на основе этого решать, нужно ли выделить время для повторения или можно ли переходить к следующей теме. Государственные органы, отвечающие за качество образования, проводят тесты для того, чтобы узнать, насколько качественно работают образовательные учреждения, и на основе этой информации принимают меры по отношению к данным учреждениям. ГЦТ проводит тесты, чтобы проверить, готов ли абитуриент к обучению в вузе, и вопрос валидности необходимо рассматривать именно с этой точки зрения.

Соответственно, тест должен разрабатываться исходя из поставленной цели. Тест состоит из одного или более тестовых заданий, которые могут быть двух видов: закрытого (где тестируемый выбирает из предложенных вариантов ответа) или открытого (где тестируемый сам создает ответ), причем и закрытые, и открытые тестовые задания, в свою очередь, включают несколько подвидов. Исходя из цели тестирования, разработчики теста выбирают, какие виды и подвиды тестовых заданий должны быть включены в тест.

Например, если мы хотим измерить, насколько грамотно может человек изложить свои мысли в письменно виде на иностранном языке, то нужно тестовое задание открытого вида, где человек сам пишет что-то. Тестовое задание закрытого вида, проверяющее знание правил грамматики, не сможет нам показать, насколько грамотно человек пишет. Но если нашей целью является именно проверка степени усвоения правил грамматики, то тогда тестовые задания закрытого вида вполне могут нам помочь определить это.

Представители ГЦТ в своем ответе утверждают, что для обеспечения содержательной валидности тестов (степени его соответствия предметной области) разработана спецификация теста. Спецификация теста — это документ, в котором описываются цели и задачи теста, условия его проведения, информация, необходимая для интерпретации результатов теста, а также проверяемые умения и навыки и используемые для этих целей виды тестовых заданий. Например, спецификации ЕГЭ России по разным предметам доступны на сайте Федерального института педагогических измерений (ФИПИ) — разработчика ЕГЭ, а на сайте College Board (Университетского совета) можно ознакомиться со спецификациями SAT — стандартизированного экзамена для поступления в вузы США. Если обратить внимание, в спецификациях всегда указывается, какие именно навыки и умения проверяются в рамках той или иной темы.

Просто перечень тем и количество вопросов по этой теме, как это имеет место в спецификациях тестов ГЦТ по узбекскому языку и литературе, русскому языку и литературе, иностранному языку и истории, не может служить спецификацией. Такой подход к составлению спецификаций опасен тем, что составители тестовых заданий будут склонны проверять память — запомнил или не запомнил абитуриент определенный набор фактов или правил по данной теме.

Представители ГЦТ в своем ответе утверждают, что для составления тестов анализируются учебники и учебные программы. Но соответствие учебникам и учебным программам — это не показатель содержательной валидности. В образовательных системах многих стран (например, России, Англии и других) для одного и того же предмета и класса существуют различные учебники, и учителя выбирают, по какому учебнику будет заниматься их класс. А стандартизированные тесты не основываются ни на одном из этих учебников — они основываются на образовательных стандартах.

Недавно было принято постановление о переходе на систему альтернативных учебников и у нас. Когда эта система полноценно заработает и появятся различные учебники по одним и тем же предметам, будут ли абитуриенты вынуждены «зубрить» все учебники?

Да и сейчас, учитывая использование разных учебников в школах, лицеях и колледжах, абитуриенты до сих пор не нашли ответа на вопрос: надо ли им зубрить все эти учебники и что им делать, когда факты, в них изложенные, порой противоречат друг другу?

Результаты тестов ГЦТ используются для принятия решения об отборе выпускника школы (лицея) в вуз, и поэтому эти тесты должны показывать, какими умениями и навыками, изложенными в Государственных образовательных стандартах, овладел абитуриент и насколько он сможет воспользоваться ими в дальнейшей учебе по выбранной специализации.

Выборочный анализ тестовых заданий

Попробуем проанализировать несколько примеров тестовых заданий. В одном из примеров заданий по истории, приведенных на сайте ГЦТ, представлено изображение древнегреческого философа Диогена и абитуриенту необходимо найти изречение, принадлежащее этому философу (при этом абитуриент по приведенному изображению должен понять, что это Диоген).

Видимо, составители тестов хотели проверить, насколько хорошо абитуриент, закончивший 11-й класс, запомнил информацию и рисунки, приведенные на 111-й странице учебника по истории для 6-го класса. Однако ни в Государственных образовательных стандартах образца 2000 года, ни в их более поздней редакции 2017 года не указано, что одной из целей преподавания истории является умение узнавать исторические личности по их изображениям или запоминание любой информации, изложенной в учебниках. И потом, как это умение понадобится абитуриенту в дальнейшей учебе по выбранной специализации? Подобные вопросы хороши для соревнований на эрудицию, таких как «Своя игра» или «Брейн ринг», но не в качестве инструмента отбора абитуриентов в вуз.

В одном из заданий по узбекской литературе (задание №8) абитуриенту необходимо определить, о героях каких произведений идет речь. В данном случае проверяется, насколько абитуриент запомнил сюжетные линии изученных в школе произведений, что также не является задачей школьного курса литературы и не понадобится абитуриенту в дальнейшей учебе в вузе.

Кстати, о последнем примере (задании №8 по узбекской литературе). Даны имена четырех героев разных произведений и краткие изложения сюжетных линий произведений с их участием. Я попытался ответить на это задание и обнаружил, что знаю сюжетные линии только двух произведений из четырех — «Озорник» (b) и «На желтом диве» (d). Сопоставив, что к произведению (b) подходит описание 1, а к произведению (d) — описание 2, я смог найти правильный ответ. То есть, чтобы ответить на задание, проверяющее знание сюжета четырех произведений, мне не обязательно знать все четыре произведения.

Это является результатом того, что составители в данном случае выбрали несоответствующий подвид тестового задания, а также нарушили правила написания тестовых заданий закрытого типа, описанные в научной литературе. Такое нарушение приводит к тому, что в задании появляются факторы, негативно влияющие на валидность (то, что в науке называется «construct-irrelevant variances»).

Одним из правил составления тестовых заданий закрытого типа является исключение цепочки «вопросов в вопросе». Нельзя в одном тестовом задании пытаться зашифровать несколько вопросов. Такой подход к составлению заданий негативно влияет на валидность теста. Несмотря на критику такого подхода специалистами, видимо, составителям тестовых заданий сложно удержаться от «соблазна» проверять с помощью одного тестового задания несколько понятий (задание №2 по узбекскому языку).

Представители ГЦТ в своем ответе утверждают, что тесты проходят экспертную оценку специалистов из системы народного, среднего специального и высшего образования. Для того, чтобы составлять тесты и оценивать их качество, мало быть специалистом в своей предметной области. Необходимо также иметь определенные знания по тестологии и уметь применять эти знания на практике. Сколько процентов экспертов ГЦТ изучали тестологию как науку в рамках вузовского или поствузовского курса?

Чтобы не быть обвиненным в «критиканстве», по каждому из рассмотренных вопросов буду предлагать свои предложения.

Итак, по валидности:

  • необходимо пересмотреть спецификации тестов, с тем чтобы в них было четко указано, какие умения и навыки и каким образом будут проверены;
  • для каждого проверяемого умения или навыка подобрать соответствующий вид (подвид) тестового задания;
  • отказаться от заданий, проверяющих механическое запоминание фактов (правил) или привести количество таких заданий к неизбежному минимуму;
  • исходя из правил составления тестовых заданий, разработать конкретные требования к разным видам тестовых заданий;
  • на основе методик валидации, предлагаемых исследователями, разработать детальный алгоритм валидации тестовых заданий и четко следовать этому алгоритму;
  • к разработке и экспертизе тестовых заданий привлекать специалистов, хорошо знающих не только свою предметную область, но и тестологию.

Апробация тестовых заданий

Второй вопрос в открытом письме касался апробации тестовых заданий. Представители ГЦТ в своем ответе приводят статистику, сколько процентов заданий были изменены в результате апробации. Апробация крайне важна для выявления качества тестовых заданий и позволяет избегать последующих проигрышей в судах из-за неправильных заданий, а также необходимости пересчитывать баллы всем абитуриентам, у кого были подобные задания (одно и то же задание может использоваться в книгах вопросов нескольких тысяч абитуриентов, и справедливости ради надо бы пересчитывать баллы всем абитуриентам, кому «попались» аналогичные задания, а не только тем, у кого были возможность и желание судиться с ГЦТ).

Задания, которые были изменены по результатам апробации, должны быть повторно вынесены на апробацию — любое изменение по сути «превращает» задание в новое, и без повторной апробации невозможно узнать его качественные характеристики. И так по циклу — до тех пор, пока статистические параметры тестовых заданий не достигнут приемлемых показателей.

Кроме того, тестовые задания могут показывать различные характеристики в разных комбинациях, и для вычисления такого важного показателя, как надежность целого теста или тестового варианта, необходимо провести апробацию уже готового варианта. Насколько мне известно, в ГЦТ компьютер генерирует тестовые варианты из базы тестовых заданий перед экзаменами, что не позволяет вычислять надежность каждого тестового варианта. Вопрос про шкалирование (сравнение степени сложности различных вариантов теста и коррекцию результатов) остался без ответа, хотя подобная процедура является крайне важной для принятия правильных решений по результатам теста. Ведь сложность варианта не есть сумма сложности тестовых заданий, из которых состоит вариант.

Говоря о сложности тестовых заданий, представители ГЦТ утверждают, что разработана таблица корреляции сложности тестового задания по теоретической шкале (или, как названо в ответе, «теоретический вес» — «ves theor») и по результатам апробации (или, как названо в ответе, «апостериорный вес» — «ves apost»).

Для определения степени «теоретического веса» (в тестологии это называется «когнитивной нагрузкой» тестового задания) необходимо использовать какую-либо иерархию когнитивных (мыслительных) процессов, таких как, например, таксономия образовательных целей Блума.

Говоря проще, если для ответа на вопрос тестируемому необходимо просто вспомнить факт или правило — это один (самый низкий) уровень когнитивной нагрузки. Если же для ответа требуется сопоставлять различную информацию и делать выводы, это уже другой уровень нагрузки. При этом, даже если для правильного ответа на вопрос требуется вспомнить не один, а несколько фактов, без какого-либо их сопоставления или анализа, это не значит, что повышается уровень когнитивной нагрузки.

Однако, видимо, эксперты ГЦТ считают по-другому — в примерных заданиях по истории задание №3, в котором требуется вспомнить два не связанных друг с другом факта — имена наместников двух разных династий в Хорасане — отнесено ко второй степени сложности, а задание №10, в котором также требуется вспомнить, когда происходили те или иные события в истории, отнесено к третьей степени сложности из-за того, что количества фактов в данном задании больше. Возникает вопрос: на какую иерархию когнитивных процессов опирается ГЦТ при определении «теоретического веса» тестового задания?

На вопрос о публикации результатов научных исследований по валидности и надежности тестов представители ГЦТ отвечают, что в «Вестниках» ГЦТ и периодической печати опубликованы статьи. Однако каким тиражом издается «Вестник» ГЦТ и можно ли его найти в продаже? Опубликованы ли в этих статьях показатели надежности, стандартной ошибки измерений, результаты шкалирования и другие важные параметры тестов, как это делают, например, ФИПИ, College Board и другие разработчики стандартизированных тестов?

Мои предложения по данному пункту:

  • нужно определиться с иерархией (теоретической моделью), на которой будет опираться когнитивная нагрузка тестового задания, и на основе этой иерархии разработать и опубликовать четкие требования к уровням «теоретического веса» заданий;
  • проводить через апробацию не только тестовые задания, но и варианты тестов для вычисления их надежности и повторять процедуру апробации вплоть до получения приемлемых показателей;
  • до подсчета и опубликования результатов теста проводить шкалирование результатов;
  • во время подсчета результатов теста еще раз анализировать статистические показатели качества тестовых заданий и при обнаружении проблемных заданий исключить их из итогового результата;
  • на сайте ГЦТ ежегодно публиковать аналитические отчеты, которые включает количественные показатели по надежности тестовых вариантов, стандартной ошибке измерений, а также шкалированию результатов разных вариантов.

О количестве предметов

Третий вопрос в открытом письме касался целесообразности увеличения количества предметов, по которым проводится тестирование, с трех до пяти. Государственный центр тестирования утверждает, что при увеличении количества тестируемых предметов были учтены мнения специалистов в области образования и медицины. Думается, что общественности было бы интересно ознакомиться с этими мнениями. Основываются ли эти мнения на результатах каких-либо исследований? Мой поиск по базам данных научных журналов показал, что исследователи, например, Дейвис и Фердоу, Вейрих и другие, отмечают влияние усталости тестируемого, связанного с длиной теста, на его результаты по тесту.

В США и странах Европы обычно стараются учитывать психологическую нагрузку теста на тестируемого и не перегружать ученика чрезмерным тестированием. Например, абитуриент, сдающий SAT Subject Tests (стандартизированные тесты по предметам для поступления в вузы США) не может за один день сдать тесты по более чем трем предметам. Учитывая, что тест по каждому предмету длится один час, общая продолжительность экзамена не может превышать трех часов. Другой стандартизированный тест, результаты которого также принимаются вузами США, — American College Testing (ACT) длится 2 часа 55 минут. Британский A-Level, служащий одновременно школьным выпускным экзаменом и вступительным экзаменом в вузы, или его российский аналог — Единый государственный экзамен — сдаются в разные дни по разным предметам.

В отдельных странах Азии поступление в вуз сложнее — экзамены включают большее количество предметов и длятся дольше. Китайский стандартизированный экзамен для поступающих в вузы (NCEE) проводится в течение нескольких дней. Аналогичный южнокорейский экзамен (CSAT) проводится в течение одного дня, но предоставляет перерыв от 20 до 50 минут между разделами. Однако есть другая сторона медали. Южная Корея лидирует в мире по числу суицидов среди молодежи и по уровню стресса среди молодежи среди стран ОЭСР, и одной из причин называется психологическое давление, связанное с поступлением в вуз. В Китае также аналитики отмечают негативное влияние вступительных тестов на психическое состояние молодежи.

На мой взгляд, нам необходимо определиться, чего мы хотим. Молодежи, которая из одного экзаменационного марафона в мае-июне — государственной итоговой аттестации в школе, состоящей как минимум из 7−8 предметов, — сразу же бежит к другому марафону в июле-августе — вступительным тестам в вузы, включающим пять совершенно разных предметов? Учитывая высокую конкуренцию при поступлении в вуз, как такая череда экзаменов в разгаре лета отразится на психологическом состоянии абитуриента?

На вопрос о целесообразности увеличения количества предметов представители ГЦТ отвечают: «Что в этом плохого („нимаси ёмон“)?».

Тестология как наука не оперирует категориями «что в этом хорошего» или «что в этом плохого». Она оперирует категорией валидности — соответствия выбранного способа тестирования поставленным целям.

Тестология не действует по принципу «чем больше — тем лучше» или «кашу маслом не испортишь». В любой науке важно не «переборщить».

Представители ГЦТ утверждают, что увеличение количества предметов создает больше шансов для абитуриента — тот сможет набрать больше баллов, отвечая на более простые вопросы. А нужен ли, скажем, медицинскому или техническому вузу такой студент, который поступил из-за того, что набрал больше баллов, отвечая на простые вопросы по непрофильным предметам, но уровень подготовки которого по профильным предметам оставляет желать лучшего? Какие предметы планируется добавить в те направления, где история или математика уже присутствуют в списке предметов тестирования?

Вопросов, как всегда, больше чем ответов. Да и вопрос о том, как ГЦТ собирается определять «упрощенность» заданий по обязательным предметам тоже пока остается без ответа.

На мой взгляд, если ГЦТ не доверяет аттестатам или дипломам, выданным абитуриентам от имени государства (а введение дополнительной проверки «общей грамотности и базовых знаний» абитуриента можно рассматривать именно как выражение недоверия), то необходимо было объединять функции выпускного школьного (лицеевского) и вступительного вузовского экзаменов и проводить этот экзамен в школе или лицее, до получения выпускниками аттестата или диплома. Или же по Государственный центр тестирования мог бы прийти в школы (лицеи) и совместно с Министерством народного образования, которому подчиняются школы, или Министерством высшего и среднего специального образования, которому подчиняются лицеи, убедиться в наличии этих самых «базовых знаний» в ходе Государственной итоговой аттестации. А то получается: «у тебя на руках аттестат школы (диплом лицея), но все равно докажи, что ты не дурак».

Мои предложения по данному вопросу: либо признать, что увеличение количества предметов было необдуманным и необоснованным, и отменить это решение, либо выявлять наличие у абитуриента «общей грамотности и базовых знаний» по обязательным предметам до того, как тот закончит школу или лицей.

Вопрос выбора направлений абитуриентом

Следующий мой вопрос о том, почему бы не разрешить абитуриенту выбирать направление обучения без учета «последовательности» предметов или «приоритета» направлений остался без ответа, хотя, думается, этот вопрос интересует многих абитуриентов и их родителей. Вопрос о научной обоснованности «очередности» предметов или связи отдельных предметов с будущей специализацией также остался без внимания.

Во многих странах, где вузы принимают студентов по результатам стандартизированных тестов, абитуриенты рассылают результаты своих тестов в разные вузы и по ответам вузов принимают решение о том, где учиться.

Попробуем перенести такой подход в наши реалии. Абитуриент A при сдаче документов выбирает до трех направлений, при этом предметы тестирования в этих направлениях должны совпадать. Если «очередность» предметов разная, ГЦТ на следующий день после тестирования публикует три разных балла для этого абитуриента, исходя из количества его правильных ответов по предметам. После завершения тестирования для всех абитуриентов, ГЦТ публикует на своем сайте итоговые результаты: кто куда смог поступить, на «бюджет» или на «контракт».

Наш абитуриент, А не смог поступить на первое выбранное им направление, на второе он «попал» на «контракт», на третье — на «бюджет». Другие абитуриенты также могут быть в похожей ситуации. Абитуриентам дается срок, в течение которого они должны определиться, будут ли они вообще учиться и если да, то где. До истечения срока абитуриенты через центры или портал госуслуг сообщают о своем выборе. Для тех, кто не сообщил о своем выборе, будет учитываться «приоритетность», указанная при сдаче документов. ГЦТ пересчитывает результаты исходя из выбора абитуриентов и публикует окончательные списки.

Итак, мои предложения по данному пункту:

  • критически пересмотреть перечень предметов для поступления в вузы, учитывая будущую специализацию, а также мнения вузов и работодателей;
  • изучить вопрос о «целесообразности» очередности разных предметов — присуждения разных баллов за правильный ответ;
  • разработать и внедрить механизм предоставления абитуриентам реального права выбора трех направлений.

Требование сертификата уровня B2

Следующий вопрос в открытом письме касался целесообразности требования сертификата уровня B2 (уровня выпускника вуза) от абитуриента для его освобождения от тестов по иностранному языку. Представители ГЦТ утверждают, что это льгота и для получения льготы пусть абитуриент доказывает, что он лучше других.

Позвольте не согласиться. Зачисление в вуз без экзаменов на основании того, что абитуриент является выпускником определенного образовательного учреждения — это льгота. Зачисление в вуз без экзаменов на основании того, что абитуриент является лауреатом награды, не имеющей отношение к будущей специализации — это льгота. Присуждение дополнительных баллов при поступлении в гражданский вуз тому, кто отслужил срочную военную службу, — это льгота. Но когда абитуриент за определенную плату проходит тестирование, комплексно проверяющее его реальный уровень владения иностранным языком и включающий все аспекты (умение понимать устную речь, умение понимать тексты разных жанров, умение писать и говорить на иностранном языке), когда абитуриент доказывает, что достиг того уровня, которого требует образовательные стандарты, и за это получает освобождение от теста, проверяющего в основном грамматику и чтение — это не льгота. Потому что он уже сдал более сложный, более полноценный тест. Да, даже тест на владение уровня иностранным языком на уровне B1 является более сложным, чем тест по иностранному языку, включенный в блок вступительных тестов, хотя бы потому, что первый охватывает все навыки речи. Любой преподаватель иностранного языка скажет вам, что развивать продуктивные навыки (умение говорить и писать на иностранном языке) у ученика сложнее, чем просто зубрить правила грамматики.

А ведь Национальная тестовая система оценки уровня знания иностранных языков была внедрения именно с этой целью: с целью побуждения абитуриентов реально учить язык — об этом мы уже говорили. ГЦТ со своим принципом «чем это плохо?» («бунинг нимаси ёмон?»), т. е. «что плохого в том, что мы будем требовать сертификат уровня выпускника вуза от абитуриента, поступающего в вуз», просто перечеркнули эту цель.

Не будет абитуриент пытаться сдавать заведомо непосильный для себя уровень, а тихо вернется к зубрежке грамматики. Сами представители ГЦТ в своем ответе признают это: получение сертификата не является обязательным, абитуриент может просто сдать тест по иностранному языку в блоке вступительных экзаменов. И не будет он как студент уметь пользоваться иностранными материалами при написании курсовых, как утверждают представители ГЦТ, потому что до поступления в вуз он не изучал язык как средство коммуникации, а просто зубрил грамматические правила. Ведь это то, что проверяет ГЦТ по иностранному языку при поступлении в вуз.

Позвольте повторить: ГЦТ как государственный орган, ответственный за отбор абитуриентов в вузы, должен руководствоваться не принципом «чем это плохо», а принципом валидности и уметь заранее просчитывать результаты своих решений. И потом, логично ли требовать для аналогичный «льготы» и в бакалавриат, и в магистратуру — разные уровни обучения — одинаковый уровень — уровень B2?

Моё предложение по данному пункту: привести требования к сертификатам в соответствие с действующими образовательными стандартами по иностранным языкам.

И последнее. Прозрачность — это не предоставление всем открытого доступа к реальной базе тестовых заданий, как утверждают представители ГЦТ. Как раз-таки, организации, занимающиеся стандартизированными экзаменами, не делают этого по простой причине: тест может потерять валидность и превратиться в проверку памяти. Прозрачность — это подотчетность налогоплательщикам в своих действиях, наличие диалога с общественностью, принятие критики, учет обоснованных мнений специалистов в принимаемых решениях. Именно такая прозрачность позволит добиться целей и задач, поставленных перед организацией.

Мнение автора может не совпадать с мнением редакции.