Преподаватель Ташкентского государственного университета узбекского языка и литературы имени Алишера Навои, магистрант Института образования Университетского колледжа Лондона Комил Джалилов обосновывает необходимость пересмотра вступительных тестов в вузы с тем, чтобы они стимулировали учащихся мыслить критически, анализировать и создавать.

Можно с уверенностью сказать, что вступительные тестовые испытания, проводимые Государственным центром тестирования (ГЦТ), имеют огромное, даже решающее влияние на систему образования в целом.

К сожалению, качество нашего образования, в том числе высшего, оставляет желать лучшего. Как было отмечено в отчете Всемирного банка «Узбекистан: Модернизация системы высшего образования», подготовленном в 2014 году, «помимо низкого охвата, система высшего образования вызывает опасения в связи с качеством и актуальностью знаний и навыков, приобретаемых выпускниками за время обучения».

Вузы Узбекистана не представлены ни во всемирном рейтинге вузов QS World University Rankings, ни в рейтинге The Times Higher Education World University Rankings (в данные рейтинги включены, например, вузы России, Казахстана и Украины).

Юрист и блогер Хушнудбек Худайбердиев высказал мнение, что в недавней трагедии в Казахстане в первую очередь виновата система образования, не способная «готовить инновационно мыслящих кадров», и он во многом прав. Одним из факторов, способствующих такому положению дел, являются вступительные тестовые задания.

В развитых странах наука о педагогических измерениях, или педагогическом оценивании, сформировалась на стыке педагогики, психологии, математической статистики и психометрии и, как любая дисциплина, имеет свои основополагающие принципы и законы. Игнорирование этих принципов приводит к негативному эффекту washback и чревато серьезными последствиями для образования и общества в целом. Термин washback подразумевает влияние тестов на общество на всех уровнях, начиная от отдельных личностей (педагоги, учащиеся) и заканчивая системой ценностей.

Как отмечают специалисты, система оценивания направляет все действия участников системы образования: учащиеся фокусируют внимание только на том, что будет проверено, и на том, что поможет им набрать хорошие баллы в тестах, а преподаватели активно «натаскивают» учащихся на тесты.

Тесты, используемые Государственным центром тестирования, имеют огромное влияние на общество, так как дают некий сигнал преподавателям и учащимся (абитуриентам), что и каким образом надо учить, тем самым определяя качество будущих специалистов.

По поручению Президента Шавката Мирзиёева начался процесс совершенствования системы вступительных экзаменов. Этот вопрос включен в Государственную программу на 2018 год (п.163), он неоднократно обсуждался в СМИ. Однако больше внимания уделяется вопросам администрирования (условиям проведения) тестирования, тогда как другая, крайне важная проблема — качество тестов — остается вне поля зрения.

Качество тестов определяется двумя параметрами: валидностью и надежностью. Даже ГЦТ, на который, согласно новому положению от 17 июля 2017 года, возложена задача «обеспечения объективности и достоверности результатов вступительных тестовых испытаний в образовательные учреждения» и функция «внедрения передового мирового опыта в подготовку книг вопросов, листов ответов и других тестовых материалов», про содержательную сторону вопроса пока молчит. Условия администрирования тестовых испытаний — это видимая часть, верхушка айсберга, и из-за того, что она у всех на виду, многие будут интересоваться прежде всего этой стороной вопроса.

Без решения содержательной стороны вопроса — проблемы валидности и надежности тестов, используемых на экзаменах, — изменение условий администрирования не приведет, да и не может привести к ожидаемым качественным изменениям.

1. Валидность. Это основное понятие в теории педагогических измерений, означающее соответствие теста тем знаниям, навыкам и умениям, которые необходимо проверить с помощью теста. Например, если необходимо проверить навыки работы на компьютере, это невозможно сделать с помощью вопросов об истории компьютеров или путем сочинения. Такой подход к проверке навыков работы на компьютере будет невалидным (с его помощью невозможно выяснить, умеет ли тестируемый работать на компьютере или нет).

Валидность — многогранное понятие, состоящее из нескольких параметров. Чтобы считаться валидным, тест должен отвечать всем этим параметрам.

А) Содержательная валидность.

Содержание теста должно соответствовать тем знаниям, навыкам, умениям и компетенциям, которые проверяются с помощью теста. Так как в тесте невозможно охватить всю область знаний, навыков, умений и компетенций, подлежащих проверке, крайне важно следовать правилу репрезентативности. Это означает, что необходимо проверять те знания, умения, навыки и компетенции, которые считаются важными, основополагающими для данной науки.

Кроме того, форма проверки должна совпадать с целью проверки. Например, нельзя проверить навыки вождения с помощью сочинения или навыки работы на компьютере с помощью вопросов на сочетания клавиш или истории и теории компьютеров, например: «Кто и когда изобрел первую программируемую ЭВМ?» или «Найдите определение прикладного ПО» (как это делается во вступительных тестах по предмету «информатика», включенных в блок «математика и информатика»).

Отдельно взятое тестовое задание должно проверять только то умение или навык, на которое оно направлено, без влияния других умений или навыков. К примеру, если необходимо проверить, сможет ли тестируемый найти в художественном тексте метафору (предмет «литература»), надо предоставить ему или ей художественный текст и попросить найти метафору. Если вопрос будет задан в виде «Найдите метафору в таком-то стихотворении такого-то поэта» и при этом текст стихотворения не будет представлен, это задание превратится в тест на память, а не на умение найти метафору.

К сожалению, разработчики тестов, используемых в вступительных экзаменах в вузы, под содержательной валидностью понимают соответствие тестов утвержденным учебникам. Это одностороннее, узкое, ошибочное понятие валидности. Тест, в первую очередь, должен проверять умения, навыки и компетенции, заложенные в государственных образовательных стандартах. В образовательных стандартах, утвержденных постановлением Кабинета Министров от 6 апреля 2017 года, принят подход на основе развития общих и предметно-ориентированных компетенций. У нас тесты (по крайней мере, по гуманитарным предметам) направлены на проверку запоминания информации, изложенной в учебниках, но никак не умений, навыков и компетенций, заложенных в государственных образовательных стандартах. Говоря проще, тесты, используемые во вступительных экзаменах, в основном проверяют память и больше ничего.

Порой задания доходят до абсурда, например:

  • «Alpomish» dostonida uchramaydigan geografik nomni toping. (Какое из нижеследующих географических названий не встречается в эпосе «Алпамыш»?), вариант 100062−228, вопрос 99;

  • Chingiz Aytmatovning «Oq kema» qissasidagi Shoxdor ona bug‘u ertagida qirg‘iz qabilasidan omon qolgan bolalar necha kun deganda dushman qarorgohiga yetib olishadi? (За сколько дней дети племени кыргыз из сказки Рогатой матери-оленихи в повести Чингиза Айтматова «Белый пароход» добрались до вражеского стана?), вариант 100062−228, вопрос 108;

  • G‘afur G‘ulomning «Shum bola» qissasida Shum bolaning aytishicha, Sariboyning o‘g‘li qaysi daraxtga chiqqanida yiqilib jon beradi? Варианты ответов: «tut», «terak», «olma», «qayrag‘och». (С какого дерева упал и разбился насмерть сын Сарыбая, по словам главного героя повести Гафура Гуляма «Озорник»? Варианты ответов: «тутовое дерево», «тополь», «яблоня», «карагач»), вариант 100062−228, вопрос 96;

  • «Mirzo Ulug‘bek» tragediyasida Mirzo Ulug‘bek podshohlik tojini yechib mahramlar qo‘liga tutqazayotganida qaysi qahramon qo‘lini osmonga qiladi? (Какой герой возводит руки к небесам, когда Улугбек снимает с себя корону в трагедии «Мирзо Улугбек»?), вариант 100062−228, вопрос 78;

  • Boburnomada fil haqida so‘z yuritilganda ushbu fikrlardan qaysi biri berilmagan? Варианты ответов: «yuvosh», «katta», «ziyrak», «azim-ul jussa». (Какое слово не используется при описании слона в «Бабурнаме»?. Варианты ответов: «безобидный», «большой», «смышленый», «большой»), вариант 100062−228, вопрос 77.

Это примеры тестовых заданий, использованных на вступительных экзаменах в высшие военные образовательные учреждения республики 5 июля 2017 года и в высшие образовательные учреждения 1 августа 2017 года. Обратите внимание: все они только из одного варианта. Учитывая принцип генерации тестовых вариантов, используемый в ГЦТ, можно утверждать, что подобные абсурдные вопросы встречались далеко не в одном варианте.

Такие вопросы не отвечают принципу валидности — они проверяют не сформированность навыков, о которых говорится в образовательных стандартах, а запоминание информации — не являющейся значимой для данной предметной области и не нужной абитуриенту в дальнейшей учебе и жизни.

Б) Конструктивная валидность, т. е. соответствие теста заранее определенному критерию.

Тесты, используемые во вступительных экзаменах в вузы, должны, кроме проверки знаний, навыков и умений, полученных в школе, давать определенное понятие о том, насколько тестируемый сможет применять эти знания, навыки, умения и компетенции в будущей учебе. Одной из причин признания сертификатов IELTS или TOEFL для поступления в вузы во всем мире является то, что они свидетельствуют о способности их обладателя понимать письменную и устную речь на английском языке и грамотно выражать свои мысли, то есть эти экзамены проверяют навыки, необходимые будущему студенту в дальнейшей учебе.

Тестовые задания, применяемые у нас на вступительных экзаменах, не отвечают этим критериям. Так как они, в основном, проверяют память и запоминание информации из учебников, по ним нельзя судить, насколько абитуриент сможет применять навыки, умения и компетенции, приобретенные в школе, колледже или лицее, при обучении в вузе.

Как отметил профессор Ташкентского государственного университета узбекского языка и литературы имени Алишера Навои Бахтиёр Менглиев, 90% вопросов, включенных в блок «Родной (узбекский) язык», до такой степени научные, что не нужны для грамотной устной или письменной речи, и абитуриенты их учат только для того, чтобы поступить в вуз. Здесь без использования терминологии говорится о конструктивной валидности тестов, точнее об отсутствии таковой.

2. Надежность. Это второе крайне важное понятие в тестологии. Надежность есть способность теста выдавать примерно одни и те же результаты при повторных администрированиях. Большинство специалистов предлагают определять надежность теста по вычислению внутренней согласованности теста (для этого существуют специальные формулы). Вычисление надежности требует проведения предварительной апробации тестов и статистического анализа ее результатов.

Нельзя вычислять надежность теста после его проведения. Как можно заключить из ответа ГЦТ на обращение автора, центр проводит статистический анализ тестов как раз после дня тестирования — 1 августа. Нельзя же принимать важные в судьбе абитуриента решения, не зная, являются ли использованные тестовые задания надежными, и не будучи уверенным, что стандартное измерение ошибки находится в пределах допустимых показателей!

Джеймс Попхэм (W. James Popham), профессор Калифорнийского университета, один из всемирно признанных специалистов в области педагогических измерений, приводит интересное сравнение: «Тест — это инструмент измерения, как весы. Если с помощью весов вы хотите измерить массу, а они вместо массы показывают рост, значит, у вас инструмент невалидный. Если весы показывают массу, но каждый раз при взвешивании одного и того же предмета весом 10 кг показывают то 9,5 кг, то 10,5 кг — значит, у вас инструмент ненадежный». Тесты должны быть и валидными, и надежными для использования их в качестве инструмента оценки.

Как отмечено выше, использование тестов, не отвечающих требованиям валидности и надежности, приводит к негативному эффекту washback. Примером негативного washback-эффекта наших тестов может быть то, что абитуриенты только зубрят, заучивают учебники. Посмотрите на обсуждения абитуриентов в социальных сетях, на содержание газет «Абитуриент», «Имтихон», «Репетитор», на учебные пособия, используемые абитуриентами помимо учебников, — гуманитарные предметы превратились в набор ничего не значащих фактов и цифр: сколько раз встречается такое-то слово в творчестве такого-то писателя, кто где и когда родился и умер, сколько книг перевел, сколько трудов написал, кто является кому каким родственником, в какой день недели Отабек из «Минувших дней» встретил Кумуш, кто сколько лет и после кого правил и т. д. и т. п.

Абитуриенты заняты заучиванием цифр и фактов и тренировкой памяти, а не развитием навыков, умений и компетенций, заложенных в образовательных стандартах. И на экзамен они пытаются проносить шпаргалки, уменьшенные копии учебников и телефоны, потому что человеческая память не может запомнить столько информации, а они не знают, какая деталь из учебника может попасться в тестах.

Если тесты будут проверять навыки и компетенции, то необходимость в таких ухищрениях отпадет. Если бы, например, по литературе тест проверял умение анализировать художественное произведение (при этом текст произведения предоставлялся бы абитуриенту в день испытания, как это делается, к примеру, в российском едином государственном экзамене (ЕГЭ) или британских школьных выпускных экзаменах), а не запоминание деталей из биографии писателя или из произведения, или если бы тест по истории проверял умение анализировать историческое явление, опираясь на приведенный в книге вопросов материал (опять-таки, пример ЕГЭ или британских экзаменов), не было бы смысла заносить шпаргалку на экзамен.

Крайне важную роль в стандартизации тестов и обеспечении их валидности играет спецификация теста — документ, определяющий, какие умения, навыки и компетенции проверяются тестом, каким образом они проверяются, детально излагающий требования к тестам и условиям их администрирования. При составлении спецификации нужно подобрать подходящий вид теста для каждого проверяемого умения, навыка или компетенции: кроме вопроса с несколькими вариантами ответов, применяемого у нас, существуют различные виды тестов, позволяющие более эффективно проверять умения, навыки или компетенции и при этом позволяющие автоматически обрабатывать листы ответов.

Спецификация теста служит абитуриенту документом для подготовки к тестовым испытаниям, а разработчикам тестов — руководством по составлению тестов. Для обеспечения прозрачности экзаменов спецификация тестов по всем предметам должна быть в открытом доступе как минимум за полгода до экзаменов и не меняться накануне. Любой абитуриент, сдающий IELTS или TOEFL, знает, какие навыки и каким образом будут проверены на этих экзаменах. Например, детальные спецификации по всем предметам для российского ЕГЭ можно найти на сайте Федерального института педагогических измерений — разработчика ЕГЭ. Детальные спецификации, критерии оценки и образцы тестов для выпускных экзаменов школьники Великобритании могут найти на сайте AQA и других организаций, имеющих лицензию на проведение экзаменов. Для справки: в Великобритании, как и в России, результаты выпускных экзаменов школы используются и для поступления в вузы, но несколько организаций имеют лицензию на проведение таких экзаменов и выдачу сертификатов, признаваемых всеми вузами страны.

Нужно понять: перечень тем по предмету с указанием количества вопросов или список учебников, используемых для составления вопросов, никак не могут заменить собой спецификацию теста. Такой подход лишний раз доказывает, что тест проверяет память, а не умения и навыки.

Для создания и экспертизы качественных тестов, отвечающих требованиям валидности и надежности, необходимы специалисты, обладающие достаточно глубокими знаниями не только в своей предметной области, но и — что критически важно — в области оценивания (педагогических измерений, тестологии).

Во многих странах организации, занимающиеся тестированием, проводят научно-исследовательские работы по научно-методическому обеспечению своих методов оценивания, издают специализированные журналы, участвуют в подготовке специалистов. Например, Федеральный институт педагогических измерений России издает научно-методический журнал «Педагогические измерения», в котором публикуются материалы исследований научных сотрудников ФИПИ и методические разработки специалистов и педагогов-практиков из опыта работы по подготовке, проведению и анализу результатов оценочных процедур.

Организация Cambridge Assessment, которая занимается разработкой экзаменов по английскому языку как иностранному, в том числе признаваемого во всем мире экзамена IELTS, публикует журнал Research Matters, проводит семинары и тренинги по методике оценивания уровня владения английским языком.

Во многих вузах развитых стран педагогические измерения преподаются как отдельная дисциплина, существуют направления магистратуры и докторантуры. Несмотря на то, что тестовая система была введена в Узбекистане в первые годы независимости и с тех прочно вошла во все ступени образовательной системы страны, до сих не налажена подготовка специалистов в области педагогических измерений и не проведены научные исследования в этой сфере.

Вопросы и задания, используемые на государственном уровне для принятия решений, судьбоносных для абитуриента, должны составляться специалистами, не только знающими свою предметную область, но и умеющими применять законы науки об оценивании в своем предмете.

Простой пример: такой важный параметр теста, как сложность, должен определяться по пропорции количества правильно ответивших на вопрос из общего количества людей, ответивших на вопрос, и тесты, не отвечающие определенным критериям (слишком легкие и слишком сложные вопросы), не должны включаться в экзамен.

В ГЦТ сложность теста оценивается интуитивно самим автором теста, без статистического анализа результатов апробации — ввиду того, что апробация тестов не проводится. Эксперты, привлекаемые ГЦТ, в большинстве своем не имеющие понятия о принципах педагогических измерений, «высасывают» вопрос из любой информации, заложенной в учебниках. Имеются случаи, когда тесты заимствуются из зарубежных источников, таких как ЕГЭ России, вступительные тесты Турции и других, без учета разницы образовательных стандартов.

Или другой крайне важный параметр теста — дискриминирующая способность (способность теста отделять знающего, умеющего от не знающего, не умеющего) также должна вычисляться по результатам апробации. Нельзя включать в экзамен тесты, имеющие низкую или отрицательную дискриминирующую способность (отрицательная дискриминирующая способность вопроса означает, что на него правильно отвечают в большинстве своем те абитуриенты, кто набрал низкий балл на экзамене).

Используем вышеприведенную аналогию с весами: если весы неправильные, то не важно, как ими пользоваться, в любом случае получится неправильный результат. Представьте такую картину: вступительные экзамены проходят в идеальных условиях, никто не использует шпаргалки, не списывает, нет никаких «бункеров», «паровозов» и прочих «технологий», изобретенных за 20 с лишним лет существования тестовой системы, результаты объявляются на следующий же день. Вы думаете, вузы получат абитуриентов, умеющих критически мыслить, анализировать? Нет! Это абитуриенты, обладающие, в основном, хорошей памятью. Потому что у нас «весы», то есть тесты, заточены на проверку памяти.

Если тест как инструмент педагогических измерений невалидный и ненадежный, сколько бы мы ни меняли правила и условия проведения (администрирования) вступительных экзаменов, ожидаемого качественного изменения не будет, и не стоит ожидать позитивного washback-эффекта.

В решении проблемы качества тестовых заданий нужно ориентироваться на мировой опыт, накопленный в области тестирования:

  1. По каждому предмету разработать, апробировать и разместить на сайте ГЦТ детальные спецификации теста.

  2. В разработке спецификаций учитывать проверку навыков и компетенций, заложенных в действующих образовательных стандартах, а не запоминание любой информации из учебника.

  3. К разработке тестов привлекать специалистов, не только знающих свой предмет, но и имеющих представление о педагогических измерениях, умеющих применять принципы тестологии к своему предмету и анализировать тесты на валидность и надежность.

  4. Проводить тщательную проверку тестов на соответствие спецификации, на валидность и надежность, включать в итоговую базу лишь те тесты, которые отвечают всем критериям валидности и надежности.

Только коренным образом изменив подходы к составлению и анализу качества (валидности и надежности) тестов, мы будем способствовать воспитанию молодежи, умеющей не столько зубрить, заучивать, сколько критически мыслить, анализировать, творить, вносить вклад в развитие страны, что, в итоге, и является целью молодежной политики страны.

Комил Джалилов окончил Самаркандский государственный институт иностранных языков. Проходил повышение квалификации в Колумбийском университете (Нью Йорк, США) по направлению «Педагогическая психология и методика преподавания языков» и Международном Вестминстерском университете в Ташкенте по направлению «Теория и практика преподавания и обучения». Работал в Академическом лицее при УМЭД, Академическом лицее при МВУТ, Ташкентском филиале МГУ имени М. Ломоносова. Участвовал в становлении Национальной системы оценки уровня владения иностранным языком. Автор нескольких книг для изучающих английский язык. Магистрант Института образования Университетского колледжа Лондона по специальности «Разработка учебных программ, педагогика и педагогическое оценивание» по программе Chevening.

Мнение автора может не совпадать с мнением редакции.