Представим такую ситуацию: вам надо купить картошку, килограмма четыре. Вы просите продавца взвесить. И он достает… линейку. Ситуация, как минимум, странная, не правда ли? Для каждой измеряемой характеристики (вес, длина, высота и т. д.) придуманы свои средства измерения: весы, линейка и другие принадлежности. Тесты — это тоже средство измерения. Только в отличие от средств измерения, используемых в повседневной жизни, характеристики, которые тесты измеряют (в науке эти характеристики называются конструктами), не поддаются прямому и точному измерению. Ведь не может же экзаменатор заглянуть ученику в мозг и сказать: «Ага, по математике у него столько-то знаний, по родному языку — столько-то…»

Для того, чтобы тесты как средство измерения давали правильное представление о характеристиках (знаниях, умениях, навыках), которые мы измеряем с их помощью, они должны опираться на науку о педагогических измерениях, или тестологию. Как показывают многочисленные исследования в ряде стран, например, в Турции, Японии, Индонезии, незнание или несоблюдение правил этой науки чреваты серьезными негативными последствиями как для учеников и учителей, так и для системы образования в целом. Это означает, что любая организация, проводящая тестирование, особенно, такое, которое оказывает серьезное влияние на дальнейшую судьбу тестируемых (например, служит основанием для поступления в вуз), должна уметь обосновывать свои действия и решения, опираясь на научный аппарат тестологии.

Учитывая крайне низкий охват выпускников средних и средних специальных учебных заведений высшим образованием и вследствие этого ажиотажные конкурсы при поступлении в вузы, любые изменения в системе тестирования абитуриентов в нашей стране являются чувствительными для широкого круга лиц: школьников, их родителей, педагогов. Неудивительно, что подготовленный Государственным центром тестирования проект законодательного акта о предлагаемых изменениях в систему вызвал широкий резонанс и за короткое время набрал большое число комментариев. Попробуем разобраться, какие важные изменения предлагает главный тестирующий орган страны и как эти изменения соотносятся с требованиями науки о тестах.

Главное изменение, предлагаемое проектом, — увеличение количества предметов, по которым абитуриенту придется сдавать тесты: вместо нынешних трех их будет пять, разделенных на два блока (первый блок будет состоять из родного языка, математики и истории Узбекистана, обязательных для всех, второй блок — из двух предметов на выбор абитуриента, в зависимости от будущего направления обучения). Отмечается, что вопросы в первом блоке будут упрощенные, направленные на выявление базовых знаний и общей грамотности.

Отвечая на многочисленные комментарии о целесообразности увеличения количества предметов, представители Государственного центра тестирования приводят в качестве примера такие страны, как США, Южная Корея, Россия, Китай, Турция, Казахстан и Азербайджан, где, по их мнению, абитуриенты сдают от 3 до 12 предметов, включая обязательные государственный язык и математику. Здесь кроется одно большое «НО», в котором попробуем разобраться.

Во многих странах функции итогового школьного экзамена и вступительного вузовского совмещены: школьники сдают ЕГЭ в России, A-level в Британии, Abitur или Matura в странах Европы, результаты которых нужны как для окончания школы, так и для поступления в вуз. Такой подход позволяет, как минимум, избегать стрессовой ситуации, когда за короткое время школьнику нужно сдавать и школьные выпускные экзамены по многим предметам, чтобы получить аттестат, и вступительные экзамены, чтобы поступить в вуз.

Кроме того, в странах, где вступительные экзамены отделены от школьных выпускных, зачастую первое становится самоцелью и нивелирует задачу успешного усвоения объема знаний и навыков в рамках школьного образования. Мы уже говорили, что когда образовательные стандарты декларируют одно, а система оценки проверяет другое, ученики ориентируются на то, что будет проверяться. Как отметили сами представители Государственного центра тестирования в комментариях к документу, «в последнее время отмечается стремление абитуриентов усвоить только один или два предмета из школьной программы, что приводит к ослаблению интереса абитуриентов к общеобразовательным предметам, сужению их круга мышления» (перевод автора — прим.). Однако увеличение количества тестируемых предметов не приведет, да и не сможет привести к решению обозначенной авторами проекта программы. Кроме того, такой подход идет вразрез с базовыми понятиями тестологии. Почему?

В тестологии есть понятие «валидность», что означает соответствие выбранного инструмента измерения (оценки) предполагаемой цели (или целям, если их несколько). Если тест служит задаче отсеять претендентов, не обладающих необходимым уровнем знаний и навыков, он должен обладать предиктивной валидностью (предсказательной способностью), т. е. давать представление, насколько тестируемый сможет использовать полученные ранее знания, навыки, умения в дальнейшем обучении. Например, исследователи пришли к выводу, что предсказательная способность российского ЕГЭ приемлема для признания этого экзамена валидным инструментом отбора абитуриентов. К сожалению, я не смог найти результаты каких-либо исследований по предиктивной валидности тестов, используемых для поступления в вуз за все 20 с лишним лет существования Государственного центра тестирования.

Сомневаюсь, что вопросы типа «В каком предложении использованы омонимичные вспомогательные морфемы?» или «В каком предложении использован производный глагол, имеющий окончание залога?» (примеры из официальных примеров тестов по родному (узбекскому) языку, опубликованных на сайте ГЦТ в 2018 году) смогут дать представление о способности абитуриента использовать родной язык в процессе овладения будущей профессией. Или же, маловероятно, что знание таких деталей, как «Найдите средневекового правителя, участвовавшего в крестовых походах» или «Что возилось по Великому шелковому пути в Китай через Согдиану и Фергану?» (примеры из официальных примеров тестов по истории, опубликованных на сайте ГЦТ в 2018 году) помогут абитуриенту успешно учиться в юридическом вузе.

Насколько предлагаемое увеличение предметов поможет правильному отбору абитуриентов? Насколько, например, знание математики нужно для успешного обучения будущего переводчика или преподавателя литературы? Насколькознание истории нужно для успешного обучения будущего врача или инженера? Вне сомнений, аргумент о том, что «каждый гражданин страны должен знать свою историю и прошлое, этапы становления нации и государственности, извлекать уроки из прошлого» (из комментариев представителей Государственного центра тестирования к проекту документа) уместен, но проверка этого может быть целью экзамена (теста) по окончании школьного курса истории, но отнюдь не целью экзамена для отбора в профессиональное образование.

На мой взгляд, главная проблема кроется в том, что авторы проекта попытались совместить функции и школьной итоговой аттестации, и отборочного экзамена в вуз в одном тестировании, при этом не учитывая, что тестирование, проводимое Государственным центром тестирования, не является формой итоговой аттестации школьника и сдается абитуриентом после того, как тот получил школьный аттестат.

Ведь «выявление базовых знаний и общей грамотности» — это цель итоговой школьной аттестации, и если у школьника нет этих самых «базовых знаний и общей грамотности», он не должен получить школьный аттестат и, следовательно, не сможет участвовать в экзаменах на поступление в вуз.

Цель отбора в вуз — выявление, имеет ли абитуриент достаточно знаний для обучения по выбранной специальности. Именно поэтому в тех системах, где функции итоговой школьной аттестации и вступительного экзамена совмещены в одном тесте, обычно есть и обязательные предметы (для выявления «базовых знаний и общей грамотности»), и предметы по выбору (для выявления готовности к обучению по специализации).

У нас же после того, как школьники успешно сдали итоговую школьную аттестацию и получили аттестат, Государственный центр тестирования «высказывает подозрение» в наличии у выпускников «базовых знаний» и хочет их заново тестировать. Это, по сути, сводит на нет значений школьных экзаменов. Если у вас имеются сомнения в объективности итоговой школьной аттестации, приходите в школу, проводите тестирование ВМЕСТО этой самой аттестации, ДО получения школьниками аттестатов, но не заставляйте их за короткое время пройти некий двойной экзаменационный марафон по чрезмерно большому количеству предметов.

Кроме того, проектом предлагается ввести отдельные испытания по узбекскому, русскому или каракалпакскому языкам в целях определения уровня грамотности. Здесь возникает ряд вопросов. Эти испытания проводятся в рамках предлагаемого обязательного блока из трех предметов (родной язык, история, математика)? Или же абитуриент должен будет сдавать и тест, и некое «испытание» по родному языку? Если да, в чем заключается цель теста по родному языку? Скажем, с помощью «испытания» мы определили грамотность. Что мы определяем с помощью теста? Степень зубрежки правил, которые абитуриенту никогда больше не понадобятся в дальнейшей учебе или работе?

Позвольте небольшой экскурс в науку о тестах. Согласно определению, принятому в тестологии, тест — это любое задание или набор заданий, позволяющий измерить интересующий нас конструкт в стандартизированных (единых для всех) условиях. Причем это задание может быть любого вида: на выбор правильного ответа из предложенных вариантов, на конструирование (создание) ответа в устной или письменной форме, на создание какого-либо продукта. То есть, тест и «испытание» — это одно и то же, если условия «испытания» едины для всех (само слово «тест» переводится с английского как «проверка, испытание»).

Задача тестолога заключается в том числе в определении, какая или какие из форм заданий (тесту необязательно состоять из одинаковых по форме заданий) подходит для поставленной цели, чтобы не получилось так, что, например, хотим измерить умение анализировать исторические факты, а на самом дели измеряем память.

Возникает вопрос: зачем испытывать абитуриента по одному и тому же предмету дважды? Или авторы проекта, работающие в государственном органе, занимающимся тестированием в масштабах всей страны, под словом «тест» понимают только задание на выбор правильного ответа?

Еще одно нововведение, предлагаемое проектом, — выдача абитуриентам, набравшим более 30% от максимального количества баллов, сертификатов, действующих в течение 3 лет. Эти сертификаты абитуриенты смогут использовать в последующие годы, если не смогли поступить в вуз с первой попытки. Предложение интересное и разумное, но… Опять возникает ряд вопросов к формулировке и к сути предложения. 30% от максимального балла по всем предметам? Или по каждому отдельно взятому предмету? И почему 30%, а не, скажем, 33 или 45? С чем это связано? Если абитуриенты, сдающие в разные дни и даже годы, решают разные варианты, как обеспечивается сравнимость сертификатов?

Позвольте объяснить, почему у меня возникли эти вопросы. В тестологии есть такое понятие, как «определение проходного балла». Есть разные процедуры (например, метод Ангоффа, метод Букмарк), которые позволяют определить, какое минимальное количество заданий необходимо выполнить, чтобы продемонстрировать минимально приемлемый уровень знаний, навыков, умений по данному предмету. И это количество заданий будет зависеть от того, что понимается под «минимально приемлемым уровнем» и какие задания были включены в тест. То есть, проходной балл определяется не до, а ПОСЛЕ того, как составлен тест. Именно поэтому эти пресловутые 30% вызывают у меня вопросы.

Для понимания, почему также возник вопрос о сравнимости сертификатов, позвольте привести пример. Как мы помним, тест — это такой же инструмент измерения, как, скажем, линейка или весы. А теперь представьте: смогу ли я сравнивать вес двух предметов, если одного из них я измерил в фунтах, а другой — в килограммах? Нет, если не переведу оба значения в одинаковую величину.

Государственный центр тестирования использует разновариантную систему: каждый абитуриент решает свой, индивидуальный вариант теста. Даже абитуриенты, сдавшие тестирование в один и тот же день, решают разные варианты, не говоря уже о тех, кто сдают тест в разные дни или годы.

Есть такое понятие, как сложность теста, которая должна определяться математической формулой, а не субъективным мнением составителя теста, как это практикуется в Государственном центре тестирования. Невозможно создать два варианта теста с идентичной сложностью. Это значит, что, скажем, абитуриенту, А может попасться вариант полегче, абитуриенту Б — посложнее. У счастливчика, А в сертификате больше баллов, у невезучего Б — меньше, хотя, может быть, Б знает больше А. Как будет Государственный центр тестирования решать данную проблему? Те же самые Кембридж в Британии или Educational Testing Service в США много-много лет занимающиеся тестированием, решают эту проблему с помощью специальной процедуры, называемой «equating» (приведение результатов тестов с разным уровнем сложности к единому знаменателю). Наш Государственный центр тестирования до сих пор не прибегал к такой процедуре, и сомневаюсь, что будет ее использовать в будущем. А это значит, что вопрос о сравнимости или равнозначности сертификатов остается открытым.

Кстати, вопрос о сравнимости сертификатов уместен и при проверке заданий, в которых ответ конструируется (создается) самим абитуриентом. Если по родному языку вводить «испытания» для определения уровня грамотности, то такие «испытания» должны будут оценивать люди, а не машина. А если абитуриенту, А попался уж очень строгий проверяющий, а абитуриенту Б — уж очень сердобольный? Как в таком случае мы можем сравнить результаты двух «испытаний»?

И напоследок позвольте опять вернуться к вопросу о том, что же мы все-таки проверяем с помощью тестов. Авторы проекта утверждают, что первый (обязательный) блок будет проверять базовые знания по родному языку, математике и истории. А кто будет определять, что есть базовое знание, а что — нет? Например, по родному языку, знание классификации морфем и окончаний — это базовое знание или продвинутое? По математике знание тригонометрии, логарифмов и производных — это базовое знание или продвинутое? По истории знание годов правления бухарских эмиров — это базовое знание или продвинутое?

Как быть, если учебники, используемые в разных системах образования, дают разную, порой даже противоположную информацию? Например, ученику школы говорят, что Сирия стала независимым государством в 1943 году (Ш. Эргашев и другие, «Всемирная история», учебник для 11 класса средней школы, Ташкент, 2018, стр. 105), а ученику лицея и колледжа дается информация о том, что это произошло в 1941 году (М. Лафасов, «Всемирная история», учебник для лицеев и колледжей, Ташкент, 2010, стр. 117). Если школьнику говорят, что президент США Гувер не согласился принимать меры социальной защиты во время экономического кризиса начала 1930-х (Ш. Эргашев и другие, «Всемирная история», учебник для 10-класса средней школы, Ташкент, 2017, стр. 22), а ученику лицея и колледжа — что он же в это же время выделил огромные деньги для предотвращения банкротства предприятий и фермеров (М. Лафасов, «Всемирная история», учебник для лицеев и колледжей, Ташкент, 2010, стр. 80)?

Даже учитывая склонность экспертов Государственного центра тестирования «высасывать» вопрос из любой фразы в учебниках, мы не сможем ответить на вопрос, как поступать в таких случаях выпускникам школ, лицеев и колледжей, имеющим равные права при поступлении в вуз. Неужели могут быть разные «правильные» ответы на одни и те же вопросы для выпускников разных систем? Или все-таки мы уже откажемся от проверки степени «зубрежки» учебников, а будем проверять навыки и компетенции, заложенные в Государственных образовательных стандартах, без привязки к конкретному учебнику? Тем более, что существующая система монополии учебников не лучшим образом сказывается на их качестве, и, судя по новостям, уходить от монополии мы пока не собираемся.

Тестология — это наука. Она имеет свои законы, правила, методы исследования. Это означает, что орган, тестирующий выпускников от имени государства и на основе результатов этих тестов решающий их дальнейшую судьбу, не имеет права игнорировать эти правила и законы. Любое решение должно приниматься на основе тестов или испытаний, валидность которых доказана научными методами. Иначе нельзя. Иначе рискуем навредить, как это, к сожалению, делалось последние 20 с лишним лет истории функционирования Государственного центра тестирования.

Мнение автора может не совпадать с мнением редакции.

Комил Джалилов является преподавателем Ташкентского государственного университета узбекского языка и литературы имени А. Навои. Проходил повышение квалификации в Колумбийском университете (Нью-Йорк, США) по направлению «Педагогическая психология и методика преподавания языков» и Международном Вестминстерском университете в Ташкенте по направлению «Теория и практика преподавания и обучения». Работал в Академическом лицее при УМЭД, Академическом лицее при МВУТ, Ташкентском филиале МГУ имени М. Ломоносова. Магистр Института образования Университетского колледжа Лондона по специальности «Разработка учебных программ, педагогика и педагогическое оценивание» по программе Chevening.