Тестирование по-новому

А.Н. Поддьяков

pic_2020_03_16.jpgТестирование чужого ума — очень древняя практика. В древних мифах и сказках встречаются ситуации, когда один персонаж, например колдунья или царь, испытывает другого, задавая ему какие-то сложные задачки. Это именно тестирование хитроумия, попытка определить, в какой степени тот сможет справиться с нестандартным заданием. Если же обратиться сразу к современной реальности тестирования – проверки умственных способностей, то здесь диапазон средств очень широк. Однако далеко не все предложенные средства решают задачу. Да и как ее решить, если мы плохо знаем, что такое ум?


Кратко — история вопроса

Ситуация, показанная в мифах и сказках, вполне реальна. Умный человек может разработать специальные тестовые задания, чтобы набирать себе сотрудников. Достаточно упомянуть знаменитый теоретический минимум нобелевского лауреата Л.Д. Ландау — набор задач, которые он предлагал тем, кто был потенциально готов встать в качестве коллеги рядом с ним. То были сверхтрудные задачи, их сумело решить около 40 человек.

Если говорить о не столь сложных, но тоже сложных заданиях, которые предлагают на различных олимпиадах высокого уровня и викторинах для умников, то часто они разрабатываются для просто очень умных людей. И наконец, чтобы оценить умственные способности любого человека из популяции, от дебила до гения, сегодня используют стандартные тесты познавательных способностей, которые начали разрабатывать еще в начале XX века, то есть им немногим больше ста лет.

Исторически первыми возникли тесты интеллекта. Тесты интеллекта чаще всего диагностируют способность быстро решить большое количество стандартных задач с так называемым закрытым концом. Решение таких задач — весьма специфическая деятельность, которую трудно назвать высокоинтеллектуальной. Обычно это логические или математические задачки. Школьнику могут дать какие-то арифметические задачи, задачи на пространственное мышление, на общую осведомленность и так далее, чтобы оценить его интеллект. Заметим, что известный тест интеллекта Айзенка (даже в оригинале, а не в неточном переводе на русский) — это плохой пример тестов интеллекта. Его критикуют за ограниченный подбор заданий, переводной вариант — за плохую валидизацию, то есть недостаточную проверку того, что тест измеряет именно то, для чего предназначен. Хотя, кстати, ситуация «множественности» правильных ответов в инструкции к оригинальному тесту учтена.

То, что называют «тесты интеллекта», привлекают возможностью быстро и просто получить ответ на весьма сложный вопрос. И их пытаются применять всерьез, хотя многие из них сделаны на коленке и являются в лучшем случае игрушкой. Например, к редактору этой статьи однажды после лекции о тестах вообще и тесте Айзенка в частности, подошла студентка и со слезами на глазах сказала: «У меня муж — архитектор. И каждый раз, когда он приходит на собеседование, ему дают этот тест!» И вообще, возможности тестирования иногда понимаются слишком широко. Например, автора этой статьи на заре 90-х просили разработать тест для дошкольников, посещающих ведомственный детсад автозавода, чтобы в этом возрасте определять способности к будущей именно автомобилестроительной деятельности.

Понятно, что тесты из задач с закрытым концом, то есть с выбором из готовых ответов, не могут охватить всю умственную деятельность человека. Поэтому в 30-е годы XX века начали разрабатывать тесты другого типа, которые включали в себя задания уже с открытым концом. Их основоположник — американский психолог Джой Гилфорд. Он считал, что задания с открытым концом позволяют диагностировать творческое мышление, или, как он его называл, дивергентное мышление. То есть такое, которое развертывается сразу по множеству направлений, ищет сразу множество возможных правильных ответов. Название происходит от латинского divergentia («расхождение»). Вот пример: участнику эксперимента предлагается придумать как можно больше усовершенствований какой-нибудь игрушки, например пожарной машины, или как можно больше способов необычного употребления самого обычного, казалось бы, предмета — карандаша, кирпича и т. д. И здесь у испытуемого значительно больше свободы выбора: он может давать не вполне четкие ответы, и число ответов тоже может быть неограниченно велико, более того, число ответов и их разнообразие — это показатель выполнения теста на дивергентное мышление.

Для использования таких тестов требуется более высокая квалификация тестирующего в плане интерпретации ответов, поскольку этих ответов много и нужно уметь понимать: это действительно хорошее оригинальное решение или не очень хорошее оригинальное решение — или же хорошее, но не очень оригинальное. Этому помогают различные статистические таблицы с указанием частот тех или иных ответов, которые давали респонденты.

Оказалось, что результаты по тестам креативности и по тестам интеллекта противоречивы: они не очень соотносятся друг с другом, бывают и нулевые корреляции, и отрицательные. Некоторые люди, которые получили высокий балл по тесту интеллекта, показывают значительно более низкие баллы по тесту креативности. И не случайно, поскольку эти тесты диагностируют разные стороны познавательной деятельности.

Тесты креативности есть в Интернете, однако надо понимать, что лишь некоторые из них созданы профессионалами и действительно серьезны, а многие — просто игрушки. Создание любого серьезного теста — это большая работа, это дорогое удовольствие, да и результаты его применения должен интерпретировать профессионал.


Тест для исследователя

Затем, в 60-е годы, возник еще один тип тестов — это тесты исследовательского поведения. В них участнику, взрослому или ребенку, дают неизвестный объект, например игрушку-головоломку со множеством всяких рукояток, лампочек, заслонок, которые можно открывать и закрывать, заглядывать, что внутри. И человеку просто предлагают поиграть с этой игрушкой или же другой вариант — решить какую-то задачу, заставить, например, двигаться определенным образом какой-нибудь элемент этой системы. Должно открыться вон то окошко, включиться вот этот светодиод. Фактически это тестовое задание другого типа, его можно назвать заданием с открытым началом и с открытым концом. Почему с открытым началом? Потому что это уже нельзя назвать заданием или задачей, это проблемная ситуация, внутри которой участник сам формулирует себе задачи, сам ставит цели, сам добирает новые данные в соответствии с теми целями, которые он поставил, и поэтому начало открыто.

Открытость здесь не абсолютно полная, а частичная. Она ограничена возможностями конкретного объекта — тот или иной объект больше подходит для постановки одних задач (пусть и разнообразных) и не очень подходит для постановки других. Например, камень, пусть и очень интересный в разных отношениях, все-таки меньше подходит для постановки вопросов об устройстве двигателей — там лучше использовать другие объекты, провоцирующие соответствующие вопросы. Но при этом открытость начала задания здесь значительно больше, чем в тестах интеллекта и креативности, у которых ее нет вообще. Открытость же конца тестового задания на исследовательское поведение связана с тем, что способов достижения цели, которую поставил участник, может быть очень много.

Фактически в этих заданиях измеряется своеобразная способность задавать вопросы. Причем задавать их и объекту: «А что у тебя внутри?», «А как ты отреагируешь, если я потяну за эту рукоятку?», и психологу, поскольку в этой методологии вопросы также фиксируются и оцениваются. Этим тесты исследовательского поведения очень сильно отличаются от тестов интеллекта, где участник выглядел бы весьма неадекватно, если бы вдруг спросил экспериментатора: «А вы уверены, что в этой задаче про поезд, который движется с определенной скоростью определенное время, правильно собраны исходные данные?», «Вы правильные приборы использовали, для того чтобы померить эту самую скорость?» Между тем в реальной познавательной деятельности такого рода вопросы абсолютно правомерны, и в этом отношении тесты исследовательского поведения стоят значительно ближе к практической умственной деятельности, чем классические тесты интеллекта.

Тесты исследовательского поведения позволяют измерить сразу несколько компонентов умственной деятельности, а именно: исследование системы, экспериментирование с ней, обработку данных и выводы, а также принятие практических решений о том, как изменить что-то в системе, чтобы она стала функционировать желаемым образом. Это направление сейчас активно развивается. Обнаружено, что тесты исследовательского поведения, как и тесты креативности, не связаны однозначно с тестами интеллекта, есть и положительные корреляции по некоторым компонентам, и нулевые, и отрицательные. В 1994 году американский исследователь Брюс Хендерсон сделал обзор корреляционных исследований связи исследовательского поведения, любознательности и интеллекта, проведенных разными авторами в разное время с использованием разных методик. Он не обнаружил четких закономерностей и явных корреляций.

Хендерсон придумал категорию «стремление к порождению опыта». Он счел, что степень проявления испытуемым этого стремления зависит от выраженности исследовательского поведения, от любознательности и интеллекта. Однако и он в своем эмпирическом исследовании не обнаружил значимых корреляций между использованными им тестами исследовательского поведения, любознательности и интеллекта. Наверное, здесь имело значение то, что использовались разные тесты интеллекта и разные тесты исследовательского поведения. Но также дело было в том, что эти тесты относятся к диагностике разных сторон познавательного процесса. Тесты исследовательского поведения диагностируют получение знаний от нового объекта при неопределенности информации об этом объекте и не полной определенности деятельности. Тесты интеллекта диагностируют не приобретение, а использование ранее полученных знаний при однозначности цели и определенности деятельности.


Исследовательское поведение

Когда участнику предлагают поиграть с новым объектом, обследовать его, перед ним тем самым ставят неопределенную цель. Задача на исследовательское поведение — это нечетко сформулированная задача, где не определены ни условия, ни требование. Идеалом экспериментального объекта, предлагаемого участнику для самостоятельной познавательной деятельности, является объект с бесконечно большим количеством разноуровневых скрытых элементов, свойств и связей — от элементарно обнаружимых, почти очевидных до крайне сложных в обнаружении и понимании. Моделируемая в таком эксперименте деятельность — это познание субъектом сложного, разнообразного мира и никогда не познаваемого полностью.

pic_2020_03_18.jpg

Любую реальную задачу можно представить как комбинацию тестов интеллекта, креативности и исследовательского поведения. Области а, б, в — это задачи, требующие преимущественно либо интеллекта, либо креативности, либо и исследовательского поведения. В области г расположены смешанные задачи, требующие трех умений в равной мере. Области д, е, ж — задачи в которых преобладает один или два фактора

Используя близкую многим читателям «Химии и жизни» треугольную диаграмму состава чего-нибудь трехкомпонентного (материаловеды, ау!), предложим следующий «треугольник тестов» интеллекта, креативности и исследовательского поведения. В нем можно расположить различные познавательные задачи, взятые из жизни, в соответствии с тем, в какой степени они нагружены исследовательским компонентом (возможностью и необходимостью наблюдать и практически экспериментировать с объектами и системами, получая все новую информацию об их свойствах, связях и т. д.), креативным компонентом (возможностью и необходимостью генерировать множество разнообразных оригинальных решений) и интеллектуальным компонентом в тестовом смысле (необходимостью искать четкие ответы на четко поставленные кем-то вопросы). Такая диаграмма не претендует на то, чтобы дать исчерпывающую картину познавательной деятельности, но позволяет оценить те или иные жизненные, профессиональные и тестовые задачи. То есть увидеть соотношение в них различных важных компонентов.

Отрицательная корреляция тестов исследовательского поведения с тестами интеллекта важна, поскольку во многих случаях для оценки умственного развития используются только тесты интеллекта. Но это означает принципиальную кособокость, односторонность получаемых данных. Если, допустим, ребенок получает не очень высокий балл по тесту интеллекта, это рассматривается родителями как плохой признак. Но с большой вероятностью он получил бы более высокий балл по тесту исследовательского поведения, то есть проявил бы себя как хороший исследователь новизны и неопределенности. Но верно и обратное: если человек получил высокий балл по тесту интеллекта, возможно, он получил бы более низкий балл как исследователь новизны и неопределенности. Однако это лишь статистика — есть замечательные гармонично развитые люди, у которых с исследовательским поведением и с интеллектом все хорошо, но есть гармонично развитые в другом смысле, то есть у них и с тем и с другим плохо.

Сейчас практика тестирования перешла к созданию компьютерных комбинированных заданий. Они используются, например, в международном тестовом испытании PISA, которое проводится с 2000 года и где участвуют десятки тысяч 15-летних школьников из разных стран, из России в том числе. Результаты его могут быть использованы правительствами стран-участников для анализа работы и усовершенствования образовательной системы. В тесте школьникам предлагается решать самые разные задания — математические, физические, на понимание финансовых отношений. Подробное описание этого тестового испытания, трактовка его результатов и прочие относящиеся к нему материалы есть в Интернете. Но в 2012, году впервые за более чем столетнюю историю массового тестирования участникам, 15-летним школьникам предлагалось решить интерактивную компьютерную задачу на обследование новой системы. Это были новый виртуальный плеер неизвестной системы, а также новый кондиционер. Участники должны были поэкспериментировать с этой системой без инструкции, установить некоторые ее свойства и дальше решить практические задачи.


Вот и проблема

И тут обнаружилась интересная и принципиально важная проблема. Одно из заданий теста было открытым, креативным, изобретательским. Участник должен был усовершенствовать плеер, чтобы им можно было пользоваться с помощью не трех кнопок, а только двух, причем без потери функциональности. Чтобы оценить результат, разработчики заранее составили список стандартных творческих ответов, с которым затем должны были сверяться проверяющие. Стандартный список творческих ответов — вещь в значительной мере противоречивая; он возможен лишь отчасти и лишь при наличии большой статистики. Что касается данной задачи, то анализ показал, что есть потенциально бесконечное количество решений. Некоторые из них вполне очевидны, просты и многим известны из практики работы на компьютере, например – одновременный нажим на две кнопки или двойной клик по кнопке вместо одиночного. Некоторые же решения сложны как шифр к сейфу. В целом любая комбинация действий (в том числе длинная и неочевидная комбинация) может кодировать функцию отсутствующей третьей кнопки. Ведь описываемый плеер — это модель конечного автомата, который позволяет создавать неограниченное количество произвольных комбинаций, ведущих к результату. И какие-то из них (простые или сложные) могут быть особенно интересными, но их никто не оценит, поскольку они не вошли в стандартный список, имеющийся у проверяющего.

Ограничивать оценку креативности имеющимся списком нехорошо хотя бы по следующим соображениям. Как показывает история изобретательской деятельности, изобретения в самых разных областях нередко делались как раз тогда, когда список возможных решений всем уже казался исчерпанным.

Общая проблема тестирования творчества такова. Тестирование — это стандартная процедура обследования по заданному набору параметров, а суть творчества — это выход за рамки заданного известного, полет над барьерами. Получается, что тест творчества — это своего рода интеллектуальная ловушка, это такая комбинация, в которой и инструмент исследования, и изучаемое свойство чувствуют себя максимально дискомфортно. Стандарт измерения творчества должен предполагать и некий стандарт ответов испытуемого, которые должны под этот самый стандарт подпадать. Американский психолог российского происхождения Евгений Матусов называет креативность, измеряемую тестами, одомашненной креативностью, а не реальной. Почему это все важно? Получается, что какой-нибудь 15-летний школьник будущего уровня Ландау или Тьюринга вполне мог бы получить ноль баллов за исследование новой компьютерной системы и за предложение путей ее совершенствования просто потому, что тот ответ, который он предложил, не содержится в заранее составленном списке так называемых творческих ответов разработчиков. Диагностика истинно творческой личности требует от психодиагноста не меньшего творческого масштаба, и фактически тестирование превращается в творческий диалог.

Среди тестов умственного развития появляются новые — например, тест рационального мышления К. Становича и его исследовательской группы, построенный на идее недостаточности классических тестов интеллекта. К. Станович подчеркивает, что человек с высоким баллом по тесту интеллекта почему-то необязательно принимает умные решения, а вот человек с высоким баллом по тесту рационального мышления будет предсказуемо принимать умные решения. К теме новых появляющихся тестов мы обратимся в следующих статьях.

Разные разности
Наука и техника на марше
В машиностроении сейчас наблюдается оживление. И то, о чем пойдет речь в этой заметке, это лишь малая толика новинок в области специального транспорта, который так необходим нам для освоения гигантских территорий нашей страны.
Пишут, что...
…даже низкие концентрации яда крошечного книжного скорпиона размером 1–7 мм (Chelifer cancroides) убивают устойчивый больничный микроб золотистый стафилококк… …скрученные углеродные нанотрубки могут накапливать в три раза больше энергии на еди...
Мамонты с острова Врангеля
Остров Врангеля открыл в 1707 году путешественник Иван Львов. А в конце XX века на острове нашли останки мамонтов. Их анализ показал, что эти мамонты дольше всего задержались на Земле. Но почему же они все-таки исчезли?
Марс: больше ударов метеоритов, чем предполагалось
Каждый год на Землю падает около 17 тысяч метеоритов. Замечаем мы их редко, потому что большинство из них сгорают в атмосфере Земли. Интересно, а как дела обстоят на Марсе, где атмосфера в сто раз тоньше и более разреженная? Значит ли это, что н...