Ontology of computer-based testing in learning

Alexander V. Solovov; Соловов Александр Васильевич; Anastasia A. Menshikova; Меньшикова Анастасия Александровна

doi:10.18287/2223-9537-2025-15-2-228-238

Ontology of computer-based testing in learning

作者: Solovov A.V.¹, Menshikova A.A.¹
隶属关系:
1. Samara University (Samara National Research University named after academician S.P. Korolev)
期: 卷 15, 编号 2 (2025)
页面: 228-238
栏目: APPLIED ONTOLOGIES OF DESIGNING
URL: https://journal-vniispk.ru/2223-9537/article/view/316479
DOI: https://doi.org/10.18287/2223-9537-2025-15-2-228-238
ID: 316479

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

The article considers the scientific and methodological foundations of computer-based testing in learning. The structure of tests in training and assessment exercises is defined and substantiated based on didactic requirements. Typical scenarios and screen forms of using training and assessment exercises are described, with examples from an electronic textbook and the publisher's electronic library system. It is shown that tests should be structured and grouped into sets according to the levels of assimilation of educational material. Recommendations are given for the preparation and use of tests at each level of assimilation, along with examples of tests with selective answers. Algorithms for computer-based testing with both fixed and variable numbers of tests in a set presented to students are proposed. The expediency of using "tickets" – predefined test sets - for final assessments is shown. A preliminary evaluation of modern neural networks' capabilities in generating computer-based tests is conducted, and recommendations for their application are provided. The problem of fraud in computer-based testing, particularly through the use of neural network "cheat sheets" is discussed. The use of electronic tutors is proposed, where computer-based testing serves as a diagnostic assessment tool in the learning process, offering individualized support to each student.

关键词

training, quality control, computer tests, digital learning resources, feedback, artificial intelligence

全文:

Введение

Информационные технологии, адаптивное обучение и инструментальные средства активно используются для повышения эффективности, доступности и индивидуализации образовательного опыта [1, 2]. Компьютерное тестирование (КТ) продолжает находиться в центре внимания цифровых технологий в обучении [3-9]. Разработаны технологические инструменты для КТ при создании и применении электронных учебников [6, 10], Интернет-платформы для массовых открытых онлайн-курсов (МООК)¹. Некоторые издательства учебной литературы тиражируют учебные пособия и предоставляют доступ к электронным версиям пособий с КТ по отдельным разделам и пособию в целом (см., например, [11]).

Цель данной статьи – исследование научно-методических основ КТ. В работе используются методы системного и онтологического анализов [12, 13], педагогической психологии и дидактики, а также опыт авторов в области теории и технологий электронного обучения.

1. Общие требования к тестам

При разработке цифровых обучающих ресурсов (ЦОР) значительная часть работы приходится на создание тестов для тренирующих и контрольных упражнений. Тренирующее упражнение – это тест, сопровождаемый внутренней обратной связью (ОС) [6], контрольное упражнение – тест, не сопровождаемый внутренней ОС. Подготовка тестов требует высокого педагогического мастерства от преподавателя-разработчика. Для каждого ключевого понятия учебного материала в ЦОР необходимо придумать задания для его усвоения и контроля, расположить и ранжировать их, выбрать форму упражнений (с выборочными и/или конструируемыми ответами), подготовить эталоны ответов и предусмотреть типовые ошибки.

Структуру теста можно представить в следующем виде: Тест = Задание + Эталон. Если в тесте отсутствует эталон, то невозможно провести диагностику и измерение при контроле, сформировать внутреннюю ОС для тренировочных упражнений.

Выделяют пять общих требований к тестам [14]: валидность; определённость (общепонятность); простота; однозначность; надёжность.

Различают содержательную и функциональную валидность: первая – это соответствие теста содержанию учебного материала, вторая – соответствие теста оцениваемому уровню усвоения учебного материала.

Выполнение требования определённости теста необходимо для понимания каждым обучающимся того, что он должен выполнить, и для исключения правильных ответов, отличающихся от эталона.

Требование простоты теста означает, что тест должен иметь одно задание одного уровня усвоения, т.е. не должен состоять из нескольких заданий разного уровня усвоения.

Однозначность определяется как одинаковость оценки качества выполнения теста разными экспертами. Для этого используется следующая характеристика: К = Р1/Р, где Р1 — количество правильно выполненных операций в тесте (наборе тестов); Р — общее количество операций в тесте (наборе тестов). При К ³ 0,7 можно считать, что цель обучения на данном уровне достигнута, и можно переходить, если необходимо, к тестам следующего уровня [15].

Понятие надёжности тестирования определяют как вероятность правильного измерения величины К. Количественный показатель надёжности rÎ[0, 1]. Требование надёжности заключается в обеспечении устойчивости результатов многократного тестирования одного и того же испытуемого. Надёжность теста (набора тестов) растёт с увеличением количества операций P [16].

3. Типовые сценарии и экранные формы компьютерного тестирования

Дидактическая ниша ЦОР, в которых используется КТ, – теоретическая подготовка обучающихся (первоначальное знакомство, восприятие, осмысление и закрепление учебного материала) [6]. КТ в этих ЦОР применяют в учебной деятельности для тренировки по теории (рисунок 1) и для контроля по теории (рисунок 2).

Рисунок 1 – Схема взаимодействия обучающихся и объектов компьютерного тестирования в тренировке по теории

Рисунок 2 – Схема взаимодействия обучающихся и объектов компьютерного тестирования в контроле по теории

Тренировка по теории. Только в ходе собственной активной деятельности обучающегося может быть достигнута главная дидактическая цель применения ЦОР – осмысление учебного материала, его интериоризация и запоминание. Эта цель достигается в ходе интерактивного взаимодействия обучающегося с объектами КТ (см. рисунок 1). В этой схеме после ответа на вопрос и получения сообщения о его правильности обучающийся может посмотреть правильный ответ, комментарий к ответу (например, ход решения задачи), теорию к вопросу из соответствующего раздела учебного материала (рисунок 3).

Рисунок 3 – Пример экранной формы тренировки по теории в электронном учебнике по механике [6]

Контроль по теории. КТ используют для промежуточного или итогового контроля уровня усвоения теории в ЦОР соответственно по отдельным разделам или по всему учебному материалу. Сценарий контроля включает составление предоставление обучающимся необходимого набора тестов. Процесс тестирования заключается в предъявлении обучающемуся тестовых заданий в определённой последовательности (см. рисунок 4).

Рисунок 4 – Примеры экранных форм компьютерного тестирования в контроле по теории: а – в системе КАДИС [6]; б – в электронной библиотечной системе издательства «Юрайт» [11]

По окончании КТ обучающемуся предоставляется протокол тестирования, где он может увидеть количество набранных баллов, полученную оценку, список пройденных вопросов. Для каждого теста предусматривается возможность сравнить ответ, данный в ходе тестирования, с правильным ответом. В случае неудовлетворительной оценки целесообразно предъявлять протокол контроля (рисунок 5а). Предусматривается разделение результатов по темам с возможностью вернуться к повторному изучению материала (рисунок 5б).

Рисунок 5 – Примеры экранных форм протокола контроля. а – в системе КАДИС [6]; б – в электронной библиотечной системе издательства «Юрайт» [11]

Информация о результатах тренировки и контроля по теории записывается в журнал успеваемости. Программы управления журналом обеспечивают сортировку «цифровых следов» обучающихся по различным признакам, проведение статистического анализа для выявления «трудного» и «лёгкого» учебного материала (рисунок 6).

Рисунок 6 – Примеры экранных форм журнала успеваемости [6]

3. Структурирование тестов по уровням усвоения

При подготовке тестов целесообразно структурировать их в отдельные наборы по уровням усвоения с использованием таксономий дидактических целей [15-18]. В данной работе структуризация тестов проводится по трём уровням усвоения в классификации [15].

Тесты первого уровня (знакомство) – это репродуктивная деятельность с помощью (с внешней опорой). В приведённых примерах (рисунок 7) внешней опорой являются представленные явно объекты, по которым задаются вопросы (приведены в основном примеры тестов по программированию).

Рисунок 7 – Примеры тестов первого уровня

Тесты второго уровня (воспроизведение) – это воспроизведение ранее усвоенной информации по памяти, от точной копии до применения в типовых ситуациях (рисунок 8).

Рисунок 8 – Примеры тестов второго уровня

Тесты третьего уровня (применение): обучающийся способен самостоятельно воспроизводить и преобразовывать усвоенную информацию для обсуждения известных фактов и продуцирования о них субъективно новой (для него) информации, а также для применения её в нетиповых (реальных) ситуациях.

Нетиповые задачи в процессе обучения могут переходить в разряд типовых задач (второй уровень усвоения). Другие учебные задачи могут всегда оставаться нетиповыми, например, формулировка проектной задачи в терминах математического программирования. Проектирование сложного объекта разделяется на ряд проектных подзадач. Декомпозиция общей задачи на частные всегда является нетиповой ситуацией (третий уровень усвоения).

Различают тип и форму теста. Тип теста связан с уровнем усвоения (см. рисунки 7, 8): опознание, различение, классификация – типы тестов первого уровня; тесты подстановки, конструктивные тесты, типовые задачи – типы тестов второго уровня; нетиповые задачи – тесты третьего уровня. Тип теста определяется характером мыслительной деятельности, которую должен выполнить обучающийся при решении теста.

Форма теста определяется его представлением. Современные инструментальные средства для создания ЦОР позволяют строить тесты с выборочными и/или конструируемыми ответами. Часто применяются тесты с выборочными ответами. Они просты в подготовке (не нужно создавать множество эталонов правильных ответов, обеспечить полноту которого крайне затруднительно) и в использовании.

Тесты с выборочными ответами нередко связывают только с первым уровнем усвоения. Это распространённое дидактическое заблуждение является результатом поверхностного суждения. Если обучающийся сначала конструирует ответ, вспоминая ранее усвоенную информацию, либо применяя её для решения типовой или нетиповой задачи, и после этого выбирает ответ из представленных вариантов, то это тест соответственно второго или третьего уровня усвоения. Поэтому при подготовке теста с выборочными ответами необходимо чётко представлять (реконструировать) вид мыслительной деятельности, которую будет выполнять обучающийся при его решении.

Последовательность уровней усвоения в тренировке по теории. Порядок применения тестов для диагностики и последующей корректировки знаний предполагает продвижение от низших уровней усвоения к высшим [15-17]. С развитием в педагогике методики «перевёрнутого класса» [18], последовательность применения тестов в тренировке по теории может быть иной – сначала тесты верхнего уровня, затем – тесты более низкого уровня.

Наблюдения авторов за работой студентов с электронными учебниками показывают, что часть студентов начинает тренировку по теории с тестовых заданий верхних уровней усвоения, переходя, если необходимо, к заданиям более низкого уровня, возвращаясь назад к верхним уровням и т.д. Исследования эффективности процессов электронного обучения показывают, что свободное сканирование по учебному материалу даёт более высокий рост результатов на уровне применения знаний при решении нетиповых задач [6].

4. Алгоритмы контроля

Для промежуточного контроля по отдельным разделам изучаемого учебного материала возможны полная и/или частичная (обычно с использованием элементов случайности) выборка тестовых заданий из набора тестов контролируемого раздела. Рассматриваются два алгоритма контроля при частичной выборке: с фиксированным числом тестов в наборе (ФЧТ) и с переменным (адаптивным) числом тестов (ПЧТ).

При контроле по схеме с ФЧТ каждому учащемуся предъявляется определённое количество контрольных упражнений в наборе тестов, созданном случайным образом из всей совокупности упражнений тестов. Исходными данными для контроля с ФЧТ являются: Q – количество тестовых заданий в наборе, E – минимальное количество баллов для оценки «отлично», G – для оценки «хорошо», S – для оценки «удовлетворительно».

Алгоритм контроля с ФЧТ можно представить в виде ориентированного графа, состоящего из пяти вершин (рисунок 9а).

Рисунок 9 – Графы алгоритмов контроля: а – с фиксированным числом тестов; б – с переменным числом тестов

Величины B, E, G, S вычисляются по формулам: B=åB_iV_i; E=K_EB_maxåV_i; G=K_GB_maxåV_i; S=K_SB_maxåV_i, где i изменяется от 1 до Q; V_i – вес теста, V_iÎ[0, 1]; B_max – предельное число баллов за тест, принятое в шкале контроля (например: 1, 5, 10 и т.п.); B_i - оценка в баллах за тест, B_iÎ[0,B_max]; K_E, K_G, K_S – коэффициенты, определяющие нижние границы оценок (отлично, хорошо, удовлетворительно) соответственно (обычно K_E=0,9; K_G=0,8; K_S=0,7).

При адаптивном контроле с ПЧТ заранее известно лишь начальное, минимальное количество контрольных упражнений в наборах тестов, предъявляемых обучающимся. Если ответы обучающихся неверны, то добавляются дополнительные задания. Их количество зависит от степени правильности ответов – чем хуже отвечает обучающийся, тем больше он получает заданий.

Алгоритм адаптивного контроля с ПЧТ, используемый авторами для экспресс-контроля готовности обучающихся к лабораторным работам, показан на рисунке 9б. В этом алгоритме предельное число баллов за тест, принятое в шкале контроля, Bmax=5, веса всех тестов Vi одинаковы и равны единице, K_E = 0.9, т.е Е'=4,5Q'.

В тренировке по теории также можно использовать ПЧТ. Исходными данными для управления здесь являются: минимально необходимое количество упражнений Qmin и две пороговые величины уровня усвоения (см. рисунок 9б).

Для итогового контроля целесообразно использовать «билеты» – наборы сформированных тестовых заданий. Такой подход позволяет представить все разделы учебного материала, составить примерно равноценные по содержанию и трудности наборы тестовых заданий.

5. Искусственный интеллект в компьютерном тестировании

Эксперименты по подготовке компьютерных тестов с помощью искусственного интеллекта (ИИ) проводились с использованием нейросети (НС) ChatGPT-4o-mini².

НС способна создавать несколько (5-8) тестов для заданного небольшого фрагмента текста. Если учебный материал структурирован на отдельные небольшие разделы (в пределах экрана компьютера), то такое разбиение текста вполне вписывается в ограничения НС. Но возможно (менее удобно) произвольное разбиение больших текстов на доступные для НС фрагменты. При этом производительность вполне приемлема – отклик на запрос практически мгновенный.
Для тестов с выборочными ответами НС генерирует тесты с четырьмя вариантами ответов (рисунок 10). Опыт авторов показывает, что предпочтительней было бы минимум пять ответов.
Оценка вариантов ответов бинарна (верно/неверно), что не всегда удобно. Нередко целесообразно иметь более дифференцированные оценки за ответы.
ChatGPT – это языковая НС. Она генерирует тесты для текстового учебного материала и не может генерировать или обрабатывать изображения.
ChatGPT обучена на англоязычных источниках по дидактике. Поэтому она знает лишь о таксономии [17] и может генерировать тесты по уровням этой таксономии. Однако можно «заказывать» генерацию тестов по уровням таксономии [15] (воспроизведение и применение), совпадающим с уровнями таксономии [17] (соответственно запоминание и применение).

Рисунок 10 – Пример теста, сгенерированного в ChatGpt по фрагменту текста из [11]

Таким образом, современные НС могут помочь в создании тестов, учитывая, что процесс подготовки тестов является самым трудоёмким этапом в разработке ЦОР. Ограничения относятся к тестам с изображениями. Развитие НС, распознающих визуальные образы, позволяет надеяться на прогресс в подготовке тестов с графическими иллюстрациями.

ИИ пользуется популярностью у студентов. Существует много онлайн-источников по оказанию услуг с помощью НС, в т.ч. и для решения тестов. Преподавательское сообщество тревожит применение НС в качестве своего рода «шпаргалок». Предлагаются, в частности, этические правила применения ИИ [19, 20]. Генеративный ИИ «может создать зону комфортного уровня доверия между студентами и технологией (особенно по мере того, как она становится более надёжной и интегрируется в повседневные продукты), где баланс риска и вознаграждения может склонить многих студентов к лёгким, а затем и к более серьёзным нарушениям академической честности» [21].

Заключение

В разработке ЦОР наиболее трудоёмкая часть работы, требующая высокой педагогической квалификации, приходится на создание компьютерных тестов. При подготовке тестов целесообразно структурировать их в отдельные наборы тестов по трём уровням усвоения: знакомство, воспроизведение, применение. В ходе тренировки по теории допустимо свободное сканирование учащихся по уровням усвоения, подобно методике «перевёрнутого класса».

Информацию о результатах тренировочных и контрольных процедур КТ необходимо записывать как внешнюю обратную связь в журнал успеваемости, при этом программы управления журналом должны обеспечивать сортировку «цифровых следов» учащихся по различным признакам, проведение статистического анализа для выявления «трудного» и «лёгкого» учебного материала.

Для промежуточного контроля по теории могут быть использованы алгоритмы КТ с ФЧТ и ПЧТ в наборе, предъявляемом обучающемуся. Для итогового контроля целесообразно применять «билеты» – наборы тестов, сформированных в определённом количестве и в определённой последовательности.

Компьютерный тест должен включать задание и эталон его выполнения, удовлетворять общим требованиям к тестам. Современные НС позволяют автоматизировать процесс подготовки тестов для текстового учебного материала.

¹ Yurchenko A. 9 best massive online course (MOOC) Platforms. ITSM4U.RU. 2023. https://itsm4u.ru/9moocplatform.

² ChatGPT (от англ. Generative Pre-trained Transformer). Свободно распространяемая в России версия ChatGPT-4o-mini. https://mashagpt.ru/chat.

作者简介

Alexander Solovov

Samara University (Samara National Research University named after academician S.P. Korolev)

编辑信件的主要联系方式.
Email: a_solovov@mail.ru
ORCID iD: 0000-0001-6288-820X
Scopus 作者 ID: 57222040521

PhD

俄罗斯联邦, Samara

Anastasia Menshikova

Samara University (Samara National Research University named after academician S.P. Korolev)

Email: nastya.menshikova@gmail.com
ORCID iD: 0000-0001-8201-7065
Scopus 作者 ID: 57222036809
Researcher ID: H-6847-2017

Ph.D.

俄罗斯联邦, Samara

参考

Dneprovskaya NV, Yankovskaya EA, Shevtsova IV. Conceptual foundations of the concept of smart education. [In Russian]. Open education. 2015; 6(113): 43-51.
Solovov AV, Menshikova AA. Transformation of the Ontology of Education: From the Classroom Lesson System to Smart Innovations. [In Russian]. Ontology of designing. 2022; 12, 4(46): 470-480. doi: 10.18287/2223-9537-2022-12-4-470-480.
Teaching machines and complexes: Handbook / Under the general editorship of A.Y. Savelyev. [In Russian]. Ki-ev: Vyshcha shk. Main Publishing House. 1980. 303 p.
Training of personnel in the field of CAD: Automated training systems, educational and research CAD and other teaching tools: Bibliographic index of domestic and foreign literature for 1984-1988. [In Russian]. Moscow: Cen-tral Polytechnic Library. 1989. 71.
Solovov AV, Menshikova AA. Discrete mathematical models in the study of automated learning processes. [In Russian]. Information technologies. 2001; 12: 43–48.
Solovov AV. E-Learning: Problems, Didactics, Technology. [In Russian]. Samara: New Book. 2006. 464.
Konnova LP, Lipagina LV, Postovalova GA. Designing digital educational resources. [In Russian]. Financial Uni-versity under the Government of the Russian Federation, Department of Mathematics. Moscow: Limited Liability Company "Prometheus Publishing House". 2022. 268.
Gvozdev AS, Melentyev VS, Leykovsky IF. Comparative assessment of approaches to training of bachelor's stu-dents in aircraft engine designs [In Russian]. Ontology of designing. 2025; 15, 1(55): 82-95. doi: 10.18287/2223-9537-2025-15-1-82-95.
Aizikovich AA, Rychina NA. Implementation of Some Approaches to Testing Students. [In Russian]. Educational Technology & Society / International Electronic Journal. 2017; 20, 1: 417-423.
Solovov AV. Technological means of e-learning. [In Russian]. Moscow: Information and Telecommunication Technologies in Education. 2008. 40.
Solovov AV, Menshikova AA. Aircraft Design: Fundamentals and classics of typical solutions. [In Russian]. Mos-cow: Limited Liability Company "URAIT Publishing House". 2021. 385.
Krechetnikov KG. Methodology of Designing, Quality Assessment and Application of Information Learning Technologies. [In Russian]. Moscow: Izd-vo Gos. Id. center inf. Tech. 2001. 244.
Borgest NM. System and Ontological Analysis: Similarities and Differences between the Concepts. [In Russian]. Ontology of designing. 2024; 14, 1(51): 9-28. doi: 10.18287/2223-9537-2024-14-1- 9-28.
Anastasi A. Psychological testing. [In Russian]. Moscow: Pedagogy Publ., 1982, 1. 320.
Bespalko VP. Fundamentals of the theory of pedagogical systems. [In Russian]. Voronezh: Voronezh Publishing House University. 1977. 303.
Belkin EL. Didactic Foundations of Management of Cognitive Activity in the Conditions of Application of Tech-nical Means of Learning. [In Russian]. Yaroslavl: Verkh.-Volzh. Kn. Izd-vo. 1982. 107.
Bloom BS, Engelhart MD, Furst EJ. Taxonomy of educational objectives: The classification of educational goals. David McKay Company, 1956. Handbook I: Cognitive domain.
Anderson LW. et al. A Taxonomy for Learning, Teaching, and Assessing. A Revision of Bloom’s Taxonomy of Educational Objectives. Pearson Education. 2001.
Bezugly TA, Ershova ME. The Use of Text Neural Networks and Artificial Intelligence in the Educational Works of Students. [In Russian]. Problems of Modern Education. 2023. 5: 206-216. doi: 10.31862/2218-8711-2023-5-206-216.
Nikolic S, Sandison C, Haque R, Daniel S, Grundy S, Belkina M, … Neal P. ChatGPT, Copilot, Gemini, SciSpace and Wolfram versus higher education assessments: an updated multi-institutional study of the academic integrity impacts of Generative Artificial Intelligence (GenAI) on assessment, teaching and learning in engineering. Aus-tralasian Journal of Engineering Education, 2024: 1–28. doi: 10.1080/22054952.2024.2372154.
Popenici S. The critique of AI as a foundation for judicious use in higher education. Journal of Applied Learning & Teaching, 2023. 6(2). doi: 10.37074/jalt.2023.6.2.4.

补充文件

附件文件

动作

1. JATS XML

下载

2. Figure 1 – Scheme of interaction between students and computer-based training (CT) objects in theory training

下载 (134KB)

索引源数据

3. Figure 2 – Scheme of interaction between students and CT objects in theoretical assessment

下载 (137KB)

索引源数据

4. Figure 3 – An example of a screen form of theoretical training in an electronic textbook on mechanics [6]

下载 (283KB)

索引源数据

5. Figure 4 – Examples of screen forms of CT in theoretical assessment: a – in the KADIS system [6]; b – in the electronic library system of the Yurayt publishing house [11]

下载 (598KB)

索引源数据

6. Figure 5 – Examples of screen forms of the assessment protocol: a – in the KADIS system [6]; b – in the electronic library system of the Yurayt publishing house [11]

下载 (684KB)

索引源数据

7. Figure 6 – Examples of screen forms of the progress journal [6]

下载 (304KB)

索引源数据

8. Figure 7 – Examples of Level 1 Tests

下载 (112KB)

索引源数据

9. Figure 8 – Examples of Level 2 Tests

下载 (151KB)

索引源数据

10. Figure 9 – Graphs of the assessment algorithms: a – with FNT; b – with PNT