Автоматическая обработка текстов; тематическая сегментация учебных текстов


Цитировать

Полный текст

Аннотация

Статья посвящена проблеме автоматического количественного определения сложности и тематической сегментации текстов. Дана краткая характеристика положения дел в данной области, показано, что существующие формулы расчета индекса читабельности являются жанрозависимыми и утрачивают достоверность при их использовании для текстов другого жанра. На основе корпуса учебных текстов и анализа количественных параметров авторы предлагают новый способ анализа соответствия текста лингвистическим способностям школьников. Исследование осуществлено на материале УМК Spotlight 11, общий объем корпуса составил 38 текстов с суммарным объемом 12891 словоупотреблений. В качестве методов использованы тематическая сегментация, компонент-анализ, метод статистического анализа, в работе применялись формулы читабельности Флеш - Кинкейда для англоязычных текстов, программы автоматизированной обработки текстов Coh-Metrix, WebFX, MonkeyLearn. Оценка сложности текстов показала, что динамика текстов с заданиями такова: на ознакомительное чтение - от более сложных к менее сложным (-0.2); на просмотровое чтение - от менее сложных к более сложным (+0.4); в текстах на полное понимание прочитанного индекс сложности поднялся на 5.2. Тематическая сегментация, осуществленная при помощи программы Monkey Learn, выявила лексику 15 тем, которые в течение учебного года предлагаются учащимся для изучения в среднем 3-5 раз. Наиболее частотной является тема Humanities (гуманитарные науки), обращение к которой выявлено в 9 модулях. Показательно, что к темам Gardening (садоводство), Computers & Internet (компьютер и интернет), Science & Mathematics (наука и математика), Entertainment & Recreation (развлечения) авторы учебника обращаются только в одном модуле.

Об авторах

Марина Ивановна Солнышкина

Казанский (Приволжский) федеральный университет

Email: mesoln@yandex.ru
доктор филологических наук, профессор кафедры «Теория и практика преподавания иностранных языков». Россия, 420008, г. Казань, ул. Кремлевская, 18

Искандер Энгелевич Ярмакеев

Казанский (Приволжский) федеральный университет

Email: ermakeev@mail.ru
доктор педагогических наук, профессор кафедры «Билингвальное и цифровое образование» Россия, 420008, г. Казань, ул. Кремлевская, 18

Эльзара Василовна Гафиятова

Казанский (Приволжский) федеральный университет

Email: rg-777@yandex.ru
кандидат филологических наук, доцент кафедры «Теория и практика преподавания иностранных языков». Россия, 420008, г. Казань, ул. Кремлевская, 18

Фарида Хамисовна Исмаева

Казанский (Приволжский) федеральный университет

Email: fismaeva@yandex.ru
кандидат филологических наук, доцент кафедры «Иностранные языки». Россия, 420008, г. Казань, ул. Кремлевская, 18

Список литературы

  1. 1. Русский язык как иностранный и методика его преподавания: сб. научн. тр. Вып. 28 / Редкол.: Е.И. Зиновьева, Н.А. Любимова (отв. ред.), Л.В. Московкин и др. - СПб.: РОПРЯЛ, 2017. - 160 с. [Электронный ресурс]. - Режим доступа: http://rki.spbu.ru/documents/sbornik2017.pdf (дата обращения 11.04.2017).
  2. 2. Милованов К. Методы интердискурсивной адаптации текста в СМИ с использованием его формальных характеристик // Культурологический журнал. - 2015. - № 2(20) [Электронный ресурс]. - Режим доступа: https://goo.gl/CBofsL (дата обращения 11.04.2017).
  3. 3. Микк Я.А. Методика измерения трудности текста // Вопросы психологии. - 1975. - № 3.- С. 147-155.
  4. 4. Микк Я.А. Факторы, определяющие время прочтения слова в связанном тексте // Вопросы психологии. - 1979. - № 3. - С. 125-128.
  5. 5. Микк Я.А. Оптимизация сложности учебного текста. - М.: Просвещение, 1981. - 119 с.
  6. 6. Сидорова М.Ю. Лингвистическая экспертиза школьных учебников // Метапредметный подход в образовании: русский язык в школьном и вузовском обучении разным предметам: сб. статей Межрегион. науч-практ. конф. (М., 19 апреля 2018). - М.: Российский учебник, 2018. - С. 49-64 [Электронный ресурс]. - Режим доступа: https://elibrary.ru/item.asp?id=36672498 (дата обращения 11.06.2018).
  7. 7. Оборнева И.В. Автоматизированная оценка сложности учебных текстов на основе статистических параметров: автореф. дис. … канд. пед. наук. - М., 2006. - 19 с. [Электронный ресурс]. - Режим доступа:https://www.dissercat.com/content/avtomatizirovannaya- otsenka-slozhnosti-uchebnykh-tekstov-na-osnove-statisticheskikh-parametr (дата обращения 11.04.2017).
  8. 8. Глушань В.М. Компьютерный анализ сложности текстов учебно-методических разработок как средство повышения качества обучения [Электронный ресурс]. - Режим доступа: https://elibrary.ru/item.asp?id=26028726 (дата обращения 25.04.2017).
  9. 9. Солнышкина С.И., Кисельников А.С. Сложность текста: этапы изучения в отечественном прикладном языкознании // Вестник ТГУ. Филология. - № 6(38). - 2015. - С. 86-100.
  10. 10. Solov’ev V., Ivanov V., Solnyshkina M. Assessment of reading difficulty levels in Russian academic texts: Approaches and metrics // Journal of Intelligent & Fuzzy Systems. 2018. Vol. 34. Is. 5. Pp. 3049-3058.
  11. 11. Майер Р.В. Определение уровня абстрактности, сложности и информативности различных тем школьного учебника физики // Психология, социология и педагогика. - 2013. - № 2 [Электронный ресурс]. - Режим доступа: http://psychology.snauka.ru/2013/02/1813 (дата обращения: 08.02.2018).
  12. 12. Уша Т.Ю. Язык школьного учебника: проблема понимания учащимся-инофоном учебного текста, терминологической лексики, формулировок заданий // Теория и практика общественного развития. - 2015. - № 15 [Электронный ресурс]. - Режим доступа: http://teoria-practica.ru/rus/files/arhiv_zhurnala/2015/15/pedagogics/usha.pdf (дата обращения: 08.02.2019).
  13. 13. Устинова Л.В., Адекенова А.Н., Литвинова О.В. Проверка сложности выпускных работ учащихся и студентов на основе статистических параметров // Молодой ученый. - 2015.- № 8. - С. 148-152 [Электронный ресурс]. - Режим доступа:https://moluch.ru/archive/88/16986/ (дата обращения: 28.02.2018).
  14. 14. Webcache [Электронный ресурс]. - Режим доступа:http://webcache.googleusercontent.com/search?q=cache:46AZDFGrSJoJ:www.ras.ru/FStorage /Download.aspx%3Fid%3D17d4378e-749c-45f1-84c8-812282c9b24d+&cd=15&hl=ru&ct=clnk&gl=ru
  15. 15. ФИОКО [Электронный ресурс]. - Режим доступа: https://fioco.ru/results_PISA_2015 (дата обращения: 20.02.2018).
  16. 16. ТАСС [Электронный ресурс]. - Режим доступа: https://tass.ru/obschestvo/5301919 (дата обращения: 20.02.2018).
  17. 17. Автоматическая обработка текстов на естественном языке и анализ данных: Учеб. пособие / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич, А.С. Сапин. - М.: Изд-во НИУ ВШЭ, 2017. - 269 с.
  18. 18. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Учеб. пособие / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова. - М.: МИЭМ, 2011. - 272 с.
  19. 19. Аношин П.И. Автоматический анализ текстов. Синтаксический и семантический анализ // Евразийский научный журнал. - 2017. - № 6. - С. 15.
  20. 20. Comparative Analysis about the Degree of text Complexity of Korean and Chinese Intermediate Korean textbooks - based on Internal Factors of texts [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/322205569_Comparative_Analysis _about_the_Degree_of_Text_Complexity_of_Korean_and_Chinese_Intermediate_Korean_Textbooks_-_based_on_Internal_Factors_of_Texts-, https://www.researchgate.net/publication/220746039_Automatic_Assessment_of_Japanese_Te xt_Readability_Based_on_a_Textbook_Corpus, http://wordsandmonsters.com/research/pdf/Japanese_high_school_textbook.pdf (дата обращения: 20.02.2018)
  21. 21. Al-Khalil M., Saddiki H., Habash N., Alfalasi L. A Leveled Reading Corpus of Modern Standard Arabic Muhamed [Электронный ресурс]. - Режим доступа:https://www.aclweb.org/anthology/L18-1366 (дата обращения: 20.06.2018).
  22. 22. Solnyshkina M.I., Zamaletdinov R.R., Gorodetskaya L.A. Evaluating text complexity and Flesch-Kincaid grade level // Journal of Social Studies Education Research. 2017. Vol. 8. Is. 3. Pp. 238-248.
  23. 23. Fisher D., Lapp D., Frey N. Homework in Secondary Classrooms: Making It Relevant and Respectful [Электронный ресурс]. - Режим доступа: https://s3-us-west-1.amazonaws.com/fisher-and-frey/documents/homework_jaal.pdf (дата обращения:15.05.2018).
  24. 24. Using Coh-Metrix to Assess Cohesion and Difficulty in High School Textbooks [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/248260617_Using_Coh-Metrix_to_Assess_Cohesion_and_Difficulty_in_High- School_Textbooks (дата обращения: 20.02.2018).
  25. 25. “STABLE GENIUS” - Let’s Go to the Data [Электронный ресурс]. - Режим доступа:https://factba.se/blog/2018/01/08/stable-genius-lets-go-to-the-data (дата обращения:20.02.2018).
  26. 26. Philip M. McCarthy, Gwyneth A. Lewis, David F. Dufty, Danielle S. McNamara. Analyzing Writing Styles with Coh-Metrix [Электронный ресурс]. - Режим доступа: https://aaai.org/Papers/FLAIRS/2006/Flairs06-151.pdf (дата обращения: 20.02.2018).
  27. 27. Language in Law: Using Coh-Metrix to assess differences between American and English/Welsh language varieties [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/303288858_Language_in_law_Using_Coh- Metrix_to_assess_differences_between_American_and_EnglishWelsh_language_varieties (дата обращения: 17.04.2017).
  28. 28. Gabitov A.I., Solnyshkina M.I., Shayakhmetova L.Kh., Ilyasova L.G. Text Complexity In Russian Textbooks On Social Studies // Revista Publicando. 2017. Vol. 4. Is. 13. Pp. 597-606.
  29. 29. CohMetrix [Электронный ресурс]. - Режим доступа: http://cohmetrix.com (дата обращения: 20.04.2017).
  30. 30. Вычегжанин С.В. Анализ тональности текстов на основе ДСМ-метода. - Киров, 2013. - С. 16.
  31. 31. Солнышкина М.И., Кисельников А.С. Параметры сложности экзаменационных текстов // Вестник Волгоградского государственного университета. Сер. 2: Языкознание. - 2015. - № 1(25). - С. 99-107.
  32. 32. Интегративный подход в обучении младших школьников [Электронный ресурс]. - Режим доступа: integrativnyy-podhod-v-obuchenii-mladshih-shkolnikov (дата обращения:20.02.2018).
  33. 33. Английский язык, 11 класс: Учебник для общеобраз. учреждений / О.В. Афанасьева, Дж. Дули, И.В. Михеева и др. - М.: Просвещение, 2009. - 244 с.
  34. 34. Бахтин М.М. Литературно-критические статьи. - М.: Художественная литература, 1986.- 428 с.
  35. 35. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы: Учеб. пособие. - М.: Академия, 2006. - 304 с.
  36. 36. Dowell N. Analyzing Language and Discourse With Coh-Metrix. Workshop Presented at 2 nd Learning Analytics Summer Institutes (LASI 2014) / N. Dowell, Z. Cai & A.C. Graesser. Cambridge (MA), 2014. 84 p. Electronic text data. Mode of access: https://drive.google.com/file/d/0B-xloTsxGxlGcEw1RmNGTUtnSnc/edit (дата обращения:25.04.2017).
  37. 37. Graesser A.C., McNamara D.S., Louwerse M.M. What do readers need to learn in order to process coherence relations in narrative and expository text. In A.P. Sweet and C.E. Snow (Eds.), Rethinking reading comprehension: New York: Guilford Publications, 2003. Pp. 82-98.
  38. 38. Coltheart. The MRC Psycholinguistic Database. Quarterly Journal of Experimental Psychology. 1981. 33A. Pp. 497-505.
  39. 39. MonkeyLearn [Электронный ресурс]. - Режим доступа: https://monkeylearn.com/topic-analysis (дата обращения: 25.04.2017).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Солнышкина М.И., Ярмакеев И.Э., Гафиятова Э.В., Исмаева Ф.Х., 2019

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».