Двухступенчатая семантическая кластеризация эмбеддингов как альтернатива LDA для инфометрического анализа отраслевых новостей

Обложка

Цитировать

Полный текст

Аннотация

Предметом исследования является разработка и валидация альтернативного подхода к тематическому моделированию текстов, направленного на преодоление ограничений классического латентного размещения Дирихле (LDA). Объектом исследования выступают короткие русскоязычные новостные тексты об атомной энергетике, представленные в виде корпуса «AtomicNews». Авторы подробно рассматривают такие аспекты темы, как влияние разреженности на качество тематического моделирования, проблемы интерпретируемости тем и ограничения априорной фиксации числа тем. Особое внимание уделяется геометрической интерпретации семантики текстов, в частности, преобразованию лексических единиц в пространство предобученных эмбеддингов и последующей кластеризации с целью формирования документных тематических профилей. Исследование фокусируется на сравнительном анализе нового метода и LDA по метрикам когерентности, перплексии и тематического разнообразия. Предлагаемый подход направлен на создание интерпретируемой, вычислительно лёгкой и устойчивой к шуму модели, пригодной для онлайнового мониторинга новостных потоков. Методология исследования основана на двухступенчатом семантическом сглаживании – эмбеддинг-репрезентации лемм с помощью Sentence-BERT и агломеративной косинусной кластеризации с последующим применением K-means к тематическим профилям документов. Научная новизна исследования заключается в разработке и эмпирическом обосновании схемы тематического моделирования, заменяющей вероятностную генерацию слов на геометрическое сглаживание эмбеддингов. Предложенный подход отказывается от предпосылок «мешка слов» и фиксированного числа тем, формируя тематические координаты документов через плотностные кластеры в семантическом пространстве. Это позволяет повысить интерпретируемость тем, снизить чувствительность к разреженности текстов и избежать коллапса распределения тем в коротких сообщениях. Эксперименты на корпусе «AtomicNews» показали статистически значимое улучшение по сравнению с классической LDA: снижение перплексии на 5 %, рост когерентности тем на 0.15 пункта и увеличение тематического разнообразия. Метод также продемонстрировал вычислительную эффективность – вся процедура занимает секунды на CPU, что делает его пригодным для применения в условиях ограниченных ресурсов. Таким образом, переход от вероятностной декомпозиции к геометрическому анализу эмбеддингов представляет собой перспективное направление в тематическом моделировании отраслевых текстов.

Об авторах

Евгений Александрович Конников

Санкт-Петербургский политехнический университет Петра Великого

Email: konnikov.evgeniy@gmail.com
доцент; институт промышленного менеджмента, экономики и торговли;

Дарья Александровна Крыжко

Санкт-Петербургский политехнический университет Петра Великого

Email: darya.kryz@yandex.ru
доцент; институт промышленного менеджмента, экономики и торговли;

Список литературы

  1. Alattar F., Shaalan K. Emerging research topic detection using filtered-lda // AI. – 2021. – Т. 2. – № 4. – С. 578-599.
  2. Kim M., Kim D. A suggestion on the LDA-Based topic modeling technique based on ElasticSearch for Indexing Academic Research Results // Applied Sciences. – 2022. – Т. 12. – № 6. – С. 3118.
  3. Qiu M. et al. A topic modeling based on prompt learning // Electronics. – 2024. – Т. 13. – № 16. – С. 3212.
  4. Ogunleye B. et al. Comparison of topic modelling approaches in the banking context // Applied Sciences. – 2023. – Т. 13. – № 2. – С. 797.
  5. Vargas C., Ponce H. Recurrent embedded topic model // Applied Sciences. – 2023. – Т. 13. – № 20. – С. 11561.
  6. Krasnov F., Sen A. The number of topics optimization: Clustering approach // Machine Learning and Knowledge Extraction. – 2019. – Т. 1. – № 1. – С. 25.
  7. Williams L. et al. Topic modelling: Going beyond token outputs // Big Data and Cognitive Computing. – 2024. – Т. 8. – № 5. – С. 44. doi: 10.3390/bdcc8050044 EDN: WGBWYP
  8. Родионов Д. Г. и др. Автоматизированный алгоритм квантификации наиболее вероятного значения региона профессионального становления представителя научно-исследовательского коллектива для целей калькулирования коэффициента мультикультурализма // Экономические науки. – 2021. – № 202. – С. 154-163. doi: 10.14451/1.202.154 EDN: LETTFT
  9. Murakami R., Chakraborty B. Investigating the efficient use of word embedding with neural-topic models for interpretable topics from short texts // Sensors. – 2022. – Т. 22. – № 3. – С. 852. doi: 10.3390/s22030852 EDN: GXMHBG
  10. Koltcov S. et al. Analyzing the influence of hyper-parameters and regularizers of topic modeling in terms of renyi entropy // Entropy. – 2020. – Т. 22. – № 4. – С. 394. doi: 10.3390/E22040394 EDN: KXJCBE
  11. Родионов Д. Г. и др. Тематическое моделирование информационной среды медиакомпаний: инструментальный комплекс LDA-TF-IDF // Мягкие измерения и вычисления. – 2024. – Т. 76, № 3. – С. 72-84. doi: 10.36871/2618-9976.2024.03.006 EDN: COCJYG
  12. Конников Е. А. и др. Методическая детализация процесса моделирования свойств сущностно-содержательного посыла, кодируемого в форме символьных конструктов данных // Экономический вестник. – 2024. – Т. 3, № 2. – С. 8-18.
  13. Cheng H. et al. A neural topic modeling study integrating SBERT and data augmentation // Applied Sciences. – 2023. – Т. 13. – № 7. – С. 4595.
  14. Qiu M. et al. A topic modeling based on prompt learning // Electronics. – 2024. – Т. 13. – № 16. – С. 3212.
  15. Um T., Kim N. A study on performance enhancement by integrating neural topic attention with transformer-based language model // Applied Sciences. – 2024. – Т. 14. – № 17. – С. 7898.
  16. Nanyonga A. et al. Does the Choice of Topic Modeling Technique Impact the Interpretation of Aviation Incident Reports? A Methodological Assessment // Technologies. – 2025. – Т. 13. – № 5. – С. 209.
  17. Родионов Д. Г., Карпенко П. А., Пашинина П. А. Квантификация информационной среды как инструмент инвестиционного анализа // Экономические науки. – 2021. – № 204. – С. 144-153. doi: 10.14451/1.204.144 EDN: FOZMSH
  18. Марков А. К. и др. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов // International Journal of Open Information Technologies. – 2024. – Т. 12. – № 3. – С. 66-77. EDN: TUBOSI
  19. Pais N., Ravishanker N., Rajasekaran S. Supervised Dynamic Correlated Topic Model for Classifying Categorical Time Series // Algorithms. – 2024. – Т. 17. – № 7. – С. 275. doi: 10.3390/a17070275 EDN: JFXYZW
  20. Farkhod A. et al. LDA-based topic modeling sentiment analysis using topic/document/sentence (TDS) model // Applied Sciences. – 2021. – Т. 11. – № 23. – С. 11091.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).