Система анализа тональности текста на телугу на основе нового пассивно-агрессивного классификатора с нечетким взвешиванием

Обложка

Цитировать

Полный текст

Аннотация

Обработка естественного языка (NLP) — это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1.

Об авторах

Д. Джанардана Найду

Институт технологий и менеджмента Ганди

Автор, ответственный за переписку.
Email: jana.766@gmail.com
Ганди Нагар, Рушиконда -

M. Сешашаяи

Институт технологий и менеджмента Ганди

Email: smaruvad@gitam.edu
Ганди Нагар, Рушиконда -

Список литературы

  1. Chowdhary K.R., Chowdhary K.R. Natural language processing. Fundamentals of artificial intelligence. 2020. pp. 603–649.
  2. Eisenstein J. Introduction to natural language processing. MIT Press. 2019. 536 p.
  3. Raina V., Krishnamurthy S., Raina V., Krishnamurthy S. Natural language processing. Building an Effective Data Science Practice: A Framework to Bootstrap and Manage a Successful Data Science Practice. 2022. pp. 63–73.
  4. Nguyen H.V., Tan N., Quan N.H., Huong T.T., Phat N.H. Building a Chatbot System to Analyze Opinions of English Comments. Informatics and Automation. 2023. vol. 22. no. 2. pp. 289–315. doi: 10.15622/ia.22.2.3.
  5. Qiu X., Sun T., Xu Y., Shao Y., Dai N., Huang X. Pre-trained models for natural language processing: A survey. Science China Technological Sciences. 2020. vol. 63. no. 10. pp. 1872–1897.
  6. Song L., Xin C., Lai S., Wang A., Su J., Xu K. CASA: Conversational aspect sentiment analysis for dialogue understanding. Journal of Artificial Intelligence Research. 2022. vol. 73. pp. 511–533.
  7. Wang Y., Chen Q., Ahmed M.H., Chen Z., Su J., Pan W., Li Z. Supervised Gradual Machine Learning for Aspect-Term Sentiment Analysis. Transactions of the Association for Computational Linguistics. 2023. vol. 11. pp. 723–739.
  8. Liu B. Sentiment analysis and opinion mining. Springer Nature, 2022. 167 p.
  9. Talaat A.S. Sentiment analysis classification system using hybrid BERT models. Journal of Big Data. 2023. vol. 10. no. 1. pp. 1–18.
  10. Hoang M., Bihorac O.A., Rouces J. Aspect-based sentiment analysis using Bert. Proceedings of the 22nd nordic conference on computational linguistics. 2019. 187–196.
  11. Bataa E., Wu J. An investigation of transfer learning-based sentiment analysis in Japanese. arXiv preprint arXiv:1905.09642. 2019.
  12. Lv H., Liu J., Wang H., Wang Y., Luo J., Liu Y. Efficient hybrid generation framework for aspect-based sentiment analysis. Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. 2023. pp. 1007–1018.
  13. Chen C., Teng Z., Wang Z., Zhang Y. Discrete opinion tree induction for aspect-based sentiment analysis. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 2022. vol. 1. pp. 2051–2064.
  14. Esuli A., Sebastiani F. Determining the semantic orientation of terms through gloss classification. Proceedings of the 14th ACM international conference on information and knowledge management. 2005. pp. 617–624.
  15. Cambria E., Havasi C., Hussain A. SenticNet 2: A semantic and affective resource for opinion mining and sentiment analysis. Proceedings of the Twenty-Fifth International Florida Artificial Intelligence Research Society Conference. 2012. pp. 202–207.
  16. Xiaomei Z., Jing Y., Jianpei Z., Hongyu H. Microblog sentiment analysis with weak dependency connections. Knowledge-Based Systems. 2018. vol. 142. pp. 170–180.
  17. Appel O., Chiclana F., Carter J., Fujita H. Successes and challenges in developing a hybrid approach to sentiment analysis. Applied Intelligence. 2018. vol. 48. pp. 1176–1188.
  18. Yin C., Chen S., Yin Z. Clustering-based Active Learning Classification towards Data Stream. ACM Transactions on Intelligent Systems and Technology. 2023. vol. 14. no. 2. pp. 1–18.
  19. Naseri S., Dalton J., Yates A., Allan J. CEQE to SQET: A study of contextualized embeddings for query expansion. Information Retrieval Journal. 2022. vol. 25. no. 2. pp. 184–208.
  20. Sobkowicz P., Kaschesky M., Bouchard G. Opinion mining in social media: Modeling, simulating, and forecasting political opinions in the web. Government information quarterly. 2012. vol. 29. no. 4. pp. 470–479.
  21. Hu Y.H., Chen Y.L., Chou H.L. Opinion mining from online hotel reviews–a text summarization approach. Information Processing and Management. 2017. vol. 53. no. 2. pp. 436–449.
  22. Yousfi S., Rhanoui M., Mikram M. Comparative study of CNN and LSTM for opinion mining in long text. Journal of Automation, Mobile Robotics and Intelligent Systems. 2020. pp. 50–55.
  23. Ethnologue Languages of the World [online]. Available at: https://www.ethnologue.com/statistics/size (accessed 01.09.2023).
  24. Sultana J., Rani M.U., Farquad M.A.H. Knowledge discovery from recommender systems using deep learning. International Conference on Smart Systems and Inventive Technology (ICSSIT). 2019. pp. 1074–1078.
  25. Sultana J., Jilani A.K. Predicting breast cancer using logistic regression and multi-class classifiers. International Journal of Engineering and Technology. 2018. vol. 7. no. 4(20). pp. 22–26.
  26. Sultana J., Nagalaxmi G. How Efficient is Apriori: A Comparative Analysis. International Journal of Current Engineering and Scientific Research. 2015. pp. 2393–8374.
  27. Naidu R., Bharti S.K., Babu K.S., Mohapatra R.K. Sentiment analysis using telugu sentiwordnet. International Conference on Wireless Communications, Signal Processing and Networking (WiSPNET). 2017. pp. 666–670.
  28. Garapati A., Bora N., Balla H., Sai M. SentiPhraseNet: An extended SentiWordNet approach for Telugu sentiment analysis. International Journal of Advance Research, Ideas and Innovations in Technology. 2019. vol. 5. no. 2. pp. 433–436.
  29. Koppula N., Rani B.P., Srinivas Rao K. Graph-based word sense disambiguation in Telugu language. International Journal of Knowledge-based and Intelligent Engineering Systems. 2019. vol. 23. no. 1. pp. 55–60.
  30. Sultana J. Telugu News Data Classification Using Machine Learning Approach. Handbook of Research on Advances in Data Analytics and Complex Communication Networks. 2022. pp. 181–194.
  31. Janardana Naidu G., Seshashayee M. Sentiment analysis for Telugu text using cuckoo search algorithm. Smart Computing Techniques and Applications: Proceedings of the Fourth International Conference on Smart Computing and Informatics. 2021. vol. 2. pp. 253–257.
  32. Suryachandra P., Venkata P., Reddy S. Machine Learning Approach to Classify the Sentiment Value of Natural Language Processing in Telugu Data. Journal of Engineering and Applied Sciences. 2020. vol. 15. pp. 3593–3598.
  33. Tammina S. A hybrid learning approach for sentiment classification in Telugu language. International Conference on Artificial Intelligence and Signal Processing (AISP). 2020. pp. 1–6.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».