On Computational Efficiency of Knowledge Extraction by Probabilistic Algorithms

Cover Page

Cite item

Full Text

Abstract

The paper demonstrates computational efficiency of probabilistic approach to knowledge extraction through binary similarity operation. In addition to previously proved by the author the result on sufficiency of a polynomial number of hypotheses on causes of investigated target property, the paper contains a polynomial upper bound on mean working time of the algorithm to generate a single candidate for hypothesis. The proven result concerns a family of algorithms based on coupled Markov chains. To obtain a good estimate for the length of the trajectory (before entering the ergodic state) of such a chain, we needed to enrich the training sample by adding negative columns for existing binary features.

About the authors

Dmitry V. Vinogradov

Computer Science and Control Federal Research Center of the Russian Academy of Sciences

Author for correspondence.
Email: KRRGuest@yandex.ru

Doctor of Physical and Mathematical Sciences, Leading Researcher

Russian Federation, Moscow

References

  1. Finn V.K., Anshakov O.M. DSM-metod avtomaticheskogo porozhdeniya gipotez: Logicheskie i epistemologicheskie osnovaniya [JSM Method for Automatic Hypotheses Generation: Logical and Epistemological Foundations]. Moscow: Editorial URSS, 2009.
  2. Mill J.S. A System of Logic. Honolulu: University Press of the Pacific, 2002.
  3. Gusakova S.M., Finn V.K. Shodstva i pravdopodobnyj vyvod [Similarities and Plausible Inference]. Izvestia AN SSSR, Ser. «Technical cybernetics». 1987. No 5. P. 42–63.
  4. Ganter B., Wille R. Formal Concept Analysis: Mathematical Foundations. Berlin: Springer, 1999.
  5. Vinogradov D.V. Random generation of hypotheses in the JSM method using simple Markov chains. Automatic Documentation and Mathematical Linguistics. 2012. No 46(5). P. 221–228.
  6. Kuznetsov S.O. A Fast Algorithm for Computing All Intersections of Objects in a Finite Semi-Lattice, Automatic Documentation and Mathematical Linguistics. 1993. No 27(5). P. 11-21.
  7. Vinogradov D.V. Algebraic Machine Learning: Emphasis on Efficiency. Automation and Remote Control. 2022. No 83(6). P. 831–846.
  8. Kemeny J.G., Snell J.L. Finite Markov chains. New York: Springer, 1976.
  9. Vinogradov D.V. The VKF Method for Data Mining: a Survey of the State of the Art and Open Problems. Scientific and Technical Information Processing. 2018. No 45(6). P. 411–416.
  10. Vinogradov D.V. Markov Chains, Law of Total Probability, and Recurrence Relations. Automatic Documentation and Mathematical Linguistics. 2023. No 57(1). P. 68–72.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».