Application of logistic regression in epidemiology: primary data, stratification and moving average

Cover Page

Cite item

Abstract

Background: Logistic regression is the most commonly used method for establishing statistical relationships between quantitative predictors X and a dichotomous response Y (Y=0 or Y=1). Therefore, it is relevant to develop new approaches to the analysis of relationships between X and Y of this type.

Aim: To demonstrate the specific characteristics of the application of stratification, moving average and cumulative probability function methods in the construction and analysis of logistic regression models in the context of health risk assessment.

Materials and methods: The analysis of logistic regression models employs a range of statistical methods, including the stratification, moving average, cumulative probability function, goodness-of-fit tests, and proportion comparison tests.

Results: It is shown that the standard stratification methods are not sufficient for exploring the nature of the relationships between dichotomous Y and quantitative X. Additional methods, including moving average and cumulative likelihood function, facilitate the identification of features characterizing these relationships. The utility of graphical representations of logistic regression results in elucidating the statistical relationships between variables X and Y is demonstrated. The efficacy of the stratification, moving average and cumulative probability function methods is illustrated by examples from the field of epidemiology.

Conclusion: The combination of moving average and cumulative probability function methods with stratification enables the reliable identification of the nature of the relationship between dichotomous Y and quantitative X, as well as the potential for deviations from the conditions of applicability of logistic regression models.

About the authors

Anatoly N. Varaksin

Institute of Industrial Ecology, Ural Branch of the Russian Academy of Sciences

Author for correspondence.
Email: varaksin@ecko.uran.ru
ORCID iD: 0000-0003-2689-3006
SPIN-code: 9910-2326

Dr. Sci. (Physics and Mathematics), Professor

Russian Federation, Ekaterinburg

Yulia V. Shalaumova

Institute of Plant and Animal Ecology, Ural Branch of the Russian Academy of Sciences

Email: jvshalaumova@gmail.com
ORCID iD: 0000-0002-0173-6293
SPIN-code: 3163-6856

Cand. Sci. (Engineering)

Russian Federation, Ekaterinburg

Tatyana A. Maslakova

Institute of Industrial Ecology, Ural Branch of the Russian Academy of Sciences

Email: t9126141139@gmail.com
ORCID iD: 0000-0001-6642-9027
SPIN-code: 3233-7652

Cand. Sci. (Physics and Mathematics)

Russian Federation, Ekaterinburg

References

  1. Ayvazyan SA, Yenyukov IS, Meshalkin LD. Applied statistics. Addiction research. Moscow: Finansy i statistika; 1985. 487 p. (In Russ.)
  2. Ayvazyan SA, Buchstaber VM, Yenyukov IS, Meshalkin LD. Applied statistics. Classification and reduction of dimensionality. Moscow: Finansy i statistika; 1989. 606 p. (In Russ.)
  3. Afifi AA, Azen SP. Statistical analysis. A computer oriented approach. Moscow: Mir; 1982. 488 p. (In Russ.)
  4. Siegel AF. Practical business statistics. Irwin: McGraw-Hill; 1999. 800 p.
  5. Hosmer D, Lemeshow S. Applied logistic regression. New York: Wiley & Sons; 2000. 373 p.
  6. Shoukri MM, Pause CA. Statistical methods for health sciences. Boca Raton: CRC Press; 1999. 384 p.
  7. Afifi AA, May S, Clark V. Computer-aided multivariate analysis. Boca Raton: Chapman&Hall/CRC; 2003. 512 p.
  8. Peng C-YJ, Lee KL, Ingersoll GM. An introduction to logistic regression. Analysis and reporting. J. Educational Research. 2002;96(1):3–14. doi: 10.1080/00220670209598786
  9. Wooldridge JM. Introductory econometrics: a modern approach. Mason: South-Western; 2009. 865 p.
  10. Schmidt CO, Kohlmann T. When to use the odds ratio or the relative risk? Int J. Public Health. 2008;53(3):165–167. doi: 10.1007/s00038-008-7068-3
  11. Bakhtereva EV, Shirokov VA, Varaksin AN, Panov VG. Assessing the risk of carpal tunnel syndrome exposure occupational factors. Ural Medical Journal. 2015;(10):9–13. EDN: VLMSTX
  12. Varaksin AN, Bakhtereva EV, Panov VG, et al. Risk factors for neurological diseases development in workers of Urals industrial plants: prognostic models based on discriminant analysis. Ecological Systems and Devices. 2016;(5):27–33. EDN: WMATKB
  13. Mikhelson AA, Lazukina MV, Varaksin AN, et al. Erosion of the vaginal mucosa in postmenopausal women with surgical correction of genital prolapse. Treatment and prevention. 2020;10(4);55–64. EDN: ZCTUDM
  14. Mikhelson AA, Lazukina MV, Varaksin AN, et al. Effects of preoperative preparation on the vaginal mucosa in women with genital prolapse associated with genitourinary menopausal syndrome. Acta Scientific Women's Health. 2023;5(4):83–97. doi: 10.31080/ASWH.2023.05.0494 EDN: UWBRGC
  15. Varaksin AN, Shalaumova YuV, Maslakova TA, et al. Application of moving average methods for the construction of regression models in medical and environmental research. Ecological Systems and Devices. 2020;(6):12–21. doi: 10.25791/esip.06.2020.1159 EDN: XTBFAV
  16. Maksimov DM, Maksimova ZV. Prevalence of smoking and hazardous drinking among industrial workers in the Sverdlovsk region. Ekologiya cheloveka (Human Ecology). 2021;28(3):34–41. doi: 10.33396/1728-0869-2021-3-34-41 EDN: ICGEPK
  17. Kretova IG, Vedyasova OA, Komarova MV, Shiryaeva OI. Analysis and forecasting of reserve capabilities of the organism of students according to indices of heart rate variability. Hygiene and Sanitation. 2017;96(6):556–561. doi: 10.18821/0016-9900-2017-96-6-556-561 EDN: ZAPEEB
  18. Konyrtaeva NN, Ivanov SV, Kausova GK, et al. Leech therapy in kazakhstan: patients’ characteristics and compliance with treatment. Ekologiya cheloveka (Human Ecology). 2016;23(2):42–48. doi: 10.33396/1728-0869-2016-2-42-48 EDN: VQGTMZ
  19. Kharkova OA, Grjibovski AM. Analysis of one and two independent samples using STATA software: parametric tests. Ekologiya cheloveka (Human Ecology). 2014;21(3):57–61. EDN: RYIEZL
  20. Tukey JW. Exploratory data analysis. Moscow: Mir; 1981. 693 p. (In Russ.)
  21. Glantz S. Primer of biostatistics. New York: McGraw-Hill; 1992. 440 p.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Raw (obs) data for Y (Y=0 or Y=1 for each of 100 patients, open circles) and the probability of cardiovascular diseases W(CVD)calc, calculated based on logistic regression data (solid circles).

Download (89KB)
3. Fig. 2. Data on cardiovascular diseases in eight age strata: a, probability W; b, logit(W). The solid circles represent the logistic regression results (calc). The open circles represent the stratification results (obs).

Download (132KB)
4. Fig. 3. Probability W of cardiovascular disease (CVD) depending on age: Stratification of 100 patients in the paper by Hosmer and Lemeshow [5] into 10 strata, each with an equal number of patients. For designations, see Fig. 2.

Download (72KB)
5. Fig. 4. Cardiovascular disease (CVD) data based on moving averages depending on the mean age in strata; averaging window nW=10 (open circles): a, probability W; b, logit(W). The solid circles represent logistic regression results.

Download (156KB)
6. Fig. 5. Cardiovascular disease (CVD) data based on stratification of 820 workers into 10 strata with an equal number of workers per stratum using body mass index (BMI): a, probability W; b, logit(W). For designations, see Fig. 2.

Download (138KB)
7. Fig. 6. Cumulative probability function for cardiovascular diseases (CVD) depending on body mass index (BMI): a, for 820 workers, b, initial region for BMI values < 26 kg/m2.

Download (149KB)
8. Fig. 7. Probability W of cardiovascular diseases (CVD) based on the stratification results shown in Table 1.

Download (72KB)
9. Fig. 8. Data on thyroid diseases: a, probability W based on the stratification of 100 patients into 10 strata (open circles), solid circles represent logistic regression results; b, relationship of probability W with body mass index (BMI) for moving averages (moving average window + 21, total of 80 strata).

Download (135KB)

Copyright (c) 2025 Eco-Vector

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
 


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».