Preview

Advanced Engineering Research (Rostov-on-Don)

Расширенный поиск

Сравнение моделей машинного обучения для прогнозирования коронавируса

https://doi.org/10.23947/2687-1653-2022-22-1-67-75

Аннотация

Коронавирус, также известный как COVID-19, впервые обнаружен в Ухане (Китай) в декабре 2019 г. Он представляет собой семейство вирусов, начиная от простуды и заканчивая тяжелым острым респираторным синдромом (ТОРС). Симптомы такого вируса схожи с симптомами простуды или сезонных заболеваний. Как и другие респираторные вирусы, он в основном передается воздушно-капельным путем во время кашля или чихания. Поэтому распознавание COVID-19 требует тщательного лабораторного анализа, а сокращение ресурсов распознавания является серьезной научной задачей. Всемирная организация здравоохранения (ВОЗ) 11.03.2020 объявила COVID-19, вызванный SARS-CoV-2, пандемией, поскольку во всем мире произошел экспоненциальный рост числа случаев заболеваний, а спрос на интенсивные койки и соответствующие структуры намного превысил существующие возможности. Первыми примерами этому являются регионы Италии. Бразилия зарегистрировала первый случай SARS-CoV-2 26.02.2020. Передача вируса в этой стране очень быстро перешла от завезенных случаев к местным и, наконец, общинным миссиям, а федеральное правительство Бразилии объявило о национальной общинной передаче 20.03.2020. В штате Сан-Паулу с населением около 12 млн человек, где находится больница Альберта Эйнштейна, по состоянию на 23.03.2020 зарегистрировано 477 случаев заболевания и 30 связанных с ними смертей, а 27.03.2020 имели место уже 1223 случая COVID-19 с 68 сопутствующими смертями. Для замедления распространения вируса в штате Сан-Паулу были введены карантин и меры социального дистанцирования. Одним из мотивов этой проблемы является тот факт, что в контексте обширной системы здравоохранения с возможным ограничением тестирования SARS-CoV-2 нецелесообразно тестировать каждый случай, а результаты тестов могут быть использованы при проверке только целевой субпопуляции. Целью работы является построение на основе машинного обучения модели, способной прогнозировать обнаружение SARS-CoV-2 по медицинским данным. Для этого проводится сравнение различных классификационных моделей машинного обучения и определяется лучшая из них с целью прогнозирования коронавирусов. Сравнение основано на лицах в классе 1, т. е. с положительным тестом. Поэтому необходимо определить модель машинного обучения с лучшим отзывом и F1-баллом для класса 1.

Материалы и методы. За основу принят набор данных с открытым исходным кодом из израильской больницы Альберта Эйнштейна в Сан-Паулу. Для исследования использованы модели машинного обучения: RandomForests (RF), K-ближайший сосед (KNN), Машина опорных векторов (SVM), Логистическая регрессия (LR), Дерево решений (DT) и AdaBoost (AB), а также 10-временная техника перекрестной проверки. Проведена оценка некоторых показателей производительности машинного обучения, таких как точность, отзыв и оценка F1.

Результаты исследования. Из 5644 человек, протестированных во время пандемии COVID-19, 5086 человек дали отрицательный результат и 558 человек — положительный. При этом поддержка машинных векторов показала лучшие результаты в обнаружении коронавируса с отзывом — 75 % и оценкой F1 — 60 % по сравнению с моделями: Random drill, KNN, LR, AB и DT.

Обсуждение и заключение. Установлено, что при использовании алгоритмов AB достигается большая точность, однако стабильность алгоритма LSVM является более высокой. Поэтому его можно рекомендовать как полезный нструмент для выявления COVID-19.

Об авторах

К. А. Бру
Российский университет дружбы народов
Россия

Бру Куамэ Амос, аспирант кафедры «Информационные технологии»

117198, г. Москва, Миклухо-маклая 6



И. В. Смирнов
Российский университет дружбы народов
Россия

Иван Валентинович Смирнов, доцент кафедры «Информационные технологии», кандидат физико-математических наук, доцент

117198, г. Москва, Миклухо-маклая 6



М. М. Эрманн
Российский университет дружбы народов
Россия

Мабу Моисе Эрманн, аспирант кафедрой «Информационных Технологий»

117198, г. Москва, Миклухо-маклая 6



Список литературы

1. Zhou P, Yang XL, Wang XG, et al. A pneumonia outbreak associated with a new coronavirus of probable bat origin. Nature. 2020;579:270–273. https://doi.org/10.1038/s41586-020-2012-7

2. Wu F, Zhao S, Yu B, et al. A new coronavirus associated with human respiratory disease in China. Nature. 265–269. https://doi.org/10.1038/s41586-020-2008-3

3. World Health Organization Coronavirus Disease 2019 (COVID-19) Situation Report-97. Available from: https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200426-sitrep-97-covid-19.pdf

4. Wang C, Horby PW, Hayden FG, et al. A novel coronavirus outbreak of global health concern. Lancet. 2020;395:470–473. https://doi.org/10.1016/S0140-6736(20)30185-9

5. Hui DSC, Zumla A. Severe acute respiratory syndrome: historical, epidemiologic, and clinical features. Infect Dis Clin North Am. 2019;33:869–889. https://doi.org/10.1016/j.idc.2019.07.001

6. Azhar EI, Hui DSC, Memish ZA, et al. The Middle East respiratory syndrome (MERS). Infect Dis Clin North Am. 2019;33:891–905. https://doi.org/10.1016/j.idc.2019.08.001

7. Corman VM, Muth D, Niemeyer D, et al. Hosts and sources of endemic human coronaviruses. Adv Virus Res. 2018;100:163–188. https://doi.org/10.1016/bs.aivir.2018.01.001

8. Andersen KG, Rambaut A, Lipkin WI, et al. The proximal origin of SARS-CoV-2. Nat Med. 2020;26:450–452. https://doi.org/10.1038/s41591-020-0820-9

9. Almazán F, Sola I, Zuñiga S, et al. Coronavirus reverse genetic systems: infectious clones and replicons. Virus Res. 2014;189:262–270. https://doi.org/10.1016/j.virusres.2014.05.026

10. Nao N, Yamagishi J, Miyamoto H, et al. Genetic predisposition to acquire a polybasic cleavage site for highly pathogenic avian influenza virus hemagglutinin. mBio. 2017;8:e02298. http://dx.doi.org/10.1128/mBio.02298-16

11. Huang C, Wang Y, Li X, et al. Clinical features of patients infected with 2019 novel coronavirus in Wuhan, China. Lancet. 2020;395:497–506. https://doi.org/10.1016/S0140-6736(20)30183-5

12. Wang D, Hu B, Hu C, et al. Clinical characteristics of 138 hospitalized patients with 2019 novel coronavirus-infected pneumonia in Wuhan, China. JAMA. 2020;323:1061. https://doi.org/10.1001/jama.2020.1585

13. Zhu N, Zhang D, Wang W, et al. A novel coronavirus from patients with pneumonia in China, 2019. N Engl J Med. 2020;382:727–733. https://doi.org/10.1056/NEJMoa2001017

14. Chen N, Zhou M, Dong X, et al. Epidemiological and clinical characteristics of 99 cases of 2019 novel coronavirus pneumonia in Wuhan, China: a descriptive study. Lancet. 2020;395:507–513. https://doi.org/10.1016/S0140-6736(20)30211-7

15. Lippi G, Plebani M. The critical role of laboratory medicine during coronavirus disease 2019 (COVID-19) and other viral outbreaks. Clin Chem Lab Med. 2020;58:1063–1069. https://doi.org/10.1515/cclm-2020-024

16. Bhargava A, Fukushima EA, Levine M, et al. Predictors for severe COVID-19 infection. Clin Infect Dis. 2020;71:1962-1968 https://doi.org/10.1093/cid/ciaa674

17. Wang CZ, Hu SL, Wang L, et al. Early risk factors of the exacerbation of coronavirus disease 2019 pneumonia. J Med Virol. 2020;91:2593-2599 https://doi.org/10.1002/jmv.26071

18. Hamming I, Timens W, Bulthuis ML, et al. Tissue distribution of ACE2 protein, the functional receptor for SARS coronavirus. A first step in understanding SARS pathogenesis. J Pathol. 2004;203:631–637. https://doi.org/10.1002/path.1570

19. Renu K, Prasanna PL, Valsala Gopalakrishnan A. Coronaviruses pathogenesis, comorbidities and multiorgan damage — a review. Life Sci. 2020;255:117839. https://doi.org/10.1016/j.lfs.2020.117839

20. Long B, Brady WJ, Koyfman A, et al. Cardiovascular complications in COVID-19. Am J Emerg Med. 2020;38 :1504-1507 https://doi.org/10.1016/j.ajem.2020.04.048

21. Ruan Q, Yang K, Wang W, et al. Clinical predictors of mortality due to COVID-19 based on an analysis of data of 150 patients from Wuhan, China. Intensive Care Med. 2020;46:846–848. https://doi.org/10.1007/s00134-020-05991-x

22. Lippi G, Favaloro EJ. D-dimer is associated with severity of coronavirus disease 2019: a pooled analysis. Thromb Haemost. 2020;120:876–878. http://dx.doi.org/10.1055/s-0040-1709650

23. Lang J, Yang N, Deng J, et al. Inhibition of SARS pseudovirus cell entry by lactoferrin binding to heparan sulfate proteoglycans. Plos One. 2011;6:e23710. https://doi.org/10.1371/journal.pone.0023710

24. Vicenzi E, Canducci F, Pinna D, et al. Coronaviridae and SARS-associated coronavirus strain HSR1. Emerging Infect Dis. 2004;10:413–418. https://doi.org/10.3201/eid1003.030683

25. Belen-Apak FB, Sarialioglu F. The old but new: can unfractioned heparin and low molecular weight heparins inhibit proteolytic activation and cellular internalization of SARSCoV2 by inhibition of host cell proteases? Med Hypotheses. 2020;142:109743. https://doi.org/10.1016/j.mehy.2020.109743

26. Henry BM, Benoit SW, Santos de Oliveira MH, et al. Laboratory abnormalities in children with mild and severe coronavirus disease 2019 (COVID-19): a pooled analysis and review. Clin Biochem. 2020;81:1–8. https://doi.org/10.1016/j.clinbiochem.2020.05.012

27. Sanna G, Serrau G, Bassareo PP, et al. Children’s heart and COVID-19: Up-to-date evidence in the form of a systematic review. Eur J Pediatr. 2020;179:1079-1087 https://doi.org/10.1007/s00431-020-03699-0

28. Leung NHL, Chu DKW, Shiu EYC, et al. Respiratory virus shedding in exhaled breath and efficacy of face masks. Nature Med. 2020;26:676–680. https://doi.org/10.1038/s41591-020-0843-2

29. Abdi MJ, Giveki D. Automatic detection of erythemato-masquamous diseases using PSO-SVM based on association rules. Technical applications of artificial intelligence. 2013;26:603-608. https://doi.org/10.1016/j.engappai.2012.01.017

30. McDonald JH. Handbook of Biological Statistics, 3rd ed. Sparky House Publishing: Sparky House Publishing; 2014.

31. Mangiafico SS. An R companion for the handbook of biological statistics, 1.3.3 ed. New Brunswick, NJ: Rutgers Cooperative Extension; 2015.


Рецензия

Для цитирования:


Бру К.А., Смирнов И.В., Эрманн М.М. Сравнение моделей машинного обучения для прогнозирования коронавируса. Advanced Engineering Research (Rostov-on-Don). 2022;22(1):67-75. https://doi.org/10.23947/2687-1653-2022-22-1-67-75

For citation:


Amos B.K., Smirnov I.V., Hermann M.M. Comparison of machine learning models for coronavirus prediction. Advanced Engineering Research (Rostov-on-Don). 2022;22(1):67-75. https://doi.org/10.23947/2687-1653-2022-22-1-67-75

Просмотров: 811


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2687-1653 (Online)