Онлайн курсове
Блог на сайта
Файлът с пълните данни и начина на изготвяне на графиките може да намерите на адрес: https://1drv.ms/x/s!AqgsXg5Kwfwrp2QNtwt275XW6hsp
Да започнем със усреднените по седмици установени с тестове нови случаи.
В червени правоъгълници са заградени точките от графиката, в които имаме нарастване на броя на случаите при всяка от четирите значителни вълни на пандемията. Числата над тези правоъгълници са продължителността в седмици на интервала, в който е продължило нарастването. Първа вълна - 7 седмици, втора вълна - 9, трета - 14. Сега сме в четвъртата седмица на четвъртата вълна. Колко ще продължи тя? Склонен съм да приема за най-вероятно число средно между 7, 9 и 14. Ако вземем 7 - това означава, че очаквам в следващите три седмици ежедневно да чуваме новини за все по-голям брой случаи...
В крайна сметка ще се случи резултатът от поведението на всички - политици, ръководители, всеки от нас; от това кой какво прави сам и какво съветва другите да правят; кои съвети приема и следва; дали пази себе си от зараза и дали пази другите - на работното място, в транспорта, в мястото за забавление, вкъщи...
Следващите графики само ще добавя тук без коментар.
Още една графика и три числа:
Хоризонталната ос на тази графика съответства на броя на активните случаи, а вертикалната на броя на хоспитализираните с COVID-19 пациенти в болниците в България. За построяване на графиката са използвани данни от портала за публични данни data.egov.bg. Точките съответстват на дните - от началото на събирането на данни за пандемията до днес. Ходът на линията, която ги свързва, започвайки от близкото до нулата начало, следва хода на пандемията до максимума на активните случаи към 6.12.2020 г. преминава през намаляване на броя хоспитализирани, продължило до 27.01.2021 г. и последвалото от тогава насам ново постепенно нарастване на хоспитализираните (частта в оранжево).
Именно над последния участък от графиката да се замислим и да го анализираме. Ако приемем, че броят на хоспитализираните е определен процент от активните случаи, то средно този процент е 7.8% (линията от малки сини точки и уравнение). Но започналото след 27.01.2021 г. нарастване следва друг ход - броят на настанените в болници с COVID-19 нараства много по-бързо от преди с нарастването на броя на активните случаи, случващо се сега. Което означава, че носителите на вируса сега вече по-често имат нужда от болнично лечение. Линията на тенденцията (малките оранжеви точки) има коефициент на наклона 0,1592, който означава 15.92% - увеличаване броя на хоспитализираните към увеличението на броя на активните случаи (приблизително двойно по-голям от средния 7.8%).
Изводът е: вирусът (или негови варианти) вече е по-опасен, по-често ще изисква болнично лечение. Ще издържат ли болниците?
Преди няколко дена с удовлетворение открих, че публичен достъп до регистрираните от държавната администрация данни за развитието на пандемията от COVID-19 в България е предоставен през портала за публични данни data.egov.bg. Таблици с данните могат да се свалят от адрес: https://data.egov.bg/covid-19?section=8&subsection=16&item=36 Така отпада необходимостта сам, ръчно, число по-число да въвеждам тези данни от други източници в таблицата с която ги анализирам.
Въпреки, че от 24 януари насам регистрираните на ден нови случаи се отчитат както с PCR тестове, така и с антигенни тестове, то същността на отчитания параметър "регистрирани нови заразени за ден" не се променя и динамиката му във времето може да се проследи от началото на регистрирането му до сега.
Сега искам да представя една графика на периодичен модел от вида:
\( B + A sin[ \frac{2 \pi }{T} (x-D) ] \)
Оранжевата линия изобразява синусоидата, която има най-малка сума от квадрати на разликата между нея и регистрираните данни. Над графиката се виждат стойностите на нейните параметри:
B = 127,8 = 12,78% - отместване на хоризонталната ос на синусоидата, която може да се тълкува като среден процент на положителните тестове за цялото време, за което има данни.
А = 95,8 = 9,85% - амплитуда на периодичните колебания.
T = 127,8 дена - период на колебанията.
D - параметър, който, може би, е коректно да се нарече фазово отместване. Неговата стойност има значение за точната позиция във времето на максимумите или минимумите на синусоидата.
И така графиката показва, че макар към деня с номер 325 (28 януари 2021 г.) да е преминат поредния минимум в процента положителни тестове, то след тази дата е започнал следващия период на нарастване на този процент. Ако повярваме на тази графика и на наличието на отразената в нея периодичност, то следващия максимум се очаква да настъпи към 31 март 2021 г. Дали този максимум ще бъде по-голям или по-малък от предишния не може да се каже. Не може да се каже дали след него, със същата тенденция за периодичност ще последва веднага намаляване.
Друга интересна графика е графиката на осреднените за седмица, регистрирани на ден нови заразени. Поради наблюдаваната седмична периодичност с максимуми в средата на работната седмицата и минимуми в почивните дни, то средната стойност за дните от понеделник до неделя, може да се считат за достатъчно устойчив параметър, от динамиката на която може да се правят изводи за цялостното развитие на пандемията.
Ходът на графиката от последните 4 седмици, показва недвусмислено увеличаване на регистрираните нови заразени...
Нека да посоча без да коментирам и една графика от портала за отворени данни: https://data.egov.bg/covid-19?section=8&subsection=18&item=40
И така, вече цяла година живеем в пандемична обстановка. Стараем се да спазваме мерки, които да пречат на разпространението на вируса, но той, както показва анализа на данните, не дава признаци да отстъпва, а точно обратното. Работа на специалистите е да установят причините за наблюдаваните цифри - нов вариант на вируса, спазването на мерките и да прогнозират как ще повлияят имунизациите.
Всеки, обаче, трябва да приеме, че сме в беда, беда налетяла върху цялото чавечество и за справянето с нея е от значение поведението на всеки. Нетърпеливото очакване за отмяна на всички мерки и връщане към предишния начин на живот не помага. Разумът изисква мобилизация на силите и продължаване на борбата - не чрез възстановяване, а чрез промяна на предишния начин на живот, намерения, планове, норми на поведение. Трябва да вземаме своите решения не така, сякаш от утре няма да има опасен вирус, а така, че да се справим дори и да го има винаги. Приоритет на всеки трябва да е усвояването на нови умения за новата обстановка (макар че продължила цяла година обстановка едва ли може още да се нарича нова) - умения за предпазване при работа и придвижване, умения за работене и учене дистанционно, общуване.
Нашият анализ на публикуваните ежедневно в сайта coronavirus.bg данни, които колекционираме в достъпна в Интернет таблица, показва че през последните дни се наблюдава оптимистична тенденция на намаляване броя на регистрираните ежедневно чрез PCR тестове новозаразени с COVID-19, намаляване броя на активните случаи, на настанените в болници. Ето графиките:
Можем да кажем само, че продължаването на тази положителна тенденция е най-вероятно да се случи при запазване на социалното поведение на хората като спазването на мерки и липсата на събития, които водят до улесняване на разпространението на вируса.
В тази връзка решението на правителството за продължаване на извънредната епидемична обстановка до края на септември е съвсем правилно.
Предстои откриване на учебната година - събитие, водещо до по-продължителни и по-близки контакти между голям брой хора: ученици, студенти, преподаватели, обслужващи ги служители. Едва ли някой може да предскаже какви ще са количествените показатели за епидемията след 15 септември. Отговор на въпроса, поставен в заглавието на тази статия може да се даде само от данните, които ще се регистрират в бъдеще.
Всяка публикувана в coronavirus.bg новина за съобщаване на данни за развитието на епидемията в България съдържа тези или подобни думи, след които следват прости цифри. Цифри, които подложени на събиране и обработка, разкриват картина малко по-широка от изображението на няколкото арабски знака.
Много се надявам, че някъде в държавата има хора, които събират на едно място тези цифри, виждат картината, разкривана от тях и вземат решения какво да се прави, че да не се случи това, които показват цифрите.
Изобразени на графика данните за броя лекувани в лечебни заведения от корона вирус, от 8 април до 1 август 2020 г. в България изглеждат така:
Хоризонталната ос на графиката изобразява номерата на дните от регистрирания период: ден № 25 – 8 април, ден № 150 – 1 август.
Виждат се два ясно изразени, различни по характер забележителности на видимия от графиката ход.
Първо, един малък първи пик от 385 пациенти, на 10 май, следван от успокояващо, намаляване на броя новозаразени, продължило до 4 юни. (За дните от 24 май до 3 юни дори не са съобщавани всеки ден данни за броя на настанените в болници пациенти с COVID-19.)
И второ, много ясно видимо, почти линейно увеличаване на броя на пациентите с COVID-19 в болниците, след 4 юни.
Нарастването на броя след 4 юни има линеен тренд с уравнение:
Y = 10,614 x – 792.33
което означава, че настанените в болници се увеличава с 10 души на ден и логично изниква въпросът: до кога болниците ще са в състояние да поемат пациенти с корона вирус, ако това увеличение е с по 10 хоспитализирани на ден?
Ако сменим модела с квадратичен, ще може да си отговорим на въпроса до кога и до колко. Квадратичният модел е:
y = -0,0153 x2 + 14,164 x - 993,76
Коефициентът пред x2 е отрицателен, което означава, че ще следва максимум (а не ход към безкрайно нарастване), при x = 14,164/(2 0,0153) = 462 ден, съответстващ на дата 14 юни 2021 г. И този максимум ще е 2284.
Надяваме се, че в предстоящите не малко месеци, особено ако натоварването се окаже и по-голямо, системата за болнична помощ ще има готовност и ресурс (не само леглова база) да са справи.
А иначе, вместо подлагане на изпитания на системата на здравеопазването, може да се направи нещо просто, но от всички:
- Ограничаване на контактите
- Носене на маски
- Дезинфекция и миене на ръцете
От 30 април 2020 г. насам на сайта coronavirus.bg ежедневно се публикува броят на направените в България PCR тестове и броят на установените с тези тестове положителни случаи на заразени с COVID-19. Правя си труда да събирам тези данни в една екселска таблица, която може да видите тук. Анализът, който представям по-долу, с още по-актуални за момента, в който решите да отворите таблицата данни, може да намерите върху листа с име "Към 1000 проби".
Ако изчислим за всеки ден стойността по формулата:
\( \Large \frac{n}{M} 1000 \),
в която n е броят на положителните резултати, а M броят на тестовете, то полученото число ще представлява броят на положителните резултати в 1000 теста.
Ако вместо 1000 използваме множител 100, то ще получим процента на положителните резултати.
Нанесени на графика изчислените по формулата стойности изглеждат така:
Нека да обясним, че нанесените по хоризонталната ос номера на дни, съответстват на ден №1 - 10 март, ден №60 - 8 май и №130 - 17 юли.
Синята линия и точки са приведените към 1000 теста положителни резултати.
Правим опит за установяване на общата динамика на дела на положителните резултати в PCR тестовете по два модела: линеен, изобразен със зелената линия и уравнение, и кубичен, изобразен с червената линия и уравнение.
Над графиката се виждат резултатите от пресмятане по две други формули:
Средната стойност 41.28 е установеният по всички налични данни среден брой положителни проби в 1000 теста.
Числото -0,94 е установената по кубичния модел скорост на изменение на дела на положителните резултати на ден, изчислена към днешния ден №131 - 18 юли.
Във връзка с тези стойности нека да кажем следното:
Ако се приеме, че развитието на процеса е линейно, от графиката и уравнението на правата линия се вижда, че делът на положителните проби се увеличава със скорост от 0,42 положителни проби на хиляда на ден, като от началото на наблюденията е нараснал от около 24 до около 60 на хиляда теста.
При кубичен модел, последните дни показват тенденция към намаляване на дела на положителните проби, със скорост, която е първа производна на кубичния модел и по формула:
- 3 . 0,006 x2 + 2 . 0,1862 x - 17,171
при x = 131, има стойност -0,94.
Така че, дали ще продължи тенденцията на увеличаване на ден с по 0,42 положителни проби на хиляда теста или ще се прояви по-бързата тенденция на намаляване с 0,94 на ден, едва ли някой може да предскаже. Сигурно е обаче че, докато за промяна на линейната тенденция на увеличаване ще е необходимо да се случат данни с нисък дял на положителните резултати в продължение на много дни, то за промяната на моментната скорост на намаляване по кубичния модел ще са достатъчни няколко резултата с различен от последните стойности дял на положителните резултати.
Влияние върху намаляването на дела на положителните проби през последните дни може да е оказало увеличаването на тестовете на здрави хора, които пътуват до Гърция, които очаквано дават в по-голяма степен отрицателни резултати. (Обстоятелство, на което ми обръща внимание д-р Виолета Войнова-Георгиева)
Върху тези процеси може да повлияе само поведението на хората в България - ако хората направят по-трудно разпространението на вируса, епидемията ще се развива по-бавно и съответно делът на положителните резултати от PCR тестове ще е по-малък.
Нека да напомня, че изложения анализ се основава на чиста математика, без да използва знания по вирусология и епидемиология, които са науките адекватно изучаващи COVID-19. Отразената в тези анализи картина би била вярна, ако поведението на хората имаше пълно постоянство, лесно отразимо с математически формули, но голямата разлика в изводите направени при същия анализ преди един месец и сега показва, че това далеч не е така.
Повторението на анализите на броя на ежедневно регистрираните нови заразени с COVID-19, от предишните статии (тази и тази), към днешна дата (12 юли 2020 г.) дава следните модели.
Модел на нарастването на броя на регистрираните заразени от вида
\( \Large \frac{A}{1+e^{-b(x-C)}} \):
Стряскащото е, че рязкото ускоряване на увеличаването на броя регистрирани заразени, което наблюдаваме от 9 юни насам, показва, че сме в началото на сигмоидалния ход на процеса. Половината от максималният брой заразени ще бъде достигната на 8 януари 2021 г., а приближаването към максимума от близо 500 000 - към 10 ноември 2021 г.
Изменението на броя на регистрираните ежедневно нови заразени с PCR тестове:
За да се хване по-точно, "първия пик" и последвалата след него тенденция към увеличаване, сменяме предишния квадратичен модел с кубичен.
Периодика на регистрираните ежедневно нови заразени, около, този път, кубичната линия на тренда, отразена с модел от вида \( \large A sin[\frac{2 \pi}{T} (x - D)] \):
Потвърждава се отново седмичната периодичност с период от 6,96 дена и наличието на максимум в четвъртък, при нарастване на амплитудата от 9,5 в предишната статия на 17.8.
Когато възниква проблем - с него не се сблъсква само един човек. Случват се и глобални проблеми, които засягат всички хора, например, COVID-19.
Това означава че и решението на проблема налага обединяване на усилията на много хора, а при глобалните проблеми - на всички. Но случва ли се такова обединяване на усилията?
По скоро става така: едни изобщо не узнават за проблема, други научават за него, но се съмняват: дали изобщо съществува, дали наистина е проблем, колко е сериозен... Не повярвалите в съществуването и сериозността на проблема, го пренебрегват и естествено - не се включват по никакъв начин в неговото решаване, а когато решаването на проблема изисква и от тях определено поведение, те не го следват. Вместо да са помощници за решаването на проблема, пренебрегващите го се превръщат в част от проблема, а поведението им води до неговото задълбочаване.
Други започват да търсят решение според своите познания и способности - едни доброволно по собствено желание и инициатива, други поради служебно задължение. Да видим какво правят тези, които действат? Те много често действат, защото искат да им се зачетат заслуги, да получат одобрение, заплащане, признание, позиции, титли, награди... И при това обстоятелство, възниква въпросът: дали всяко действие е насочено пряко към решаване на проблема или целта на действията е насочена повече към желаното от действащия постижение?
Бързото решаване на проблем изисква: изучаване, предлагане на идеи за решения, работа по проверяване и осъществяване на идеите. А това е свързано с комуникация: който изучава проблема - да споделя резултатите, на който му хрумне идея - да я сподели, който може да провери или работи по реализиране на идея - да го направи. Комуникацията е най-бърза, когато е открита.
Само че... Хората си правят сметки. Аз имам резултати от изследване и затова трябва да бъда признат за велик изследовател, ще публикувам своите данни, когато имам изгода от това. Аз имам идея, но няма да я споделя, защото искам да спечеля от идеята си. Мога да реализирам идея, но трябва някой да ми плати за това...
И какво се получава? Проблемът стои, дори отнема животи, но хората си правят личните сметки и пазарлъци - уж търсят решение, а в действителност се лутат и си пречат. Описаното поведение би било нормално, ако ставаше дума за идея за обикновена стока, бизнес идея или всичко друго, което може да дава предимства на едни, но не застрашава живота на други. Но когато става дума за справяне с епидемия и спасяване на хора, такова поведение вече не е логично и не е приемливо.
Не трябва да не се публикуват научни данни за болест, само за да бъдат анализирани от тези, които ще напишат с данните собствени "научни" трудове.
Не трябва да не се обсъждат публично идеи за справяне с бедствие, все едно тези идеи са търговска тайна и предмет на патенти.
Не трябва да не се действа, защото от някои действия няма изгода.
Та, коренът на бедите е в човешкото сметкаджийство, в търсенето на изгода във всяка ситуация, в премълчаването на истината, в преследването на успеха на всяка цена, в хитростите на дребно, "аз на тебе, ако ти на мене"...
След като в предишната статия, направихме модел на динамиката на общия брой открити заразени с COVID-19 в България с крива сигмоида, сега ще анализираме с помощта на Excel динамиката на регистрираните всеки ден нови заразени.
Данните от източниците, които посочихме в миналата статия, от началото на епидемията до днешния ден, представяме в таблица от вида:
Графиката на тези данни изглежда така:
Да добавим линия на тренда, представляваща квадратична функция:
Избираме квадратична функция поради съображението, че този брой ще има очакван максимум, а квадратичната функция ни осигурява една проста формула на крива с максимум.
Отрицателният коефициент пред втората степен говори за изразена вече тенденция към намаляване скоростта на увеличаване на регистрираните за един ден нови заразени.
Но максимумът на кривата не е достигнат. При получените стойности на коефициентите, този максимум ще бъде на 94-ия ден - 11 юни, със най-вероятна стойност на броя, регистрирани нови заразени за деня 53.
Коефициентите на квадратичната крива на тренда може да получим в три клетки от таблицата, въвеждайки в дадена клетка формула:
=LINEST(E4:E68;D4:D68^TRANSPOSE({1;2});TRUE)
Сега, за да изследваме периодичността на колебанията на дневния брой регистрирани заразени да съставим нова колона от данни, от които е изваден квадратичния тренд. Изобразявайки на графика данните от тази колона, получаваме:
Ще се опитаме да напаснем към тази наглед хаотична редица синусоида по формулата:
\( \large A sin[\frac{2 \pi}{T} (x - D)] \)
Задавайки с налучкване стойности: A=10, T=7 и D=1 след попълване на нова колона от данни, изчислени по тази формула и добавяне към графиката получаваме:
След добавяне на колона за квадратите на грешките от този модел и клетка с формула за сумата от квадратите, чрез инструмента Solver минимизираме сумата от квадратите, при което получаваме нови стойности на въведените параметри:
Както се вижда новите, оптимални стойности не се различават много от налучканите.
Най-интересният резултат от този модел е, че максимумите се разположени в дните от седмицата четвъртък и петък, а минимумите в неделя и понеделник. Иначе просто се потвърждава, че ако има някаква периодичност в регистрирането на нови заразени с COVID-19, периодът е една седмица, напълно естествен период за всички човешки дейности.
Със започване на ежедневното обявяване на данни за брой заболели от корона вирус в България, започнах да си записвам в една таблица на Excel броя на регистрираните през денонощието нови случаи в страната и общия брой заболели към момента. Като човек познаващ до някаква степен възможностите на софтуерните продукти за електронните таблици за онагледяване и анализиране на данни бях любопитен сам да направя някоя и друга графика и да изпробвам някои формули модели.
Понеже се боях, че може да пропусна някой ден и да забравя да запиша новите данни, ми се видя, че е много логично да предположа, че в някоя от официална държавна институция има човек, който прави подобна на моята табличка с данни и по някой от сайтовете на институциите би могла да се намери такава наготово... Все още не успявам да открия такава, вие откривате ли?
Но се намират доброволци, които пишат Wikipedia и там може да се открие:
https://bg.wikipedia.org/wiki/Коронавирусна_болест_2019_в_България#Обща
https://en.wikipedia.org/wiki/Template:COVID-19_pandemic_data/Bulgaria_medical_cases
Има и привърженици на отворения код, които поддържат хранилища като това:
https://github.com/snify/covid-opendata-bulgaria
Така че, цифри има налице.
Да вземем таблицата с данни като:
Започваща с данните от първите съобщения за страната и завършваща с последните към днешен деня данни.
Да започнем с данните за общия брой заразени, а по-късно ще разгледаме и броя на установяваните всеки ден нови заразени. С няколко кликвания на мишката от тези данни се получава графика, която изглежда така:
Логиката ни подсказва, че какъвто и да е броят на новите откривани дневно заразени, тази графика ще върви все нагоре, къде с по-голям, къде с по-малък наклон, но когато епидемията започне да затихва ще стигне едно хоризонтално плато, защото нови заразени ще спрат да се откриват и общия брой заразени ще спре да расте. Една от възможните криви с подобен ход е графиката на функцията:
\( \Large \frac{1}{1+e^{-x}} \)
известна като сигмоида. Графиката на тази функция е разположена в ивицата между 0 и 1 на ординатната ос и има стойност от 1/2 при x=0.
За да се "разтегне" по направление на осите тази крива и да се напасне към група от точки, като на нашата графика, въвеждаме някои коефициенти, които ще подлежат на уточняване:
\( \Large \frac{A}{1+e^{-b(x-C)}} \)
Смисълът на тези коефициенти е:
A - Максималният брой заразени, който ще се достигне когато епидемията затихне.
С - е номерът на денят когато бъде достигнат брой заразени, равен на половината от максималния. Тъй като кривата е симетрична то може да се очаква, че краят на епидемията е денят с номер 2C.
b - е параметър, който определя "разтягането" на процеса във времето, без да му търсим по-нагледна интерпретация.
Ако зададем приблизителни стойности A=2500, C=50, b=0,1, които записваме в три клетки на електронната таблица и в следваща колона на таблицата въведем формули, които за всеки ден пресмятат броя заразени. Може да добавим към графиката от точки, още една линия модел, по тази формула.
Отклонението е голямо, но има възможност да открием по-удовлетлорителни стойности на параметрите прилагайки метода на най-малките квадрати и инструмента за намиране на оптимални решения Solver на Excel.
За целта добавяме нова колона в таблицата, в клетките на която въвеждаме формули, пресмятащи квадратите на разликите между действителните данни и изчислените с приблизителния модел. В друга клетка въвеждаме формула, която пресмята сумата на колоната от квадрати. Така сме готови да използваме инструмент Solver, който намира по-точни стойности на параметрите, водещи до минимална грешна на модела. Резултатът са следните стойности и графика:
И така съставеният модел показва:
максималният брой, регистрирани заразени с корона вирус в България, според данните до момента ще бъде 3111
"средата" на развитието на епидемията е била на 1.05.2020 г.
затихване на епидемията се очаква към 24.06.2020 г.
Моля, не приемайте сериозно тези дати, тук не се използват знания от вирусология, епидемиология, и др. науки, които се занимават адекватно с проблема. Това е само едно упражнение по Excel и неговите инструменти...