Když jsem si minulý týden přečetl facebookový příspěvek Jaromíra Baxy o tom, co odlišuje použitelný výzkum od toho nepoužitelného, měl jsem velikou radost. (Foto: Flickr / ilustrační)
Konečně někdo populární formou připomněl jeden ze základních principů procesu poznávání – princip, který bych nazval „srovnání dvou skupin“.
V současné době je velká pozornost věnována zkoumání efektu očkování a efektu dalších proticovidových opatření. Stojí rozhodně za zamyšlení, co lze a co nelze zkoumat, nemáme-li k dispozici dvě skupiny, ale jen jednu.
Jedna skupina – nejjednodušší poznatky
Kdo je schopen rozlišovat jen kategorie černá – bílá, platí vždy – neplatí nikdy, vystačí si s jednou skupinou. Chcete-li například vědět, zda „vakcína poskytuje 100% ochranu před nákazou“, stačí vám pozorovat jednu skupinu (skupinu očkovaných). Po čase se v této skupině objeví nakažení – je jasné, že tvrzení o 100% ochraně neplatí. Zde je třeba si však uvědomit:
- To, že vakcína nefunguje na 100 %, neznamená, že nefunguje vůbec. Ukážeme-li, že účinnost není 100 %, neznamená to ani zdaleka, že by musela být nulová. Může být i dosti vysoká, jen nedosahuje sta procent.
- Ukázat neplatnost tvrzení o 100% ochraně lze jediným pozorováním, kdy se očkovaný nakazil. Avšak potvrdit případnou platnost tohoto tvrzení je takřka nemožné. To, že 100% ochrana je pozorována na určité skupině v průběhu nějakého časového úseku, ještě neznamená, že ochrana bude 100% také u větší skupiny a v delším časovém horizontu. Stojí za to si připomenout dnes již legendární výrok někdejšího ministra zdravotnictví Jana Blatného z 18. března 2021 o tom, že „kdo má ukončenou vakcinaci, neonemocní a nikoho dalšího nenakazí”[1]. Blatný tehdy zřejmě vycházel z podkladů poskytnutých Ústavem zdravotnických informací a statistiky ČR (ÚZIS) z 16. 3. 2021, které uvádějí, že nikdo ze skupiny lidí očkovaných oběma dávkami očkování neměl vážný průběh nemoci covid-19. V té době se očkovalo poměrně krátkou dobu (přibližně dva měsíce) a skupina očkovaných druhou dávkou čítala na začátku března jen přibližně 250 tisíc osob.
Jedna skupina – bližší pohled
Ve skutečném světě téměř nic není stoprocentní a s kategoriemi „vždycky“ (ve 100 % případů) a „nikdy“ (v 0 % případů) si nevystačíme. Máme-li k dispozici údaje jen o jedné skupině, např. jen o očkovaných, můžeme odhadnout, jaká část z této skupiny (která může být dosti různorodá – její členové se vzájemně liší věkem, pohlavím a celou řadou dalších faktorů) se v průběhu určitého časového úseku nakazí a prodělá covid s vážným průběhem.
Co však nelze říci, jsou výroky typu „Velmi nízké počty nákaz u očkovaných ukazují na vysokou účinnost vakcinace.“ Tuto větu jsem si vypůjčil z prezentace ÚZIS z března roku 2021. Jak ve svém příspěvku připomíná Jaromír Baxa, nízké počty v jedné skupině ještě nic neříkají o účinnosti vakcinace. Teprve srovnáním dvou skupin – očkovaných a neočkovaných, můžeme říci něco o „účinnosti“, tedy efektu vakcíny. Podobně lze porovnáváním různých skupin zkoumat efekty dalších proticovidových opatření.
Dvě skupiny – vyhodnocení efektu
Samotná existence dvou skupin ještě nezaručuje, že srovnání bude relevantní a přinese nám pravdivou informaci o efektu zkoumaného opatření či zkoumaného léčebného postupu. Na cestě číhá celá řada nástrah. Některé jsou zcela triviální: nemá smysl porovnávat celkové počty nakažených ve dvou skupinách, které jsou nestejně velké. Je třeba porovnávat počty relativní, tedy jak velká část očkovaných se nakazí a jak velká část neočkovaných se nakazí. Od toho, co vypadá snadno, se dostáváme už k poněkud méně zřejmým „chytákům“, které nám proces poznávání komplikují. To, co pozorujeme, jsou totiž ve skutečnosti počty lidí s laboratorně prokázanou nákazou. Počty tedy do značné míry závisí na strategii testování, která je však ve skupinách očkovaných a neočkovaných různá. Proto srovnávat počty PCR pozitivních ve skupinách očkovaných a neočkovaných nemá smysl, byť by šlo o počty relativní.
Kouzlo nechtěného – Kansaská studie efektivity nošení respirátorů
Jaromír Baxa ve svém příspěvku zvolil jako příklad správně provedené analýzy efektu opatření studii publikovanou v listopadu 2020 Centrem pro kontrolu a prevenci nemocí (CDC, Centers for Disease Control and Prevention) – národním institutem Spojených států amerických pro veřejné zdraví – zkoumající efekt zavedení povinného nošení roušek ve veřejných prostorech (doslova „executive order requiring masks or other face coverings in public spaces”). Studie zkoumá vývoj incidence koronavirové nákazy ve dvou skupinách okresů (counties) ve státě Kansas. První skupinu tvoří 24 okresů, které na začátku července 2020 zavedly povinnost zakrytí dýchacích cest na veřejnosti, zatímco druhou skupinu tvoří 81 zbylých okresů státu Kansas, kde tato povinnost zavedena nebyla. Vývoj incidence ve srovnávaných skupinách je porovnán na níže uvedeném obrázku[2].
Ve skutečnosti je tento obrázek výborným příkladem toho, jak opatrně musí člověk při srovnání postupovat a do jakých pastí se dá spadnout.
- Proložení dat úsečkami je nanejvýš pochybné. Světlemodrá čára v první části jde pozoruhodně mimo data, stejně jako tmavěmodrá čára ve druhé části. Použitý model má však ještě jeden interpretační háček. Ve studii je uvedeno, že v „světlemodré skupině“ okresů docházelo od 1. 6. do 2. 7. k významnému nárůstu incidence (průměrně o +0,25 případů na 100 tisíc obyvatel denně), zatímco v období 3. 7. až 23. 8. v týchž okresech docházelo k významnému poklesu incidence (průměrně o 0,08 případů na 100 tisíc obyvatel denně). Tyto změny odpovídají světlemodrým úsečkám v grafu. V tomto modelu však 3. 7. 2020 došlo ke skokovému vzrůstu incidence v této skupině cca na dvojnásobek! To je ten obří skok kolem 3. 7. mezi světlemodrými úsečkami viditelný na obrázku. Vhodnější model by zřejmě ukázal, že změna v trendu byla ve světlemodré skupině ještě větší, než ukazuje použitý model. Ale taky by se mohlo ukázat, že prokládat tato data přímkou není dobrý nápad. Schválně ještě jednou vizuálně zkontrolujte světlemodré body v období před zavedením opatření.
- Druhé pozorování učiněné přímo z obrázku je spojeno s otázkou, zda se autoři nedopouštějí srovnávání nesrovnatelného. Zatímco ve světlemodré skupině došlo od počátku června, kdy byla průměrná denní incidence 3 případy na 100 tisíc obyvatel, do začátku července k dramatickému nárůstu až na úroveň 17 případů na 100 tisíc v týdnu od 3. 7. do 9. 7., ve druhé skupině byl vývoj ve stejném období daleko méně dramatický (nárůst incidence ze 4 případů na 100 tisíc obyvatel na hodnotu 6). To částečně vysvětluje motivaci „světlemodrých okresů“ k zavedení restrikcí ve snaze zastavit prudký nárůst počtu nových případů. Zároveň to ale znesnadňuje srovnání. Srovnáváme totiž dvě skupiny, které se liší nejen v tom, zda uplatňují zkoumané opatření, ale také se liší v tom, v jaké jsou fázi epidemie – mají jinou „startovní pozici“, a to dost podstatně – incidence v době zavedení zkoumaného opatření je ve světlemodré skupině téměř trojnásobná! To je samozřejmě dosti podstatný problém celé studie. Jsou zde srovnávány okresy, kde v jedné skupině došlo v červnu k rychlému nárůstu incidence, zatímco ve druhé skupině, která byla ponechána bez zásahu (bez zavedení povinného nošení roušek) ani v červnu, ani v dalším období k takto prudkému nárůstu nedošlo. Tyto okresy jsou tedy v něčem jiné. A to je situace, která srovnání nesmírně komplikuje. Nevíme totiž, jestli rozdílný vývoj je dán efektem zaváděného opatření či tou (v článku explicitně „nepřiznanou“) další rozdílností. V situaci, kdy je pozorovaný efekt možno vysvětlit vícero způsoby, a autoři studie si „vyberou“ jeden z nich – efekt opatření (protože jejich pozornost je soustředěna právě na opatření), jsou výsledky studie pochybné. Ve skutečnosti nevíme, co bylo příčinou pozorované rozdílnosti (odborně se této situaci říká confounding).
- Statistici na celém světě vědí, že výše uvedený problém (confounding) není neřešitelný. Jde jen o to dělat porovnání správně, tedy porovnávat porovnatelné. Vždyť o tom celá statistika vlastně je. Máme-li data na úrovni okresů, měli bychom srovnávat podobné okresy lišící se jen v tom, zda byla zavedena povinnost nošení roušek. To lze udělat i elegantně pomocí modelu, v němž se odhadne velikost efektu nejen zkoumaného opatření, ale také velikost efektů dalších faktorů, v nichž se zkoumané okresy liší. Jedním z takovýchto dalších faktorů je právě výše zmíněná „startovní pozice“, tedy incidence na začátku období, v němž byla v některých okresech zavedena povinnost nošení roušek. Autoři studie sice o podobném modelování v článku mluví, ale jen dosti vágně. Dokonce nejsou ani přesně specifikovány všechny veličiny, které jsou v modelu zahrnuty, natož aby byly uvedeny odhady velikosti příslušných efektů. A to je chyba. Nedozvíme se tak například, jak velký rozdíl je mezi hustě a řídce obydlenými oblastmi. Tento faktor je přitom dosti důležitý. Vždyť ve 24 světlemodrých okresech (tedy asi čtvrtině ze zkoumaných 105 okresů) žije dvakrát tolik obyvatel, co ve zbylých 81 okresech. Jde tedy o okresy daleko hustěji zalidněné. O tom, že se okresy liší také „startovní pozicí“, a že se z článku nedozvíme, zda právě tato okolnost není klíčová pro další vývoj, již byla řeč dříve.
Jak jsem uvedl na začátku, velmi si vážím příspěvku Jaromíra Baxy, který se snažil vysvětlit, jak moc důležité je při zkoumání efektu nějakého opatření „mít kontrolní skupinu“, tedy založit své zkoumání na srovnání dvou skupin. Nechtěně však zvolil jako příklad studie, jak se srovnání dělat má, studii dosti zavádějící. Ve facebookovém příspěvku, který mi byl inspirací k napsání této poznámky, jeho autor varuje před autory, kteří nepostupují metodologicky správně, a doporučuje dát si na takové autory napříště pozor. V tomto zcela souhlasím. Autory ze CDC z tohoto pravidla nevyjímám.
[1] O jak „slavný“ výrok jde, jsem si uvědomil, když jsem při jeho dohledávání na konci listopadu 2021 zadal do googlu jméno Blatný a tento vyhledávač mi automaticky nabízel kombinaci slov „Blatný očkovaný se nemůže nakazit“.
[2] Detailní popis obrázku viz studie.
Ondřej Vencálek
Zdroj: smis-lab.cz