Czy leci z nami pilot, czyli problem powtarzalności

Im bardziej skomplikowany proces, problem, czy maszyna, tym bardziej problematyczne staje się zapewnienie, że wszystko działa w porządku, że procedury są wykonywane bez problemów i że przebieg wydarzeń jest efektywny (a być może także i bezpieczny). Historia oraz łopatologia stosowana uczą nas jednak, że czasem najprostsze rozwiązania są najlepsze.

(Nie)latająca forteca

W połowie lat trzydziestych ubiegłego stulecia Korpus Powietrzny Armii Stanów Zjednoczonych rozpisał konkurs na budowę nowego wielosilnikowego bombowca mającego zastąpić wysłużone Martiny B-10. Do konkursu zgłosiły się trzy firmy: Douglas Aircraft Company z modelem DB-1, Glenn L. Martin Company z modelem Martin Model 146 oraz Boeing z Modelem 299.

Początkowo dominacja Modelu 299 była imponująca. Na tyle, że po pierwszym pokazowym locie tego czterosilnikowca 28 lipca 1935 roku reporter z jednego z lokalnych dzienników ochrzcił model Latającą Fortecą. Wagę tego przydomka szybko podchwyciła firma Boeing, która wykorzystywała go jako nieoficjalne imię tej maszyny, którą później formalnie nazwano B-17. Model 299 prezentował się, w bezpośrednich porównaniach, znacznie lepiej niż jego dwusilnikowi konkurenci. I przez miesiące pozostawał faworytem do wygrania konkursu.

30 października 1935 roku odbył się kolejny lot próbny. Na skutek błędu pilotów, którzy nie zwolnili bezpiecznika powierzchni sterowych, który blokował je w jednej pozycjji, gdy maszyna pozostawała na ziemi, ale powienien być zwolniony przed startem, maszyna po oderwaniu się od pasa startowego zaksztusiła się, po czym runęła na ziemię. Chociaż wszyscy obecni na pokładzie samolotu wydostali się na zewnątrz, obaj piloci zmarli później od odniesionych obrażeń. Ten wypadek doprowadził do dyskwalifikacji Boeinga z konkursu.

640px-B17_Flying_Fortress_-_Chino_Airshow_2014_(14112841238)
Model 299 czyli B17 Latająca Forteca /źródło: Airwolfhound, CC By SA

Model 299 znalazł jednak drogę do Amerykańskiej Armii, i jako Latająca Forteca był symbolem jej potęgi w XX wieku. To jednak jest nieistotne. Istotne jest to, jakich zmian dokonał Boeing w odpowiedzi na tragiczny wypadek.

Czy uprościł może skomplikowane (zwłaszcza jak na tamte czasy) panele sterowania? Czy rozdzielił odpowiedzialność za liczne niezbędne czynności przedstartowe pomiędzy dodatkowych członków załogi? Otóż nie. Odpowiedzią Boeinga była lista kontrolna (w awiacji zwana też listą przedstartową; ang. checklist): spis czynności, które piloci musieli wykonać w określonym momencie i w określonym porządku. Boeing opracował cztery takie listy – listę przedstartową, listę na czas lotu, listę przed lądowaniem oraz listę po lądowaniu. Listy kontrolne w awiacji stały się od tamtej pory narzędziem tyleż wszędobylskim, co pięknym w swej prostocie i skuteczności, do tego stopnia, że zostały zaadaptowane przez awiację wyższego stopnia – przez agencję NASA. Ich użyteczność doceniali nie tylko inżynierowie, ale też i sami astronauci. Michael Collins, dowódca misji Apollo 11, która postawiła pierwszego człowieka na Księżycu, nazywał listy kontrolne czwartym członkiem załogi.

Po pierwsze nie szkodzić

Blisko 20 lat temu amerykański Instytut Medycyny opublikował raport dotyczący służby zdrowia. Autorzy raportu upublicznili mrożące krew w żyłach statystyki: każdego roku w Stanach Zjednoczonych ginęło na skutek prostych (i zapobiegalnych) błędów medycznych między 44 a 98 tysiącami pacjentów. Najwięcej takich błędów notowano w oddziałach intensywnej opieki, oddziałach ratunkowych oraz na salach operacyjnych. Czyli wszędzie tam, gdzie specjalistom towarzyszył chaos i stres.

Jedną z osób, które postanowiły zaradzić temu problemowi, był bostoński chirurg Atul Gawande. W celu ograniczenia przypadków infekcji, do których dochodziło w trakcie zakładania pacjentowi wkłucia centralnego, Gawande wprowadził w swojej sali operacyjnej listę kontrolną, na której znajdowały się w zasadzie tylko oczywiste oczywistości: mycie rąk, przemywanie skóry pacjenta, stosowanie sterylnych narzędzi, noszenie sterylnych masek, rękawiczek itd. Okazało się jednak, że tym, czego te wszystkie logiczne wymogi potrzebowały, aby zadziałać na większą skalę, była katechizująca je lista kontrolna – na skutek jej wprowadzenia ilość infekcji znacząco zmalała. Ten sukces – jak również znaczenie (i sukcesy) list kontrolnych Atul Gawande opisał w swojej książce Potęga Checklisty (ang. The Checklist Manifesto).

Wkrótce po książce przyszła też znacznie ważniejsza dla środowiska medycznego publikacja – artykuł opisujący wyniki badania list kontrolnych w latach 2007 i 2008 w ośmiu rozsianych po całym globie szpitalach. W trakcie tego badania zrekrutowano blisko 8 tysiący pacjentów przechodzących niekardiologiczne zabiegi chirurgiczne – połowę z nich zrekrutowano do badania po wprowadzeniu w obieg Chirurgicznej Listy Bezpieczeństwa (ang. Surgical Safety Checklist). Wprowadzenie listy kontrolnej korelowało ze spadkiem zgonów o połowę (z 1.5% do 0.8%) oraz spadkiem komplikacji z 11% do 7%.

Dyskusja tych wyników daje zaś dość niezwykły i interesujący obraz tego, w jaki sposób listy kontrolne mogły tutaj pomóc. Okazało się bowiem, że już niektóre elementy listy były całkowitą nowością w niektórych placówkach. W niektórych ze szpitali nie było na przykład zwyczajem przedstawianie sobie zespołu chirurgicznego. Ta krótka przerwa w samym zabiegu prowadziła jednak do lepszej dynamiki w zespole, co przekładało się na ich skuteczność. Podobnym zaskoczeniem może być to, że w wielu szpitalach nie było zwyczajem potwierdzanie tożsamości leżącego na stole pacjenta oraz potwierdzenia przedoperacyjnych oznaczeń (z gatunku: czy na pewno mamy dzisiaj obciąć lewą nogę Zenkowi, a nie prawą nogę Ziutkowi).

Autorzy (w pełni świadomi także i innych ograniczeń badania, które są także w pracy przedyskutowane) zwrócili jednak uwagę, że rezultaty mogę być wynikiem tzw. efektu Hawthorne, który sprowadza się do tego, że osoba podlegająca obserwacji może się po prostu bardziej starać, bo wie, że jest obserwowana. Biorąc jednak pod uwagę skuteczność list kontrolnych w innych dziedzinach oraz niewielki koszt ich implementacji w porównaniu z potencjalnymi zyskami, ja nie mam nic przeciwko ryzykowaniu, że wyniki są tylko rezultatem jakiegoś psychologicznego placebo.

Nauka nie radzi sobie z nauką

Nauka przywitała dwudzieste pierwsze stulecie kryzysem. Kryzys dotyczy zaś powtarzalności. Badania naukowe są użyteczne tylko o tyle, o ile pozwalają nam poszerzyć bazę wiedzy i robią to w sposób, który jest powtarzalny lub weryfikowalny. Innymi słowy, nie wystarczy, żeby grupa badawcza doktora Franka doniosła o jakimś odkryciu, jeśli grupa badawcza profesor Marysi i docenta Józia nie są w stanie powtórzyć tego odkrycia pomimo stosowania dokładnie tych samym warunków.

Okazuje się jednak, że wyników doktora Franka nie jesteśmy w stanie powtórzyć nadzwyczaj często. O tym, jak dużym problemem jest to w badaniach biomedycznych, pokazał w swoim eseju z 2005 John Ioannidis (o tym badaniu pisałem kiedyś obszernie tutaj). Esej Ioannidisa jest teoretyczny, ale od tamtej pory opublikowano wyniki kilku prób powtórzenia wyników z kluczowych prac biomedycznych. W 2011 roku jedna taka praca dotycząca badań nad nowymi lekami została opisana (niestety bez dostępu do danych) w Nature Reviews Drug Discovery. Bardziej transparentnej próby podjęto się w ramach projektu Reproducibility Project: Cancer Biology: ambitny plan zakładał próby replikacji kluczowych wyników z 50 przełomowych prac o biologii nowotworów. Zaledwie jednak miesiąc temu Science doniosło, że przerośnięty plan okazał się zbyt ambitny i ostatecznie projekt zajmie się tylko 18 oryginalnymi publikacjami. Próby replikacji opublikowano już w eLife dla 10 z nich: replikacja powiodła się jako tako w pięciu przypadkach, w trzech wyników nie dało się zinterpretować, a dwóch przypadkach replikacja nie powiodła się (chociaż w przypadku tych prac ogólne ich wnioski zostały w międzyczasie potwierdzone przez inne laboratoria).

Tych względnie (bardzo względnie) pozytywnych wyników prób replikacji badań nad rakiem nie należy jednak interpretować jako sukces. Są one raczej objawem tego, jak trudno jest powtórzyć cudze eksperymenty tak dokładnie, żeby odmiennego wyniku nie dało się wytłumaczyć odstępstwem od oryginalnego protokołu badawczego.

Inną dziedziną, która zmaga się z problemem powtarzalności, jest psychologia. Dziedziną tą w ostatniej dekadzie wstrząsnęło co najmniej kilka bardzo widowiskowych skandali (na przykład kazus Diederika Stapela, o którym pisałem dla Gazety Wyborczej, albo badania nad perswazją, które zrobiły furorę kilka lat temu, a jeszcze szybciej furorę zrobiło odkrycie, że zostały sfałszowane). W międzyczasie rozpoczęto psychologiczną wersję Reproducibility Project – wyniki opublikowano w 2015 roku (ładne podsumowanie napisał zaprzyjaźniony blog NeuroBigos). Nie były zachęcające – powtórzyć udało się zaledwie jedną trzecią spośród prac wyselekcjonowanych do projektu.

Kolejną odsłonę tego projektu opublikowano wczoraj w piśmie Nature Human Behaviour. Tym razem badacze próbowali sprawdzić, czy powtórzyć da się wyniki 21 badań psychologicznych opublikowanych między 2010 a 2015 rokiem w dwóch prestiżowych periodykach – Science oraz Nature. Wyniki są raczej przeciętne, ale tym razem bardziej pozytywne niż nie. Ciekawą obserwacją autorów jest to, że powtarzalność wyników koreluje z wiarą czytelników w ich powtarzalność, co sugeruje, że przeciętny psycholog jest w stanie zidentyfikować elementy badania, które są indykatorami, że zostało dobrze wykonane.

Nie marchewką a kijem

Niezależnie od indywidualnych wyników tych prób replikacji, problemem pozostaje, jak łatwo jest odtworzyć oryginalny protokół na podstawie samej publikacji – bolączką wcześniejszych projektów było, że opis metodyki w publikacjach był ubogi, a uzyskanie bardziej szczegółowego opisu od autorów było z różnych przyczyn niemożliwe. W przypadku pewnych rodzajów badań tym problemom zaradza się poprzez wprowadzanie list kontrolnych: dokumentów wyliczających jakie parametry eksperymentu muszą zostać opisane w publikacji. Przykładem takiej listy jest lista CONSORT zaprojektowana dla prac opisujących próby kliniczne, lub lista PRISMA dla meta-analiz.

W 2011 roku redaktorzy kilku brytyjskich periodyków fizjologicznych i farmakologicznych nawołali – za pomocą redaktorskiego wstępniaka – do większych starań w opisie metodologii badań. Wstępniakowi towarzyszyła seria artykułów doradzających, jak powinno się prawidłowo podchodzić do analizy danych, ich prezentacji i dyskusji wyników. Dwa tygodnie temu pismo PLOS ONE opublikowało wyniki analizy powrównawczej, której celem było sprawdzenie efektywności tego apelu. Efektywność była, niestety, nikła. Pomimo apelu oraz dostarczenia autorom narzędzi do lepszego konstruowania naukowych argumentów, w pismach wciąż publikowane były na przykład prace, w których autorzy przypisywali znaczącość statystyczną wynikom, dla których wartość p była powyżej ustalonego progu.

Powtarzalność wyników prac naukowych a także prowadzące do tego nieuniknienie detaliczne opisywanie metodyki są obiektem zainteresowania wielu redakcji naukowych. Pisma grupy Cell Press, która publikuje na przykład pismo Cell, w celu poprawienia tych aspektów publikowanych prac wprowadziły kilka lat temu nowy format sekcji opisu metod. Z kolei redakcja Nature od ponad pół dekady pracuje nad innym rozwiązaniem – jakim, to powinno być na tym etapie wpisu już oczywiste. W 2013 roku Nature wprowadziło opracowaną przez redakcję listę kontrolną dotyczącą opisu metodyki. Lista wymusza na autorach podanie informacji na przykład na temat tego, jaka była w badaniu procedura randomizacji (jeśli badanie jej wymaga), czy zostały wykonane obliczenia wymaganej wielkości próby, czy w badaniach na zwierzętach podaje się płeć zwierząt (płeć jest zaskakująco często pomijaną zmienną), czy w pracy znajduje się opis dokładnych źródeł reagentów (to jest szczególnie ważne w przypadku reagentów biologicznych takich jak przeciwciała).

Na ile wprowadzenie tej listy pomogło w poprawieniu opisów metodyki? W pracy opublikowanej w zeszłym roku grupa badaczy porównała sekcje metod w pracach opisujących badania przedklinicznych opublikowanych przed i po wprowadzeniu listy. Kontrolę stanowiły prace podobnego typu opublikowane w tym samym okresie w piśmie Cell, które list kontrolnych nie stosuje (a ich ulepszony opis metod nie został jeszcze zaimplementowany). Chociaż autorzy pracy patrzyli na informację dotyczącą tylko trzech parametrów, okazało się, że wprowadzenie listy kontrolnej poprawiło raportowanie tych informacji trzykrotnie – aczkolwiek zaznaczyć trzeba, że opis metodyki poprawił się w obu pismach, więc nie wszystkie z tych pozytywnych zmian były wywołane listą kontrolną. Wyniki badania z PLOS ONE potwierdzone zostały przez drugie niezależne (nieopublikowane jeszcze) badanie, które zostało upublicznione w mniej więcej tym samym czasie.

Okazuje się zatem, raczej bez niespodzianki, że proszenie i błaganie na niewiele się zdaje. Wprowadzenie listy kontrolnej do procesu publikacji tak, aby jej obecność i prawidłowe wypełnienie było wymogiem formalnym, jest być może rozwiązaniem nieco siermiężnym, ale skutki tego powinny być znacznie szybciej i znacznie bardziej widoczne. W czasach, gdy 90% naukowców przyznaje, że w nauce mamy do czynienia z kryzysem powtarzalności (czy raczej jej braku), sam fakt, że na wyciągnięcie ręki mamy rozwiązanie, które jest proste, tanie i, wygląda na to, skuteczne, jest nie do przecenienia.

5 Comments

  1. Przydałyby się takie listy dla publikacji chemicznych. Czasem okazuje się, że jakaś reakcja daje rewelacyjne rezultaty w jednym labie badacza z Indii i nawet takie rzeczy jak poproszenie o skany notatek z laboratorium nie pomaga.

    Polubienie

Dodaj odpowiedź do racjajestnajmojsza Anuluj pisanie odpowiedzi