Znikające wyniki badań klinicznych

medicalres

Dekadę temu grecki statystyk John Ioannidis popełnił w piśmie PLoS Medicine esej pod dźwięcznym tytułem „Dlaczego większość publikowanych wyników jest fałszywa”. Głównym przesłaniem pracy było to, że zbyt często poddajemy się iluzji P-wartości, zbyt często padamy ofiarą progu 0.05.

Logika Ioannidisa (którą opisywałem tutaj) jest całkiem niegłupia. I chociaż praca doczekała się swoich krytyków, a publikacja, o której pisałem przy okazji tego poprzedniego wpisu, wyliczyła, że proporcja wyników fałszywie pozytywnych to jakieś 14% – a nie ponad 80%, jak twierdzi Ioannidis – to jednak ziarno wątpliwości co do tego, ile publikowanych badań opisuje wyniki nie tylko statystycznie znaczące, ale też prawdziwe (także w sensie ich dalszej użyteczności), zostało zasiane.

Pomysły Ioannidisa rezonują z myśleniem wielu badaczy pracujących w naukach biomedycznych; w ostatnich 5 latach zwłaszcza pojawiać zaczęło się coraz więcej prac poświęconych powtarzalności wyników, powstało też kilka inicjatyw, które próbują weryfikować niektóre z (mniej lub bardziej historycznych) badań biomedycznych. Powtarzalność stała się nagle niesamowicie potężnym buzzwordem w nauce.

medicalres
źródło: flickr; Mike Licht (CC BY)

Ale chociaż o powtarzalności mówi się teraz dużo i głośno, badacze oczywiście zdawali sobie sprawę z tych bolączek na długo przed Ioannidisem (trudno zresztą powiedzieć, na ile ten medialny szum wynika z wszechobecności mediów wszelakich raczej niż z tego nagłego zainteresowania tematem). Blisko dwie dekady temu ustawą Kongresu powołano do życia stronę ClinicalTrials.gov. Celem było stworzenie rejestru informacji o próbach klinicznych, zarówno tych finansowanych ze środków publicznych jak i prywatnych. Strona została udostępniona publicznie na przełomie mileniów [1].

Ta ustawa, jak i jej poprawka wdrożona 10 lat później, wymuszają na organizacjach i instytucjach prowadzących próby kliniczne rejestrację tych prób przed ich rozpoczęciem. Taka rejestracja zawiera informację na temat celu próby, kryteriów dopuszczalności dla uczestników, czy danych kontaktowych osób odpowiedzialnych za takie próby (dla pacjentów, którzy chcieliby wziąć udział w badaniu). Prawo wymaga też rejestracji wyników próby.

Proces rejestracji powoduje, że znacznie trudniej jest „zakopać” próbę kliniczną, której wynik był negatywny. Znacznie łatwiej też sprawdzić, czy wyniki pozytywne nie są na przykład skutkiem doboru pewnej kategorii uczestników. Rejestracja czyni cały proces testowania nowych terapii znacznie bardziej transparentym, pozwala też unikać zbędnych duplikacji badań.

Ma też jeszcze jednej skutek, którego prawdopodobnie powinniśmy byli oczekiwać, ale w żadnych stopniu nie zmniejsza to szoku, gdy patrzy się na suche liczby.

Na początku sierpnia Robert Kaplan i Veronica Irvin opublikowali analizę wyników prób klinicznych rejestrowanych w ClinicalTrials.gov [2]. W badaniu uwzględniono próby przeprowadzone miedzy 1970 i 2012 rokiem, których celem było testowanie leków oraz suplementów diety stosowanych do terapii i zapobiegania chorobom układu krążenia.

W badaniu uwzględniono głównie bardzo duże próby: takie, których koszt przekraczał pół miliona dolarów rocznie, uczestnicy byli dorośli, a wynikiem, który mierzono, było ryzyko chorób układu krążenia, wystąpienie choroby lub śmierć. Takich prób w tym okresie było 55: 30 przed rokiem 2000 (czyli przed wymogiem rejestracji) i 25 rejestrowanych.

Autorzy sprawdzili, jak pomiędzy tymi dwoma grupami zmieniła się natura wyników badań. Gdyby wszystkie próby prowadzono jednakowo rzetelnie, należałoby oczekiwać, że proporcja prób dających wynik pozytywny (tzn. pokazujących statystyczną skuteczność badanego leku) nie powinna się zmienić.

A jednak zmieniła się. I to znacznie. Przed 2000 rokiem ponad połowa (58%) badań dała wynik pozytywny – po 2000, większość badań dała wynik zerowy (8% wyników pozytywnych). Warto też zaznaczyć, że chociaż wyniki przed 2000 rokiem często wskazywały na to, że badany związek ma skutek terapeutyczny, szanse na taki wynik w danym badaniu były już znacznie bardziej wątłe.

źródło: Kaplan & Irvin, PLOS ONE, 10 (8)
źródło: Kaplan & Irvin, PLOS ONE, 10 (8)

Badacze przeanalizowali różne możliwe czynniki wpływające na taką zmianę wyników, takie jak projekt badania czy źródło finansowania. Okazało się jednak, że związek najsilniejszy z obserwowanym trendem miało właśnie wprowadzenie obowiązkowej rejestracji prób.

Wynik, jak już powiedziałem, nie jest taki niespodziewany. W końcu gdybyśmy nie mieli wątpliwości, co do tego jak i dlaczego i czy porządnie takie próby są prowadzone, nie byłoby potrzeby tworzenia takich rejestrów [3]. Niemniej jednak, jak zauważa jeden z komentatorów, „wyniki są jednocześnie bardzo zachęcające i odrobinę przerażające”.

Z punktu widzenia postępu nauki znacznie bardziej przerażające jest to, że gdyby podobny rejestr wprowadzić dla badań przedklinicznych, to prawdopodobnie okazałoby się, że nagle wszystkie głośnonagłówkowe, przełomowe wyniki poszły się paść. Byłby to zapewne raczej naukowy krach dla mass-mediów, które po prostu nie miałyby żadnych klikalnych badań do opisywania (i ochania i achania nad nimi).

Pewną formą takiej rejestracji są Registered Reports – nowa forma publikacji uskuteczniana przez pismo eLife. Ten rodzaj pracy służy jednak bardzo określonemu celowi: publikacji wyników badań próbujących powtórzyć poprzednie badania. Dzięki temu, że projekt badania i protokoły opisane są przed samym badaniem, zamyka się drogę do manipulacji (niekoniecznie celowej ani świadomej!) wynikami.

Warto jednak zdawać sobie sprawę, że w przypadku badań podstawowych taka rejestracja nie zawsze będzie możliwa – a jeśli nawet, to z bardzo ograniczoną ilością detali. W przypadku badań sterowanych hipotezą (ang. hypothesis-driven) z definicji projekt badania i oczekiwania co do tego, co może się udać znaleźć (a więc także i dobry plan, jak tego szukać), są znane od początku.

Coraz większa ilość badań biomedycznych jednak to badania sterowane danymi (ang. data-driven): w tych badaniach po wygenerowaniu tony danych przechodzi się do etapu szukania powiązań – a następnie te powiązania, które są najsilniejsze, można testować dalej, aby potwierdzić lub nie istnienie związku przyczynowo-skutkowego. W takim przypadku trudno byłoby cokolwiek rejestrować na wstępie – ponieważ trudno przewidzieć, co w tym nawale danych uda się znaleźć.

I chociaż takie podejście do nauki rujnuje nieco obraz naukowca geniusza, który na przełomowe pomysły wpada tylko potęgą własnego rozumu, a doświadczenia są jedynie niewielką niedogodnością niezbędną, żeby przekonać resztą świata, że badacz miał od początku rację, to jednak coraz więcej badań prowadzi się w taki sposób. Wartość takiego podejścia udowodnił już blisko 30 lat temu Don Swanson, który analizując literaturę zindeksowaną w bazie MEDLINE odkrył, że olej rybny może być skutecznym lekiem na chorobę Raynauda.

Niemniej jednak świat naukowy staje wyraźnie przed wielkim wyzwaniem: jak zapewnić rzetelność badań, czy to klinicznych, czy przedklinicznych – i to nie tylko biomedycznych. I jak to uczynić w sposób, który sam w sobie będzie rzetelny i użyteczny. I chociaż pytania te są ważne, odpowiedzi na nie wciąż nie mamy.

Przypisy:

1. Warto dodać, że ClinicalTrials.gov nie jest jedyną stroną tego rodzaju. W 1998 roku Science Navigation Group (predesesor BioMed Central) stworzył inny rejestr – obecnie publikowany pod nazwą ISRCTN przez BMC.

2. Kaplan, R., & Irvin, V. (2015). Likelihood of Null Effects of Large NHLBI Clinical Trials Has Increased over Time PLOS ONE, 10 (8) DOI: 10.1371/journal.pone.0132382

3. To nie jest do końca prawda, ponieważ celem rejestru jest nie tylko gwarancja, że badania będzie prowadzone prawidłowo. Kolejnym bardzo ważnym celem tych baz danych jest zapewnienie dostępu do wyników dla szeroko rozumianej publiki. Historycznie można nawet powiedzieć, że ten drugi cel jest nadrzędny, ponieważ powstanie ClinicalTrials.gov było wynikiem między innymi presji środowiska homoseksualistów zarażonych HIV, którzy domagali się dostępu do prób klinicznych w późnych latach 80.

3 Comments

  1. Coraz szerzej dyskutowanym problemem (również w badaniach klinicznych) jest – oprócz IF oraz przeklętego P-value – sama wartość takich badań. Czyli statystyczna siła (moc) testu, na którą zastanawiająco rzadko się zwraca uwagę. Oczywiście parametr ten jest powiązany z licznością próby, i w ten sposób pokazuje, na ile uzyskana P-value jest miarodajna vs. „wypadek przy pracy”/manipulacja danymi czy nielosowy dobór próby. Za mało znam publikacje naszych medyków, ale w bliskiej mi literaturze biochemicznej i mikrobiologicznej (rośliny) polskiego autorstwa prace zawierające takie informacje mogę zliczyć jednostkowo.

    Polecam lekturę:
    http://www.nature.com/nmeth/journal/v12/n3/full/nmeth.3288.html#ref38
    http://www.statlit.org/pdf/2001-Goodman-Epidemiology.pdf
    http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412#auth-2
    https://liorpachter.wordpress.com/2015/05/26/pachters-p-value-prize/
    http://www.michaeleisen.org/blog/?p=1718

    Lubię

  2. W ClinicalTrials.gov jest zarejestrowanych 181 badań dotyczących suplementacji selenu.
    Tylko 5 (PIĘĆ!) z nich zaowocowało publikacjami (kilka pozycji jest oznaczona jako „Has Result” ale ich nie ma)
    To przerażająca rewelacja. Przerażająca, bo widać jak na dłoni, jak nędzny jest poziom „badań naukowych” dotyczących najróżniejszych modnych suplementów diety.

    Rewelacja, bo wreszcie mamy NadMedline, gdzie są tylko rzetelne publikacje. Już nie wystarczy przebadać byle jak na byle co kogokolwiek i szczycić się publikacją. Nie masz rezultatów w ClinicalTrials.gov? To do widzenia!

    Lubię

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s