Dlaczego nie wiadomo, czy większość publikowanych badań jest jednak prawdziwa

ResearchBlogging.orgDawno, dawno temu, w pierwszych latach istnienia Public Library of Science, profesor medycyny na Uniwersytecie Stanforda John Ioannidis opublikował w piśmie PLoS Medicine  pracę, która stała się najbardziej popularną i cytowaną pracą zamieszczoną w tym periodyku, notując na swoich koncie w okolicy tysiąca cytowań, ponad 10 tysięcy udostępnień w mediach społecznościowych i Altmetric Score 896 (i ciągle rośnie).

Altmetric score pracy Ionnidesa na dzień dzisiejszy (09/02/13).
Altmetric score pracy Ionnidesa na dzień dzisiejszy (09/02/13).

O czym była ta praca? Otóż był to esej o dźwięcznej nazwie „Why Most Published Research Findings Are False“, w którym, jak się łatwo domyślić, Ioannidis dowodził, że w przypadku znakomitej większości publikacji naukowych ich wyniki są fałszywe.

Ioannidis wyjaśnia, że w większości prac naukowych w dzisiejszych czasach o prawdziwości wyników orzeka się tylko na podstawie jednej metryki: tego, czy w pojedynczym studium udało się uzyskać wynik statystycznie istotny z formalnego punktu widzenia – tzn. czy znienawidzona wartość p była mniejsza niż, zazwyczaj, 0.05 (tu odsyłam do postu o naukowym piekle, a zwłaszcza do nonalogu badacza na jego końcu i przykazania czwartego). Badacz tłumaczy dalej, że prawdopodobieństwo prawdziwości wyników badań naukowych zależy także od tego, jaka jest szansa, że będą prawdziwe w pierwszej kolejności1, od mocy testu, i dopiero na końcu od poziomu statystycznej istotności, czyli wartości p. W skrócie, rozważania Ioannidesa sprowadzają się do tego, że testowanych hipotez, które są fałszywe, jest znacznie więcej niż prawdziwych i nawet jeśli badania weryfikują znacznie większy procent tych drugich, nawet niewielki ułamek wyników fałszywie pozytywnych jest wciąż znacznie większy niż liczba wyników prawdziwych.

ioannides-schemat
Ten schemat (przerobiony na polszczyznę z cytowanej na końcu pracy Leeka) przedstawia schemat myślenia Ioannidesa.

Autor spisuje wnioski wynikające z opisywanego przez niego modelu: po pierwsze, im mniejsze badanie (mniej liczna próba), tym mniejsza szansa, że otrzymane wyniki są prawdziwe. Po drugie, im mniejszy jest obserwowany efekt, tym mniejsza szansa, że wyniki są prawdziwe. Po trzecie, im większa jest liczba i im mniej dokładna selekcja badanych relacji, tym mniejsza szansa, że wyniki są prawdziwe (zaczynacie już pewnie dostrzegać prawidłowość). Po czwarte, im większa elastyczność eksperymentalnych projektów, im większa elastyczność definicji, wyników, sposobów analizy, tym mniejsza szansa, że wyniki są prawdziwe. Po piąte, im większe zaangażowanie finansowe, światopoglądowe lub jeszcze inne w badania, tym mniejsza szansa, że wyniki są prawdziwe. I wreszcie po szóste, im bardziej seksowne jest pole badań i im więcej zespołów badawczych zajmuje się danym tematem, tym mniejsza szansa, że wyniki są prawdziwe.

Praca Ioannidisa wywołała, jak się można domyślić, sporo zamieszania. Nie to, żeby ktoś się przejął i zaczął zmieniać sposób prowadzenia badań biomedycznych. Ale jego esej wraca jak bumerang w dyskusjach za każdym razem, gdy ktoś chce dać przykład tego, jak niewydajna jest nauka (nawet wówczas, gdy badacze robią wszystko w porządku). W 2007 pojawiło się zresztą kilka publikacji, próbujących z tej pracy wyciągnąć jakieś bardziej praktyczne wnioski. Benjamin Djulbegovic i Iztok Hozo zaproponowali, także w PLoS Medicine, model, który ma nam pomóc zdecydować, które z tej większości najprawdopodobniej nieprawdziwych wyników są jednak użyteczne.

Bo nie ukrywajmy, nigdy nie jest i nie będzie tak, że nauka da nam ostateczną odpowiedź na jakieś pytanie. Zawsze można coś zmierzyć lepiej, dokładniej. Zawsze można coś poprawić, coś troszkę inaczej zinterpretować. Skoro absolutnej prawdy nie da się uzyskać, powstaje pytanie: które z dostępnych wyników możemy zaakceptować, jako najlepsze z najgorszych. I na to pytanie Djulbegovic i Hozo próbowali odpowiedzieć.

Kolejna grupa badaczy opublikowała – w tymże samym piśmie, także w 2007 roku – pracę, w której dumali nad problemami przedstawionymi przez Ioannidesa. I doszli do wniosków niespecjalnie porażających, a mianowicie: powtórzenie eksperymentu zwiększa prawdopodobieństwo, że uzyskane wyniki są prawdziwe. Ameryki raczej tą publikacją nie odkryli, ale stali się z pewnością kolejnym głosem nawołującym do powtarzania już raz wykonanych i opisanych eksperymentów.

Bo przecież na tym polega podstawowy problem. Badania są publikowane dzisiaj na chybcika, często na przerażająco małych próbach. I z wielką szkodą dla nauki w ogóle: nierzadko opublikowanie wyniku, który de facto jest tylko tym tzw. proof-of-principle (czyli jakościową demonstracją, że jakieś zjawisko jest prawdopodobne), i za którym powinny iść zakrojone na szeroką skalę badania ilościowe, prowadzi do tego, że takich badań nie wykonuje się w ogóle. Bo skoro wynik został już opublikowany, to potwierdzenia żadne szanujące się pismo wysokoimpaktowe nie weźmie. A grantodawcy, wbrew regułom, i tak świadomie lub nie patrzeć będą milszym okiem na publikacje w Nature i Science, niż w Journal of Random and Not Very Spectacular Confirmatory Results.

No i gdy już całkiem wydawać by się mogło, że sytuacja jest tak pesymistycznie nierozwiązywalna, że bardziej się nie da; gdy już miałem pisać mail do Ioannidesa z krzykliwym tytułem „zabiłżeś pan inspirację do badań!”, na serwery arxiv złożona została ku uciesze gawiedzi praca pod dźwięcznym tytułem „Empiryczne szacunki sugerują, że większość publikowanych badań medycznych jest prawdziwa”.

Praca wyszła spod pióra Leah Jagera i Jeffa Leeka (którego niektórzy czytelnicy bloga będą być może pamiętać z tego wpisu). Panowie postanowili wziąć pod lupę jedno z podstawowych założeń pracy Ioannidesa: a mianowicie to, czy rzeczywiście odsetek wyników fałszywie pozytywnych jest aż tak wysoki. W tym celu dokonali karkołomnego przekopywania się przez abstrakty prac medycznych opublikowanych w kilku najlepszych medycznych periodykach naukowych (m.in. Lancet, BMJ, NEJM) w latach 2000 – 2010, w celu wyłowienia z nich wartości p.

Na podstawie tych danych skonstruowali model, który pozwolił im oszacować odsetek wyników fałszywie pozytywnych, a wartość, którą otrzymali, chociaż wciąż większa niż byśmy sobie życzyli, jest jednak znacznie, znacznie mniejsza od 86% Ioannidesa: Leek i Jager twierdzą mianowicie, że jest to raczej w okolicach 14%, co oznacza, że ich krzykliwy tytuł ma rację. Większość publikowanych wyników jednak jest prawdziwa.

W internecie już rozgorzała dyskusja nad tą pracą, a adwersarze przerzucają się statystycznymi argumentami wagi zbyt dużej na moją słabą głowę. Z tym, że trzeba tutaj zaznaczyć, że większość rozmówców chce wierzyć, że ten rezultat jest prawdziwy, bo chce wierzyć, że możemy ufać wynikom badań medycznych. Część z nich nie jest po prostu przekonana, czy model Leeka i Jagera rzeczywiście problem rozwiązuje.

Historia ma też kolejne dno: w ostatnich latach media naukowe obiegło kilka tekstów, które wsparły podstawę rozważań Ioannidesa. W 2011 Nature Reviews Drug Discovery opublikował pracę trójki badaczy z firmy Bayer, którzy donieśli o dość niepokojącym odkryciu. Otóż firmy farmaceutyczne wyniki prac opisujących odkrycia nowych leków weryfikują samodzielnie, zanim się w jakąś badawczą alejkę zaczną same pchać. Autorzy opisują wyniki takich prób weryfikacji dla 67 różnych projektów. Dane literaturowe zgadzały się z ich danymi w 21% przypadków. W dodatkowych 7% główne dane były takie same, ale pojawiły się rozbieżności w detalach. W 2/3 (słownie: dwóch trzecich!) przypadków, wyniki były niepowtarzalne. Z kolei w marcu 2012 dwóch innych badaczy w komentarzu opublikowanym w Nature opisało badania naukowców w firmy Amgen, którzy usiłowali powtórzyć doświadczenia z 53 publikacji. Udało im się to w mizernych 11% przypadków.

Zatem nawet jeśli model Jagera i Leeka okaże się poprawny, może się okazać, że nijak nie pomoże to w odbudowaniu zaufania do badań biomedycznych. W końcu model jest tylko modelem. I znacznie bardziej do nas wszystkich niż model powinny przemawiać właśnie wyniki prób powtórzenia badań. Nie powinno zatem zapewne dziwić, że gdy Nature ogłaszał swoją listę 10 Naukowych Postaci 2012 Roku, na liście znalazła się Elizabeth Iorns, fundatorka Reproducibility Initiative, projektu, który skupia się dokładnie na tym: na weryfikacji wyników publikacji (prace zgłaszać mogą sami autorzy, zaś jeśli wyniki uda się zreplikować, to rezultaty publikowane są w PLoS ONE). Niestety nie mogę nigdzie znaleźć informacji na temat tego, jaki odsetek nadsyłanych prac udaje się rzeczywiście powtórzyć (ale też sam projekt jest bardzo młody, więc może za wcześnie na to).

Jeśli jest w tej całej historii jakiś pozytywny akcent, to może właśnie to, że pojawiają się takie inicjatywy jak ta dr Iorns, że dostrzega się i coraz częściej i głośniej mówi o takich problemach, jak niepowtarzalność wyników, że większość badaczy chce, aby ich wyniki poddano weryfikacji (70% autorów zaproszonych do nadesłania swoich prac do RI wyraziło w tej kwestii entuzjazm), co oznacza, że nawet jeśli nie uda się ich powtórzyć, to raczej nie z powodu złych chęci czy intencji samych badaczy. Na koniec warto może dodać, że RI wpisuje się bardzo pięknie w retorykę Ioannidesa. Bo nawet jeśli obserwowany efekt jest niewielki, nawet jeśli próbka jest niespecjalnie duża (czasem zresztą nie da się inaczej), jeśli ten sam rezultat obserwować będą coraz to i kolejne grupy, szansa, że wynik jednak jest prawdziwy, dramatycznie wzrośnie. A to końcu jest to, co chcemy wiedzieć.

Przypisy:

1. Przed badaniem. Bo łatwo sobie wyobrazić, że jeśli spróbujemy wykonywać eksperyment próbując dowieść, że nieprawdziwe są fundamentalne prawa fizyki – np. podrzucać jabłko do góry i pokazywać, że wcale nie spada ono potem na dół – i uzyskamy wartość p<0.05, to nie oznacza jeszcze, że udało nam się obalić teorię grawitacji!

2. Ioannidis, J. (2005). Why Most Published Research Findings Are False PLoS Medicine, 2 (8) DOI: 10.1371/journal.pmed.0020124

3. Djulbegovic, B., & Hozo, I. (2007). When Should Potentially False Research Findings Be Considered Acceptable? PLoS Medicine, 4 (2) DOI: 10.1371/journal.pmed.0040026

4. Moonesinghe, R., Khoury, M., & Janssens, A. (2007). Most Published Research Findings Are False—But a Little Replication Goes a Long Way PLoS Medicine, 4 (2) DOI: 10.1371/journal.pmed.0040028

5. Leah R. Jager, & Jeffrey T. Leek (2013). Empirical estimates suggest most published medical research is true Arxiv arXiv: 1301.3718v1

6. Prinz, F., Schlange, T., & Asadullah, K. (2011). Believe it or not: how much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10 (9), 712-712 DOI: 10.1038/nrd3439-c1

7. Begley, C., & Ellis, L. (2012). Drug development: Raise standards for preclinical cancer research Nature, 483 (7391), 531-533 DOI: 10.1038/483531a

8 Comments

  1. Jesienią ubiegłego roku Ioannides opublikował „Empirical Evaluation of Very Large Treatment Effects of Medical Interventions.”, i to nie w PLoS tylko w JAMA http://jama.jamanetwork.com/article.aspx?articleid=1386610 (za paywallem, ale sensowny komentarz na KSJ (MIT) http://ksj.mit.edu/tracker/2012/10/are-big-medical-results-too-good-be-true), z której wynika, że masa badań jest delikatnie mówiąc „taka sobie”. Dlatego warto bardzo ostrożnie podchodzić do doniesień o „magicznych kuracjach”.

    O tej pracy Ioannidesa wspomniałem parę miesięcy temu gdy sam padłem (być może) ofiarą poważnych lecz nie do końca sprawdzonych doniesień http://szescstopni.wordpress.com/2012/10/24/zbyt-piekne-by-bylo-prawdziwe/

    Brak znajomości statystyki warto teraz nadrabiać, w końcu mamy międzynarodowy rok statystyki – warto przeczytać wpis na blogu, którego nazwa pochodzi od znajdującego się tu tekstu „nie będzie tak, że nauka da nam ostateczną odpowiedź na jakieś pytanie” – Last Word on Nothing http://www.lastwordonnothing.com/2013/01/28/becoming-a-statistician/

    A jak pisał Voltaire, sztuka medycyny polega za zabawianiu pacjenta podczas gdy przyroda leczy chorobę.

    Polubienie

    1. sztuka medycyny polega za zabawianiu pacjenta podczas gdy przyroda leczy chorobę
      Przyjdzie dzisiaj człowiek, którego posądzam o raka jądra. Zabawiać go czy potraktować nożem i chemią?

      Co do drugiej pracy Ioannidesa – Cochrane zajmuje się szczególnymi sprawami, często kuracjami witaminami, antyoksydantami, suplementami diety, sensacyjnymi metodami. Rola tej organizacji polega miedzy innymi na walce z szalbierstwem. Dlatego analizowane przez nich tematy nie zawsze są reprezentatywne dla „głównego nurtu” badań medycznych.

      Polubienie

  2. Ten cały artykuł Ioannidasa opiera się na założeniu, że tylko 1% testowanych hipotez jest prawdziwa, ale przecież to zupełnie arbitralna liczba. W mojej dziedzinie (nauki polityczne) liczba testowanych hipotez która jest prawdziwa to co najmniej 25%; jeśli proste dane obserwacyjne wskazują, że dana hipoteza nie ma sensu, to ogóle się jej nie testuje! W tym wypadku liczba hipotez, która jest prawdziwa, jest dużo wyższa niż fałszywych. Dochodzi do tego też kwestia, że daną hipotezę testuje się wiele razy na róznych zestawach danych; dopiero gdy zdecydowana większość testów wykryje pozytywny wynik, daną hipotezę uważa się za prawdziwą.

    Polubione przez 2 ludzi

    1. Nie jest to oczywiste ani z powyższego wpisu, ani z tytułu pracy Ioannidesa, powinienem więc może dodać, że on to roztrząsa głównie na przykładzie prac biomedycznych. To, że 1% jest trochę wyzssany z palca to inna sprawa – i jeden z głównych argumentów podnoszonych przez krytyków tej pracy od momentu jej opublikowania.

      Polubienie

  3. Skąd pomysł, że w badaniach medycznych 1% hipotez jest „rzeczywiście prawdziwa”? Dlaczego Autor wybrał akurat tę cyfrę a nie 0.1% albo na odwrót 90%? Jak takie założenia skomentowali recenzenci i czy w ogóle się nad nimi zastanawiali?

    Moje zadanie nie będzie zbyt reprezentatywne, ale mam wrażenie (na podstawie spostrzeżeń domowych), że w gronie badaczy-eksperymentatorów, takich co po staremu siedzą w laboratoriach i coś tam badają, podobne prace kwitowane są wzruszeniem ramion. Nie przejmują się tez nimi instytucje przyznające fundusze na badania. Wielu badaczy nie uczestniczy w dyskusjach blogosferycznych, twierdząc, że szkoda na to czasu.

    Rafale, chwała czasopismom Open Access, że istnieją, ale z PLoS-ami jest „coś nie tak”. Inny przykład to praca, nad którą toczą się dyskusje w Archeowieściach:
    http://archeowiesci.pl/2013/01/28/genetycy-o-pochodzeniu-slowian/
    Chyba tylko ja przeczytałem dokładnie tę pracę, jak zacytowały ją Archeowieści. Raczej nie zrobili tego recenzenci. Mowa o markerach genetycznych, stwierdzonych w krajach słowiańskich, których powstanie szacuje się przed 4000 laty. Autorzy prowadzą na tej podstawie dociekania historyczne i etnograficzne, ale nie napisali jaka jest częstość występowania tychże markerów (nawiasem mówiąc – mała).

    Polubienie

    1. Ten 1% jest bardzo dyskusyjny – widziałem już komentarz na ten temat gdzieś facebooku, pojawia się też ta kwestia w komentarzach na blogu Jeffa Leeka. Ionnidis podaje przykład zastosowania tego swojego modelu – w przypadek potencjalny, który opisuje, to przesiewowe badanie 100 tysięcy genów w poszukiwaniu markerów schizofrenii, których jest kilka-kilkanaście (przykład jest czysto hipotetyczny, ale wiele badań przesiewowych wygląda w ten sposób). I wylicza jakie wówczas jest prawdopodobieństwo znalezienie tych markerów – i nie jest ono zbyt obiecujące.

      Natomiast nawet, jeśli Ioannidis miałby rację, co do tych szans, to nie wspominna o innej kwestii, na którą właśnie komentatorzy zwracają uwagę: że doświadczony badacz nie rzuca się testować każdą myśl, która mu się akurat nawinie. Tylko kieruje się: doświadczeniem, literaturą przedmiotu, errr… prawami fizyki. I tak dalej. No tylko że wtedy nie wyszłoby 86%.

      Co do PLoSów: ja akurat mam wrażenie, że PLoSy tematyczne nie są złe, chociaż mogą im się trafiać kwiatki – jak każdemu pismu. Ale te prace z PLoS Med, które tutaj cytuję, były publikowane jako „essay”, a nie jako „research”, co nie jestem pewien, co dokładnie oznacza (np. czy oznacza, że nie były poddane recenzji? Czy też jest to tylko jakaś tam forma artykułów publikowana przez ten periodyk?).

      Natomiast PLoS ONE to z definicji zupełnia inna kategoria. To jest pismo, przynajmniej w teorii, inkluzywne, więc jeśli wyniki wyglądają na naukowo poprawne – nawet jeśli są niekompletne, jeśli nic nowego specjalnie sobią nie reprezentują i tak dalej, i tym podobne – to PLoS ONE je opublikuje. Publikują więc na przykład wiele prac także z genetyki, ale wystarczy zadać sobie pytanie: skoro PLoS posiada dedykowany żurnal genetyczny, który ma i wyższy IF niż ONE, i jest też kierowany do specyficznej publiki, więc genetykowi powinien bardziej pasować, co jest nie tak z publikacją, że została zesłana do PLoS ONE? I z reguły właśnie to: że zaobserowany efekt jest nikły i niewiele wnoszący do naszej wiedzy, albo że badanie jest połowiczne, niekompletne i tak dalej.

      Na koniec dodam, że PLoS (zwłaszcza jedynka), pomimo polityki otwartość, wspierania z wszystkich sił OA i innych otwartych inicjatyw, ma jednak historię długą nieujawniania wszystkich danych (my jesteśmy na to wyczuleni, bo Jonathan Eisen, który jest w PLoS doradczą szychą, zawsze wiesza na nas psy i chwali PLoS pod niebiosa m.in. właśnie za dostępność do danych, a prac np. z genetyki, w których brakuje kodów dostępu do publicznych baz danych, jest w PLoSach jak mrówków).

      Polubienie

  4. Według bardziej ortodoksyjnych – medycyna ma jakieś 8 lat
    (2013-8=2005)
    To bardzo nie dawno, więc może i „marszałkini” była dyrektorka resortu zdrowa mogłaby usprawiedliwiać się „nienabierzącością”
    Ale ja chyba jakoś wcześniej zlazłem z drzewa niż Ona.

    Wiemy coraz więcej, jesteśmy ponad durni z przed kilku nawet lat, ale…

    kilka miliardów lat () dało nam jeszcze tyle zagadek
    że życie jednak będzie ciekawe, tylko dla nawiedzonych religiantów nie jest

    Polubienie

Dodaj komentarz