Prawdziwy rozmiar naszej (nie)wiedzy

W każdej debacie naukowej jako argumentów używa się badań opublikowanych w recenzowanych pismach. Podczas gdy, przy ważeniu argumentów, nacisk kładzie się najczęściej na to, że pismo jest (lub nie) recenzowane, niemniej ważnym punktem jest to, czy wyniki w ogóle zostały opublikowane. W świcie nauki problemem niemal dosłownie na wagę złota jest bowiem tzw. tendencyjność publikacyjna.

O co chodzi? Wyobraźmy sobie badacza, który próbuje znaleźć odpowiedź na pytanie: czy ćwiczenia fizyczne prowadzą do utraty zbędnych kilogramów? Badacz przypuszcza, że tak, i stawia zatem następującą hipotezę badawczą: ćwiczenia skutkują spadkiem wagi. Sposób w jaki działa metoda naukowa (często niestety nie rozumiany i przeinaczany w mediach) prowadzi do tego, że nie jesteśmy w stanie takiej hipotezy badawczej bezwzględnie udowodnić. Alternatywą jest postawienie innej hipotezy – przeciwnej do naszej hipotezy badawczej – i wykazanie, że ta hipoteza jest fałszywa. Taka alternatywne hipoteza, to tak zwana hipoteza zerowa.

Oczywiście najciekawsze są wyniki pokazujące, że jakaś fascynująca hipoteza badawcza jest prawdopodobnie poprawna. Niemożność zaprzeczenia hipotezie zerowej, pomimo tego, że też dostarcza nam mnóstwa informacji, interesująca nie jest. I tu właśnie pojawia się tendencyjność publikacyjna: pisma naukowe znacznie chętniej publikują wyniki badań, w których udało się obalić hipotezę zerową, ponieważ oznacza to, że prawdziwy wynik jest zazwyczaj bardzo ekscytujący. Badania pokazujące, że hipoteza zerowa może być prawdziwa, lądują najczęściej w szufladzie (jako tzw. wynik negatywny).

Z jednej strony można oczywiście zrozumieć redakcje, które są nieskore do publikowania wyników negatywnych, jako nieciekawych. Jedynym wyjątkiem jest chyba publikowania negatywnych wyników medycznych. Z drugiej jednak strony oznacza to, że olbrzymia ilość know-how na temat tego, co jest, a co nie jest możliwe, nigdy nie ogląda światła dziennego. Prowadzi to do tego, że kolejni badacze próbują wykonywać eksperymenty, które próbował wykonać już ktoś inny, bo nie wiedzą, że skazani są na porażkę.

Co to oznacza dla nauki? Otóż skutek poważny jest co najmniej jeden: za te same badania płacimy wielokrotnie, chociaż wystarczyłoby raz (lub powiedzmy dwa razy, żeby pokazać, że wynik jest powtarzalny). Świat naukowy jest oczywiście doskonale świadomy tego zjawiska, jednak jego skala – chociaż można podejrzewać, że dość spora – nie została do tej pory oceniona ilościowo. Z dobrej przyczyny: naturą badań niepublikowanych jest to, że bardzo trudno jest się o nich dowiedzieć, gdyż są, no właśnie, niepublikowane.

Trudno nie znaczy jednak, że niemożliwe, jak dowodzą autorzy pracy opublikowanej w tym tygodniu w Science [1]: trójka naukowców z Uniwersytetu Stanforda postanowiła spróbować ocenić skalę fenomenu tendencyjności publikacyjnej. Wykorzystali w tym celu system TESS: amerykański serwis wspomagający naukowców prowadzących badania z zakresu psychologii społecznej, oparte na ankietach.

System działa w ten sposób, że badacze zgłaszają swoje badanie jako projekt, serwis zaś zajmuje się zbieraniem danych. Nie wszystkie spośród tych badań są potem publikowane – oczywiście wiele z nich nie będzie w stanie obalić hipotezy zerowej. Jednak przegląd badań zarejestrowanych w serwisie daje dobry obraz całkowitego krajobrazu naukowego. I to właśnie postanowili wykorzystać autorzy pracy w Science.

Źródło ilustracji: flickr; Scott Beale (CC BY-NC 2.0)
Źródło ilustracji: flickr; Scott Beale (CC BY-NC 2.0)

W swojej analizie badacze uwzględnili badania przeprowadzone między 2002 a 2012. Późniejsze lata nie zostały uwzględnione, gdyż jest spora szansa, biorąc pod uwagę , ile czasu zajmuje analiza wyników, napisanie pracy oraz proces recenzji, że nawet jeśli jakieś publikacje z nich wynikną, to nie zostały jeszcze opublikowane. Naukowcy skontaktowali się z autorami ponad 100 badań, wyniki których nie zostały nigdy opublikowane, i zapytali dlaczego. Porównali też to, czy i gdzie publikowane były wyniki badań, z tym jakie rezultaty były w tych pracach raportowane.

No i okazuje się, po pierwsze, że mniej niż połowa zakończonych badań (48%) jest publikowane w pismach naukowych. Wśród prac publikowanych widać zaś wyraźny dysonans między badaniami, których wyniki potwierdzały hipotezę badawczą (60% z tych zostało opublikowane) lub dały wynik mieszany (50% opublikowane), a tymi w których nie udało się odrzucić hipotezy zerowej (światło dzienne ujrzało jedynie 20%).

Blisko jedna czwarta projektów zarejestrowanych w TESS dała wynik zerowy (niemożliwe odrzucenie hipotezy zerowej). Jednak mniej niż jedna dziesiąta opublikowanych artykułów to te donoszące o takich wynikach. Najbardziej dramatycznym rezultatem jest tutaj jednak różnica między badaniami, których autorzy zdecydowali się nie pisać pracy: w dwóch trzecich wypadków w badaniach nie udało się odrzucić hipotezy zerowej, i trudno nie przypuszczać, że to właśnie było powodem pozostawienia tych wyników własnemu losowi.

Chociaż skala tendencyjności publikacyjnej pokazana w tym badania jest dość spora, komentatorzy spieszyli się, by podkreślić, że prawdopodobnie rozmiar tego fenomenu jest tutaj wciąż zaniżony. Z drugiej strony należy pamiętać, że autorzy analizowali badania z zakresu psychologii społecznej. Jest to dziedzina, w której widać największą tendencję do publikowania wyników pozytywnych [2], jak pokazało inne badanie sprzed kilku lat.

Nie jest jednak tak, że problem nie dotyczy na przykład badań biomedycznych. Brytyjski periodyk medyczny, British Medical Journal, opublikował w zeszłym roku podobną analizę [3] dotyczącą prób klinicznych. Przez wzgląd na charakter tego typu badań obecnie standardem jest rejestracja badania przed jego rozpoczęciem. Podobnie jak w przypadku TESS mamy więc niezły ogląd tego, co próbowano zrobić, i ile z tych wyników zostało potem opublikowane.

Wyniki tej analizy były podobnie rozczarowujące: prawie 30% prób nie zakończyło się publikacją. W próbach tych wzięło w sumie udział blisko 300 tysięcy pacjentów. Oznacza to, że wyniki badań klinicznych dla tych 300 tysięcy ludzi są wciąż niedostępne dla innych badaczy – a być może, chociaż nie poparły hipotez stawianych przez naukowców prowadzących te konkretne badania, dane mogłyby być spożytkowane w inny sposób.

Problem jednak nabiera nowego tła dla nauk społecznych w szczególności w świetle skandali, które wstrząsnęły tą dziedziną w ostatnich latach: co najmniej trzech holenderskich badaczy okazało się być hochsztaplerami na sporą skalę, fabrykującymi wyniki swoich badań i oszukującymi nie tylko czytelników, ale nawet własnych współpracowników i studentów. Pisma, zaalarmowane prowadzonymi instytucjonalnymi śledztwami, zaczęły na potęgę wycofywać ich publikacje: rekordzista, Diedrich Stapel dochapał się już ponad 50 retrakcji, Dirk Smeesters ma ich sześć, Jens Förster jeszcze mocno się broni, ale postępowanie przeciwko niemu nabiera rozpędu (sam badacz wciąż stanowczo zaprzecza oskarżeniom, więc na razie trudno oceniać, czy zaliczyć go do grona oszustów, czy też jest to jedna wielka pomyłka).

Dziedzina, której prestiż został tymi aferami poważnie naruszony, jest obecnie w stanie tzw. soul searching, z wieloma naukowcami próbującymi przedefiniować to, w jaki sposób prowadzone są badania w tym zakresie. Jednym z potencjalnych rozwiązań byłaby rejestracja badań przed ich rozpoczęciem, podobna do tych mających miejsce dla prób klinicznych. Opór materii jest jednak spory, zwłaszcza że właśnie w psychologii społecznej często (ponoć [4]) zdarzają się odkrycia przypadkowe – wynikające ze spontanicznej zmiany w środku badania. Ślepe podążanie za wytyczonym planem badawczym może więc, zdaniem niektórych naukowców, zgasić te przebłyski geniuszu.

Pytanie jednak, czy przeciętny podatnik, którego mało obchodzi to, czy brudne ulice mają wpływ na rasistowskie stereotypy (jedno ze sfabrykowanych badań Stapela, [5]), przejmie się tym, że tego typu odkrycia staną się rzadsze – czy też bardziej zajmie go to, że fundowanie badań z jego pieniędzy jest znacznie bardziej efektywne, gdyż nie marnuje się funduszy na ponowne odkrywanie koła, zaś odkrywanie koła za pierwszym razem ma miejsce na skutek procesu znacznie bardziej przejrzystego i łatwiejszego do weryfikacji.

Na koniec wrócić jednak muszę do tendencyjności publikacyjnej. Nasuwa się bowiem jeden oczywisty wniosek: niezależnie od tego, w jaki sposób prowadzone są badania w różnych dziedzinach, jako społeczeństwo musimy upewnić się, że istnieje mechanizm pozwalający badaczom publikować wyniki negatywny oraz że mają oni do tego odpowiednią motywację – bo samo napisanie pracy też w końcu zajmuje ich czas, a do tego dochodzi stres związany z procesem recenzji. Odpowiedzią na punkt pierwszy są oczywiście otwartodostępowe mega-pisma, w których kryterium przyjęcia do publikacji jest jedynie poprawność metodologiczna (według takiej formuły działają na przykład PLoS ONE, BMC Research Notes, Scientific Reports). Odpowiedzi na punkt drugi jeszcze nie mamy – i właśnie poszukiwanie tej odpowiedzi powinno być jednym z najważniejszych celów we współczesnych zarządzaniu nauką.

Przypisy:

1. Franco, A., Malhotra, N., & Simonovits, G. (2014). Publication bias in the social sciences: Unlocking the file drawer Science DOI: 10.1126/science.1255484

2. Fanelli D (2010). „Positive” results increase down the Hierarchy of the Sciences. PLoS ONE, 5 (4) PMID: 20383332

3. Jones CW, Handler L, Crowell KE, Keil LG, Weaver MA, & Platts-Mills TF (2013). Non-publication of large randomized clinical trials: cross sectional analysis. BMJ (Clinical research ed.), 347 PMID: 24169943

4. Niech mnie jakiś psycholog społeczny tutaj poprawi. Ogólnie rzecz ujmując, moja wiara w tzw. serendipity (brak ładnego polskiego słowa, oznacza to odkrywanie rzeczy przez przypadek, gdy badaliśmy coś zupełnie innego) jest raczej słaba. Owszem, zdarzają się takie przypadki. Ale mam podejrzenie, że – z czysto statystycznego punktu widzenia – są one maleńkim odłamkiem wśród odkryć dokonanych dzięki wytrwałym, systematycznym badaniom.

5. Stapel DA, & Lindenberg S (2011). Coping with chaos: how disordered contexts promote stereotyping and discrimination. Science (New York, N.Y.), 332 (6026), 251-3 PMID: 21474762

2 Comments

  1. Jako laik w badaniach naukowych mogę się domyślać sensu wpisu. Zabrakło zobrazowania prostym przykładem. Zaczęło się od prostego przykładu chudnięcia i ćwiczeń Ale jaka jest hipoteza zerowa w tym przykładzie?, Że ćwicząc można przytyć, czy że ćwicząc nie można schudnąć? I które wyniki będą publikowane, a które nie i co jest tendencyjne?

    Polubienie

    1. Hipoteza zerowa bierze się z zasady falsyfikacji – trudno jest na 100% stwierdzić że jakieś twierdzenie jest zawsze prawdziwe, ale można wykazać że w pewnych warunkach jest fałszywe. Jeśli w warunkach doświadczenia nie udało się obalić danego założenia, to uznaje się je za prawdziwe (w tych warunkach). W efekcie doświadczenia są prowadzone tak aby próbować obalić tezę.

      Teza: dziesięć pompek każdego dnia, bez innych ćwiczeń fizycznych, zredukuje obwód brzucha.
      Hipoteza zerowa: u badanych wykonujących tylko dziesięć pompek i niezachowujących diety obwód brzucha nie zmieni się w porównaniu z identyczną grupą nie robiącą pompek.
      Doświadczenie: Bierzemy dwie grupy 20 podobnych osób o podobnej diecie i wadze, jedna grupa będzie robiła rano dziesięć pompek, po miesiącu zbadamy jej zmiany obwodu brzucha. Druga grupa nie będzie robiła pompek, po miesiącu zbadamy jej zmiany obwodu brzucha. Jeśli między grupami będzie różnica a grupa z pompkami schudnie, to hipoteza zerowa jest fałszywa.
      Wynik: grupa robiąca pompki schudła średnio o 5 cm
      Wniosek: prawdopodobnie robienie pompek zmniejsza obwód brzucha, choć bez diety efekt ten jest bardzo mały.

      Wszyscy oczekują takiego efektu, dlatego badania które nie wykażą różnicy między grupami mogą nie być publikowane.

      Polubienie

Dodaj komentarz