Nieprawda w oczy kole

Niecałe dwa tygodnie temu opisywałem w GW ciężki przypadek oszustwa naukowego: historię Diederika Stapela, holenderskiego psychologa społecznego, który w przeciągu dwóch lat zaledwie spadł z naukowego piedestału i z gwiazdy stał się pariasem.

Stapel jest koronnym przykładem problemów, które targają w jakimś stopniu nauką holenderską, w jakimś stopniu psychologią społeczną, a w jakimś stopniu nauką w ogóle. Dzisiaj chciałem się jednak skupić na psychologii – ale podkreślam, że problemy nie ograniczają się tylko do tej dziedziny, chociaż na wiele z nich jest ona bardziej podatna przez wzgląd na swój charakter (z jednej strony: nauka doświadczalna; z drugiej: nauka, w które bardzo trudno zaprojektować naprawdę dobrze ekscytujący eksperyment i jeszcze uzyskać wyniki, które będą coś znaczyć).

Pośród ponad 50 prac Stapela, które ostatecznie wycofano, znalazła się oczywiście jedna w magazynie Science. Mówię „oczywiście”, gdyż Science owiane jest nieco złą sławą, jeśli chodzi o wątpliwej jakości publikacje – pomimo wyrażonej wskaźnikiem wpływu (IF) renomy. Pisałem kiedyś o badaniu, które pokazało, że wśród czołowych naukowych pism multi-dyscyplinarnych to właśnie ten magazyn musi najczęściej wycofywać publikacje z literatury.

Być może ta właśnie magiczna kombinacja trudnej dziedziny i notorycznego przeceniania własnych publikacji przez Science stała się przyczynkiem do pracy, która pojawiła się na początku grudnia w piśmie PLoS ONE, której autorzy przeanalizowali – niespodzianka – artykuły z zakresu psychologii eksperymentalnej pojawiające się w tym periodyku.

Badania psychologiczne należą do jednych z najtrudniejszych do replikacji. Nieopracowane dane rzadko udostępniane są publicznie, więc niemożliwe jest sprawdzenie poprawności analiz statystycznych. Chociaż niesamowite – i podejrzane – wyniki nie muszą być wcale znakiem fałszowania danych (jak miało to miejsce w przypadku Stapela), to istnieje wiele innych sposobów, w jakie badacze świadomie lub nie mogą wpłynąć na wyniki badania. Powtarzanie eksperymentów do momentu uzyskania chcianego rezultatu, wyłączanie obiektów badania, których wyniki nie pasują do postawionych hipotez, selektywne łączenie danych z różnych eksperymentów, poławianie wartości p; wszystkie te metody prowadzić będą do zafałszowania wyników doświadczenia.

Na szczęście istnieje narzędzie pozwalające sprawdzić, czy wyniki pozyskiwane w badaniu są przesadzone. Jest to tzw. test zawyżonej istotności (ang. test for excess significance, TES), nota bene opracowany przez ulubieńca wszystkich badaczy biomedycznych, Johna Ioannidisa. Test ten inny badacz zastosował bardzo niedawno w podobny sposób do prac publikowanych przez prestiżowy periodyk branżowy Psychological Science. W tym badaniu autor przeanalizował 44 prace spełniające kryteria kwalifikujące je do TES (spomiędzy 2009 i 2012 roku) i odkrył, że w 36 – czyli 82% – istniały problemy sugerujące, że wyniki badania nie zostały opisane w sposób rzetelny.

Autorzy pracy w PLoS ONE postanowili zastosować test TES do prac z okresu od 2005 do 2012 roku, w których przeprowadzono co najmniej cztery eksperymenty. Takich prac było 18 – 15 z nich (83%) spełniało warunek zawyżonej istotności, to znaczy, że prezentowane w nich wnioski opierały się na wynikach, które były zbyt piękne, by były prawdziwe.

Wyniki te mogą mówić co nieco o jakości prac psychologicznych publikowanych w Science, ale tak naprawdę nie mówią nam aż tak wiele. Sama próba siłą rzeczy jest niewielka, nie wiadomo też, czy wynik dałoby się uogólnić na prace z mniejszą liczbą eksperymentów, lub na inne pisma. Z jednej strony istnieje uzasadnione oczekiwanie, że Science publikować będzie najlepsze z najlepszych badań – co mogłoby oznaczać, że jeśli ponad 80% tych badań jest nierzetelna, w mniej prestiżowych periodykach ta liczba może być jeszcze większa.

Z drugiej strony jednak istnieje oczywiście szansa, że autorzy chcący koniecznie opublikować w Science popełniają błędy i niedociągnięcia, których nie darowano by im w branżowym piśmie. Samo Science zaś też nie będzie do końca zainteresowane badaniami, które pokazują, że coś tam ledwo zachodzi z minimalną istotnością – jeśli efekt nie jest duży i statystycznie bardzo istotny, redaktorzy mogą nie uznać go za wystarczająco medialny, aby nadawał się do publikacji w tym piśmie. Jest więc na autorów położona pewna presja siłą rzeczy prowadząca do efektu potwierdzenia, który tu widzimy.

Autorzy publikacji bardzo elegancko wykorzystują wyniki jako wstęp do dyskusji nad problemami, które trawią współczesną psychologię. I tłumaczą, że niektóre oczywiste rozwiązania problemu, które z powodzeniem stosować można by w naukach biomedycznych, w psychologii niekoniecznie dadzą pożądane rezultaty. I tak:

– replikacja wyników nie zawsze oznacza, że uzyskany wynik jest prawdziwy;

– większa liczba pomiarów nie zawsze jest pomocna;

– nie zawsze dane definiują teorię (jeśli metoda zbierania danych jest kiepska, wówczas taka teoria opierałaby się w dużej mierze na mierzonym szumie);

– to, że przewidywanie wynikające z teorii zostaje potwierdzone eksperymentalnie, wcale nie oznacza, że potwierdza to teorię.

Badacze dyskutują też możliwe rozwiązania, które powinny pomóc w bardziej rzetelnym prowadzeniu badań. Jedną z ich propozycji – nie nową zresztą – jest uczestnictwo w Open Science Network, która umożliwia łatwiejsze dzielenie się danymi eksperymentalnymi.

Jak wspomniałem jednak wcześniej, psychologowie danymi tzw. surowymi dzielą się raczej niechętnie. I tutaj ciekawe światło na sytuację rzuca kolejna praca z PLoS ONE sprzed trzech lat, której autorzy sprawdzili – także na przykładzie publikacji psychologicznych – jak skłonność do dzielenia się swoimi danymi wiąże się z siłą dowodów w publikacjach oraz jakością tych publikacji.

Badanych prac było 49. Ich jakość określono za pomocą baterii testów statystycznych. Skłonność autorów do dzielenia się danymi określono za pomocą konia pociągowego współczesnej nauki: emaila. 43% autorów oryginalnych prac nie miało nic przeciwko dzieleniu się danymi. Poniżej widać porównanie pomiędzy pracami, których autorzy nie chcieli udostępnić danych (z różnych przyczyn), a tymi, którzy byli skłonni podzielić się zapisem eksperymentów, dla trzech rodzajów błędów znalezionych w tych pracach:

źródło: PLoS ONE
źródło: Francis et al., PLoS ONE 2014, 9(12): e114255

Jak widać, prace, których autorzy chętniej udostępniali dane, zawierały mniej błędów. Koniec końców jest jednak nieco niepokojące, że błędy znaleziono w połowie prac! Tym bardziej, że niechęć do dzielenia się danymi była największa w przypadku prac, w których błędy dotyczyły poziomu istotności, sugerując, że być może autorzy mieli coś do ukrycia.

Praca ta powinna była być jak sole trzeźwiące dla środowiska psychologów: wiele towarzystw psychologicznych wymaga, aby dane były przechowywane co najmniej pół dekady po publikacji wyników. Rzeczywistość jest jednak zupełnie inna. Być może to, i inne środowiska borykające się z podobnymi problemami, potrzebują takiego impulsu, jakim był dla nauk biomedycznych zjazd genetyków pracujących nad ludzkim genomem na Bermudzie w 1997 roku, skutkiem którego były coraz to i kolejne wymagania największych amerykańskich fundatorów nauki, aby surowy dane z sekwencjonowanie były deponowane i udostępniane publicznie najszybciej jak się da, a najpóźniej w chwili publikacji.

Oczywiście publiczne dane w psychologii, jeśli się ich kiedykolwiek doczekamy, nie rozwiążą magicznie wszystkich problemów i nie rozstrzygną, czy dana praca jest całkowicie rzetelna czy nie – będą jednak znakomitym początkiem tego procesu weryfikacji, który ma przecież duże znaczenie dla nas wszystkich: pokazanie, że dane badanie jest przeprowadzone poprawnie i rzetelnie oznacza, że kolejne badania, które się na nim opierają, nie są stratą czasu badaczy (których pensje opłacane są przecież często z państwowych pieniędzy) ani funduszy (które także pochodzą nierzadko z kieszeni podatnika).

Dysklejmer:

Muszę tutaj gwoli ścisłości zaznaczyć, że pierwszy autor pracy w PLoS ONE krytykującej publikacje w Science sam w przeszłości nie ustrzegł się krytyki za zbyt liberalne stosowanie TES: w 2012 roku opublikował on serię publikacji, w których opisywał zastosowanie TES do pojedynczych publikacji. Takie podejście prowadziło z jednej strony do piętnowania indywidualnych autorów za problemy, które dotyczą całej dziedziny, z drugiej zaś nie dało się go do całej dziedziny uogólnić przez wzgląd na projekt badania. Obecną publikacją autor powinien zamknąć usta przynajmniej niektórym krytykom.

źródło ikony wpisu: flickr; ms. Tibbetts (CC BY-NC 2.0)

Reklamy

7 Comments

  1. Interesujący temat. Z artykułem o którym piszesz na poczatku spotakłem się gdzieś na jakimś spotkaniu branżowych. Dyskutowano o nim i zachęciło mnie to do lektury. Oszustwa naukowe wydają się być niestety coraz częstsze. Jeśli to na małą skalę to można jeszcze przeboleć. Ale takie oszustwa na skalę światową to już poważna sprawa. Szczegolnie, jeśli opiera się na nich dalsze, wazne badania.

    Polubienie

  2. Bardzo ciekawy post. Prowadzi na pewno do refleksji. Na pewno przeczytam inne artykuły tutaj zamieszczone z tak samo wielkim zainteresowaniem jak ten post. Polecę również tego bloga znajomym, lepiej przeczytać cos takiego niż co chwile przeglądać aktualności na facebooku ;) Pozdrawiam serdecznie :) !

    Polubienie

  3. Cieszę się, że mnie dotyczą i interesują badania medyczne. Kliniczne, na zwierzętach, na komórkach… tam raczej ciężko o zafałszowania no i chyba raczej fałszowanie takich badań nie miałoby sensu i celu dla autora ewentualnych fałszerstw.

    Polubienie

    1. Możliwe jak najbardziej. Wystarczy spojrzeć na aferę z nową metodą otrzymywania komórek macierzystych, opracowaną przez badaczy z japońskiego instytutu RIKEN i opublikowaną w styczniu tego roku (?) w Nature. Wykazanie, że metoda nie działa, a dane prawdopodobonie zostały sfałszowane zajęło całe dwa miesiące, czy coś koło tego (dzisiaj fałszowanie danych jest już potwierdzone, a jednym z tragicznych rezultatów było samobójstwo jednego z bardziej doświadczonych autorów (który jednak, o ile jesteśmy w stanie stwierdzić, nie brał udziału w fałszerstwie, a jedynie był bardzo, ale to bardzo zażenowany tym, że praca w ogóle została opublikowana).

      Polubienie

  4. Tak na poboczu:
    „zjazd genetyków pracujących nad ludzkim genomem na Bermudzie w 1997 roku, skutkiem którego były coraz to i kolejne wymagania największych amerykańskich fundatorów nauki, aby surowy dane z sekwencjonowanie były deponowane i udostępniane publicznie najszybciej jak się da”

    Czy można prosić o coś szerszego na ten temat? Co tam się wydarzyło?

    Polubienie

    1. Chyba użył Pan tutaj skrótu myślowego : „skutkiem którego były coraz to i kolejne wymagania największych amerykańskich fundatorów nauki, aby surowy dane z sekwencjonowanie były deponowane i…”
      Genialny artykuł, z którym jako psycholog niestety zgadzam się. Cieszę się, jednak, że są tacy ludzie jak D.Khanman i T. Witkowski którzy podkreślają jak ważna jest istotność statystyczna.
      p.s. Bardzo, bardzo fajny Blog!:)

      Polubienie

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj / Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj / Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj / Zmień )

Connecting to %s