Krytyczna cecha wstępnego wyniku

źródło: flickr; epSos.de (CC BY)

Sekret dzisiaj zdradzę już na początku: najbardziej krytyczną cechą każdego wstępnego wyniku jest to, że jest on, cóż, po prostu wstępny. To znaczy, że jest być może wskazówką, że pewne zjawisko zachodzi, ale nie jest ostatecznym dowodem. Jedynym zaś sposobem na dowiedzenie jest powtórzenie eksperymentu w warunkach niezależnych i tak wiele razy, jak tylko jest to możliwe.

I dlatego wszystkie badania pod tytułem: próbka 20 pacjentów wykazała że, albo przedstawiamy rewolucyjny wynik, którego jeszcze nikt nie zweryfikował, ale który całkiem zmieni oblicze świata – wszystkie takie badania powinny być traktowane z dużą dozą ostrożności.

W mediach często jednak nie są – i dodam, że nie jestem tutaj bez winy (o tym dlaczego, w dalszej części wpisu).

ResearchBlogging.orgW zeszłym roku periodyk Molecular Psychiatry opublikował wyniki badań grupy badaczy z Uniwersytetu Indiany. Założenie pracy było tyleż szczytne, ile odrobinę jednak naiwne (nie mówiąc o tym, że upraszczające do bólu skomplikowane podłoże wielu chorób psychicznych): uczeni założyli bowiem, że możliwe jest stworzenie jakościowej i obiektywnej metody do oceny skłonności samobójczych pacjentów. O badaniu pisałem już raz tutaj.

Przyjrzyjmy się raz jeszcze, jak wyglądało to badanie. Po pierwsze, przebadano próbki krwi grupy pacjentów z chorobą dwubiegunową, którzy wykazywali skłonności samobójcze. To badanie pozwoliło zidentyfikować listę genów o ekspresji zmienionej w stosunku do grupy kontrolnej. Odfiltrowanie genów niezwiązanych z chorobami psychicznymi pozostawiło na liście 41 kandydatów.

Następnie zbadano poziom ekspresji tych genów u 9 samobójców (badanie, oczywiście, post-mortem). Te wyniki pozwoliły zawęzić listę to 13 genów. Wreszcie badaniu poddano dwie grupy pacjentów: z chorobą dwubiegunową oraz ze schizofrenią. W tej grupie poziom 4 genów korelował mocno z zachowaniami samobójczymi.

W oryginalnym wpisie na temat tego badania zgłosiłem masę zastrzeżeń dotyczących projektu badania i tego, jakie wnioski tak naprawdę można z niego na tym etapie wyciągać. Jednym z podstawowych zarzutów jest tutaj rozmiar próby: pierwsza grupa pacjentów liczyła 9 osób, badania post-mortem także przeprowadzono na 9 pacjentach. Większą grupę wykorzystano na ostatnim etapie – około 90 osób w obu grupach – co nie zmienia faktu, że na zjawisko tak skomplikowane jak przyczyny skłonności samobójczych, nawet ta ostatnia grupa jest wciąż o wiele za mała.

Sprawiedliwość trzeba oddać autorom w tym sensie, że ograniczeń swojego badania nie ukrywali: w dyskusji wyjaśnili, że potrzebne są będą dalsze badania, aby potwierdzić skuteczność odkrytych przez nich markerów.

Tyle tylko, że narzuca się tutaj pytanie: dlaczego w ogóle badanie zostało w takim razie opublikowane? Skoro z jednej strony jest za małe, aby mieć dość mocy do wykrywania jakichkolwiek markerów, a z drugiej strony autorzy nie skupili się tak naprawdę na żadnych z genów, aby pokazać, jaki mógłby być mechanizm zjawiska.

I to samo pytanie najwyraźniej zadała sobie inna grupa badaczy, która w zeszłym tygodniu opublikowała w periodyku Translational Psychiatry wyniki swoich eksperymentów, w których próbowali odtworzyć wyniki artykułu z Molecular Psychiatry. Na podobnie niewielkiej próbie pacjentów (20 potencjalnych samobójców vs 37 kontroli) cierpiących na zaburzenia depresyjne.

Autorzy tego badania twierdzą – i wierzę im na słowo, nie mając niestety dość doświadczenia, aby stwierdzić, czy jest to prawda – że próba, którą dysponują jest wystarczająca do replikacji wyników uzyskanych w oryginalnej publikacji. Dodają też jednak na wstępnie, że do markerów podchodzą z pewnym sceptycyzmem. Ponieważ prac ogłaszających, że gen ten czy tamten jest znakomitym markerem na takie czy inne zaburzenie psychiczne, jest na pęczki. A markerów, które mają rzeczywiście znaczenie kliniczne (to znaczy pokazano, że jest je sens stosować w praktyce), jak nie było, tak dalej nie ma.

Wnioski pracy są raczej niespecjalnie zaskakujące: autorom nie udało się powtórnie wykazać, że ekspresja genów zidentyfikowanych w oryginalnej pracy jest w jakikolwiek sposób związana ze skłonnościami samobójczymi. Innymi słowy test krwi na samobójcę nie działa. Tylko czy ktokolwiek jest tym rzeczywiście zdziwiony?

W przypadku „testu na samobójcę” niezależna grupa autorów pokazała na niezależnej grupie pacjentów, że wyników nie da się powtórzyć. Warto się jednak zastanowić, czy możliwe jest, aby dwie grupy badaczy uzyskały diametralnie różne wyniki analizując ten sam zestaw danych?

Dwa lata temu opisywałem arcyciekawe badanie opublikowane w PNAS. Autorzy, zainspirowani ciekawą, acz irytującą, obserwacją, że wiele leków, które w testach na myszach dają znakomite rezultaty, u ludzi ma niską skuteczność. Postanowili przyjrzeć się w szczególności stanom zapalnym: w tym celu porównali globalną ekspresję genów u pacjentów leczonych na oparzenia oraz myszy, które stosowane były jako model stanów zapalnych (takie modele konstruowane są najczęściej w taki sposób, aby odpowiedź fizjologiczna zwierzęcia na określony bodziec była taka sama jak u człowieka). I wszystkim szczęki opadły.

Mysz laboratoryjna/ źródło: wiki; Rama (CC BY-SA 2.0)
Mysz laboratoryjna/ źródło: wiki; Rama (CC BY-SA 2.0)

Okazało się bowiem, że chociaż odpowiedź fizjologiczna jest może taka sama, to odpowiedź genetyczna, czyli poziom ekspresji genów w odpowiedzi na zapalenie, jest dramatycznie różny u ludzi i u myszy. Wniosek zatem nasuwał się jeden dość oczywisty: myszy są po prostu fatalnym modelem do badania wielu chorób, a miliony dolarów ładowane w badania na tych zwierzętach można by prawdopodobnie zużytkować znacznie lepiej.

Co takiego szczególnego wydarzyło się zatem ostatnio w odniesieniu do tego badania? W sierpniu PNAS opublikował badanie, którego tytuł różnił się od oryginału jednym słowem. Oryginał zatytułowany był:

Genomic responses in mouse models poorly mimic human inflammatory diseases.

Nowa praca miała zaś tytuł (podkreślenia moje):

Genomic responses in mouse models greatly mimic human inflammatory diseases.

Autorzy nowego badania przeanalizowali ponownie te same dane, które analizowano w badaniu oryginalnym. Jaka zatem była różnica, która doprowadziła do tak różnych wniosków? W badaniu powtórnym dwójka japońskich autorów zastosowała inne kryteria doboru genów do analizy. Zastosowali też inny test statystyczny niż autorzy oryginału (dla fachowców: współczynnik korelacji rang Spearmana zamiast współczynnika korelacji Pearsona). Wreszcie: użyli nieco bardziej zaawansowanego narzędzia bioinformatycznego, które pozwala bardziej obiektywne porównywanie danych wyprodukowanych za pomocą różnych platform technologicznych.

No i okazało się, że myszy są jednak (najprawdopodobniej) znakomitym modelem stanów zapalnych u ludzi.

Nasuwają się tutaj dwa wnioski. Po pierwsze, nauka jest skomplikowana i często sposób przeprowadzenia analizy na tym samym zestawie danych może dać zupełnie przeciwstawne wyniki. Tutaj jest to o tyle istotne, że w badania na mysich modelach pompuje się miliony dolarów, zatem czy są one, czy też nie są dobrym modelem chorób ludzkich, nie jest całkiem bez znaczenia.

Bez odpowiedzi pozostaje też pytanie (czyt. wniosek drugi), czy myszy rzeczywiście są dobrym modelem. Bowiem pokazanie, że te same dane mogą dać różne rezultaty, nie oznacza jeszcze, że wiemy, który z tych wyników jest prawdziwy!

Przypadki takie, jak analiza myszy jako modelu chorób ludzkich dająca dwa sprzeczne wyniki, zdarzają się jednak rzadko. Znacznie częściej mamy do czynienia z sytuacjami takimi, jak niefortunny test krwi wykrywający skłonności samobójcze. Warto zatem zawsze pamiętać, zwłaszcza przy opisie chorób, przypadłości, czy też normalnych (czyli niepatologicznych) charakterystyk, że im bardziej skomplikowane jest opisywane zjawisko, tym większa próba jest potrzebna, aby być w stanie kontrolować eksperyment na okoliczność dużej liczby zmiennych. I tym bardziej istotne jest to, że uzyskany wynik ma naprawdę niewielkie znaczenie, jeśli nie jesteśmy w stanie go powtórzyć w niezależnej próbie, niezależnym eksperymencie, i najchętniej w badaniu przeprowadzonym przez całkiem niezależnych badaczy.

We wszystkich innych przypadkach wstępny wynik pozostaje właśnie taki: wstępny.

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s