Badania nad żywieniem, które przyprawią Was o niestrawność

Nieco ponad pół dekady temu badaczami zajmującymi się psychologią społeczną wstrząsnął skandal: po akademickim donosie studentów na swojego profesora wszczęte zostało (nie bez przeszkód) dochodzenie w kwestii potencjalnego fałszowania wyników przez Diederika Stapela. Stapel był w tym momencie gwiazdą psychologii społecznej, publikując liczne swoje badania w magazynie Science, a także wiodących periodykach psychologicznych. Gdy postępowanie dobiegło końca, jego kariera była już w gruzach, jego prace – na wylocie (do dzisiaj wycofano ich ponad 50, czyniąc Stapela jednym z niechlubnych liderów rankingu retrakcji), a społeczność akademicka w szoku.

Stapelowi przez lata kłamanie uchodziło płazem dzięki nieuzasadnionej łatwowierności kolegów i koleżanek po fachu, którzy do zaskakujących wyników Holendra podchodzili bez normalnego zazwyczaj sceptycyzmu. Byłoby jednak nieuczciwym stwierdzenie, że tylko jego wyniki unikały dogłębnej krytyki i oceny – literatura psychologiczna z ostatnich dekad usiana jest badaniami, które nie tylko nie przetrwały próby czasu, ale w dodatku trudno wyjaśnić, dlaczego zostały w ogóle opublikowane. Być może jednak skala fałszerstwa Stapela była wstrząsem potrzebnym temu polu nauki: nie powinno być zatem zaskoczeniem, że to w psychologii właśnie bardzo aktywny jest ruch domagający się badań replikujących stare odkrycia, które wszyscy bierzemy na wiarę, chociaż może nie powinniśmy, domagający się też, aby nowe badania prowadzone były w oparcie o protokoły rejestrowane przez zbieraniem danych (ang. registered reports).

Upadek Stapela był niezwykle publiczny – do tego stopnia, że to, co normalnie byłoby maleńką aferką znaną tylko kilku specjalistom, trafiło pod strzechy nie tylko innych naukowców, ale też laików. I można by pomyśleć, że jego historia jest solidną lekcją dla każdego, komu przez myśl przeszło kiedykolwiek, że możeby podciągnąć te dane, możeby wywalić dwa czy trzy punkty pomiarowe, które wprowadzają za dużo szumu do skąd inąd eleganckich wyników. A już zwłaszcza że taką lekcją jest dla badaczy w tej samej dziedzinie, którzy powinni chyba zrozumieć, że teraz cały świat patrzy im na ręce.

Dlatego pewnym zaskoczeniem dla mnie – a podejrzewam, że i dla wielu innych osób – było, gdy na początku 2017 roku zaczęło się robić robić gorąco wokół kolejnej gwiazdy psychologii (tym razem amerykańskiej), profesora na Uniwersytecie Cornella Briana Wansinka.

Kim jest Brian Wansink?

Bardziej może właściwe byłoby to pytanie zadane w czasie przeszłym: kim był Wansink, zanim świat zaczął mu się walić na głowę półtora roku temu? Wansink nie pojawił się bowiem znikąd: kariera akademicka tego 58-latka sięga wczesnych lat 90’. Jego badania skupiały się na badaniu tego, w jaki sposób ludzie podejmują decyzje – w dużej mierze w kontekście żywienia. Znany jest ze swoich badań na przykład nad tym, jaki wpływ na nasze żywienie mają rozmiary porcji: z odkrycia, że popcorn w czasie filmu będziemy jeść tak długo, aż sięgniemy dna miski, niezależnie od apetytu, albo że zamówienie deseru w restauracji zależy od granej w niej muzyki.

W 2007 roku Wansink otrzymał najcenniejszego z Nobli – Ig Nobla – za badania z zastosowaniem misek do zupy bez dna. W tym doświadczeniu Wansink chciał zademonstrować, jak nasze postrzeganie rozmiaru porcji wpływa na to, ile w rzeczywistości jemy. Uczestnicy badania jedli zupę z niewielkich misek. Część z nich miała miski normalne i jeśli chcieli jeść więcej, musieli prosić o dolewkę. Część zaś miała miski, które przez dno były uzupełniane zupą w takim tempie, w jakim była ona zjadana. Wansink pokazał, że osoby zmuszone do proszenia o kolejne porcje jadły mniej. Jest to jedno z najbardziej znanych badań Wansinka (zapewne tylko po cześci dzięki nagrodzie) – i jedno z wielu, których wnioski stanęły pod znakiem zapytania na skutek późniejszej afery.

Pg-1-wansink-courtesy-of-cornell
Brian Wansink /źródło: Cornell

W 2006 roku Wansink opublikował książkę popularnonaukową Beztroskie jedzenie, dlaczego jemy więcej niż byśmy chcieli, która podsumowywała całokształt jego badań i była kombinacją manifestu i poradnika samo-pomocy (książkę wciąż można tu i ówdzie nabyć, linków nie podaję – możecie sobie oszczędzić 50 zeta). W latach 2007-2009 Wansink doradzał amerykańskiemu rządowi w kwestii dietetycznych wytycznych i programu MyPyramid.gov. W 2014 wydał kolejną książkę Slim by Design.

Autor, rządowy doradca, badacz z ponad setką publikacji na koncie, które cytowane były ponad 20 tysięcy razy, oraz z imponującym indeksem Hirscha na poziomie ponad 70 – do listopada 2016 roku cała kariera Wansinka wydawała się być pasmem powodzeń. Wtedy uwagę kilku badaczy zwrócił z pozoru nieszkodliwy, niewinny post, który Wansink opublikował na prowadzonym przez siebie blogu.

Studentka, która nie odmawiała

21listopada 2016 Brian Wansink upublicznił na swoim blogu wpis, w którym wyjaśniał, że p-hacking to nie to samo co analiza eksploracyjna danych. Stwierdzenie, które być może w jakimś kontekście jest prawdziwe – nie był to jednak kontekst tego wpisu. Wansink tłumaczy bowiem dalej, że czasem, gdy hipoteza nie znajduje poparcia w danych, to trzeba się przyjrzeć, czy być może popiera ją tylko jakaś ich część – zdaniem Wansinka takie postępowania nie oznacza, że hipoteza ulega zmianie, chociaż wyraźnie jej ulega. Co tu dużo więcej mówić. Wansink wyraził też swoją opinię na temat problemów, jakich doświadczają młodzi badacze będący pod presję, żeby publikować, jeśli chcą gdzieś w akademii zajść. Aby zilustrować te dwa problemy – analizy danych oraz problemów młodych badaczy – Wansink przytoczył przykład swojej studentki, Ozge Sigirci. Sigirci była doktorantką z Turcji, która miała w laboratorium Wansinka odbyć krótki staż. W trakcie jej pobytu Wansink zaproponował, żeby spróbowała przeanalizować dane zebrane w czasie badania przeprowadzonego wcześniej przez jego grupę, w którym nie udało im się potwierdzić pierwotnej hipotezy. Wansink miał pomysł na to, jakie hipotezy można tymi danymi też przetestować, ignorując zupełnie to, że wymyślanie hipotezy po zebraniu danych, jest wbrew jakimkolwiek naukowym praktykom. W każdym bowiem wystarczająco bogatym zbiorze danych da się odkryć jakieś związki, które wyskakują nieco ponad szum.

Sirgici jednak nie tylko nie kwestionowała tej rady, ale posłuchała zalecenia i wzięła się za przeczesywanie danych – wyniki tego przeczesywania zaskutkowały co najmniej czterema publikacjami.

Wpis Wansinka zwrócił jednak uwagę trzech badaczy, Tima van der Zee i Nicka Browna z Holandii oraz Jordana Anayi ze Stanów. Poruszeni opisanymi przez Wansinka szkodliwymi praktykami, postanowili przeanalizować powtórnie dane, na których oparte były badania. Skontaktowali się z Wansinkiem wskazując na listę nieścisłości w tych publikacjach – Wansink szybko przestał odpowiadać na maile, gdy badacze wyjaśnili, że chcieliby otrzymać dostęp do pierwotnych danych.

Poznajcie data thugs

Oryginalni krytycy Wansinka zostali przez portal Retraction Watch ochrzczeni ukutym przez Jamesa Heathersa mianem data thugs, które nie ma niestety żadnego odpowiednika w języku polskim, a nazywanie ich danowymi zbirami jakoś mi nie pasuje. Nazwę tę przez ostatnie półtora roku zaczęto stosować na określenie badaczy, który analizując danych z publikacji naukowych odkrywają różne machlojki oryginalnych autorów (Heathersowi i Brownowi należy się tytuł pierwszych data thugs).

Wracając do prac Wansinka: pod nieobecność oryginalnych danych, które pozwoliłyby na powtórną analizę i potwierdzenie jego wyników, van der Zee, Anaya i Brown przeprowadzili takie analizy, jakie się dało – a ich wyniki opublikowali w BMC Nutrition, jednym z pism, w których ukazały się oryginalne wyniki Wansinka.

Nie jest bowiem tak, że pewnych nieścisłości – żeby nie powiedzieć wprost, oczywistych błędów – nie da się wykryć nawet bez dostępu do oryginalnych danych.

Po pierwsze zatem, krytycy skupili się na nieścisłościach w opisie metodologii pracy. Ponieważ teoretycznie wszystkie cztery publikacje, które analizowali, zostały napisane w oparciu o ten sam zbiór danych, opis tych danych powinien być w nich taki sam. Jak się z tego wstępu możecie jednak spodziewać – wcale taki nie był (w podlinkowanej analizie z BMC Nutrition rozbieżności pokazuje Tabela 2). Problematyczne jest nie tylko to, że te same dane różnią się pomiędzy publikacjami, ale też na przykład to, że suma wszystkich testowanych grup nie jest taka sama jak przytoczony gdzie indziej rozmiar całej próby. Pięciolatek zrozumie, że jeśli wartości po dwóch stronach znaku równości nie są identyczne, to ten znak równości mija się z celem. Profesor na Uniwersytecie Cornella jakoś ten szkopuł pominął.

Po drugie, dla pewnych rodzajów danych istnieją testy statystyczne pozwalające sprawdzić, czy średnia wartość dla próby jest matematycznie możliwa, biorąc pod uwagę projekt badania. Brown i Heathers, opracowali taki test kilka lat temu i w pracy opisującej jego działanie podają na wstępie ładny przykład, który poniżej upraszczam (matma jest prosta, ale jak nie chcecie, to wyłuszczony fragment można po prostu przeskoczyć):

Proszę sobie wyobrazić, że mamy 28 osobową grupę badanych (N=28), którzy odpowiadają na pytanie, w którym odpowiedzi udziela się na siedmiopunktowej skali (takich jak: całkiem się zgadzam, trochę się zgadzam, ciut się zgadzam, ani się zgadzam ani nie zgadzam itd., punktowane od 1 do 7). W wynikach doświadczenia badacze podają, że średni wynik to 5.19 +/- 1.34.

Abstrahując od tego, na jakie pytanie odpowiadali badani i jak bardzo zaskakujący lub nie jest wynik 5.19, jest on niemożliwy z technicznego punktu widzenia. Jeśli mamy 28 uczestników, których odpowiedziami były de facto liczby całkowite z zakresu 1 do 7, to suma ich wyników musi być liczbą całkowitą z zakresu 28 (28*1) i 196 (28*7).

5,19*28 to 145,32. Ponieważ 5,19 to średnia uzyskana przez podzielenie sumy dla wszystkich uczestników przez 28, tą sumą nie mogło być 145,32: musiało to być albo 145 albo 146.

Jednak jeśli podzielimy któryś z tych wyników przez 28 i zaokrąglimy do drugiego miejsca po przecinku, to w żadnych z tych wypadków nie otrzymamy 5,19 – średnia dla 28 uczestników ze 145 to 5,178571 – zaokrąglone daje 5,18. Średnia ze 146 to 5,21428, które zaokrąglone daje 5,21. Czyli żaden wynik z tego doświadczenia nie mógł dać średniej 5,19, która znalazła się potem w wynikach.

Co może być wyjaśnieniem? Są wyjaśnienia niewinne – błąd typograficzny lub przypadkowe niewłączenie czyjegoś wyniku do badania. Są też wyjaśnienia znacznie bardziej niepokojące: na przykład fabrykacja danych.

Innymi problemami w pracach była nieścisłość definicji, różne rozmiary grup, a nawet sposób pomiaru (doświadczenie polegało na obserwowaniu, ile spożywali klienci pizzeri – olbrzymie znaczenie miałoby na przykład to, czy ostatni niedojedzony kawałek pizzy liczy się jako zjedzony czy nie, albo to, w którym momencie sprawdzano, ile kawałków pizzy mogło zostać na talerzu).

Mądrzejsza stołówka

Podczas gdy analiza van der Zee, Anayi i Browna skupiła się na tzw. pizza study, inny badacz, Eric Robinson z Liverpoolu, miał podobne wątpliwości dotyczące innej serii badań Wansinka nad sposobem promowania zdrowego żywienia na szkolnych stołówkach, stosując techniki behawioralne ze szkoły Richarda Thalera. Wansink na przykład twierdził, że nadawanie zdrowemu jedzeniu bardziej przyjemnych nazw spowoduje, że uczniowe będą je chętniej jedli. Robinsona zaniepokoiło to, jak pozytywne były wyniki programu – bo chociaż być może nie byłoby nieoczekiwane, że taka strategia pomogłaby zmienić nawyki żywieniowe małej liczbie uczniów, było jednak zaskoczeniem, że media taktykę opiewały jak nadejście mesjasza.

Robinson przeanalizował prace Wansinka, które były podstawą programu Smarter Lunchrooms. Zrobił to pod kątem analizy spójności wyników, ale także aby sprawdzić, czy doniesienia medialne dokładnie odzwierciedlały wyniki publikacji naukowych. W kolejnych publikacjach Robinson identyfikował problemy podobne do tych, których doszukali się krytycy innych prac: niespójności metodologiczne w obrębie poszczególnych prac (jedna z publikacji podawała na przykład trzy różne rozmiary tej samej próby), niespójności w sposobie prezentowania wyników (jedna z publikacji podawała dokładnie przeciwne wnioski w abstrakcie i w głównym tekście publikacji), niespójność w opisie uczestników badania (jedna z prac opisuje 8-11-latków w sposób zarezerwowany zazwyczaj dla dzieci w wieku przedszkolnym – później okazało się, że w istocie w tym badaniu opisywano badania na 3-5-latkach).

Robinson odkrył też, że liczne prace, nawet jeśli uzyskane wyniki są dość skromne, opisują ostateczne wnioski stosując znacznie bardziej obiecujący (żeby nie powiedzieć: obfity) język, de facto zakłamując rzeczywistość ukrytą w numerycznych wynikach doświadczeń.

Czego nie powiedzą wam liczby, powiedzą wam emaile

Opisywane powyżej wątpliwości światło dzienne ujrzały w pierwszej połowie 2017 roku – na blogu van der Zee, i początkowo w formie preprintów. Praca w BMC Nutrition opublikowana została dopiero w lipcu 2017 – i tak szybko, jak na akademickie standardy, ale wciąż cztery miesiące później niż pierwsze próby upublicznienia problemów z pracami Wansinka. Jednak publikacje, preprinty i blogi dalekie są od bardziej powszechnego nagłośnienia kłopotów z tymi publikacjami – co jest nie bez znaczenia biorąc pod uwagę na przykład skalę eksperymentu z programem Smarter Lunchrooms (fundowanego z pieniędzy federalnych za ponad 22 miliony dolarów w blisko 30 tysiącach amerykańskich szkół).

Na szczęście jednak temat podchwyciły szybko publiczne media: magazyn New York już w lutym opublikował tekst opisujące sagę badań nad jedzeniem pizzy, nazywając je w tytule artykułu trefnymi. Miesiące później nowej perspektywy też dodał BuzzFeed, który poprzez FOIA dostał dostęp do korespondencji mailowej Wansinka. Okazało się, że w odpowiedzi na tę publiczną krytykę Wansink wysłał list do kilkudziesięciu kolegów, broniąc swoich publikacji, wyjaśniając, że problemy wynikały z „drobnych” kłopotów takich jak brakujące dane, czy błędy w przybliżeniach, ale także nazywając krytykę cyber-znęcaniem.

Krytycy nie ustępowali – Brown analizując historyczne prace Wansinka zwrócił uwagę na liczne przypadki auto-plagiatu, na co Wansink w kolejnym emailu do władz uczelni tłumaczył, że niektóre z tych powtórzeń były usprawiedliwione wagą przekazywanej przez nie wiadomości (przypomina to trochę stary argument usprawiedliwiający plagiat tym, że jest on najwyższą formę pochlebstwa). Inne maile pokazują, że Wansink nie był w stanie zlokalizować, który z jego współpracowników ma dane będące podstawę niektórych z jego badań.

Znacznie bardziej pogrąża jednak Wansinka korespondencja sprzed 2016 roku – co krok pojawiają się w niej opisy tego, jak w „kreatywny” sposób analizować dane, aby uzyskać znaczący statystycznie wynik – ten święty Gral nauki, który dałby publikację w prestiżowym fachowym piśmie. Wansink przyuczał Sirgici w tym kierunku jeszcze przed jej przyjazdem do Stanów – obiecując, że jeśli uda się jej coś z danych wydusić, to na pewno zaimponuje to reszcie zespołu, a może da i jakąś pulikację.

Zawiódł badacz, zawiodło i środowisko

Pomimo wywiadów, pomimo sprawdzenia wyników analiz przez niezależną firmę, pomimo wycofania się Wansinka ze światła jupiterów, lawiny nie dało się zatrzymać. Cornell wszczął postępowanie dyscyplinarne. Pisma, w których publikowane były jego prace, zaczęły się tym pracom przyglądać na nowo, próbując zweryfikować ich poprawność.

Powolutku zaczęły się do literatury fachowej sączyć korekty i retrakcje – pierwszy artykuł wycofano już w kwietniu 2017 roku. Było to badanie pokazujące, jak zawartość etykiet na jedzeniu wpływa na ich smak. Ta retrakcja była raczej waniliowa – pracę wycofano bowiem „jedynie” za auto-plagiat. Nie jest jednak zaskoczeniem, że praca, która runęła pierwsza, runęła przez plagiat, gdyż pośród różnych bolączek publikacji Wansinka, plagiat jest najłatwiejszy do udowodnienia. Przed końcem 2017 wycofano 5, a poprawiono 8 jego artykułów.

Od początku 2018 do listy dołączyło kolejnych 9 retrakcji. Stopień komplikacji tej sagi dobrze ilustrują przejścia niektórych spośród tych artykułów. Jeden wycofano, ponieważ, chociaż teoretycznie możliwa była korekta, okazało się, że poprawka byłaby dłuższa niż oryginalny artykuł. Jeden artykuł wycofano, opublikowano ponownie, i jeszcze raz wycofano. JAMA, której różne pisma opublikowały sześć prac Wansinka, wcześniej w tym roku opublikowała do tych artykułów noty redakcyjne – rodzaj artykułu, zwracającego uwagę czytelników na potencjalny problem z badaniem, zanim do końca dojdzie postępowanie uczelniane pokazujące, czy rzeczywiście doszło do fałszerstwa lub innych machloj. W tym samym czasie JAMA zwróciła się do Uniwersytetu Cornella o wszczęcie takiego postępowania

Do wielkiego finału doszło w ubiegłym tygodniu. Uniwersytet Cornella ogłosił, że postępowania zakończono i że uczelniane śledztwo ustaliło, że Wansink zachował się nieetycznie (ang. academic misconduct) poprzez m.in. błędne raportowanie wyników, stosowanie wątpliwych metod statystycznych, błędy w prowadzeniu i archiwizacji dokumentacji badawczej oraz problemy z autorstwem prac (to zapewne dotyczy wszystkich jego auto-plagiatów). Dzień wcześniej JAMA network wycofała wszystkie sześć artykułów, który wcześniej miały noty redakcyjne. Sam Wansink postanowił odejść z Uniwersytetu Cornella – chociaż można podejrzewać, że nie jest to odejście nie do końca niewymuszone.

I można powiedzieć, że historia tutaj się kończy. Złoczyńca został wykryty i ukarany. Literatura naukowa została poprawiona. Publiczne upokorzenie zostało uskutecznione. A jednak niesmak wciąż pozostaje.

Bo – tak jak i w przypadku Diederika Stapela – winnych jest znacznie więcej. O ile skłonny jestem być bardziej pobłażliwy wobec studentów Wansinka, którym w końcu ich własny mentor mówił, że manipulacja i oszustwa są ok, o tyle tej samej wymówki nie mogą użyć jego bardziej doświadczeni współpracownicy, którzy na tych publikacjach byli współautorami. Autorstwo pracy naukowej oznacza bowiem odpowiedzialność za jej treść. Tutaj wychodzi na to, że prezentowany wynik był zbyt ciekawy, zbyt seksowny, zbyt niebywały i gwarantujący publikację, żeby współautorom chciało się dokładnie przyjrzeć tym danym. O tyle tej samej wymówki nie mogą użyć redaktorzy pism, które te prace opublikowały tylko dlatego, że były one gwarantem cytowań. O tyle tej samej wymówki nie mogą użyć recenzenci – bo nie ma na świecie wymówki na to, że recenzent nie zauważył, że rozmiar próby ma trzy różne wartości w tej samej pracy! I wreszcie tej samej wymówki nie mogą użyć czytelnicy, specjaliści w tej samej dziedzinie, którzy przez lata czytali, chwalili i cytowali te wyniki, nie kwestionując ich w najmniejszym nawet stopniu. Czyli ponownie, pomimo pół dekady samobiczowania i pracy nad powtarzalnością badań, zawiódł nie tylko badacz, ale i cała akademicka społeczność.

Reklamy

18 Comments

  1. Panie Rafale, artykuł dobry ale strasznie ciężko się to czyta, proszę to następnym razem wrzucić tekst w jakiegoś Worda, czy dokumenty Googla, które sprawdzą pisownie. Gdy to czytałem zastanawiałem się czy nie rozumiem słówek z slangu naukowego, np: „wszęte”, „kieco”, „wciąć”. Ale to chyba zwykłe literówki.

    Polubienie

    1. Dziękuję za komentarz – ja zazwyczaj piszę w wordzie, ale już się nauczyłem, że po pierwsze on nie wszystko wyłapuje (np. błędy gramatyczne, jeśli słowo ortograficznie jest poprawne), a po drugie, że przy dłuższych tekstach sprawdzanie się kończy, kiedy nie mam siły. Dlatego regularnie poprawiam teksty po publikacji ;)

      Polubienie

  2. Fałszowanie danych lub wybieranie sobie tych, które nam pasują zasługuje na najwyższe potępienie, ale nie rozumiem kwestii autoplagiatu. Przepraszam ale kompletnie nie widzę w tym sensu. Jeśli coś jest naszą twórczością to nie widzę żadnego problemu by użyć tego wiele razy tam gdzie jest to potrzebne. Byłbym bardzo wdzięczny za wyjaśnienie mi co jest w tym etycznie nie tak i kto na tym cierpi

    Polubienie

    1. Zależy od okoliczności.

      Ale: pisma rozpatrują pracę pod warunkiem, że praca jest oryginalna. Autoplagiat jest z definicji wtórny. Ukrywanie zaś autoplagiatu może i nie jest zbrodnią, ale gdyby było etyczne, to byśmy tego nie ukrywali.

      Autoplagiat tekstu jest czasem akceptowalny. Żaden szanujący się redaktor nie odrzuci pracy tylko dlatego, że autor skopiował opis metodyki, która jest standardowa i była wykorzystywana w poprzednich pracach autora. Ale oczekiwane jest, że się te poprzednie prace autor przynajmniej zacytuje.

      Odrębną nieco kwestią jest to, czy takie kopiowania metodyki nie jest łamaniem prawa autorskiego, jeśli uprzednia publikacja była w piśmie, w którym prawa są oddawane wydawcy. To jednak jest problem nie redakcyjny, ale prawny – który też i powoli zanika wraz z rozpowszechnianiem się publikowania w otwartym dostępie i z prawem autorskim pozostającym przy autorze. Zresztą z redakcyjnego punktu widzenia powielenie opisu metody jest nawet bardziej uzasadnione – bo standaryzacja opisu metodyki pomaga w zapewnieniu powtarzalności wyników.

      Autoplagiat gdziekolwiek indziej w tekście nie jest w zasadzie uzasadniony, jeśli praca przedstawia oryginalne wyniki. Chociaż dodam znowu, że redaktor znający się na rzeczy nie będzie autorów ścigał o przepisywanie na nowo zdania we wstępie, które da się może po angielsku sformułować na trzy sposoby, podczas gdy prac w danej tematyce rocznie publikuje się setki. Ale jest różnica między zdaniem a paragrafem a całym wstępem.

      Promowanie autoplagiatu – a nawet zaledwie przyzwalanie na niego – uważam ogólnie za szkodliwe. Autoplagiat jest objawem intelektualnego lenistwa, a przyzwolenie na niego przez badaczy, którzy być może są i wykładowcami – i lubią nazywać się edukatorami – jest szkodliwe społecznie i przesiąka do niższych poziomów edukacji (bo jak wytłumaczyć uczniowi, że ściąganie nie jest w porządku, jeśli potem idzie do domu i słyszy od rodzica o tym, jak to udało się ten sam tekst sprzedać do pięciu różnych pism).

      Autoplagiat rozumiany w sensie powtórnej publikacji wyników również jest szkodliwy, jeśli ta powtórna publikacja nie jest oczywista. Dlaczego? Proszę sobie na przykład wyobrazić badaczy, którzy robią systematyczną rewizję (systematic review) jakiegoś problemu klinicznego. W takim badaniu dokonuje się jakościowej i, co ważne, ilościowej syntezy wyników z wielu badań. Uwzględnienie jednego badania dwukrotnie, jeśli jest na przykład na dużej liczbie pacjentów, może całkowicie zmienić ostateczne wnioski takiej rewizji.

      Kto cierpi? Autoplagiat, który służy tylko temu, aby opublikować kolejną pracę, krzywdzi badaczy, którzy prowadzą badania rzetelnie – a ponieważ żyjemy w świecie opętanym punktozą, jeśli taki rzetelny badacz przegra w walce o grant z badaczem, który tylko odgrzewa tego samego kotleta, to cierpi podatnik, który ten grant zasponsorował, badacz, który tego grantu nie dostał. Dla niektórych typów badań, np. klinicznych, iść można dalej – cierpi pacjent, którego mógł uratować nowy lek, który udoskonalonoby, gdyby grant dostał kto inny. Cierpi rodzina tego pacjenta. itd. itp. Autoplagiat nie jest przestępstwem bez ofiar, tylko dlatego że te ofiary są nieoczywiste.

      (Na marginesie – tak, może w pewnych okolicznościach być przestępstwem.)

      Polubienie

      1. Dziękuję, choć nie zdawałem sobie sprawy z kilku kwestii takich jak uwzględnienie dwa razy jakichś wyników w przeglądzie literatury i wpływu tego na statystykę to ogólnie zgadzam się, że publikowanie tych samych wyników jest co najmniej słabe i bez sensu. Natomiast chodziło mi właśnie o przepisywanie własnych kilku zdań w we wstępie teoretycznym czy wspomnianej metodyce. Bo jeśli dajmy na to zajmujemy się kompleksami remodelującymi chromatynę to nie dostrzegam nic specjalnie złego w przekopiowywaniu kilku zdań o tym, że DNA upakowane jest w chromatynę, co stwarza problemy przy transkrypcji, replikacji i naprawie DNA i wymaga wyspecjalizowanych kompleksów białkowych by to obejść, które działają tak, że przesówają, modyfikują, lub wycinają nukleosomy itd. Jednie to, że może słabo to wygląda dla czytelnika, który czyta te wszystkie prace. Natomiast kompletnym nieporozumieniem jest już dla mnie kwestia autoplagiatu we wstępie teoretycznym we wnioskach grantowych, uważam, że powinno być tu dopuszczone nawet przekopiowanie pierwszych kilku stron, jeśli w tej kwestii stan wiedzy się nie zmienił. Przy czym podkreślam, chodzi mi właśnie o teorię mającą wprowadzić ludzi w tematykę badania, nie zaś wniskowanie o realizację tego samego projektu. Zaś kulminacją tego jest autoplagiat w obrębie jednego wniosku, gdy treść w opisie skróconym nie może się pokrywać z opisem pełnym. Nie widzę w tym sensu.

        Polubienie

        1. Dlatego też właśnie podkreśliłem, że z autoplagiatem – czy plagiatem w ogóle – nie jest tak, że jest to problem czarno-biały. Bo nie jest – i stąd też nie ma np. standardów, że jeśli test porównawczy pokazuje 30 czy 40% podobieństwa do innych prac, to praca się już nie kwalifikuje. Bo nie jesteśmy w stanie tej liczby zinterpretować (na dzień dzisiejszy) maszynowo. Kiedyś się to może bardziej rozwinie, ale dzisiaj wciąż potrzebny jest nie tylko żywy człowiek analizujący taki wynik, ale do tego człowiek, który rozumie te niuanse (a dodam, że wielu redaktorów nie rozumie).

          Polubienie

  3. A ja zwroce uwage na jeszcze jedna rzecz. Na powtarzanie wynikow badan. Teraz teoretycznie nie mozna opublikowac niczego co ktos inny opublikowal, bo wiadomo to plagiat i bez sensu. Ale czy naprawde bez sensu? Czy nie powinny istniec czasopisma ktore publikowalyby wyniki ktore juz ktos wczesniej opublikowal? Oczywiscie byloby to zaznaczane i nie traktowane jak nowe odkrycie. Ale moim zdaniem takie badania powinny byc finansowane i publikowane niezaleznie od wyniku. To jest prawdziwa weryfikacja hipotez. Takie podejscie rozwiazaloby wiele problemow. Oczywiscie problem jest ze niby szkoda kasy i czasu na takie rzeczy. Ale czy na pewno? Wtedy ktos powtorzylby np dosw o ktorych mowa w artykule i opublikowal ze jemu tez tak wyszlo lub nie. Moze wtedy zmienilyby sie rowniez wymogi co do opisu metodologii. W takiej sytuacji mielibysmy czarno na bialym czy dane sa fabrykowane czy nie, a i osoby oszukujace mysle ze by sie dwa razy zastanowily. Powtarzenie powinno byc bardziej seksi.

    Polubienie

    1. Zgadzam się całkowicie – i zresztą opisywałem kwestię badań replikacyjnych i powtarzalności wyników bna blogu wielokrotnie.

      Ostatnio w sierpniu:
      https://nicprostszego.wordpress.com/2018/08/28/czy-leci-z-nami-pilot-czyli-problem-powtarzalnosci/

      Chociaż osobiście nie uważam, żeby istniała jakaś potrzeba tego, aby badania replikacyjne były bardziej efektowne. Wręcz przeciwnie – im nudniejsze, tym lepiej. Tak też powinno być z oryginalnymi wynikami. Świat literatury fachowej cierpi na bolączkę polegającą na tym, że od autorów wymaga się, aby ich publikacja opowiadała jakąś historię. Nie potrzeba nam historii. Potrzeba nam rzetelnego opisu danych, niezależnie od tego, co te dane pokazują. A pisanie historii zostawmy komu innemu.

      Polubienie

  4. A teraz polskich naukowców tresuje się i poucza, w których pismach mają publikować, a w których nie (vide: Beall’s List), bo jakoby w tych jest, a tam nie ma rzetelnego procesu recenzenckiego itp. Jak widać, żadna redakcja nie jest wolna od takich uchybień! Przymus publikowania i biurokratyczne mierzenie punktów niszczą naukę. Naukowcy muszą zaprotestować przeciw temu, zamiast ulegać presji.
    SOCJOBLOGER

    Polubione przez 1 osoba

    1. Lista Bealla, uważam, nie było akurat złym pomysłem. Bo chociaż specjalistycznym periodykom zdarzają się gnioty, to jednak jest to kropla w morzu (i też niektóre dziedziny są na tego typu problemy bardziej podatne). A Beall wyliczał pisma, które były po prostu oszustwami (bo jak inaczej nazwać pismo, którego redaktorzy naukowi nie wiedzą, że są redaktorami naukowymi tego pisma, bo nigdy się na to nie zgadzali – a na przykład takie kwiatki były na tej liście dość liczne).

      Natomiast że publikowanie nie powinno być przymusem, to się zgadzam – pod warunkiem, że mielibyśmy na miejscu inny sposób oceny produktywności (jak by tego nie definiować) badaczy.

      Polubienie

        1. Były na liście Bealla pisma, które są według polskiego Ministerstwa Nauki punktowane. Osobiście uważam, że pokazuje to słabość list punktowych Ministerstwa, bo chociaż lista była nieoficjalnym, raczej hobbystycznym projektem Bealla, a w dodatku mocno subiektywna, to jednak podstawowe kryteria, które Beall opracował, były bardzo sensowne jako zgrubna przymiarka, czy pismo jest koszerne czy nie.

          Projekt Think. Check. Submit. który przyucza badaczy, że powinni się dwa razy zastanawiać, przed wysyłaniem prac do pism, jest w zasadzie oparty na tych samych zdroworozsądkowych regułach. Beall poległ głównie dlatego, bo piętnował wszystkich bez opamiętania (i posługiwał się często bardzo agresywną retoryką).

          https://thinkchecksubmit.org/

          Polubienie

          1. Pyta pani złą osobę – ja tu tylko sprzątam. Ale gdybym był badaczem w Polsce, to słuchałbym chyba jednak bardziej NCNu – jeśli z NCNu idzie kasa na badania.

            Nie jest też tak, że wszystkie pisma na ministerialnych listach kwalifikują się jako drapieżne. Trzeba tylko dobrze się zastanowić, przez złożeniem pracy w takim piśmie. Ja też dodam, że mnie ubolewanie polskich badaczy (w naukach ścisłych i przyrodnicznych) na temat tego, jak to trudno opublikować coś w pismach z grupy A, jak to się chyba nazywa (czyli np. tych indeksowanych w Web od Science) jest trudne. Bo nie jest – w WoS znajdują się pisma, które są wysoce specjalistyczne, do tego stopnia, że prawie dla każdej pracy znajdzie się miejsce. Ale pokutuje tu chyba myślenie, że WoS oznacza WoS *oraz* musi to być Science albo Nature. Otóż nie musi.

            Polubione przez 1 osoba

          2. Kasa płynie z NCN, ale – jak widać – tą samą drogą może odpłynąć. Chyba tu jednak chodzi teź o instytucjonalna odpowiedzialność. Nie może badacz funkcjonować w warunkach globalnego wolnego rynku i skoro są regulacje graniczające go, to chyba powinny być też takie, które go wesprą. Zastanawiam się, czy przy obecnym poziomie biurokracji, wymagań publikacyjnych itd. nie powinno być tak, że to, co napiszemy posyłamy do NCN, a oni już na swoją odpowiedzialność kierują to tam, gdzie uznają za stosowne. To oczywiście coraz bardziej absurdalna wizja, ale zarazem ekstrapolowana z istniejących już absurdów.

            Polubienie

  5. „zawiódł nie tylko badacz, ale i cała akademicka społeczność.”

    Przepraszam, że się wymądrzam, ale moim zdaniem cała akademicka społeczność reagowała zgodnie z oczekiwaniami systemu, w którego częścią, zajmując się profesjonalnie nauką każdy jej uczestnik jest, bo być musi. No, może z wyjątkiem filozofów i matematyków.

    Problem jest, bez wątpienia. Z własnych doświadczeń wynika mi, że opisujesz spektakularny wierzchołek góry lodowej.

    Jedną z istotniejszych przyczyn takiego, bez wątpienia patologicznego stanu rzeczy, jest sposób finansowania badań naukowych i (w założeniach słuszne a w rzeczywistości kalekie) próby kwantyfikacji sukcesu badawczego. Różnego rodzaju indeksy stoją na drodze do pieniędzy, które są konieczne aby kontynuować to co się zaczęło. Różnego rodzaju gremia (posiadające własne interesy) stoją na drodze pomiędzy danymi a ich publikacją. Nie ma co biadać. Warto się zastanowić nad tym czy i ewentualnie jak można w tym systemie zmienić. Chociaż osobiście wątpię aby było to możliwe. ABy zmiana była możliwa, konieczne byłoby odarcie przemysłu produkcji publikacji naukowych z nimbu, który przysługiwał tej dziedzinie ludzkiej aktywności jeszcze przed (może) 40-laty.
    Kto ma tego dokonać? Aspiranci do tytułów(nie znający jeszcze wszystkich tajników i mechanizmów)? Beneficjenci systemu (którzy już te tytuły posiadają)?? Biurokracja, którą nauka obfrosła? Naiwna publika przekonana o tym, że ma do czynienia z „uczonym”? Prasa naukowa (która żyje z masowej produkcji przeciętnych i/lub wtórnych publikacji)?
    Ciemno to widzę.

    Polubione przez 1 osoba

    1. Zgadzam się, ale tylko połowicznie.

      Otóż uważam, że akademicka społeczność zawiodła. Bo to, czy publikowanie jest wymuszone przez parametryzację oceny naukowców czy nie nie ma nic wspólnego z tym, czy naukowcy potrafią publikacje czytać ze zrozumieniem. A tu wyszło na to, że nie potrafią. Ale rzeczywiście przypadek Wansinka – tak jak wcześniej innych masowych hochsztaplerów takich jak Stapel czy Schoen – wydaje się być raczej odosobniony, chociaż podejrzewam, że masowe fałszerstwa, choć wciąż pewnie dość rzadkie, są jednak znacznie częstsze niż to wynika ze statystyk retrakcji.

      Natomiast zgadzam się całkowicie, że ten stan rzeczy jest w dużej mierze skutkiem niewłaściwej motywacji badaczy – że ocenia się pracę naukowców przez pryzmat liczby publikacji w pismach określonej rangi, nie biorąc pod uwagę, że w nauce ani nie jest ilość koniecznie skorelowano z jakością, ani też ranking pism nie jest w żaden sposób skorelowany z klasą publikowanych w nich prac.

      I zgadzam się też, że jedyną drogą byłoby całkowicie odwrócenie tego systemu do góry nogami. A nawet – jak zachęcają niektórzy przeciwnicy obecnych rozwiązań wydawniczych – całkowitego obalenia tego systemu. Tylko że wygłaszać banały o tym, jak to obecny system jest fatalny, wszyscy potrafią (a wierz mi, że ja się zawodowo nasłuchuję aż za nadto takich apeli). Natomiast znacznie trudniej jest wymyślić nie tylko, kto to ma zrobić, ale też jak dokładnie.

      Nawiasem mówiąc, w zeszłym tygodniu bodajże słuchałem wywiadu między Stephenem Currym (reprezentującym w tym tandemię DORA – Declaration on Research Assessment) i Philem Campbellem, który do niedawna był naczelnym Nature, a teraz jest Editor in Chief dla całego Springer Nature. Curry w którymś momencie zadał bardzo podobne pytanie a propos tego, kto i w jaki sposób powinien zadziałać, żebyśmy przestali wreszcie stosować ten cholerny impact factor do oceny badaczy. A Campbell mu na to powiedział, że ma nadzieję, że uczyni to młode pokolenie, bo w stare to on już nie wierzy… Co jest tyle smutne, co ironiczne.

      Polubienie

      1. Wiesz, ja wystarczająco długo byłem częścią tego systemu, którego emanacją jest „wspólnota badaczy” aby zwątpić w możliwość sensownych reform systemu. Bo któżby miał je przeprowadzić? System produkcji publikacji (potrzebnych do wydłużania listy załączników, potrzebnych do uzasadnienia aplikacji o granty, potrzebne do uzyskania środków na dalsze badania, potrzebne na kontynuowanie działalności w ramach której skupiamy się na produkcji jak największej ilości wątpliwej jakości publikacj, potrzebnych itd. jest wyposażony w autodynamikę i samowystarczalny.
        Nie, nie wiem jak to zmienić. Bo potrzebny byłby nie tylko system premiowania tego co wartościowe lecz również karanie tego co bezwartościowe i wtórne. I tu pojawia się pytanie: przez kogo?

        Polubione przez 1 osoba

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Connecting to %s