Ekspercka wpadka

800px-Champagner1

Ostatnimi czasy w szeroko pojętej niuso-, publicystyko- i blogosferze powraca natrętnie temat tego, kogo można i kogo trzeba traktować jako eksperta, a kiedy takie określenie jest bezprawnie nadużywane. Regularni czytelnicy nicprostszego wiedzieć będą, że jestem wielkim entuzjastą posługiwania się w dyskursie publicznym opiniami ekspertów, pod warunkiem jednak, że są to eksperci w danej dziedzinie, a nie eksperci od wszystkiego (vide moje teksty w temacie nadużywania tytułów profesorskich do podpierania swoich światopoglądowych opinii).

To powiedziawszy jednak, bywalcy bloga będą również świadomi tego, że sam czasem stawiam się w pozycji eksperta – a przynajmniej mini-eksperta. Podstawy tego są proste: mam na tyle minimalne pojęcie o niektórych dziedzinach wiedzy i czuję się na tyle pewien mojego akademickiego szkolenia, że wydaje mi się, że w pewnych sprawach mogę mieć wyrobioną opinię na podstawie dostępnych mi informacji pomimo tego, że nie spędziłem 20 lat katorżniczej uczelnianej pracy nad danym temat. W podobnej sytuacji znajduje się większość osób dzieląca się swoimi przemyśleniami publicznie, niezależnie od tego czy na blogu, w gazecie, czy w trakcie wieczorku towarzyskiego z kanastą.

Gdzie z tymi meandrami zmierzam? Otóż w ostatnim czasie, w odstępie półtora miesiąca pojawiły się dwie prace niesamowicie krytyczne w stosunku do eksperckich opinii. Prace dotyczą tematów różnych jak noc i dzień (o czym za chwilę się przekonacie), a pokazują, że eksperci mylą się często w dziedzinach, w których ponoć się ekspertami.

Czy oznacza to, że powinniśmy sobie zatem dać po prostu z ekspertami spokój? Nic z tych rzeczy. Oznacza to tylko tyle, że po prostu nawet w przypadku opinii eksperckich uważać musimy na kontekst.

W zeszłym tygodniu otwartodostępowe pismo Flavour12 opublikowało pracę, której autorzy przetestowali umiejętności doświadczonych testerów szampana. Szampana produkuje się z mieszaniny białych i czerwonych winogron. Od lat podejrzewano, że specyficzny smak różnych szampanów zależy od proporcji tych dwóch rodzajów winogron.

Badanie było bardzo proste. Grupie uczestników podano do spróbowania 7 win musujących (w tym 6 autentycznych szampanów). Uczestników było piętnaścioro: czterech eskpertów, sześć osób o przeciętnym poziomie doświadczenia w smakowaniu win oraz pięcioro nowicjuszy. Co się okazało? Uczestnicy nie byli w stanie prawidłowo ocenić proporcji białych winogron: przepięknie ilustruje to poniższa ilustracja z publikacji, na której widać, że wzrastający trend zawartości białych winogron nie pokrywa się z przewidywaniami żadnej z grup.

Zielona krzyżyki ilustrują zmianę zawartości białych winogron. Żadna z grup nie była w stanie zbliżyć się do tego trendu. /źródło: Harrar et al., Flavour (2013) 2:25 (CC-BY)
Zielona krzyżyki ilustrują zmianę zawartości białych winogron. Żadna z grup nie była w stanie zbliżyć się do tego trendu. /źródło: Harrar et al., Flavour (2013) 2:25 (CC-BY)

Okazuje się także, że to, co uczestnicy myśleli o zawartości białych winogron korelowało w istocie z zawartością alkoholu! Innymi słowy to, co uważali za specyficzny smak wynikający ze składu winogronowego szampana, wynikało z jego składu – alkoholowego. Badacze sprawdzili też związek pomiędzy tym, jak bardzo uczestnicy lubili poszczególne wina, a postrzeganą zawartościa białych winogron, postrzeganą słodkością, postrzeganą „owocowością”, tym czy dany szampan był im znany – a także rzeczywistymi wartościami odpowiadającymi tym wskaźnikom (czyli ilością białych winogron, zawartością alkoholu, cukru, ceną itd.).

To czy uczestnicy lubili danego szampana okazało się nie mieć żadnego związku z jego ceną. Co więcej, nie miało związku z żadną z badanych zmiennych. Najważniejszy brak korelacji tutaj to chyba ten z ceną: najdroższe szampany wcale nie były uznawane za najsmaczniejsze – co więcej, dla wyższych przedziałów cenowych (poza najdroższymi trunkami) częściej zachwycali się winami nowicjusze niż eksperci.

Jakie stąd płyną wnioski? Ano takie, że eksperci nie zawsze mają rację. A także takie, że jeśli coś nam smakuje, to nie powinniśmy się martwić tym, że kosztuje 100, a nie 500 złotych za butelkę. Należy tu jednak podkreślić jeden bardzo ważny aspekt całego badania3 – a mianowicie to, że eksperci czy nie, uczestnicy byli proszeni o ocenę czegoś, co jest niesamowicie subiektywne. Nie należy się zatem odwracać od razu tyłem do wszystkich ekspertów: niektórzy z nich bowiem swojej oceny dokonują w oparciu o solidniejszą treść, niż tylko to, co podpowiadają im kubki smakowe4.

Druga publikacja, o której chciałem dzisiaj powiedzieć dwa słowa, pojawiła się w piśmie PLoS Biology na początku października5. Nie dotyczy ona jednak (wbrew zgodnym z tytułem pisma oczekiwaniom) biologii – dotyczy za to procesu recenzji prac naukowych. A trudno wyobrazić sobie lepszą sytuację, w której eksperci musieliby wydawać sądy na temat przedmiotu swojej specjalizacji. Dwoje autorów pracy w PLoS Biology postanowiło zatem przyjrzeć się różnym metodom oceniania naukowej jakości publikacji.

Autorzy zbadali trzy metody. Pierwszą z nich była subiektywna recenzja po publikacji (ang. post-publication peer-review). Przykładem takiej recenzji jest na przykład blog Rosie Redfield na temat arsenowych bakterii (pisałem o tym obszernie tutaj). Każda z badanych publikacji była poddana ocenie dwóch recenzentów. Drugą metodą była liczba cytowań zdobyta przez badane publikacje. Wreszcie oceniono je też na podstawie znienawidzonego przez wiele osób wskaźnika wpływu (Impact Factoru) pism, w których prace zostały opublikowane.

Praca jest bardzo długa – ale i interesująca – tu jednak chciałbym przytoczyć tylko kilka jej wyników. Oczekiwania nasze zdroworozsądkowe są takie, że eksperci powinni być wprawni w ocenie merytorycznej wartości pracy. W związku z tym ocena publikacji przez specjalistów powinna być często zbieżna. Okazało się jednak, że zbieżna jest w połowie przypadków. Niby sporo, ale gdybyśmy losowo dobierali ich opinie, to zbieżności możnaby oczekiwać w 40% prac (czyli te ok. 10% więcej to nie jest wcale tak dużo).

Okazało się także, że na ocenę specjalistów miał wpływ impact factor pism, w których prace opublikowano. Ilustruje to prześliczna grafika poniżej. Jak widać, znacznie wyżej oceniano prace publikowane w pismach o IF większym niż 20 niż tych o IF mniejszym niż 10:

Jak widać na załączonym obrazku, zwiększającemu się impact factorowi pisma towarzyszy coraz częstsze ocenianie prac jako wyjątkowo dobrych. /źródło: Eyre-Walker & Stoletzki, PLoS Biol (2013), 11(10): e1001675 (CC-BY)
Jak widać na załączonym obrazku, zwiększającemu się impact factorowi pisma towarzyszy coraz częstsze ocenianie prac jako wyjątkowo dobrych. /źródło: Eyre-Walker & Stoletzki, PLoS Biol (2013), 11(10): e1001675 (CC-BY)

Wnioski z pracy są więc takie6, że ocena ekspertów jest nawet w przypadku usystematyzowanej recenzji naukowej po prostu subiektywna. I pomimo tego, że na świecie uważa się system recenzencki za najlepszą metodę oceny dorobku naukowego, wygląda na to, że w rzeczywistości mogą istnieć przesłanki do stosowania również znienawidzonej oceny parametrycznej.

Nie chciałbym tutaj otwierać dyskusji na temat tego, czy ocena parametryczne jest lepsza, czy gorsza niż system recenzencki. Osobiście jestem zwolennikiem tego drugiego, ale praca Eyre-Walkera i Stoletzki zaczęła mi nieco skrzywiać perspektywę. Zanim ogłosimy śmierć systemu recenzenckiego potrzebne będzie jednak jeszcze wiele, wiele badań (w lepiej kontrolowanych warunkach, sprawdzających także jak to wygląda w różnych dziedzinach, a także czy podobny trend – i to jest niezwykle ważny punkt – istnieje także w przypadku recenzji przed publikacją).

Tutaj natomiast take home message jest takie, że eksperci mogą się czasem mylić nawet wówczas, gdy wypowiadają się na temat tego, czym zajmują się zawodowo na co dzień. To podsumowanie trzeba jednak przyjąć z przymrużeniem oka, pamiętając, że grupa ekspertów od szampana mówiła, co im ślina na język przyniosła, zaś grupa ekspertów od recenzji działała prawdopodobnie pod wpływem.

Przypisy:

1.Vanessa Harrar, Barry Smith, Ophelia Deroy, & Charles Spence (2013). Grape expectations: how the proportion of white grape in Champagne affects the ratings of experts and social drinkers in a blind tasting Flavour, 2 (25) : 10.1186/2044-7248-2-25

2. Flavour w ogóle czytelnikom polecam. Nie publikują często, ale jak już publikują, to zawsze coś ciekawego. Większość prac dotyczy głównie czynników – genetycznych, środowiskowych, kulturalnych – wpływających na naszą percepcję smaku. Swego czasu opisywałem zresztą badania z tego pisma nad genetycznymi źródłami tego, że dla niektórych z nas kolendra ma smak mydła

3. I nie, nie mam na myśli tego, że próba była mała – chociaż była.

4. Ale proszę nie odnieść wrażenia, że próbuję ekspertów od smaku (czy innych tego typu doznań) tutaj całkiem zdyskredytować. Pewnych sensacji nie jesteśmy jeszcze bowiem w stanie zmierzyć i ocenić inaczej, niż za pomocą naszych własnych zmysłów. Gdyby tak było, testerzy na przykład perfum, alkoholi i innych życiowych używek nie zarabiali by tyle, ile zarabiają.

5. Adam Eyre-Walker, & Nina Stoletzki (2013). The Assessment of Science: The Relative Merits of Post-Publication Review, the Impact Factor, and the Number of Citations PLoS Biology, 11 (10) : 10.1371/journal.pbio.1001675

6. Jeden z ciekawszych wniosków, który niestety relegowałem do przypisów, ponieważ odbiega od tematu wpisu, dotyczy tego, jak się względem siebie plasują trzy testowane metody oceny. Coraz częściej bowiem w dzisiejszych czasach mówi się o tym, że publikacje naukowe nie powinny być oceniane na podstawie impact factoru pisma, w których zostały opublikowane – i coraz więcej uwagi zwraca się na tzw. wskaźniki alternatywne (ang. altmetrics): pobrania pracy, obecność w mediach społecznych, a także cytowania – ale dla konkretnego artykułu. Autorzy tej publikacji pokazali jednak, że impact factor, jak bardzo niekochany i niedoskonały by nie był, jest lepszym wskaźnikiem niż nie tylko ocena ekspercka, ale także ilość cytowań dla poszczególnych prac!

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s