Daleka droga do Open Data

Przy okazji Międzynarodowego Tygodnia Wolnego Dostępu dużo mówi się o tym, jak zmienia się naukowy przemysł wydawniczy; o tym, że instytucje przyznające fundusze na badania coraz częściej wymagają od naukowców publikacji wyników w trybie open access; o tym, jaki nacisk na wydawców wywierają autorzy, czytelnicy i biblioteki. Mniej jednak mówi się o open data – o potrzebie udostępniania publicznego nie tylko przetrawionych do formy publikacji wyników, ale i samych „surowych” rezultatów.

Pracując w niektórych dziedzinach nauki można odnieść wrażenie, że open data to jest coś, co już jest, co ma miejsce, nad czym nie trzeba dyskutować. Myśleć tak mogą genetycy przyzwyczajeni do korzystania z zasobów NCBI, z źródeł danych z takich projektów jak Projekt Sekwencjonowania Ludzkiego Genomu, czy ENCODE. Myśleć tak mogą biolodzy korzystający z banku danych białkowych, PDB, albo z danych na temat deforestacji puszczy amazońskiej. O tym, jak pomocne może być open data – zwłaszcza w połączeniu z crowsourcingiem badań – wiedzą astronomowie stojący za projektem Galaxy Zoo. Zaś wyniki badań w CERNie stają się także powoli otwarte – chociaż na razie tylko dla środowiska naukowego, a nie dla wszystkich chętnych.

Jakie korzyści płyną z dzielenia się danymi, z publicznego i dowolnego do nich dostępu? Po pierwsze, ponowna analiza naszych danych przez kogoś z zewnątrz może pomóc w weryfikacji naszych wniosków. Nie jest bowiem tak, że wystarczy zrobić eksperyment, a z surowych, nieobrobionych wyników wyskoczy na nas objawienie. O nie, nie. Dane trzeba najpierw przeanalizować, a błędów przy analizie można popełnić tyle samo, o ile nie więcej, jak przy samym doświadczeniu. Niezależny głos potwierdzający naszą analizę jest więc zawsze miłym dla ucha potwierdzeniem, że rzeczywiście mieliśmy rację. Po drugie, osoby z zewnątrz patrząc na nasze dane mogą w nich dojrzeć coś, co nam samym umknęło, zaproponować jakiś rodzaj analizy, o którym nie pomyśleliśmy, albo nawet alternatywną interpretację naszym wyników.

Po trzecie, żeby dzielić się danymi, muszą one być zdigitalizowane i przechowywane w sposób, który dostęp do nich ułatwi. A gdy są już w takiej formie, to duża szansa, że rozpełzną się szybko po świecie, co tylko pomoże w ich utrwaleniu i zachowaniu – bo wbrew pozorom największym dziedzictwem nauki nie jest stos publikacji, ale właśnie dane. Po czwarte, dostępność danych na jakiś temat pomaga w optymalizacji środków – bowiem fakt, że można sobie wynik jakiegoś doświadczenia po prostu ściągnąć, oznacza, że nie musimy go sami przeprowadzać (chyba że bardzo chcemy oczywiście), oszczędzając czas i pieniądze.

I po dwa ostatnie: dzielenie się danymi jest swego rodzaju bezpiecznikiem dla naukowych oszustw, gdyż dostępność surowych danych oznacza, że prędzej czy później ktoś się nimi może zainteresować i je przeanalizować i jeśli jest z nimi coś nie tak – prawdopodobnie roztrąbić to na cały świat. Ponadto zaś open data jest niesamowitym źródłem materiałów dydaktycznych: zarówno tylko jako dane, które można analizować potem na dziesiątą stronę, jak i jako inspiracja i tzw. benchmark dla prostych doświadczeń wykorzystywanych do szkolenia nowych pokoleń badaczy.

Open data to jednak dla większości badaczy na razie tylko mit. Bo też, jeśli się dobrze zastanowić, dzielenie się swoimi danymi dla wielu osób nie ma po prostu sensu. Powiedzmy sobie wprost: dopóki badacze na uczelniach rozliczani są z publikacji, nie będzie miało znaczenia, jak niesamowite robią badania, jeśli nie będę publikować wyników. Co więcej, jak długo do dorobku bardziej będzie się liczyła publikacja w Nature a nie w specjalistycznych periodykach, tak długo wielu naukowców będzie te swoje oryginalne trzymać w ukryciu i je kisić, aż im się uzbiera dość na bang warty podboju tegoż Nature (czy jakiegokolwiek innego pisma o wysokim profilu). Innymi słowy, naukowcom po prostu często brak odpowiedniej motywacji, żeby się swoją krwawicą dzielić.

Prawda jest zresztą taka, że w wielu dziedzinach, które obecnie można podawać jako piękny przykład wdrożenia open data, dzielenie się swoimi danymi nie oznacza jakiejś nieokreślonej moralnej wyższości badaczy w tej dziedzinie pracujących. Z prostego powodu: gdyż zazwyczaj jest wynikiem nacisku instytucji, z których płyną pieniądze. Jak inaczej w końcu przekonać wszystkich badaczy z danej dziedziny, że warto to robić, jak inaczej zmusić ich do robienia czegoś, co jest wbrew ich jestestwu?

W zeszłym roku grupa amerykańskich badaczy opublikowała w – a jakże – otwartodostępowym piśmie PLoS ONE wyniki swoich badań nad tym, jak naukowcy dzielą się swoimi danymi i co stoi na przeszkodzie takiemu dzieleniu się. Przepytano ponad 1300 naukowców z różnych dziedzin – pomiędzy dyscypliny rozkłada się to mniej więcej tak:

80% respondentów było czynnymi akademikami, około 1/8 było zatrudnione na etatach rządowych, po ok. 2.5% pracowało w przemyśle lub instytucjach non-profit. Blisko połowa badanych pracuje na stanowisku lub posiada tytuł profesora.

Zapytani, z jakich źródeł danych korzystają, prawie 40% respondentów odpowiedziała, że korzystają z repozytoriów instytucjonalnych, zaś 27% z „innych źródeł”. Warte uwagi jest tutaj to, że niemal wszystkie pozostałe wymienione źródła danych to różnego rodzaju repozytoria gromadzące dane dotyczące ekologii, bioróżnorodności, środowiska. Badacze odpowiadali też na długą listę pytań typu „zgadzam się, trochę się zgadzam, ani się zgadzam ani nie zgadzam…”, dotyczących tego, czy projekt badawczy lub organizacja, w której pracują, posiada protokoły pozwalające zarządzać i przechowywać dane eksperymentalne, poziomu satysfakcji z tego, jak tego rodzaju protokoły funkcjonują na każdym etapie badań, czy dane są dostępne dla innych badaczy, jak brak dostępu do danych innych badaczy wpływa na badania, jeśli mamy dostęp do danych, jakiej jakości są to dane itd. Rzućmy okiem na kilka ciekawych wyników.

Aby dzielić się danymi efektywnie, nie wystarczy wrzucić je do publicznego repozytorium – muszą one dodatkowo być dobrze opisane: z jakiego eksperymentu pochodzą, jakie były warunki doświadczalne, kto badanie przeprowadził i według której wersji protokołu. I tak dalej, i tym podobne. Innymi słowy do zestawu danych muszą być dodane tzw. metadane (czyli dane o danych). Na pytanie jednak, jakiego rodzaju standard metadanych jest stosowany w grupach badawczych respondentów, odpowiedź jest druzgocąca:

W prawie połowie laboratoriów nie stosuje się bowiem żadnych metadanych. Co oznacza nie tylko, że korzystać z nich nie będą mogli badacze z innych instytucji, ale także, że jest spora szansa, że za dziesięć lat, gdy studia pokończą obecni doktoranci, a postdocy ruszą na podbój innych instytucji, w labie nie będzie nikogo, kto byłby w stanie coś z nich zrozumieć…

Bardzo ciekawie wyglądają odpowiedzi respondentów na pytania o to, czy dzielą się danymi z innymi badaczami, a także o to, czy inni badacze mają łatwy do nich dostęp:

Jak widać, do dzielenia się danymi przyznaje się ponad 70% osób biorących udział w badaniu, jednocześnie jednak zaledwie jedna trzecia przyznaje, że dostęp jest dla innych badaczy łatwy – czyli że są one w jakimś repozytorium i posiadają zrozumiałe metadane. Co to oznacza? Uwzględniając tę sporą chęć do dzielenia się wynikami, najprawdopodobniej winę można zrzucić właśnie na brak odpowiednich repozytoriów i standardów – co powoduje, że dostępność danych jest tak znacznie niższa od chęci ich udostępnienia.

Żeby jednak nie winić tylko badaczy i okropnych instytucji, które uniemożliwiają dzielenie się danymi poprzez niezapewnienie odpowiednich do tego środków, spójrzmy na to, jakich odpowiedzi udzielano na pytanie o powody, dla których dane nie były udostępniane elektronicznie:

Z wykresu wyraźnie wybija się, że najczęściej powodem nie udostępniania danych jest brak czasu na dokonanie tego (tu kłania się np. brak standardów meta – bo stworzenie metadanych od podstaw po to, żeby móc dane udostępnić, jest bardzo, ale to bardzo czasożerne), oraz brak pieniędzy. Pytanie oczywiście: pieniędzy na co dokładnie – bo jeśli tylko na serwer, to tutaj w niektórych dziedzinach z pomocą przychodzą publiczne repozytoria. W innych jednak nie jest już tak łatwo. Dwie podane przyczyny, które powinny też przykuć uwagę, to brak uprawnień, aby dane uczynić publicznymi oraz to, że dane nie powinny być udostępniane publicznie. W tym pierwszym przypadku może być mowa o tym, że instytucje badawcze często przywłaszczają sobie prawa autorskie do wyników badań – nie bez powodu, ale też i często ten pęd za własnością intelektualną rozciągany bywa do granic absurdu. Dlaczego dane nie powinny być w ogóle udostępniane? Coraz częściej mówi się o tym, że prawie wszystko powinno być – włączając w to nawet do tej pory skrywane przez korporacje farmaceutyczne dane dotyczące prób klinicznych. Nawet bezpieczeństwo narodowe przestaje być dobrym argumentem.

Wszystkich wyników prezentował i omawiał tutaj nie będę – dość powiedzieć, że publikacja ma jakieś 30 tabel podsumowujących rezultaty i warto sobie na niektóre z nich zerknąć – różne ciekawe trendy wyłażą na przykład, gdy się odpowiedzi respondentów poukłada według ich wieku oraz dyscypliny, którą się zajmują.

Tutaj dość jednak powiedzieć, że ogólne wnioski są następujące: badacze chcą się swoimi danymi dzielić, nawet pomimo tego, o czym pisałem na początku tego wpisu – że dane to wielki skarb naukowca, którego należy strzec. Najczęstszymi przyczynami nie udostępniania danych nie są zatem niechęć czy rywalizacja, ale raczej bardzo przyziemne powody takie jak brak możliwości technicznej, brak czasu, czy też wreszcie odwieczna bolączka nauki – brak pieniędzy. Badacze często podkreślają, że niemożność dostępu do danych innych naukowców wpływa (negatywnie) na ich zdolność dokonania prawidłowej analizy własnych wyników.

Ważnym spostrzeżeniem tutaj, które każda osoba prowadząca jakiekolwiek badania naukowe powinna sobie wyryć złotymi zgłoskami na tabliczce nad biurkiem i spoglądać na nią co najmniej raz dziennie, jest to, że wyniki eksperymentów muszą posiadać metadane. Jest wiele standardów, które można do tego wykorzystać, warto więc spędzić chwilę na zastanowienie, który jest najbardziej odpowiedni dla danego typu badań, dla danej dziedziny, i zacząć go wdrażać u siebie jak najszybciej.

Tenopir, C., Allard, S., Douglass, K., Aydinoglu, A., Wu, L., Read, E., Manoff, M., & Frame, M. (2011). Data Sharing by Scientists: Practices and Perceptions PLoS ONE, 6 (6) DOI: 10.1371/journal.pone.0021101

13 Comments

Daria pisze:

20 listopada, 2012 o 11:39

Czy mógł by Pan przybliżyć temat metadanych. jak się do tego zabrać ? Pozdrawiam

PolubieniePolubienie

Odpowiedz
Pingback: Otwartość w sektorze GLAM: dobry polski przykład - Historia i Media
Przemyslaw Biecek pisze:

29 października, 2012 o 01:08

Ten ostatni wykres kołowy bez podanych procentów to jak rozumiem żart ;-)

PolubieniePolubienie

Odpowiedz
1. Rafał pisze:
  
  29 października, 2012 o 08:23
  
  Nie do końca – procenty się nie dodawały do 100 (bo pytanie było wielokrotnego wyboru), a ja nie jestem ekspertem od wykresów kołowych i innych (innymi słowy jeśli wykres nie przedstawia krzywej kalibracyjnej albo spektrum, to nie wiem, jak się do niego zabrać). Ale tabelki w wordpressie wyglądają ohydnie. Więc tak wyszło ;) Ale jak ktoś ma sugestię, jak to lepiej przedstawić, to proszę mi dać na priva, to zmienię…
  
  Edited: zmieniłem wykres na inny, mam nadzieję nie budzący kontrowersji ;)
  
  PolubieniePolubienie
  
  Odpowiedz
  1. Przemyslaw Biecek pisze:
    
    29 października, 2012 o 16:37
    
    Dzięki, ten wykres jest dla mnie dużo czytelniejszy.
    Ale to tak jest, że jak dasz palec to chce całą rękę i tutaj miłoby było do każdego z wykresów móc dostać się do danych z których były robione. Hasło ,,open data” zobowiązuje ;-).
    Eurostat w co lepszych raportach ma do wykresów dołączone linki do csv’ów z danymi, można klikjąc w podpis rysunku otworzyć źródłową tabelę. To jest dopiero przykład!
    
    PolubieniePolubienie
    
    Odpowiedz
    1. Rafał pisze:
      
      29 października, 2012 o 17:31
      
      Nie jestem pewien, o co ci chodzi. Jeśli chciałbyś, żeby wykresy linkowały do danych, to jest to chyba trochę ponad techniczne możliwości wp.com. Ale gwoli dalszego wyjaśnienia: wszystkie dane do wykresów pochodzą z tabelek w cytowanej publikacji (która jest OA). Tylko że jak już zaznaczyłem – tabelki w wordpressie wyglądają brzydko, nie mówiąc o tym, że większość z nas jest jednak bardzo obrazowymi wzrokowcami i wykresy mówią nam więcej niż tabele.
      
      PolubieniePolubienie
      
      Odpowiedz
      1. Jakub Milczarek pisze:
        
        24 stycznia, 2013 o 11:59
        
        Przedmówcy chodziło o to, że pod tabelką lub wykresem możnaby wstawiać link do pliku typu CSV zawierającego odpowiednie wartości liczbowe, gotowe do następnych własnych działań. Możesz udsotępniać pliki CSV tak samo jak PDF lub inne dokumenty – WP.com bez problemu na to pozwala…
        
        PolubieniePolubienie
Pingback: Dziesięć przykazań Otwartej Nauki | Warsztat badacza komunikacji – Emanuel Kulczycki
Staszek Krawczyk pisze:

28 października, 2012 o 17:05

Zastanawiam się nad jedną rzeczą. W naukach społecznych, które są mi najbliższe (zwłaszcza psychologii i socjologii), zdarzają się obszerne kwestionariusze przynoszące niekiedy dość osobiste informacje na temat respondentów. Z tego powodu obawiałbym się udostępnienia danych surowych w formacie, który pozwala odczytać wszystkie wiadomości z dowolnego wybranego kwestionariusza. Może to być istotne zwłaszcza przy badaniu prób reprezentujących małe populacje, w których „odległość Milgrama” jest pewnie mniejsza niż sześć uścisków dłoni (np. w subkulturach). A im lepiej zamaskujemy udostępnione dane, tym mniejsze możliwości ich przetwarzania będą mieli inni badacze. Jest to problem, dla którego nie widzę jednoznacznego rozwiązania, choć może nie mam racji?

Dziękuję za ciekawy wpis i pozdrawiam!

PolubieniePolubienie

Odpowiedz
1. Rafał pisze:
  
  28 października, 2012 o 17:19
  
  Myślę, że ten problem dotyczy także badań klinicznych – ile informacji o każdym opisanym kazusie można ujawnić, zanim dojdziemy do etapu identyfikowania poszczególnych pacjentów. Co więcej – czy wolno nam w ogóle udostępniać na przykład takie dane, jak zsekwencjonowany genom pacjenta? Niby zawsze podpisana zgoda jest, ale czy tacy pacjenci tak naprawdę zdają sobie sprawę, że sekwencja genomu jest bardziej dokładną wizytówką niż ich własny podpis? A także do czego i przez kogo może potem zostać wykorzystany?
  
  Jednoznacznej odpowiedzi tu chyba nie ma, a podejrzewam, że większość zwolenników open data poradzi, by jednak wychodzić z założenia, że ludzie nie są wredni, złośliwi, podli, i żeby traktować użytkowników na zasadzie domniemanej niewinności – czyli nie oskarżać ich a priori o niecne pobudki…
  
  PolubieniePolubienie
  
  Odpowiedz
  1. Staszek Krawczyk pisze:
    
    31 października, 2012 o 20:47
    
    Dla mnie problem polega przede wszystkim na tym, że jako naukowiec czuję pewne zobowiązanie wobec osób, które zgodziły się wziąć udział w badaniu. Zaufały mi i poświęciły trochę swojego czasu – wydaje mi się, że jeśli chciałbym opublikować dane surowe w jakiejkolwiek formie, to powinienem to zapowiedzieć już na etapie rozdawania ankiet.
    
    Teraz pomyślałem tak: można w kwestionariuszu zapytać respondentów, na jaki sposób udostępniania danych przystaną (czy tylko tablice wynikowe, czy także surowe dane), i publikować dane surowe tylko dla tych osób, które wyrażą zgodę. Jeżeli ktoś się nie zgodzi, to pod jego numerkiem w publicznej bazie danych będzie pusty wiersz. I to chyba może być rozwiązanie!
    
    PolubieniePolubienie
    
    Odpowiedz
    1. Rafał pisze:
      
      31 października, 2012 o 22:58
      
      Przepraszam, ja chyba za pierwszym razem nie doczytałem komentarza. Oczywiście, że nikt (chyba nikt) optujący za dostępem do „surowych” danych nie będzie żądał udostępnienia danych personalnych uczestników badań. Tak to zresztą wygląda w przypadku opisywanych kazusów medycznych – pacjenci są tylko jakimś tam numerkiem i chociaż wszystkie dane medyczne znajdują się w ich kartotekach, to jednak ich tożsamość nie jest nigdy podawana do wiadomości czytelnika publikacji. Tak samo, wyobrażam sobie, powinno wyglądać udostępnianie danych z różnego rodzaju kwestionariuszów.
      
      Wyjątkiem tutaj jest wspomniany przeze mnie przypadek sekwencjonowanych genomów. Tu oczekiwałbym jednoznacznej podpisanej zgody dobrze poinformowanego i poinstruowanego pacjenta na publikację takiego genomu. Bo ten zawiera informacje o nas cenniejsze niż najbardziej nawet szczegółowa ankieta.
      
      PolubieniePolubienie
      
      Odpowiedz
      1. Staszek Krawczyk pisze:
        
        31 października, 2012 o 23:13
        
        To chyba po prostu ja nie umiem przejrzyście powiedzieć o co mi chodzi. :-) Może spróbuję podać przykład: niedawno razem z dwiema innymi osobami gromadziliśmy dane o czytelnictwie fantastyki w Polsce, rozdając ankiety (dobór z konieczności nielosowy) w grupach fanowskich. W ogóle nie zbieraliśmy informacji takich jak imię i nazwisko, ale jeśli udostępnimy dane surowe, to w niektórych przypadkach respondenci znający daną osobę i tak będą w stanie ją zidentyfikować. „45 lat, mężczyzna, po doktoracie, ulubiony pisarz: Neil Gaiman – hej, to chyba Zbyszek! Zobaczmy, jak odpowiedział na te 37 pytań”. Takich rzeczy bym się obawiał, publikując dane surowe.
        
        Właśnie dlatego wydaje mi się, że jednoznaczne pytanie respondentów o zgodę na publikowanie danych surowych (z wyjaśnieniem, co to znaczy), jest dobrym rozwiązaniem. Inna sprawa, że wystarczy, iż 10% osób się na to nie zgodzi, a już i tak inni badacze będą pracowali na odmiennym materiale niż autorzy oryginalnego raportu… Ale chyba nie ma lepszego rozwiązania, zwłaszcza tam, gdzie dane z ankiet są odpowiednio szczegółowe, a poszczególni respondenci mogą się znać nawzajem (chociaż generalnie jestem zwolennikiem informowania uczestników badań o zamierzonych sposobach publikacji wyników niezależnie od charakteru badania).
        
        PolubieniePolubienie