Metadane – krótki wstęp do wstępu

keep_it_simple

Mój tekst o otwartych danych, a co ważniejsze – mój apel o stosowanie metadanych – najwyraźniej gdzieś zarezonował: jedna z Czytelniczek poprosiła, aby o metadanych i ich stosowaniu napisać coś więcej. Zanim jednak napiszę chociaż jedno słowo na ten temat, muszę tutaj umieścić disklejmer: o zarządzaniu danymi (jakimikolwiek, nie tylko naukowymi) pojęcie mam bardzo blade. Cudów się więc raczej nie spodziewajcie. Mam jednak cichą nadzieję, że być może tekst zostanie przyuważony przez któregoś z polskich blogerów, którzy na ten temat mogą mieć więcej do powiedzenia (Warsztat Badacza? Circle of Complexity?) – i sprowokuje ich do szerszego elaboratu na ten temat…

Metadane – powtórzę raz jeszcze – to dane o danych. Dane eksperymentalne to wyniki wypluwane przez maszynę, którą do przeprowadzenia doświadczenia stosujemy, czy jest to spektrometr masowy, czy zwykła waga, czy też wyniki sondażu. Metadane zaś, to wszystkie informacje towarzyszące kreacji takiego zestawu danych: kto eksperyment przeprowadził, jakiego użył urządzenia i której wersji oprogramowania, data i godzina, czasem także lokalizacja geograficzna, temperatura i wilgotność powietrza, sposób przygotowania próbek, a nawet to, jakiej jakości są nasze dane. Innymi słowy, wszystko, co nie jest zawarte w tym podstawowym zestawie liczb, które są naszym bezpośrednim wynikiem, sklasyfikować można jako metadane.

Po tym wstępie powinno być jasne, dlaczego tak ważne jest dbanie o to, aby częścią archiwizowanych wyników zawsze były metadane. Wyobraźmy sobie, że w jakiejś grupie badawczej z dnia na dzień zaczęto stosować nową wersję oprogramowania do aparatury pomiarowej. W nowej wersji software’u producent wprowadził kilka zmian dotyczących tego, jak filtrowane są surowe dane, zmniejszając dzięki temu spodziewany odsetek wyników fałszywie dodatnich (z ang. false discovery rate). Jeśli fakt zmiany oprogramowania nie zostanie odnotowany, dla osoby z zewnątrz próbującej zrozumieć, dlaczego wyniki eksperymentów nagle diametralnie się poprawiły bez wyraźnej przyczyny, cała sytuacja może się wydać mocno podejrzana. W najlepszym zaś przypadku taki biedak spędzi bezsenne noce próbując rozgryźć problem.

Zadaniem metadanych nie jest jednak jedynie ułatwienie zrozumienia danych, które opisują. Metadane służą także do zarządzania danymi, do ich nawigacji, do ich uwierzytelnienia, do kontroli praw autorskich, do opisu ich struktury, do opisu protokołów, i tak dalej i tym podobne.

Problem niestety polega na tym, że standardów metadanych jest mało i są bardzo zróżnicowane. Nie bez powodu zresztą – zupełnie innych metadanych należy w końcu oczekiwać od eksperymentu badającego polityczne upodobania kazachskich mniejszości narodowych niż od doświadczenia badającego ekspresję genów u ślimaka morskiego. Na pytanie zatem, z jakiego standardu powinno się korzystać, nie potrafię udzielić rozsądnej odpowiedzi. W niektórych badaniach wystarczy odnotować niezbędne informacje w dodatkowym pliku tekstowym. W innych – potrzebne będzie bardziej skomplikowane rozwiązanie. Na szczęście dla przynajmniej niektórych badaczy, oprogramowanie do wielu rodzajów doświadczeń wymusza na użytkownikach podanie niezbędnych informacji, które następnie są zdalnie zapisywane. Z mojej nikłej wiedzy w temacie wynika, że chętnie stosuje się do magazynowania danych XML, ale jeśli się mylę, to mam nadzieję, że ktoś mnie tutaj prędko poprawi.

Niemniej jednak wiele instytucji i organizacji pracuje nad standardami metadanych (nie tylko naukowych), które byłyby użyteczne i łatwe do zastosowania. Na chwilę obecną możecie spróbować zapoznać się z Dublin Core. Prawdę powiedziawszy jednak, jeśli w dziedzinie, którą się zajmujecie, jest już przyjęty jakiś standard, to najrozsądniej jest spróbować przyjąć go także w Waszym laboratorium. Z prostej przyczyny – mała szansa, że ekolog będzie się dzielił danymi z fizykiem cząstek elementarnych. Warto więc rozejrzeć się, jak z problemem mierzą się koledzy i koleżanki po fachu, a jeśli opcji jest kilka: wysondować ich pod kątem tego, czy dobrze im się w danym systemie pracuje.

Jak zaznaczyłem na wstępie: złotych rad się proszę na koniec nie spodziewać. Jeśli jednak mogę coś doradzić, to chciałbym powiedzieć, że:

– jeśli musielibyście rozwijać standard metadanych dla swoich eksperymentów od nowa, czy to dlatego, że nie istnieje standard dla Was dogodny, czy też dlatego, że istniejące są do bani, warto wówczas kierować się znaną zasadą KISS – czyli Keep It Simple, Stupid! Zastanowić się mianowicie należy, jak najprościej powiedzieć o danych to, co musi być o nich powiedziane, a także co nie musi być powiedziane w ogóle, więc można to całkowicie pominąć;

– jeśli uda się Wam stworzyć dobry sposób organizacji metadanych dla pewnego typu eksperymentów; jeśli wypracujecie dobry standard – dzielcie się nim. Dobrej praktyki nigdy nikomu nie jest za wiele;

– jeśli macie wątpliwości, jak się w ogóle do tematu zabrać, rozmowa z uczelnianym bibliotekarzem może być znakomitym miejscem startu.

Jeśli chcielibyście zaś poczytać więcej na powyższy temat, to zachęcam do zajrzenia na przykład na stronę Digital Curation Centre.

13 Comments

  1. Pozwolę sobie dodać, że XML nie jest żadnym standardem zapisu metadanych. XML jest jedynie rodzajem języka, formatu, formy zapisu etc. jakichkolwiek informacji.
    Generalnie polega to na tym, że tworzy się znaczniki (otwierający i zamykający) informujące „co to za informacja” i pomiędzy te znaczniki wstawia się samą informację. Potem osoba odczytująca musi znać system znaczników (tutaj właśnie może pojawić się jakaś standaryzacja) albo po prostu odczytywać ich nazywy, a następnie wyciągać wartości z nimi związane. Komunikat (plik) XML może wyglądać np. tak:

    Nic prostszego

    Rafał

    .
    .
    .

    Lubię

    1. Jeszcze jedna próba, bo znów wycięło (w oryginalnym XMLu [] byłby w formie nawiasów ostrych ):
      [info_o_blogu]
      [nazwa_bloga]
      Nic prostszego
      [/nazwa_bloga]
      [autor_bloga]
      Rafał
      [/autor_bloga]
      .
      .
      .
      [/info_o_blogu]

      Lubię

      1. Słuszna uwaga! Dla uściślenia dodam, że najpopularniejszym formatem przechowywania metadanych w plikach PDF jest XMP, w którym można zawrzeć wspomniany w tekście Dublin Core.
        Jeśli ktoś publikuje w sieci, warto skorzystać z prostego narzędzia do XMP (i nie tylko) http://www.becyhome.de/becypdfmetaedit/description_eng.htm. Bardzo funkcjonalne jest eksportowanie/importowanie zestawu metadanych, dopisywanie lub nadpisywanie poszczególnych wartości, oznaczanie kolejnych wersji plików, itp. Polecam, jeśli ktoś potrzebuje takiej funkcjonalności a nie stać go na pakiet Adobe;)
        Kwestia metadanych staje się kluczowa (nie tylko w kontekście badań naukowych) z bardzo wielu względów, z których najważniejszy to przyszłość internetu czyli sieć semantyczna.

        Lubię

  2. Jak już wezwałeś do tablicy… Standardów metadanych wcale nie jest mało, przynajmniej w naszych okolicach. Warto spojrzeć na serwis Biosharing i ich listę formatów i procedur opisywania eksperymentów/danych w naukach biologicznych (http://www.biosharing.org/standards_view ).

    Generalnie metadane to kluczowy element potrzebny do porównywania dwóch eksperymentów. Wobec czego w pewnych dziedzinach nie można dzielić się danymi, jeśli metadane nie są kompletne – w takich przypadkach dane są prawie bez wartości (konkretny przykład to eksperymenty mikromacierzowe – dane nie spełniające wymagań MIAME nie są już deponowane w publicznych bazach danych).

    Lubię

  3. hm, ale to chyba każdy jakoś intuicyjnie wie, że trzeba spisać, jakie dokładnie warunki PCR zastosował, jaki bufor do elektroforezy białek, jakie stężenie, jakie warunki transferu na memebranę, a nawet dopiski typu NOTE: Probówka nr 8 wpadła mi na chwilę do water bath nastawionej na 70*C itp. :)

    Lubię

    1. Nie każdy – inaczej nie trzeba by było przyszłych pracowników naukowych trenować w utrzymywaniu zadbanego, detalicznego zeszytu laboratoryjnego. Nawet jeśli intuicyjnie wiadomo, że ma to sens. Ale nawet nie o to tutaj chodzi – bo zeszyt laboratoryjny to jedno, a metadane, to co innego (chociaż na pewnej płaszczyźnie mogą się te informacje pokrywać). Po prostu – metadane danym towarzyszą zawsze. Zeszyt można zgubić, zniszczyć i tak dalej. Ponadto – zeszyt laboratoryjny najczęściej przynależy do laboratorium i z danymi do kolejnych osób nie powędruje (czy to w formie tradycyjnej, czy elektronicznej). Nawet więcej – udostępnianie zeszytu laboratoryjnego może być w niektórych ośrodkach wykroczeniem! (Bo a nuż, widelec, zawiera jakąś perłę własności intelektualnej, która należy do uczelni – a np. w UK należy, jeśli źródłem był pracownik placówki).

      Lubię

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s