Excel wprowadza genetyków w błąd

Żyjemy w złotej erze genetyki: techniki sekwencjonowania kwasów nukleinowych nigdy nie były tańsze, szybsze, ani bardziej wydajne. Skutkiem tego jest proliferacja w literaturze fachowej prac naukowych, w których część wyników – często załączana w dodatkowych plikach – stanowią długie listy genów. A to tych, które w badanych warunkach mają zwiększoną lub zmniejszoną ekspresję. A to takich, o których wiadomo, że wiążą się z jakimiś konkretnymi funkcjami w komórce. Przyjacielem badacza był tutaj od lat Excel, który jest narzędziem znakomicie nadającym się do tworzenia i prezentowania dużych tabel zawierających (nierzadko) dziesiątki tysięcy rzędów.

Okazuje się jednak – i zaskoczeniem to niestety też specjalnym nie jest – że chociaż Excel jest jednym z najpowszechniejszych narzędzi stosowanych w tym celu, to jednocześnie pewne jego funkcje doprowadziły do tego, że, jak donosi opublikowana dopiero co w piśmie Genome Biology praca, nawet do 20% prac z zakresu genetyki zawierać może w tych tabelach błędy.

O co chodzi? Problem tkwi w znanej (i nieco irytującej) funkcji w Excelu, przez którą wszystkie komórki docelowo mają format daty. Ponieważ nazwy niektórych genów mają zapis podobny właśnie do dat – są one przez Excela automatycznie konwertowane. Jeśli następnie chcielibyśmy taki zestaw danych przeanalizować maszynowo, jest duża szansa, że ta podmiana nie zostanie wychwycona, i gen, które w zestawie się znajduje, zostanie potraktowany jako niebyły. Przykładem jest gen kodujacy białko septyna 2, który zapisuje się jako SEPT2, a który Excel konwertuje do 2-Sep (czyli drugi września).

źródło: Zeeberg et al., BMC Bioinformatics 2004, 5:80 DOI: 10.1186/1471-2105-5-80
źródło: Zeeberg et al., BMC Bioinformatics 2004, 5:80 DOI: 10.1186/1471-2105-5-80

Autorzy pracy przeanalizowali artykuły opublikowane przez 18 pism naukowych w latach 2005-2015: w przebadanych 35 tysiącach plików dodatkowych naleźli prawie 7,5 tysiaca list genów (należących do ponad 3,5 tysiąca artykułów). W blisko tysiącu list – w 704 różnych artykułach – udało im się zidentyfikować wprowadzone przez Excela błędy. W największym stopniu problemem dotknięte okazały się być pisma genetyczne, chociaż tego należało się raczej spodziewać. Co więcej, im wyższy wskaźnik wpływu pisma, tym większa była szansa na taką pomyłkę.

Co ciekawe, sprawa jest znana od dawna: o problemie ostrzegało już ponad 10 lat temu pismo BMC Bioinformatics. Chichotem historii jest tutaj zatem fakt, że w tym właśnie piśmie problem dotyka prawie 14% artykułów zawierających listy genów! Autorzy pokazują też, że problem rośnie z roku na rok – dotyka bowiem nie tylko coraz większej liczby artykułów, ale też i coraz większej ich proporcji.

Problem nie jest oczywiście nie do przeskoczenia, ale biorąc pod uwagę to, jak trudno jest takie błędy poprawić w już opublikowanym artykule, środowisko genetyków zdecydowanie musi skupić się na wdrażaniu zapobiegających mu procedur jeszcze na etapie zbierania danych. Oznacza to, że sami badacze muszą zwracać pilniejszą uwagę na to, jak formatowane są dane. Prostym rozwiązaniem jest też wyłączenie w Excelu funkcji zmieniającej formatowanie komórek. Warto też podkreślić, że cały ten ambaras dotyczy przede wszystkim artykułów, w których pliki dodatkowe dołączone są w formacie .xls – nie dotyczy to jednak plików .csv.

Na koniec chciałem jeszcze podkreślić, że oczywiście tytuł wpisu jest nie tylko wyolbrzymieniem problemu, ale też kładzie winę nie tam, gdzie powinien. Winne nie jest bowiem samo w sobie narzędzie – winni są beztroscy badacze, którzy nie zwracają należytej uwagi na to, w jaki sposób zapisywane są ich dane.

9 Comments

  1. Wniosek z tego jeden — Excel nie jest właściwym narzędziem dla genetyków! Gwoździe można wbijać kowadłem, ale nikt tego nie robi, bo istnieje młotek. Potrzebne są specjalne narzędzia zaprojektowane z myślą o diagnostyce genetycznej.

    Lubię

  2. Niestety. Ale to utrapienie każdej osoby piszącej w Excelu.

    Ale jest rozwiązanie, należy pisać w tym miejscu znaczek ‚
    jest on niewidoczny przy druku i podglądzie, a informuje program że dana informacja jest stringiem czyli tekstem, a nie datą czy liczbą.

    Lubię

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s