Genomowe zatrzęsienie – wstęp

O tym, dlaczego zsekwencjonowanie nagle przestało być sexy

Doniesienia o opisaniu genomów różnych organizmów nachalnie w mediach zaczęły pojawiać się w ciągu ostatniej dekady. Genom człowieka, genom szympansa, genom taki, genom śmaki, geny to i tamto. O genach i genomach słyszymy dzisiaj tyle, że możnaby pomyśleć, że ich opisywaniem zaczęliśmy się zajmować dopiero w XXI wieku. Chciałbym to sprostować – i oddać sprawiedliwość badaczom pracującym nad tematem w czasach, gdy sekwencjonowanie genomu było znacznie trudniejsze.

Zacznę jednak od oczywistej oczywistości, zakładając, że nie wszystkie Czytaczki i Czytacze zajmują się biologią, oraz biorąc pod uwagę to, że w tej dziedzinie wiele się wydarzyło w ostatnim ćwierćwieczu – wytłumaczmy tutaj, co to jest genom i co to jest sekwencjonowanie…

Ciekawostką jest to, że słowo genom zostało zdefiniowane na długo przed tym, kiedy zrozumieliśmy jak skonstruowane jest DNA – co z kolei otworzyło na oścież drzwi przed współczesną genetyką. Słowo to bowiem zostało ukute – i zdefiniowane – w 1920 (!!) roku przez niemieckiego botanika Hansa Winklera. Genom to, według tej do dzisiaj uznawanej definicji, materiał genetyczny zawarty w podstawowym (tzw. haploidalnym) zestawie chromosomów.

Jak zapewne część z Was pamięta, chromosomy (paczki w które zapakowane jest znajdujące się w jądrze komórkowym DNA) u ludzi przychodzą w niemal identycznych parach, które rozdzielają się i miksują (biolodzy mówią: rekombinują) ze sobą w procesie tworzenia gamet (komórek jajowych i plemników), tak że każdy z nas dostaje po jednym chromosomie z każdej pary od jednego z rodziców. Ludzie tych par mają 23 – czyli 46 chromosomów, a na przykład orangutany i goryle mają po 24 pary, szczury mają par 21, a koty – 19. Co więcej, wiele organizmów ma tylko jeden egzemplarz każdego z chromosomów, np. osy i mrówki. Zaś z kolei u roślin powszechne jest posiadanie wielokrotnych egzemplarzy – często czterech, sześciu lub nawet ośmiu. Rekordziści mogą posiadać nawet 12 kopii każdego chromosomu; tutaj przykładem jest celozja srebrzysta i, dość zaskakująco, bo u zwierząt posiadanie wielu kopii jest niezmiernie rzadkie, żaba Xenopus ruwenzoriensis.

NHGRI_human_male_karyotype — Zestaw 23 par ludzkich chromosomów. Tutaj „dawcą” był mężczyzna – ostatnia para chromosomów na dole po prawej to chromosomy płci. Po ich wyraźnej asymetrii poznać można właśnie płeć osoby, od której pochodziła próbka: męski chromosom Y jest bowiem znacząco mniejszy od chromosomu X (i jak widać, rozmiar czasem ma duże znaczenie). /źródło: National Human Genome Research Institute (domena publiczna)

Genom zatem opisuje po prostu zawartość jednej kopii każdego chromosomu. Tutaj należy dodać ważny inny element tej najczystszej definicji – to, że genom tak zdefiniowany nie obejmuje DNA mitochondrialnego, które każdy z nas posiada, które wszyscy dziedziczymy od mamusi i które dzięki temu jest niezwykle użytecznym narzędziem w badaniu ewolucyjnego pokrewieństwa.

Czym zatem jest sekwencjonowanie genomu? Skoro genom to po prostu materiał genetyczny, to w sensie fizycznym jest to długaśna nić kwasu DNA, pocięta na kilkanaście/kilkadziesiąt kawałków (czyli chromosomów). Kwas DNA jest oczywiście zbudowany ze słynnych czterech cegiełek – zawierających zasady azotowe A, C, T i G (czyli adeninę, cytozynę, guaninę i tyminę). Żeby zatem opisać genom, wystarczy zaledwie podać kolejność – sekwencję – tych cegiełek na całej jego długości.

Proces doświadczalnego notowania zapisu cegiełka po cegiełce (albo i na wyrywki, jak się potem przekonamy) nazywamy sekwencjonowaniem. Jest to oczywiście sztuka nie lada. Najmniejsze genomy posiadają wirusy – jestestwa, co do których istnieje wątpliwość, czy w ogóle można je nazwać organizmami. Ich DNA ma zazwyczaj długość kilku tysięcy cegiełek: wirus HIV ma ich 9749, zaś pierwszy opisany w całości genom – w roku 1976 przez Belga Waltera Friesa – bakteriofaga MS2 ma ich zaledwie trzy i pół tysiąca.

prapletwiec — Prapłetwiec abisyński – kręgowiec o największym znanym genomie, którego długość wynosi 130 miliardów zasad! /źródło: wiki; Syp (CC BY 2.5)

Im bardziej skomplikowany/duży organizm, tym większy rozmiar genomu. I tak pierwszym zsekwencjonowanym genomem oficjalnie żywego organizmu (prawie dwadzieścia lat po wyczynie Friesa – w 1995 roku) był genom pałeczki grypy o rozmiarze niebagatelnie większym, bo aż 1 830 000 cegiełek (1.83 Mb¹). Ukochana bakteria wszystkich biologów, Escherichia coli, ma genom rozmiaru 4.6Mb, modelowa roślina Arabidopsis thaliana – pierwszy zsekwencjonowany roślinny genom – 157Mb. Drożdże – 12.1Mb, muszka owocówka – 130Mb, zaś pszczoła – 236 Mb. My możemy się poczuć wyróżnieni, bo u ssaków te rozmiary zaczynają wyglądać kosmicznie – taka mysz domowa ma już genom rozmiaru 2.7Gb, zaś u człowieka jest to 3.2Gb. Czyli 3 200 000 000 cegiełek. Tu nie należy się jednak od razu napuszać – rozmiar genomu bywa kwestią drugorzędną, jeśli chodzi o stopień skomplikowania organizmu, czego dowodem jest to, że kręgowcem o największym (znanym) genomie jest prapłetwiec abisyński, którego genom jest od ludzkiego większy 40 razy – ale wiele więcej dobrego o nim powiedzieć niestety nie można (ładny kolor ma, ot i tyle. Prapłetwiec, a nie genom oczywiście).

Koncept zsekwencjonowanie ludzkiego genomu – prawdopodobnie największe przedwsięwzięcie naukowe w dziedzinie nauk biologicznych pod koniec XX stulecia – wylągł się pod koniec lat 80. w trakcie zjazdów zorganizowanych przez amerykański Departament Energii (który, jak sama nazwa wskazuje, jest w Stanach Zjednoczonych jednostką odpowiedzialną za naukę). Raport opublikowany po tych zjazdach mówił wprost:

„Ostatecznym celem [zapoczątkowanej na zjazdach – np] inicjatywy jest zrozumienie ludzkiego genomu”, po czym dodawał „wiedza o człowieku jest tak niezbędna do kontynuowania postępu medycyny i innych nauk o zdrowiu, jak wiedza o ludzkiej anatomii była do osiągnięcia obecnego stanu medycyny”.

Tak narodził się Projekt Poznania Ludzkiego Genomu, który oficjalnie rozpoczął się w roku 1990, a pierwsze jego wyniki poznaliśmy ponad dekadę później. Przez tę dekadę ambitny cel najpierw zjednoczył rzesze naukowców pod wspólną banderą (ideologiczną, ale i finansową), potem podzielił – na skutek różnych personalnych sposób projekt opuścił np. Craig Venter. Z perspektywy czasu powiedzieć zapewne możemy, że dobrze się stało².

Najważniejszym jednak – zaraz, oczywiście, po samym zsekwencjonowaniu ludzkiego genomu – rezultatem tego projektu stał się niezwykle dynamiczny rozwój technologii pozwalających na sekwencjonowanie.

Wymieniał tutaj tych metod nie będę – więcej o nich dowiecie się z kolejnych postów w tej serii. Tutaj rzućmy tylko szybko okiem na to, jak ten rozwój wpłynął na postęp w genetyce i genomice – wyrażony kosztem uzyskania (zsekwencjonowania) jednego genomu i wydajnością maszyn (w ilości odczytanych zasad na jednostkę czasu).

Poniżej zatem ocenić możecie jak dramatycznie zwiększyła się wydajność dostępnych obecnie na rynku maszyn do sekwencjonowania. Zwrócić pragnę tylko uwagę na to, że skala Y jest logarytmiczna, a nie liniowa³. Nazw metod na polski nie tłumaczyłem – ale ze wszystkimi po kolei zapoznamy sie tutaj już wkrótce.

back half template — Progres w wydajności sekwencerów (maszyn do sekwencjonowanie DNA), wyrażony tutaj w liczbie odczytanych tysięcy zasad (kb) na dzień przez jedno takie urządzenie. /Przedruk za zgodą Macmillan Publishers Ltd.: Stratton et al, Nature 458(7239): 719 ©2009

W tym samym czasie, gdy ku niebu szybowały możliwości sekwencerów – na łeb na szyję spadał koszt sekwencjonowania genomu – i tu, na kolejnej ilustracji możecie zobaczyć, że koszty te wynoszą obecnie mniej niż 10 centów (dokładnie – $0.09) za każdy milion odczytanych cegiełek. Ten koszt nie przekłada się w prosty sposób na odczytanie całego genomu, niemniej jednak w chwili obecnej odczytanie pojedycznego genomu kosztuje już mniej niż 10 tysięcy dolarów. Dodatkowo, NHGRI (od którego pożyczyłem tę grafikę) przepięknie tutaj zilutrowało tutaj jak postęp w rozwoju tych genetycznych technologii ma się do prawa Moore’a (tego mówiącego o podwajaniu mocy komputerów co dwa lata). I jak widać, sekwencjonowanie ma się świetnie!

cost_per_megabase — Spadek kosztów sekwencjonowania: skąd się wziął wyraźny dramatyczny przełom w połowie 2007 roku? Dowiemy się wkrótce. /źródło: NGHRI

Dotarliśmy zatem do końca, czyli do początku: dlaczego uważam, że zsekwencjonowanie podjedynczego genomu już nie jest sexy? Bo przy takim postępie technologii przy jednoczesnym spadku kosztów każdy, kogo stać na nowego sekwencera, może to zrobić w mniej niż dzień za mniej niż 10 tysięcy dolarów. A mówimy tu o genomie ludzkim; genomy mniejsze zajmują jeszcze mniej czasu. Stąd też w ostatnich kilku latach wziął się wysyp publikacji z opisanymi genomami: w ostatnich tylko miesiącach widzieliśmy m.in. w Nature, Science, Genome Biology, PNAS i kilku innych pismach opublikowane genomy szympansa bonobo, goryla, orangutana, delfina, motyla, banana, jaka i tuzinów innych organizmów. Co więcej, aby wyniki sekwencjonowania opublikować w dobrym czasopiśmie, nie wystarczy po prostu rzucić redaktorowi na stół sterty papierów z rozrysem chromosomów – dzisiaj trzeba do tego dodać jakąś znaczącą i ciekawą analizę – jak na przykład kwestia przystosowania jaków do dużych wysokości, czy porównanie układu nerwowego delfinów do innych dużomózgowych ssaków (bo w końcu – to jest drugi najmądrzejszy zwierzak na Ziemi⁴).

Jest to aspekt, o którym – przyznaję – dawniej nie myślałem. Dzisiaj z perspektywy nowego zawodu zaczynam doceniać to, jak niesamowicie rozwój technologii wpływa na to, co i gdzie się publikuje. Gdy do naszego pisma przysyłana jest praca o – przykład hipotetyczny – zsekwencjonowaniu genomu kreta i kończy się stwierdzeniem, że oto tutaj jest genom, a jako że kret to poważny szkodnik to genom jest ważny, wówczas takiego autora odsyłamy bez pytania z kwitkiem. Gdyby tę samą pracę przysłał do nas 10 lat temu – wówczas cieszylibyśmy się, że przyszedł do nas, a nie do Nature, bo i tak przyjęto by go z otwartymi ramionami.

Czyli, być może, można powiedzieć, że najlepsze pisma publikują tylko to, co jest obecnie modne – ale chociaż przez to same te trendy do pewnego stopnia kształtują, to jednak nie czynią tego na ślepo i wbrew pozorom często znacznie lepiej niż badacze siedzący w danej dziedzinie oceniają, co jest, a co już nie jest wielkim odkryciem.

⁰W kolejnych częściach postaram się zademonstrować, jak zmieniła się technologia sekwencjonowania, tak żebyśmy wszyscy byli na pewnym wspólnym zerowym poziomie, zanim zacznę na dobre atakować kolejne publikacje o genomach jaków, bananów i bonobów.

¹Mb w tym kontekście nie oznacza megabitów, a miliony zasad (z ang. base – zasada, w domyśle azotowa), podobnie jak kb oznaczać będzie po prostu tysiące zasad. Czyli można powiedzieć, że rozmiar genomu bakteriofaga MS2 to 3.5kb.

²Nie wiem, ile o tej historii można dowiedzieć się z mediów. W historię nieporozumienia między Venterem i Jamesem Watsonem, który był dyrektorem Narodowego Centrum Badań Ludzkiego Genomu, wdawać się nie chciałem, żeby nie rozpraszać uwagi od najważniejszego wątku w tej serii postów. Jednak podejrzewam, że wiele spraw we współczesnej genetyce i genomice – a także w politycznych, ekonomicznych i etycznych aspektach tych nauk – potoczyłoby się zupełnie inaczej, gdyby nie dosżło do tego jakże ludzkiego konfliktu.

³Dla Czytaczek i Czytaczy, którzy wykresy logarytmiczne widzieli ostatnio w liceum: oznacza to, że ten dramatyczny wzrost wydajności, jest jeszcze większy, niż nam się może na pierwszy rzut oka wydawać.

⁴Człowiek oczywiście jest trzeci na tej liście, nie muszę chyba nikogo o tym przekonywać.

9 Comments

Jakub Milczarek pisze:

12 stycznia, 2013 o 20:21

Świetne wprowadzenie do tematu! Będę polecał znajomym laikom…
Przy okazji odnalazłem odpowiedzi na moje pytania, umieszczone dzisiaj pod innym wpisem :)

PolubieniePolubienie

Odpowiedz
Mima pisze:

30 lipca, 2012 o 11:49

Mb = mega bit, MB = mega bajt, 8 bitów = 1 bajt. Taka drobnostka…
Ciekawy tekst. Dziękuję.

PolubieniePolubienie

Odpowiedz
Xitami pisze:

29 lipca, 2012 o 23:01

„adenozyna, cytydyna, guanozyna i tymidyna”, a dla mnie, laika to zawsze były:
adenina, cytozyna, guaniny i tymina.

PolubieniePolubienie

Odpowiedz
1. Rafał pisze:
  
  30 lipca, 2012 o 00:11
  
  NIe chciałem się zagłębiać w temat nazewnictwa, żeby nie rozwadniać wpisu, i przyznaję, że wersję wybrałem dość arbitralnie.
  
  Podstawową cegiełką w DNA i RNA są bowiem nukleotydy – czyli połączenie zasad azotowych, cukru pentozy oraz trzech grup fosforanowych. Te jednak mają dość skomplikowane chemiczne nazwy, np. nukleotyd z zasadą adeninową nazywa się adenozyno-5′-trifosforanem.
  
  Połączenie zasady azotowej z samym tylko cukrem – bez grup fosforanowych – nazywa się nukleozydami i to właśnie nazwy nukleozydów są wymienione w tekście. Wreszcie nazwy, które większość z nas pamięta ze szkoły – adenina, cytozyna, guanina i tymina – to są nazwy samych zasad azotowych.
  
  Oczywiście przy opisywaniu sekwencji DNA największy sens ma zapewne stosowanie nazw zasad azotowych, gdyż jest to jedyny element nukleotydów, który ulega zmianie. Z tym, że jak powiedziałem, jest to tylko fragment każdej cegiełki…
  
  PolubieniePolubienie
  
  Odpowiedz
  1. Em pisze:
    
    30 lipca, 2012 o 10:11
    
    Zabrałeś się za podobny temat blogowy co ja, choć od zupełnie innej strony :)
    Ja bym delfiny zdegradowała i wysunęła ośmiornice na pierwszy plan w kwestii inteligencji! Ładne, mądre i … smaczne!
    
    PolubieniePolubienie
    
    Odpowiedz
gwynbleidd pisze:

29 lipca, 2012 o 22:20

Jaki jest zatem ów pierwszy zwierzak?

PolubieniePolubienie

Odpowiedz
1. Rafał pisze:
  
  29 lipca, 2012 o 22:25
  
  Teoretycznie mysz, chociaż nie jestem pewien, czy Douglas wspomina o tym w książce explicite, czy też jest to tylko sugerowane między wierszami. O tym, że ludzie są trzecim w kolejności najbardziej inteligentnych zwierząt na Ziemi, wiadomo jednak na pewno ;)
  
  PolubieniePolubienie
  
  Odpowiedz
sajmon pisze:

29 lipca, 2012 o 21:14

Onośnik czwarty to ironia czy pomyłka? ;)

PolubieniePolubienie

Odpowiedz
1. Rafał pisze:
  
  29 lipca, 2012 o 22:06
  
  Ani jedno, ani drugie – to jak najbardziej poważnie traktowana kwestia (odsyłam do Autostopem przez Galaktykę Douglasa Adamsa).
  
  PolubieniePolubienie
  
  Odpowiedz