ENCODE: Encyklopedia Życia

Dla wielu osób stwierdzenie, że zsekwencjonowano już ludzki genom, jest jednoznaczne ze stwierdzeniem, że wiemy o tym genomie wszystko. Abstrahując jednak od tego, kiedy i czy rzeczywiście cały ludzki genom został zsekwencjonowany (temat który niewątpliwie prędzej czy później poruszę w serii Genomowe zatrzęsienie), należy zaznaczyć, że znajomość sekwencji zasad azotowych w naszym DNA nijak się ma do naszej wiedzy o tym, za co ta sekwencja odpowiada: czy koduje może gen, a jeśli tak to jaki; czy też może jest tym dziwnym, niekodującym DNA (niegdyś zwanym śmieciowym, dzisiaj analizowanym na dziesiątą stronę, bo jeśli coś już o nim wiemy, to na pewno to, że śmieciowe nie jest).

Z problemu tego znakomicie zdawali sobie sprawę badacze z Narodowego Instytutu Badań Ludzkiego Genomu (National Human Genome Research Institute), którzy we wrześniu 2003 roku stworzyli konsorcjum badawcze o nazwie ENCODE. ENCODE to akronim od pełnej nazwy: ‘ENCyclopedia Of DNA Elements’. Zadaniem tego konsorcjum było zidentyfikowanie wszystkich funkcjonalnych elementów w sekwencji ludzkiego genomu. Innymi słowy, jak zaznacza wielu zaangażowanych w projekt badaczy, ENCODE zaczyna się tam, gdzie Human Genome Project się kończył.

ResearchBlogging.orgFaza pilotażowa projektu zakończyła się publikacjami w pismach Nature oraz Genome Research (cały numer) w czerwcu 2007 roku. W fazie pilotażowej skupiono się na 1% ludzkiego genomu: połowę z tego procenta wybrano z rozmysłem, kierując się obecnością dobrze znanych i opisanych genów, a połowę losowo. Sekwencje badano na wiele różnych sposobów stosując zarówno bardziej tradycyjne, jak i całkiem nowe technologie. Co i jakimi metodami badano obrazuje ta ilustracja z opublikowanej w zeszłym roku w PLoS Biology  pracy będącej ‘instrukcją obsługi’ projektu:

W projekcie ENCODE oprócz opisywania genów próbowano też opisać stan chromatyny, jej miejsca superczułe (nie wiem nawet, jaka jest poprawna polska nazwa, po ang. to hypersensitive sites), jej konformację (oznaczone jako 5C), różnorakie elementy regulujące – czyli fragmenty nici DNA, które nie kodują białek a mimo to są niezbędne do funkcjonowania organizmu. Używane metody to np. DNA-seq, czyli sekwencjonowanie DNA, RNA-seq, czyli sekwencjonowanie RNA (tu na myśli autorzy mają głównie sekwencjonowanie następnej generacji, o którym wkrótce w serii Genomowe zatrzęsienie – niestety póki co z ENCODE wybiegamy bardzo naprzód), ChIP-seq czyli test immunoprecypitacyjny chromatyny połaczony z sekwencjonowaniem, PCR i tak dalej, i tym podobne. /źródło: The ENCODE Project Consortium, PLoS Biol 9(4): e1001046. doi:10.1371/journal.pbio.1001046 (CC BY ©2011)

Jak więc widać, uczestnicy projektu próbują po pierwsze dokonać adnotacji genów w ludzkim genomie – czyli opisać, gdzie jaki gen się znajduje i za co odpowiada. Po drugie, wykonują analizy transkryptomu, czyli próbują ustalić, które fragmenty naszego DNA są przepisywane przez specjalne białka na kwas rybonukleinowy, RNA, aby potem zostać użytym gdzie indziej w komórce do jakichś celów – czy to produkcji białek, czy to jeszcze czegoś innego. Po trzecie, zajmują się analizy struktury chromatyny. Chromatyna to forma, w jakiej znajduje się w jądrze komórkowym nasze DNA. Od sposobu, w jaki jest upakowana, zależy, jakie geny ulegają ekspresji i kiedy – czyli może na przykład regulować to, że nasze komórki wątroby zajmują się czym innym niż komórki mózgu pomimo tego, ze maja to samo DNA. Wreszcie też celem projektu jest analiza czynników transcrypcyjnych, czyli białek odpowiedzialnych za kopiowanie, przepisywanie i ogólna kontrolę nad naszym DNA, a także innych czynników takich jak stopień metylacji cytozyny w naszym DNA (tu kłania się epigenetyka, o której także wiecej w przyszlosci).

Jest to więc ogrom pracy, ogrom obietnic i wreszcie – ogrom oczekiwań. Niemniej jednak program pilotażowy ogłoszono sukcesem i przez ostatnie pięć lat środowisko naukowe z niecierpliwością oczekiwało wyników pełnej wersji programu.

Dlaczego? Nie tylko dlatego, że nasza wiedza na temat ludzkiego genomu wzrośnie wielokrotnie po publikacji wyników badań. Ale przede wszystkim dlatego, że wyniki wszystkich eksperymentów – jak to staje się normą wśród badaczy zajmujących się genomiką – zostaną (a w zasadzie już zostały, ale o tym za chwilkę) udostępnione publicznie. Co oznacza, że każdy z nas mający lekkie zacięcie naukowe, trochę oleju między uszami i może jakiś fajny pomysł na prostą analizę, będzie mógł sobie taki zestaw danych ściągnąć na swój domowy komputer, zaopatrzyć się w jeden z licznych darmowych programów do analizy tego typu danych (większość programów jest także dostępna publicznie za darmo, przynajmniej do celów niekomercyjnych) i taką analizę wykonać. Co więcej, może się nawet okazać, że jeśli nasz pomysł jest naprawdę dobry, a wyniki ciekawe (czy są ciekawe, możemy się przekonać wykonując szybki risercz Wujka Google’a – jak to niedawno uczynił młody Andraka), to będziemy w stanie pracę opublikować w piśmie naukowym albo za grosze (tu już nie zdradzę, co mam na myśli, będziecie musieli poczekać na pełen tekst) albo nawet za darmo, jeśli redakcja zgodzi się nie pobierać opłaty (niestety za darmo w piśmie subskrypcyjnym to nie przejdzie, bo warunkiem wykorzystania danych jest prawdopodobnie publikacja analizy w trybie open access).

Dlaczego o tym wszystkim piszę akurat dzisiaj? Otóż w dniu dzisiejszym światło dzienne ujrzało 30 (słownie: trzydzieści!) publikacji, które pojawiły się równocześnie w Nature, Genome Research oraz moim obecnym (nie chwaląc się oczywiście) miejscu pracy, Genome Biology. Publikacje te opisują pierwsze poważne wyniki projektu, a Nature dodatkowo prezentuje wersję skondesowaną w formie interaktywnej platformy – i dodać tu muszę, że redaktorzy Nature odwalili kawał dobrej roboty (z platformą zapoznać się można tutaj, podobno dostępna jest też aplikacja na iPada).

Wstępnie powiedzieć można, że konsorcjum ENCODE opisało z grubsza funkcję około 80% genomu, w tym 70 tysięcy rejonów promotorowych genów (tu Czytaczki i Czytacze mający jakie takie pojęcie o genetyce złapią się za głowę: jak to 70 tysięcy, skoro genów w ludzkim genomie jest tysięcy dwadzieścia dwa. Ano kłania się teraz ta ukryta złożoność genomu) oraz 400 tysięcy enhancerów (na ilustracji powyżej spolszczonych do wzmacniaczy, chociaż polscy genetycy chyba jednak wolą ten anglicyzm).

Projekt jednak daleki jest od ukończenia, a im więcej wiemy, tym więcej nowych pojawia się pytań. Gdy opisane zostanie pełne 100% genomu – w sensie funkcjonalnym – ciągle jeszcze przed każdym chętnym do walki o nowe publikacje w Nature stało będzie zadanie podobnego opisania genomów innych organizmów tak, abyśmy mogli porównać nasz genom z innymi I nauczyć się czegoś nowego z ewolucyjnego punktu widzenia. ENCODE sam w sobie też może być ciągle rozbudowywany: na obecnym etapie badaniom poddano 150 typów tkanek, stosując do tego 24 różne eksperymentalne metody. Nie jest jednak powiedziane, że nie można analizować kolejnych rodzajów tkanek; że te materiały, które już mamy, nie mogą być poszerzane o dodatkowe próbki, żeby uwzględnić wariacje na poziomie osobniczym; że wreszcie nie pojawi się jakaś nowa eksperymentalna technika, która pomoże nam nauczyć się czegoś całkiem nowego – i którą trzeba będzie zastosować do wszystkich tych zbadanych próbek od nowa.

Możliwości są nieograniczone, a przy malejących w ostatnich latach dramatycznie kosztach stosowania niektórych technik, które dla wielu grup badawczych były do niedawna nieosiągalne (proszę rzucić okiem na końcówkę mojego wstępnego wpisu do serii Genomowe zatrzęsienie), ilość danych, którą jesteśmy w stanie wyprodukować obecnie, wystarczy prawdopodobnie pokoleniom badaczy – komputery bowiem komputerami, ale za każdą analizą musi być jakiś plan, jakiś cel, jakaś myśl przewodnia, którą tylko my sami możemy tym analizom nadać.

Na koniec zaś oddam jeszcze głos samym uczestnikom projektu i redaktorom Nature:

The ENCODE Project Consortium (2007). Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project Nature, 447, 799-816 : 10.1038/nature05874

ENCODE Project Consortium (2011). A user’s guide to the encyclopedia of DNA elements (ENCODE). PLoS biology, 9 (4) PMID: 21526222

Brendan Maher (2012). ENCODE: The human encyclopaedia. Nature  489, 46-48: 10.1038/489046a

1 Comments

Dodaj komentarz