ENCODE項目(ENCyclopedia Of DNA Elements)研究組上百位研究人員近期公布了百科全書項目的成果——人類基因組中被稱為“垃圾DNA”實際上是一個龐大的控制面板,能調控數以百萬計基因的活性。如果沒有這些開關調控,基因將不能正常工作,而這些區域也許會導致人類換上疾病。由ENCODE公布的這一新數據信息非常全面,也很復雜,因此是以一種新型出版模式公布,這一模式中電子文檔和數據集是相互關聯的。
正如同人類基因組計劃帶給生物醫學研究領域的革新意義,ENCODE項目也將推動生物醫學的前進,開辟研究新道路。這一計劃是于2003年啟動,主要目的是建立人類基因組中生物功能關鍵性元素目錄。
這項由美國國家基因組研究院NHGRI,以及歐洲生物信息學研究所EMBL-EBI的科學家們領導的研究,公布了一份詳細的基因組功能圖譜,其中包含有四百萬基因的“開關”,這一重要的參考數據將有助于研究人員找到與人類疾病密切相關的區域。
目前這一相關研究成果將在Nature, Genome Biology和Genome Research雜志上,共計30篇開放性論文進行公布。
“我們的基因組就是簡單地通過無數的開關進行調控,這些上百萬的區域能決定基因是開還是關,”ENCODE項目分析員Ewan Birney 說,“人類基因組計劃HGP表明,基因組中只有2%包含有基因,也就是說能編碼蛋白。從ENCODE項目中,我們可以看到,基因組中剩余的這約80%的區域其實并沒有閑著,我們發現基因組這個更大的部分——實際上是一個驚人的數量——調控了蛋白何時和何地生成,而不是簡單的其中產生,比簡單地作為構建框架”。
“任何疾病的相關研究人員都可以利用ENCODE數據,分析他們可能會感興趣的相關病理,”重要的分析協調員Ian Dunham 說,“許多情況下,你可能已經想到了哪些基因參與了你正在研究的疾病,但卻不知道其中涉及的開關。有時這些開關令人驚訝,因為它們的位置說明它們更有可能與一個*不同的疾病相關。 ENCODE為我們提供了一組非常有價值的線索,讓我們能沿著這些線索,發現與健康和疾病有關的關鍵機制,這些將能被用來創建全新的藥物,或重新利用現有的治療方法。“
“ENCODE告訴我們,我們需要把眼光放得更遠一些,而不是局限于基因組整個網絡如何連接的線性結構,”斯坦福大學教授,ENCODE科學家Michael Snyder評論道,“我們正開始了解全基因組關聯研究中所獲取的信息,不僅僅是某個基因定位在哪兒,還有哪些能調控它們。
因為我們的基因組即復雜的,又是三維立體的,這些調控元件有時遠離被調節基因,而是通過環繞得以接觸到。如果沒有ENCODE,我們可能永遠也不會看著這些區域,這項研究朝著深入了解人類運轉邁進了一大步。ENCODE可以幫助我們更深入探討監控環路,這些環路能指揮所有的零件組裝成一個復雜的個體。”
近年來,生物醫學研究中獲取并存儲大量的數據成為了一項挑戰。現在,隨著基因組測序成本的下降和測序能力的提高,重點已轉移到分析上來——讓這些全基因組關聯研究產生的數據變得有意義。 ENCODE 合作伙伴已經著手于利用各實驗室中相同的計算,網絡實驗室方法,以及試劑進行人類基因組系統分析。
9月6日發表的文章有上百頁的內容,但Nature數字自然出版集團認識到這是過去的形式,目前所有的在三個雜志上發表的ENCODE內容都是數字化連接的,從而讀者可以按照自己的興趣,追溯到原始數據。
“將具有專業知識的專家們聚集在一起,這就是這項研究”,Ewan Birney說,“ENCODE項目表明,ling命科學家能通過密切合作,進行大規模研究,為整個社會創造出基礎性資源。”
“到目前為止,發表的數據都是各自方面,靜態刊物的成果,非同一研究團隊的人不知道它的存在,如何利用這些知識呢?”西班牙科學家Roderic Guigo說,“現在我們有一個互動的百科全書,大家都可以參考,這與之前極大不同。”
從該項目的規模意義上來說——ENCODE聯合了來自英國,美國,西班牙,新加坡和日本的32個實驗室中442名科學家的努力,他們獲得并分析了超過15兆兆字節(15萬億字節)的原始數據,目前已經全部公布,并可公開獲得。研究花費了約300年的計算機時間,對147個組織類型進行了分析,以確定哪些能打開和關閉特定的基因,以及不同類型細胞之間的“開關”存在什么差異。