污水處理設備 污泥處理設備 水處理過濾器 軟化水設備/除鹽設備 純凈水設備 消毒設備|加藥設備 供水/儲水/集水/排水/輔助 水處理膜 過濾器濾芯 水處理濾料 水處理劑 水處理填料 其它水處理設備
上海源葉生物科技有限公司
暫無信息 |
閱讀:297發布時間:2015-7-8
基因組就好像是萬物的生物學用戶手冊。細胞瞬間讀取DNA,得到有機體生長、活動和繁殖所必需的指令。但對于人類來說,要破譯這本“生命之書"則較為困難。延伸閱讀:Nature Biotechnology報道基因組組裝方法。
當今,研究人員通常依賴新一代測序儀,將*的DNA堿基序列(只有四個)翻譯成字母:A,G,C和T。而DNA鏈長達數十億個堿基,這些機器可產生非常短的讀數,一次大約50至300個字符。為了從這些字母中提取信息,科學家們需要重建基因組的位置——這個過程類似于重建一本書中文本片段的句子和段落。
但是,這個過程可能很快就變得復雜和耗時,特別是因為一些基因組是巨大的。例如,人類基因組含有約30億個堿基,小麥基因組包含近170億個堿基,松樹基因組包含約230億個堿基。有時,測序儀也會在數據集中引入誤差,需要過濾掉。大多數時候,基因組需要從頭組裝。想象一下,這就像將一百億塊拼圖拼在一起,而且沒有一個完整的圖片可供參考。
美國勞倫斯伯克利國家實驗室計算研究部(CRD)、聯合基因組研究所(JGI)和加州大學伯克利分校(UC Berkeley)的一個研究小組,通過把一些新算法、計算技術與創新的編程語言Unified Parallel C (UPC),應用于的從頭基因組組裝工具Meraculous,簡化和加快了基因組組裝流程,將這個漫長的過程縮短至僅僅幾分鐘。他們主要是通過“并行化"代碼,利用超級計算機的處理能力,如國家能源研究科學計算中心(NERSC的)愛迪生系統,實現了這一目標。簡而言之,并行化代碼意味著,分裂工作逐一執行,修改或重寫代碼,以在一臺超級計算機上同時運行許多個節點(處理器集群)。
這項研究的*作者、UC Berkeley研究生Evangelos Georganas帶領了并行化Meraculous的工作,他指出:“使用Meraculous的并行版本,我們現在可以使用15,360個計算機處理器核心,在八分鐘內組裝整個人類基因組。有了這個工具,我們估計,*生物醫學測序機構的輸出,都可以僅僅使用NERSC愛迪生超級計算機的一部分,而得以組裝。"
CRD的Leonid Oliker計算機科學家說:“這項工作*的提高了基因組組裝的速度。新的并行算法,可使裝配計算能夠進行快速。現在,基因組學研究人員,可以在幾分鐘的時間內組裝小麥和松樹的大基因組,而不是通過使用NERSC's Edison上的幾百個節點——花費幾個月的時間。"
超級計算機:基因組裝配的一次變革
高通量和成本相對較低的新一代DNA測序,可讓研究人員尋找所有一切的生物學解決方案,從產生清潔能源和環境清理,到識別基因突變和癌癥之間的。在大多數情況下,這些機器可非常準確的記錄DNA堿基的序列。但有時會發生置換、重復、替換和遺漏之類的錯誤——類似于一本書中的“錯別字"。這些錯誤使基因組組裝和基因突變的確定,變得更加困難,從而使得分析更加復雜。它們也可能使研究人員誤解一個基因的功能。
研究人員經常使用一種方法被稱為“槍法測序"的技術,來識別這些錯誤。這涉及到,捕獲一個基因片段的大量拷貝,將它隨機分成無數個小片段,然后分別對每一個片段進行測序。這就產生了一些重疊的短片段,讓科學家們zui終能夠將整個DNA鏈重新裝配起來。對同一個基因鏈進行測序,也有助于識別錯誤。但對于一個特別復雜的基因組來說,這個過程也會產生大量的數據,有時有幾兆兆字節。
為了快速而有效地識別數據中的錯誤,伯克利實驗室和UC Berkeley團隊依靠“Bloom filters"和大規模并行超級計算機。在1970年Bloom filters由Burton H. Bloom提出的二進制向量數據結構,可非常有效地確定,一個元素是不是集合中的一個成員。因此,研究人員可以依靠這個工具來確定一個堿基是否在適當的位置上。因為位數組包含了一個Bloom filter的基本結構,它們也需要相對較少的內存,從而使它們成為查詢大規模數據集的理想選擇。
CRD研究科學家Aydin Bulu?說:“將Bloom filters應用于基因組組裝問題并不新穎,在以前就完成過。我們這項工作的不同之處在于,讓Bloom filters和分布式存儲系統共同工作。這項任務非同小可,它需要一些計算機專業知識才能完成。"
該團隊還開發了并行數據輸入輸出(I/O)的解決方案。開發這一解決方案的CRD研究科學家Steven Hofmeyr說:“當你有幾兆兆字節的數據時,只是讓計算機讀取你的數據并輸出結果,可能是一個巨大的瓶頸。通過讓計算機在多個線程中下載數據,我們能夠將I/O進程從幾小時加快到幾分鐘。"
點擊了解博奧生物基因組與轉錄組平臺
組裝
一旦錯誤已被剔除,研究人員就可以開始基因組組裝。這個過程依賴計算機程序在重疊區域加入k-mers——由固定數量(K)的堿基組成的短DNA序列,從而它們形成一個連續的序列,或重疊群(contig)。如果基因組之前已經被測序,科學家可以使用記錄的基因注釋作為參考,來排列讀數。如果不是,他們需要進行從頭組裝,創造一個全新的contigs目錄。
從頭組裝十分的內存密集型,直到zui近,還沒有人能成功地弄清如何在分布式內存中并行化這個過程。所以,許多研究人員使用專門的大容量存儲器節點,有幾兆兆字節的大小,來進行這項工作。但是,即使市售的zui大的存儲節點,也不足以組裝像小麥或松樹這樣的大規模基因組。盡管以前研究人員試圖用超級計算機克服這種內存限制,但低效的代碼意味著,仍然需要幾個小時、幾天甚至幾個月來組裝一個單一的基因組。
為了有效利用大規模并行系統,Georganas創造了一種新的從頭組裝算法,利用UPC (Unified Parallel C)編程語言的單邊通信和分區全局定址空間(PGAS)能力。基本上,PGAS可讓研究人員處理每個超級節點上獨立的內存,這會減少超級計算機交換節點之間信息的時間和精力。
Georganas說:“Meraculous新的并行版本,呈現出的性能,可在NERSC's Edison超級計算機上按比例放大人類和小麥基因組的15,360個處理器核心。這一性能的改善,將基因組組裝從幾天時間提速到了幾秒鐘。"
就像玩拼圖一樣,“缺失的拼圖"可能使基因組組裝更復雜。這就像有足夠的拼圖拼湊在一起,以使你能對整幅圖有一個概念,所有的拼圖都應該在適當的位置,但是在拼圖中仍有空隙。在基因組組裝中,Meraculous可掃描整個畫面找出這些空隙,然后用一種既定的技術來*它們。從計算角度來說,這個過程是在兩個階段完成的。在Hofmeyr的幫助下,這兩個階段都被轉換為UPC和并行化。
Hofmeyr說:“將這部分轉換成UPC的結果是,比zui初Meraculous代碼加快了20到30倍,這是用Perl編寫的。"
開發Meraculous的Jarrod Chapman說:“強大的基因組組裝,其價值是十分明確的。這是表征一個生物體基因的出發點,可用于進行跨物種的比較分析和遺傳變異評估。這也給我們一個參考,來判斷新序列方法的準確性。"
“在這個Meraculous版本之前,往往需要較長的時間來計算分析序列數據。因為計算太耗時,我會基于一些有根據的推測選擇一套參數,設置我的工作。"
現在,計算不再是一個瓶頸,Chapman可以嘗試一些不同的參數,并運行多個分析,產生非常準確的結果。他還認為,這一成就意味著,Meraculous也可以用來分析宏基因組——直接從環境樣品中恢復的微生物群落。這項工作是很重要的,因為許多微生物只存在于自然中,不能在實驗室中生長。這些生物可能是尋找新藥物或可用能源來源的關鍵。
Chapman說:“分析宏基因組是一個巨大的任務。如果組裝一個基因組——如小麥,就像是拼湊一個新的拼圖,那么組裝宏基因組數據就像是重建國會圖書館。使用Meraculous有效地進行這些分析,將是一次變革。"
環保在線 設計制作,未經允許翻錄必究 .? ? ?
請輸入賬號
請輸入密碼
請輸驗證碼
請輸入你感興趣的產品
請簡單描述您的需求
請選擇省份