摘要 : 2016年10月14日,學術期刊《BioInformatics》在線發表了*北京基因組研究所生命與健康大數據中心章張研究員的一篇研究論文,研究報道了*基于Spark的大數據系統發育建樹工具CloudPhylo。
2016年10月14日,學術期刊《BioInformatics》在線發表了*北京基因組研究所生命與健康大數據中心章張研究員的一篇研究論文,研究報道了*基于Spark的大數據系統發育建樹工具CloudPhylo。博士研究生徐行健為論文*作者,章張研究員為論文通訊作者。
構建系統發育樹是分子進化研究中分析物種間進化關系的基礎步驟與重要環節。隨著生物大數據時代的到來,傳統的建樹工具在使用大數據集構建系統發育樹時需要消耗更多的計算資源且運行時間超長,使得科研工作者無法快速地進行分子進化分析。為此,生命與健康大數據中心(BIG Data Center;http://bigd.big.ac.cn)利用Spark云計算技術,于近期開發了一款適用于大數據集的系統發育樹構建工具——CloudPhylo。Spark是一種新的分布式云計算框架,它實現了MapReduce分布式并行算法。基于Spark框架的程序在運算過程中可地將中間輸出結果保存在內存中,大大降低了因為頻繁讀寫文件造成的損耗。因此,與傳統的Hadoop框架相比,Spark能更好地應用于需要反復迭代的大數據分析任務。
CloudPhylo是目前上針對大數據集開發的系統發育建樹工具,同時也是國內*使用Spark云計算技術開發的生物信息學分析軟件。在應用于模擬和真實的大數據集構建系統發育樹時,CloudPhylo均表現出了比傳統建樹軟件更高的運行效率和更大的并行加速比(圖1)。
工具已經部署在BIGD云平臺Qomo(https://cloud.big.ac.cn/users/bigd/tools/Clouldphylo)上,無須本地安裝,用戶可在線提交數據并進行分析。
<img alt="BioInformatics:北京基因組所章張研究組開發基于Spark的大數據系統發育建樹工具" "="" data-cke-saved-src="http://www.bio1000。。com/uploads/allimg/161102/0956493591-0.jpg" src="http://www.bio1000。。com/uploads/allimg/161102/0956493591-0.jpg" style="vertical-align: middle; border: 0px; width: 400px; height: 214px;">
圖1 CloudPhylo在不同條件下的并行加速比
請輸入賬號
請輸入密碼
請輸驗證碼
以上信息由企業自行提供,信息內容的真實性、準確性和合法性由相關企業負責,環保在線對此不承擔任何保證責任。
溫馨提示:為規避購買風險,建議您在購買產品前務必確認供應商資質及產品質量。