在基因表達研究中,廣泛的基因分析可以對生理狀態或者是一個細胞表型有關的基因進行系統監測??梢岳酶咄糠治鲈跀祿敵龊瞳@取數據快捷兩方面的優勢,對藥物發現過程中的藥靶候選基因進行鑒定,在假設驅動的研究中,該技術也提供了必須的系統背景知識。一旦微陣列技術成熟,研究人員就能進行轉錄組研究,尋找感興趣的標記基因。正如腫瘤基因表達對各種來源的組織和患者存活結果的相關性分析例子一樣,通過微陣列技術進行的基因表達分析研究將在生物標記發現過程中繼續扮演重要作用。
盡管微陣列的分析能力很強大,轉錄組學研究平臺只包括那些適應生長條件變化細胞的轉錄物。大多數細胞內和細胞間的生物化學過程都會受到蛋白質-蛋白質或者其他蛋白質-底物相互作用的影響。蛋白質組水平的基因表達分析提供了一個快速的可控制生物合成的快照過程,其中大部分是由轉錄組學平臺調控的。同時,轉錄組本身通過表達的蛋白質或者是細胞生化狀態下其他的變化,進行反饋控制。
換句話說,基因表達不僅僅是從轉錄組到蛋白質組的單向流動,而是兩者的相互連接。對這種功能調控的了解通常只限于特殊的信號途徑,或者是新陳代謝途徑。要了解轉錄組和蛋白質組之間的相互調控作用,需要對RNA和蛋白質的表達進行同步監測。
正如RNA可作為部分生物學功能的酶反應的效益物一樣,蛋白質也是大多數生物學功能的效益物。因此,蛋白質水平廣泛的基因組分析是基因表達更直接的反映。而且,根據基因組范圍設計的商業化微陣列靶標集合很有限,可能無法為近期哺乳動物的發現提供足夠的轉錄物,因為轉錄物的數量可能要比基因的數量多10倍或者更多。
質譜技術的進展,使得定量的蛋白組學研究成為可能。然而,當細胞適應了轉錄水平(例如,轉錄因子結合、染色質結構改變)、轉錄后(例如,核與質的輸出或者是信使RNA的剪接,特定的核糖體負荷)、翻譯后(蛋白降解和輸出)的精細調控機制后,轉錄物和蛋白質豐度測量結果可能會不一致。因此,定量的轉錄物和蛋白質豐度測量可作為相互的標準,為高通量分析得出的基因表達數據做出合理的解釋。正如蛋白質和RNA之間類似點可以增加我們對新的生物標記的信任度一樣,差異也能暗示我們“其他的轉錄后調控結合點可作為治療的候選靶點"。
研究現狀
通過分析細胞培養和細菌、酵母、小鼠以及人類的整體動物模型的mRNA和蛋白質豐度情況,可以實現轉錄物和蛋白質表達的整體定量分析(如表1)。在蛋白組學分析過程中,一些研究選擇了雙向凝膠電泳(2-DE)分析蛋白質混合物。要么是對不同的凝膠染色,要么是讓不同的細胞與不同的染料相結合,通過斑點染色亮度可以看到蛋白質的亮度。隨后用質譜儀對分離出的定量凝較斑點進行鑒定,與轉錄組學分析不同的是,雙向凝膠電泳分析的鑒定結果與定量分析是散耦合(de-coupled)。
雙向凝膠電泳的一大優點是,它能將翻譯后已修改的蛋白質分解為一連串的斑點,當與單個的母本轉錄物相比較時,它提供的信息就會派上大用場。依照這個步驟,就可以將化學誘導后的若干人類細胞培養模型的蛋白質組和轉錄組信息區別開來??傊?,蛋白質和轉錄物之間的相關性很弱??轉錄組學中的測量誤差被認為是由微陣列(與TaqMan定量實時PCR有關)、2-DE本身的蛋白質染料飽和染色、共遷移造成的抑制作用,與低豐度蛋白質隨后的顯像和定量,鑒定一樣困難。
液相色譜法(LC)是作為一種替代2-DE的蛋白質分析方法而出現的。LC-MS分析是典型的“自下而上(Bottom-Up)"分析方法,通常要用特異的蛋白酶(如胰島素)將蛋白質裂解為肽段。與2-DE不同,LC-MS對肽的定量和鑒定是同時進行的,例如,根據離子阱質譜儀碰撞誘導裂解CID)過程中產生的裂解譜,可以選擇定量的MS峰(m/z)用于鑒定,通過肽片斷的信息推測對應蛋白質的定量信息。
到目前為止,在已發表的整合分析文章中,大多數LC-MS分析是與穩定同位素標記聯合使用的,尤其是ICAT試劑。然而,與非標簽方法一樣,18O/16O和15N/14N標記近期有可能替代ICAT標記法。目前,在出版的ICAT標記的LC-MS轉錄組學-蛋百組學整合分析的文章中,已經增加了與2-DE有關的蛋白質組范圍。在zui近的一次小鼠模型研究中,在將150份mRNA-蛋白質對進行表達水平和轉錄水平的比較后,發現蛋白水平的*預測力為41%(r=0.64)。通過相似分析,與初期的整合分析相比較的相關度已經很高了,對此的解釋是??隨著技術的成熟,蛋白質組和轉錄組的范圍都有所增加。值得注意的是,蛋白質組范圍很可能會隨著zui近的非標記定量分析的進展而增加,該技術利用了MS的微量級靈敏度。
在將蛋白質組和多核糖體轉錄組與預期的核糖體轉錄物相比較后,研究人員發現,原來預期的核糖體轉錄物翻譯很活躍,并且與對應蛋白質組的關系要比總的轉錄組更接近。在對JurkatT細胞的一項研究中,監測的11個蛋白質-轉錄物對,只有一對蛋白質和多聚核糖體mRNA變化呈現出一致性。
蛋白質與多核糖體,蛋白質與總的mRNAs之間表現出的較高的一致性與酵母中觀察到的*不同豐度的轉錄物、ORF長度和在不同翻譯效率下的密碼子適應指數相同,因此影響了合成蛋白質產物的豐度。核糖體裝載調控可能是機制之一,能解釋“觀察到的轉錄物和蛋白水平不一致現象",其實是對分子生物學中心法則的挑釁。作為翻譯的一種抑制機制,microRNAs也展示了另一種可能性。
雖然采用的技術不同,迄今為止公開發表的整合分析都指出了轉錄組學和蛋白組學的重要性。轉錄組學或蛋白組學通常只考慮調節系統和分解作用平衡態的凈效應,實際上,出現的不一致性只是合成與降解兩種替換過程中的一種反映??茖W家可能對變化過程中的機制更感興趣。
面臨的挑戰
其實,很難對蛋白組學和轉錄組學表達的差異性進行細微的比較。在基因組范圍,微陣列為目標轉錄物提供了有限的豐度測量,但是典型的質譜分析可能與通常的2-DE操作一樣,無法檢測出可溶蛋白,尤其是那些高豐度和非極限pI值的蛋白;另一方面,即使有多維的液相色譜分析,LC-MS仍然會遭遇肽段共洗脫(LC的局限性)和采樣過疏(掃描速度和靈敏度局限性)的限制。
此外,商業化基因組微陣列研究還沒有完成,很難對蛋白組學和轉錄組學進行比較,因為分析本身會偏向在蛋白水平上高豐度或者其他更容易檢測到的基因上。
蛋白質與轉錄物的相互參照是一個主要障礙。轉錄組學方面,拼接亞型的存在會導致多重探針與同一個目標雜交,導致錯誤的定量。即使我們假設“在蛋白質序列數據庫中,這些亞型已經被正確的鑒定為單獨的路徑",拿轉錄組亞型與對應的蛋白質亞型比較,仍是困難重重。異源序列數據庫的利用也是一個難題:微陣列靶子通常都是用NIH的基因序列數據庫(GenBank)和NCBI參考序列(RefSeq)標示符進行注解,蛋白組學通常是用編輯更少的NCBI免費數據庫蛋白質搜索引擎EntrezProtein(NCBInr)或者是蛋白索引(IPI)數據庫注解。雖然IPI數據庫為更多內容的數據庫(例如RefSeq和Swiss-Prot)提供相關參照,但那些相關參照通常是不完善的,并且IPI數據庫通常將較小的序列變異體排除在外。
除了以上提到的與整合分析有關的技術難題之外,生物學研究系統也面臨挑戰。根據序列和亞細胞定位,mRNA的半衰期壽命從幾分鐘到幾小時;受N端殘基的影響,蛋白質部分壽命范圍從幾分鐘到幾天。因為典型的轉錄組學和蛋白組學分析一次只分析一個點,所以缺乏足夠的分辨力將新合成的轉錄物或蛋白質與以往積累下來的部分區別開。
另一方面,蛋白質和轉錄物表達之間的差異,可能會導致細胞的蛋白質組與轉錄組不一致。轉錄后,特殊序列或者是次級折疊結構可能會影響翻譯率,后者可能影響mRNA衰退,與核糖體的裝載和加工一樣,這些轉錄后機制都將證明蛋白質合成中的變化??傊?,合成的蛋白質也可能會遭受翻譯后修飾,這些修飾將管理蛋白質的降解或分泌。
正如中心法則預測的那樣,在轉錄物和蛋白質水平,如果只能通過嚴格的轉錄調控去控制蛋白質的合成,細胞是不太可能選擇精細調節機制的。當點對點進行比較時,蛋白質和轉錄物之間的一致性通常很弱,正如在酵母中顯示的那樣,特定生物學路徑的組成基因的一致性或不一致性會更強。這些觀察說明了“從個體基因座的局部分析擴展到功能途徑系統分析"的重要性。
轉錄組學和蛋白組學都是了解研究系統的生理化學狀態的有用工具。當然,沒有一種工具可以為系統提供*的覆蓋范圍及相應的度。問題的核心,不是用工具找出mRNA和蛋白質之間一對一的相互關系,而是要用它們區別出真陽性和假陽性,即區別出真正的mRNA-蛋白質一致性或者是不一致性。沒有這些整體分析,就無法觀察到真正的mRNA-蛋白質不一致性,并且這些不一致性要比一致性更吸引科學家,因為它們透露出的更多的轉錄后干涉情況,可以進一步去研發治療方法。
哺乳動物晝夜節律鐘的不一致就是時移不一致的一個例子,調節蛋白如Period(mPER)在蛋白質和轉錄物表達之間顯示了4~8小時的延遲??傮w不一致的一個例子是Ras/Akt信號在成膠質細胞瘤中顯示出的不一致,其中總mRNA變化很小。更多的變化發生在翻譯起始的核糖體裝載期間,依次更改了蛋白質性質。