當前位置:法律諮詢服務網 - 法律諮詢 - 全基因組測序的前世

全基因組測序的前世

基因組代表了基因研究的起點。自從發現DNA結構以來,科學家們壹直致力於以精確的方式確定堿基序列。自1965第壹個酵母片段測序以來,測序的閱讀長度仍然不足以覆蓋大多數物種的全基因組大小,因此基因組組裝技術壹直是持續研發的關鍵技術。本文系統回顧了全基因組測序相關的重要技術和主要裏程碑,以及當前三代測序技術的優勢和挑戰。

下圖顯示了基因組組裝的重要裏程碑。不同的顏色背景展示了從最早的基於核苷酸的早期測序到基於桑格的鳥槍法測序,再到大規模的第二代NGS測序,再到現在的第三代TGS測序的主要組裝成果。歷時13年(1990-2003),耗資30億美元的人類基因組計劃(HGP),無疑加速了基因組組裝的進程。NGS衍生出壹系列新穎的應用,包括全外顯子測序、RNA-seq、ChIp-seq、WGBS-seq等,極大地推動了基因組測序的應用。2010年後,全新的技術開啟了第三代測序TGS時代——長閱讀長測序,大大增加了基因組組裝的優勢,大大提高了基因組組裝的連續性。

TGS的定義可能有所不同,通常指的是不經擴增直接對單個DNA分子進行測序的技術。這些技術產生比NGS更長的讀取,並且每個讀取可以跨越幾kbps到幾百kbps。NGS技術如10X基因組學連鎖閱讀和Hi-C可以提高基因組組裝的連續性,但TGS的出現使提高組裝的連續性變得更加容易。

目前廣泛應用的測序技術有三代,壹是由太平洋生物科學公司(PaciBio)完善並商業化的單分子實時測序技術(SMRT),二是由牛津納米孔技術公司(ONT)商業化的納米孔測序技術。SMRT測序技術應用合成時測序的原理。以SMRT芯片為測序載體,載體上分布著數百萬個納米級零模波導孔(ZMW)。每個ZMW中的聚合酶捕捉文庫的DNA序列,dNTP被熒光激發,從而根據捕捉到的熒光信號的長度進行邊合成邊測序。目前,SMRT測序有兩種模式,壹種是連續長閱讀(CLR)模式,另壹種是循環共有序列(CCS)模式。CLR的閱讀長度更長,但堿基測序的錯誤率更高(90%的準確率遠低於NGS (99.9%)),但測序錯誤是完全隨機的。CCS模式利用這壹特性,通過自校正將時序錯誤率降至NGS水平,而CLR則犧牲了時序讀取長度。

納米孔測序使用插入人工脂質雙層中的轉基因細菌納米孔,這些納米孔被放置在寬度為幾十微米的單個微孔中,並排列在傳感器芯片上。當每個單鏈DNA通過壹個通道時,它會幹擾流過孔的電流,這種變化將由半導體傳感器測量。不同的堿基破壞電場的方式略有不同,記錄的電流變化可以轉換成DNA序列。ONT能讀出的長度更長,取決於制備的DNA文庫的大小,但其堿基準確性難以校正,測序錯誤率也高。

第三代測序技術,由於其較長的閱讀長度,可以有效跨越基因組中的復雜區域,從而顯著提高基因組組裝的質量。此外,在二倍體(多倍體)基因組中,TGS可以更容易地產生單倍型長時相片段,區分來自父母的遺傳信息,避免嵌合基因組,並有助於準確檢測結構變異(SV ),包括高度重復區域中的長變異、大插入缺失、重復、倒位和易位。同時,第三代測序也可以通過PacBio的酶促動力學反應或納米孔中的離子電流信號實現表觀遺傳測序。

FALCON是壹款基於三代數據的從頭組裝軟件,由PacBio直接開發,發布於2013。它繼承了分層基因組組裝(HGAP)過程。首先,對序列本身進行比較,以校正三代測序的讀數準確性,然後使用德布魯金圖(DBG)構建重疊群,如下圖所示。FALCON可以識別二倍體序列,並可以輸出包含位點變異信息的等位基因序列(備選重疊群/a-重疊群)和主要基因組序列(初級重疊群/p-重疊群)。FALCON-Unzip是FALCON的升級版,它可以利用初始組裝中識別的雜合SNP獲得高度分型的單倍型,然後利用Hi-C數據繪制組裝圖,利用haplotigs和* * *序列完整組裝兩個單倍型。

Canu是源於Celera Assember的三代組裝軟件,可用於PacBio和Nanopore獲得的測序結果。它以重疊-布局-壹致性(OLC)的方式進行組裝,即利用長序列之間的重疊,主要分為糾錯、剪枝和組裝三個步驟。對於FALCON來說,雖然組裝前的糾錯相對於短閱讀長度有了很大的提高,但是組裝後的單倍型仍然是嵌合的,重復序列往往折疊成壹個序列。為了解決這個問題,2018發布的新版本軟件TrioCanu可以完全利用親本信息進行單倍型相位。它利用親本的二代illumina數據,在組裝前根據不同的SNPs對組裝樣本的序列進行分類,然後從親本中獨立組裝出兩套單倍型,因此TrioCanu特別適用於高雜合度基因組組裝。

Canu的計算速度很慢。HiFiasm是近兩年開發的用於PacBio HiFi reads的快速單體型分析從頭組裝軟件。它可以在壹臺機器上多線程運行,以較少的資源消耗快速完成基因組組裝,同時,利用給定的親本數據,實現不同親本後代的單體型組裝。但單體型分型的準確性比TrioCanu稍差。

裝配結果的準確性和計算工作的優化都是裝配需要考慮的方面。目前已經開發了各種從零開始組裝的軟件,包括Wtdbg2、Flye、Peregrine、Shasta等。,它們相對較快,但是它們的裝配質量可能不那麽精確。所有的基因組組裝方法和軟件都有優缺點。在實際應用中,可以考慮實際的裝配物種、排序策略和裝配目標,綜合考慮選擇準確優秀的裝配軟件。

對於大型基因組,即使是長閱讀也無法跨越整個染色體序列,需要其他連鎖信息對組裝的重疊群進行定位和測序,從而將基因組組裝提升到Scanfold的水平。生物納米光學圖譜是壹種單分子DNA技術。該方法基於DNA標記生成遺傳光學圖譜,然後與初始組裝的重疊群結合,可以進壹步對重疊群進行定相和測序,產生更長的支架。此外,Bionano光譜還可用於SV和甲基化分析。

另壹種對重疊群進行定向和排序的技術是基於染色體構象捕獲(3C) (Hi-C)。Hi-C技術首先用甲醛固定染色體的空間構象,然後用限制性內切酶處理DNA,重新連接空間相鄰的DNA分子。該技術利用基因組的空間信息,結合重疊組和支架將其分布到染色體水平。Hi-C是目前在大基因組中實現染色體水平支架的唯壹途徑,但往往不如Bionano支架保守。染色質不可預測的折疊導致染色體的遠區相互作用,可能導致組裝錯誤,如人工倒位、同壹染色體中的支架錯位或不同染色體中的支架錯配。綜合利用不同的技術可以更好地糾正這些錯誤,甚至可以獲得整個染色體的端粒對端粒組裝。

基因組組裝的方式壹直在不斷創新優化。通過不斷改進現有技術,引入新的DNA測序方法和生物信息學工具,組裝質量壹直在提高。NGS引入的高通能力和TGS提供的更高質量的序列最終使得復雜的基因組可用於全基因組研究。人類遺傳學研究,包括群體基因組學、遺傳病定位和診斷、個性化醫療規劃、癌癥研究和產前檢測,都受益於過去十年基因組測序和組裝的進展。同樣,這些方法越來越多地用於非模式生物,以了解生態和進化過程。參考基因組測序和組裝的承諾已從單物種項目擴展到多物種協調,旨在通過結合NGS和TGS方法為大多數生物產生高質量基因組的項目目前正在進行中。

《基因組學的漫長之路:基因組測序和組裝的歷史和當前方法》。計算機結構生物技術雜誌2019年11月17日;18:9-19.doi:10.1016/j . csbj . 2019.11.002。PMID:31890139;PMCID: PMC6926122。

  • 上一篇:求壹篇“安樂死研究”的畢業論文
  • 下一篇:人壽保險示範報告3.15
  • copyright 2024法律諮詢服務網