汇盈策略配资,中文无码视频在线,亚洲不卡AV不卡一区二区

北京索萊寶科技有限公司

立即詢價

您提交后，專屬客服將第一時間為您服務

讓長讀取來拯救基因組組裝

閱讀：1609 發(fā)布時間：2013-5-9
分享：

新一代測序的出現，讓科學家們能夠更快地實現基因組測序，且成本比Sanger測序要低得多。但是，這是以犧牲讀長為代價的，平均讀長從Sanger測序時的800-900 bp降低如今的100 bp左右。短的讀長讓基因組組裝更加困難，因為需要更深度覆蓋才能產生相當的組裝。為了解決這一問題，Worley及其同事近轉向了Pacific Biosciences公司的PacBio RS平臺。
然而，有些問題是更深度覆蓋也無法彌補的。對于de novo組裝，長度超過讀長的重復序列會產生缺口，導致近年來更多片段化的組裝。因此，我們很難檢測重復區(qū)域的變異，而這些對了解某些疾病可能很重要。
對此，貝勒醫(yī)學院人類基因組測序中心的遺傳學家Kim Worley談道：“令人沮喪的事情是100 bp讀取中沒有太多的信息內容。”她指出，在恒河猴的基因組草圖中，高達20%的基因模型都含有缺口。
Worley表示：“我們已經完成了人類基因組和小鼠基因組，而其他一切都仍未完成。即使是已經完成的基因組，也有并不*連續(xù)和正確的區(qū)域，而用戶對那些區(qū)域的數據總是不滿意。”
為了解決這一問題，Worley及其同事近轉向了Pacific Biosciences公司的PacBio RS平臺。這是一種第三代測序技術，能夠實時開展單分子測序反應。該系統的平均讀長在幾kb，而某些情況下的大讀長能達到30 kb。
這些長的序列讀取簡化了基因組組裝，因為它們能夠跨越重復區(qū)域，而且不需要DNA的擴增，從而減少了某些測序假象和基因組覆蓋偏向。因此，PacBio RS平臺產生的長讀取無GC偏向或系統誤差，適用于基因組組裝的升級。
正如去年在《PLoS ONE》上介紹的，Worley及其同事開發(fā)出一種自動的軟件工具，名為PBJelly。1 它能夠將PacBio長讀取與組裝草圖比對，關閉或改善缺口，同時保留注釋。研究人員將這種方法應用在四個基因組上，解決了63%-99%的缺口，能關閉32%-69%并改善12%-63%。
PacBio的科學官Jonas Korlach表示：“我們正在經歷一場復興，一場已完成基因組的復興。在Sanger測序的年代，這是慣例，但是當新一代技術到來時，它幾乎被拋棄，因為幾乎不可能通過Sanger測序來結束那些基因組。”
從原理上說，PBJelly適用于任何平臺所產生的長序列讀取。不久之后，當新一代測序公司趕上PacBio的讀長時，這一特征就顯得尤為重要。
正在朝這一方向努力的是Illumina公司。不久前，它收購了Moleculo公司，該公司開發(fā)的技術讓大的DNA片段可在Illumina標準測序系統上進行測序，隨后組裝成合成的長讀取。來自每個分子的短序列讀取分別組裝，終結果是所有片段的完整序列。從本質上講，短讀取數據重建成長讀取。
在1月份召開的動植物基因組大會上，一組科學家報告稱，Moleculo技術可利用Illumina HiSeq2000平臺，產生長度跨越1.5-15 kb的準確DNA測序讀取。
另一個長讀取技術的范例是454的GS FLX+系統，它帶來了長度達1000 bp的讀取。眼下，一個研究協作組正在利用這種測序技術來分析和組裝RP11人類參考基因組，試圖關閉缺口并發(fā)現基因組序列中的新基因。
454生命科學研發(fā)部門的副總裁Todd Arnold表示：“454一直以高質量、長讀取而著稱。”隨著讀長和通量逐步上升，“我們在增加讀長時也力爭保留我們的質量值，因為這對我們的客戶非常重要。”
但根據Korlach的說法，現有的其他技術都無法與PacBio抗衡。他表示，目前存在根本的技術差異和限制，使得其他技術無法提供PacBio的連續(xù)讀長。
不過，PacBio長讀取技術也有缺點，那就是錯誤率高。盡管通過環(huán)化測序可實現高度準確的測序結果，但PacBio RS儀器產生的單向讀取，平均準確性只有87-89%。該公司負責產品管理的總監(jiān)Edwin Hauw表示：“我們正在努力改善這一點，但準確性仍將在很長一段時間內低于其他現有技術，因為我們的技術是基于單分子的實時檢測。”
東京大學的計算生物學家Michiaki Hamada對那些錯誤率不以為然。“在我看來，這些高錯誤率不會帶來嚴重的問題，因為大部分錯誤可通過低錯誤率的短讀取來校正，比如Illumina測序儀所產生的那些。”
在近的一項研究中，Hamada及他的團隊開發(fā)出一種名為PBSIM的讀取模擬器，它捕獲了PacBio讀取的主要特征。Hamada表示，他們的長期目標是開發(fā)出適用于長讀取的de novo組裝程序，但目前還沒有模擬器能針對PacBio文庫的生成。
Hamada及其同事利用PBSIM來分析13個PacBio數據集，結果發(fā)表在《Bioinformatics》上。2 在開展PacBio讀取的混合糾錯和組裝檢測之后，他們發(fā)現，通過覆蓋深度少為15的連續(xù)長讀取，再加上覆蓋深度少為30的循環(huán)測序，可獲得大量的組裝結果。Hamada表示：“PBSIM不僅可用于組裝程序的評估，可能用于測序的實驗設計。”
由于參考基因組中的缺口可能包含了與疾病相關的基因，故長讀取技術的利用對臨床領域有重大影響。例如，Arnold及其同事鑒定出一個可能參與癌癥發(fā)展的區(qū)域。“有證據表明該基因來自早期的RNA序列數據，但它并未出現在參考基因組中，因此開展重測序研究的人員看不到。參考文庫越完整，你以積極方式使用這些數據的能力就越強。”

上一篇：超越DNA的遺傳與編程

下一篇：細胞化學染色方法

讓長讀取來拯救基因組組裝

會員登錄

收藏該商鋪

提示