聯(lián)系電話
- 聯(lián)系人:
- 曹女士
- 電話:
- 400-6111-883
- 手機(jī):
- 售后:
- 4006-111-883
- 傳真:
- 86-21-34615995
- 地址:
- 上海市浦東新區(qū)天雄路166弄1號(hào)3樓
- 網(wǎng)址:
- www.yeasen.com
掃一掃訪問手機(jī)商鋪
NGS測(cè)序技術(shù)近年來得到了巨大發(fā)展,2017年摩根大會(huì)上,Illumina重磅推出NovaSeq測(cè)序儀,NovaSeq可以2天產(chǎn)生2Tb數(shù)據(jù),通量是10年前Genome Analyzer的2000倍。測(cè)序通量的大幅增加,意味著更多的樣本混合上機(jī),這樣的話我們?nèi)绾卧诿C?shù)據(jù)中找到對(duì)應(yīng)樣本匹配的數(shù)據(jù)呢?人們想到了一種在文庫構(gòu)建時(shí)在接頭上添加“接頭暗號(hào)"的方法,在測(cè)序完成之后根據(jù)“接頭暗號(hào)"對(duì)樣本進(jìn)行分離。這里的接頭暗號(hào)就是樣本標(biāo)簽“Index/Barcode"。本文將以建庫過程中要添加的接頭為核心,對(duì)其進(jìn)行全面介紹。
1.接頭是什么?
接頭的本質(zhì)是一段短的堿基序列,基本包括三個(gè)部分:與flow-cell上面寡核苷酸相同或互補(bǔ)的片段P5/P7;測(cè)序時(shí)測(cè)序引物結(jié)合部分R1/R2;用于區(qū)分不同樣本的Index。接頭是待測(cè)DNA片段與Flow-cell連接的橋梁,目的片段連接接頭后可以在flow cell上擴(kuò)增再測(cè)序。
圖1.兩端添加接頭的DNA片段
2.接頭如何分類?
接頭的分類方法主要有兩種,一是按照Index的位置,二是按照是否匹配PCR free建庫。
(1)根據(jù)Index位置可以將接頭分為單端Index接頭和雙端Index接頭。單端Index接頭指的是僅在P5端或P7端存在Index(一般在P7端),雙端Index接頭指的在P5和P7端均存在Index。(如圖2所示)。Index的數(shù)目直接影響最終上機(jī)能混合的樣本數(shù)目,雙端Index具有比單端Index能容納更多數(shù)目的樣本,近年來為了滿足一次能測(cè)量更多的樣本的需求,雙端帶Index的接頭被廣泛使用。
圖2:接頭按照Index位置分為單端Index接頭和雙端Index接頭,兩種接頭連接后示意圖
(2)根據(jù)接頭是否匹配PCR free建庫可以將接頭分為長接頭和短接頭(見圖3)。長接頭又稱為完整接頭,包括P5/P7+Index序列+Read 1/2,完整接頭通過TA克隆的方式連接到DNA片段之后,可不進(jìn)行PCR擴(kuò)增反應(yīng)直接上機(jī)測(cè)序(DNA量足夠上機(jī)測(cè)序時(shí)可直接上機(jī),當(dāng)DNA量不夠時(shí)還需進(jìn)行PCR擴(kuò)增使得產(chǎn)物達(dá)到一定的量方可上機(jī)測(cè)序)。短接頭通過TA克隆方式連接到DNA片段上后,必須與短接頭互補(bǔ)的引物進(jìn)行PCR擴(kuò)增,擴(kuò)增產(chǎn)物就是包含完整接頭的DNA片段(見圖4)。也就是說短接頭最終一定要通過PCR擴(kuò)增成為完整接頭才能上機(jī)測(cè)序。
圖3:左邊為Illumina早期推出的短接頭,不包含Index;右邊為長接頭,是Illumina目前標(biāo)準(zhǔn)通用接頭樣式
圖4:短接頭建庫流程圖
3.Index有何奧秘?
Index作為接頭中的重要組成部分到底有著怎樣的奧秘呢?簡單來說Index就是混合樣本中不同樣本的“身份",其本身就是一段堿基序列,一般長6nt或8nt。通過對(duì)這種“身份"的識(shí)別,就可以在混合樣本中對(duì)單個(gè)樣本的數(shù)據(jù)進(jìn)行識(shí)別。那么問題來了,四種堿基隨機(jī)構(gòu)成的排列組合序列那么多,這些都可以用作Index嗎?選擇Index序列的依據(jù)又是什么呢?
Index的選擇需滿足兩個(gè)原則:堿基平衡和激光平衡
a)堿基平衡:是指Index序列的復(fù)雜度和平衡度:復(fù)雜度指的是堿基的種類的多樣;平衡度指的是堿基之間分布比例的均衡。需要注意的是堿基的平衡是指多個(gè)Index之間的平衡,而不是單個(gè)index內(nèi)部的堿基平衡。好的Index序列應(yīng)該是均含有A、T、C、G四種堿基,且各堿基之間的比例接近25%,如圖5所示。
圖5:符合堿基平衡的Index號(hào)(ATGC,TACG,GCTA,CGAT)舉例,分別符合單個(gè)Index內(nèi)部平衡和多個(gè)Index相應(yīng)堿基位的堿基平衡
b)激光平衡:是指在一組Index序列中需滿足每個(gè)堿基位A + C =G + T,在Illumina測(cè)序儀中,A和C兩種堿基共用一種激光,由波長660nm的紅激光激發(fā);G和T共用一種激光,由波長532 nm的綠激光激發(fā)。需要說明的是激光平衡是在堿基不平衡的情況下的無奈之舉,在一定程度上可以提高index測(cè)序時(shí)的堿基識(shí)別質(zhì)量,減少數(shù)據(jù)分離時(shí)出問題的可能性,見圖6。
圖6:不符合堿基平衡但符合激光平衡的Index號(hào)(ATGC,TACG,AGAG,TCTC)舉例
如樣本數(shù)為單數(shù),則必然無法滿足堿基平衡和激光平衡,此時(shí)可以選擇幾個(gè)縱列是互補(bǔ)的兩個(gè)Index,再加上一個(gè)其他的Index,可保證測(cè)序質(zhì)量。
結(jié)語
高通量測(cè)序技術(shù)的發(fā)展,使得測(cè)序的通量不斷增加,通量的增加就意味著多樣本混合上機(jī)測(cè)序。由此而來的問題是在NGS的過程中如何做到對(duì)每個(gè)樣本數(shù)據(jù)的對(duì)號(hào)入座。科學(xué)家想到給樣本一個(gè)“身份",這樣就可以憑證識(shí)別。因此對(duì)于NGS從業(yè)者來說,在享受高通量測(cè)序帶來的方便快捷的同時(shí),還要記得給自己的樣本戴好‘證件’哦。