聯(lián)系電話
- 聯(lián)系人:
- 曹女士
- 電話:
- 400-6111-883
- 手機(jī):
- 售后:
- 4006-111-883
- 傳真:
- 86-21-34615995
- 地址:
- 上海市浦東新區(qū)天雄路166弄1號(hào)3樓
- 網(wǎng)址:
- www.yeasen.com
掃一掃訪問手機(jī)商鋪
HB190313
測(cè)序數(shù)據(jù)不好?是不是建庫出了問題?!
——從測(cè)序數(shù)據(jù)看文庫構(gòu)建
高通量測(cè)序中的文庫構(gòu)建指的是在DNA兩端連接特定的接頭從而使其符合測(cè)序平臺(tái)要求的過程,在高通量測(cè)序過程中,文庫質(zhì)量直接影響終測(cè)序數(shù)據(jù)的質(zhì)量,打個(gè)比方,如果文庫上機(jī)測(cè)序的濃度很低,樣本在FlowCell上擴(kuò)增所形成的DNA樣本簇就會(huì)很少,測(cè)序數(shù)據(jù)量也將減少,這就可能導(dǎo)致測(cè)序失敗,所以我們說文庫的質(zhì)量控制和質(zhì)量評(píng)估也是NGS中的關(guān)鍵步驟。
文庫如何質(zhì)控?
評(píng)估文庫質(zhì)量的方法有哪些?
n 文庫質(zhì)控:文庫在上機(jī)之前都有會(huì)進(jìn)行質(zhì)量檢測(cè),質(zhì)量檢測(cè)合格的文庫才會(huì)上機(jī)測(cè)序。文庫上機(jī)之前的文庫質(zhì)控主要包括文庫片段大小和文庫濃度的質(zhì)控,具體質(zhì)控標(biāo)準(zhǔn)和實(shí)驗(yàn)設(shè)計(jì)見往期推送:文庫質(zhì)檢方案的合理設(shè)計(jì)--文庫分布、文庫濃度、文庫質(zhì)量(超鏈接:h/t/t/ps://mp.weixin.qq.c/o/m/s/iM5eMweP1By6MoqrxOEBfw)。
n 文庫評(píng)估:文庫評(píng)估方法除了文庫大小和濃度之外,還包括文庫轉(zhuǎn)化率、文庫復(fù)雜度、均一性、準(zhǔn)確性和覆蓋度等。
1)文庫轉(zhuǎn)化率:是評(píng)估文庫質(zhì)量的重要指標(biāo),它指的是文庫中兩端都連上接頭的目的片段占總片段數(shù)的比值,也代表測(cè)得產(chǎn)量與理論高產(chǎn)量之間的比值,這里的理論高產(chǎn)量考慮了PCR的擴(kuò)增效率問題及純化產(chǎn)生的損失。計(jì)算方法如下:
理論高產(chǎn)量=輸入量×(1+PCR擴(kuò)增效率)(PCR循環(huán)數(shù))×(純化回收率)(clean up數(shù))
為什么說文庫轉(zhuǎn)化率是重要指標(biāo)呢?這是因?yàn)橹挥须p端都連接上接頭的目的片段才能在FlowCell上面通過橋式擴(kuò)增形成簇,終完成測(cè)序過程,而不是雙端都連上接頭的目的片段終都不能完成測(cè)序過程,視為無效片段,如果這樣的片段過多直接影響終輸出數(shù)據(jù)的過少,甚至可能直接導(dǎo)致測(cè)序的失敗。
圖1.雙端帶接頭的DNA片段在Flowcell上擴(kuò)增圖
2)文庫復(fù)雜度:指的是文庫中DNA序列的復(fù)雜程度,一定的文庫復(fù)雜度對(duì)后期測(cè)序數(shù)據(jù)的分析尤為重要,復(fù)雜度高的文庫測(cè)序得到的數(shù)據(jù)重復(fù)讀數(shù)少,可以帶來更多有意義的信息,反之,低復(fù)雜度的文庫在信號(hào)讀取時(shí)往往產(chǎn)生簇信號(hào)混雜,易產(chǎn)生低質(zhì)量的測(cè)序數(shù)據(jù)。
文庫復(fù)雜度與Input樣本質(zhì)量、文庫的轉(zhuǎn)化率、文庫擴(kuò)增時(shí)循環(huán)數(shù)有關(guān)。當(dāng)文庫的轉(zhuǎn)化率越高時(shí),能從樣品種捕獲更多的特異分子,文庫復(fù)雜度就越高;當(dāng)輸入樣本量越低或文庫擴(kuò)增循環(huán)數(shù)越多時(shí),文庫中不能帶來有意義信息的重復(fù)讀數(shù)就會(huì)增多,則文庫的復(fù)雜度越低。
表1.測(cè)序數(shù)據(jù)關(guān)鍵參數(shù)比較
Sample Input | Library Prep | Uniquely Mapped | Duplication Rate | Transcripts Detected | Genes Detected |
4 μg | A* | 69% | 31% | 111.370 | 20.547 |
B* | 76% | 24% | 112.136 | 21.016 | |
500 μg | A* | 64% | 36% | 109.810 | 20.134 |
B* | 71% | 29% | 110.690 | 20.644 |
3)均一性:指的是讀取數(shù)據(jù)在基因組或目標(biāo)區(qū)域的分布均一程度。其生信分析圖如圖2所示,一般認(rèn)為覆蓋越均勻,達(dá)到特定深度所需的測(cè)序數(shù)據(jù)就越少,覆蓋均一性的偏向通常是在文庫制備和文庫擴(kuò)增步驟中引入的,也就是說,覆蓋均一性很多時(shí)候取決于GC含量。
圖2.測(cè)序數(shù)據(jù)均一性
4)準(zhǔn)確性:
NGS文庫制備的準(zhǔn)確性越高,你對(duì)變異報(bào)告的信任程度就越高。核苷酸錯(cuò)誤通常在PCR擴(kuò)增以及測(cè)序過程中引入。測(cè)序錯(cuò)誤通常低于1%。通過使用高保真PCR試劑,可盡量減少文庫擴(kuò)增的錯(cuò)誤。NGS對(duì)照樣品也有助于評(píng)估NGS流程的準(zhǔn)確性。
圖3.PCR擴(kuò)增存在一定的錯(cuò)配率
5)測(cè)序深度和覆蓋度:
假設(shè)對(duì)長1000 bp的目標(biāo)區(qū)域進(jìn)行捕獲測(cè)序,每個(gè)read長10 bp,總共得到3000個(gè)reads,把所有的reads對(duì)比到目標(biāo)區(qū)域后,1000 bp的目標(biāo)區(qū)域中有990 bp的位置至少有1個(gè)read覆蓋到,換言之剩余的10bp沒有1個(gè)read覆蓋。
則此時(shí):
測(cè)序深度(depth)3000*10/1000=30 也就是說測(cè)序深度為30*
覆蓋度(coverage)990/1000*100%=99% 這次測(cè)序覆蓋度為99%
同理:
假設(shè)對(duì)長100bp的目標(biāo)區(qū)域進(jìn)行捕獲測(cè)序,每個(gè)read長5bp,總共得到200個(gè)reads,把所有的reads對(duì)比到目標(biāo)區(qū)域后,100bp的目標(biāo)區(qū)域中有98bp的位置至少有1個(gè)read覆蓋到,換言之剩余的2bp沒有1個(gè)read覆蓋。
深度(depth)200*5/1000=10 也就是說測(cè)序深度為 10*
覆蓋度(coverage)98/100*100%=98% 這次測(cè)序覆蓋度為98%
文庫構(gòu)建中的哪些步驟會(huì)直接影響測(cè)序質(zhì)量?
NGS的終目的就是得到測(cè)序數(shù)據(jù)助力于下游科學(xué)研究或?qū)嶋H應(yīng)用,其中文庫構(gòu)建是測(cè)序數(shù)據(jù)的重要影響因素,文庫構(gòu)建一般包括以下幾類步驟(以DNA為例):樣本片段化、接頭連接、分選/純化、文庫擴(kuò)增。文庫對(duì)測(cè)序數(shù)據(jù)的影響,具體到文庫構(gòu)建的每個(gè)步驟,參考表2。
表2.建庫步驟對(duì)測(cè)序結(jié)果的影響
步驟 | 評(píng)估指標(biāo) | 對(duì)測(cè)序結(jié)果的影響 |
樣本片段化 | 打斷隨機(jī)性 | 文庫質(zhì)量;測(cè)序數(shù)據(jù)的均一性和覆蓋度 |
片段大小是否集中 | 文庫濃度;測(cè)序數(shù)據(jù)覆蓋度 | |
接頭連接 | 接頭連接效率 | 文庫轉(zhuǎn)化率;文庫復(fù)雜度;均一性;準(zhǔn)確性和覆蓋度 |
分選/純化 | 片段大小的一致性 | 片段大小與測(cè)序儀大小不匹配將無法上機(jī)測(cè)序 |
回收效率 | 文庫濃度;測(cè)序數(shù)據(jù)覆蓋度 | |
文庫擴(kuò)增 | 擴(kuò)增偏好性 | 文庫復(fù)雜度;均一性 |
擴(kuò)增效率 | 文庫濃度;文庫復(fù)雜度 |