金秋十月,又到了分享丰收的喜悦,科研界的大瓜也在十月成熟:今年最大的瓜当属【诺贝尔经济学奖与西南财经失之交臂】,而被称为“酷姐”的诺贝尔化学奖获得者Carolyn R. Bertozzi酷酷的人生也让吃瓜群众津津乐道。而另一位化学奖获得者Karl Barry Sharpless“梅开二度”,成为第二位两次获得诺贝尔化学奖的得主。那么第一位是谁呢?那就是测序界鼎鼎有名的富二代Frederick Sanger,凭借1955年完成胰岛素测序和1977年发明的“双脱氧链终止法(Sanger 法)”两次斩获诺贝尔化学奖。

延伸阅读:吴瑞在1970年首先发明了DNA测序方法以及其他一些DNA克隆技术;1971年吴瑞将引物延伸用于DNA测序,该工作成为Sanger法测序最重要一步,引物延伸也用于其他两项诺奖工作中:Kary Mullis的PCR,和Michael Smith的定点突变。

趁着秋风正爽,现在就让我们盘点一下环状RNA领域用到的那些测序技术

 

01 一代测序

我们常用的sanger测序被称为一代测序技术,能够几乎100%准确地检测大约1000nt的序列;虽然开发于1977年,但该技术仍然是目前检测特定序列的金标准

 

Sanger Method又称为双脱氧链终止法,其名字直观地阐述了该测序方法的核心:根据模板在引物上逐个添加ddNTP。

在circRNA研究中,sanger测序主要搭配RT-PCR对目标circRNA进行验证,主要包括以下几种方式:

1-1 Divergent Primer检测BSJ  

1-2 不同策略鉴定circRNA全长

①多引物验证多外显子circRNA isoform

②拼接多组primers 

③一步到位的滚环PCR

 

在我们对环状RNA验证时,一般只对“环状RNA特定标识BSJ”进行验证;然而大量证据已表明环状RNA BSJ内部存在着复杂的剪切结构,因此,虽然有相同BSJ,但具体是哪一个isoform发挥功能,仍需要对isoform的全长进行验证。

 

02 二代测序

历史回顾

刚开始sanger测序是作为人类基因组计划的“御用”技术,但由于效率太低且昂贵(8年仅完成 3%,且当时每个碱基预估 1 美金);当用上二代测序技术后,简直是“鸟枪换炮”(最初二代测序技术被称为“鸟枪法〔shot gun〕测序”),不到3年就完成了90%的基因组鉴定。

随着人类基因组计划的完成,二代测序技术也迎来了它的辉煌时代:2005年Roche 454测序系统发布标志着测序技术正式跨入高通量测序时代。早期二代测序技术手段可谓百花齐放,但被大家熟知的测序仪包括Roche 454、Illumina Solexa以及ABI SOLID;然而短短几年,二代测序市场就基本被Illumina测序仪一家独大,国内市场早已被Illumina测序产品主导;直到2015年,我国终于迎来自主研发的首款测序仪BGISEQ-500,实现了国产测序“从0到1”的突破。

 

 

Roche 454乳液PCR技术、Illumina Solid桥式 PCR、ABI SOLID双碱基四色荧光以及华大BGI的DNB技术

 

二代测序技术很快就从基因组层面拓展到了转录组水平。最开始使用转录组测序可能完全是奔着编码蛋白的mRNA去的,通过poly(A) selection的策略进行 mRNA 的文库构建(即mRNA-seq);渐渐地,人们发现除了mRNA,转录组中还存在许多“暗物质”通过mRNA-seq难以检测到,因此,rRNA-deleted建库方式的全转录组测序登上了舞台,非编码长链RNA被大量发现;通过RNA-seq结果能观察到环状RNA完全是必然中的偶然,由于环状RNA分子序列与线性分子基本一致,唯一的标识BSJ一般作为“scrambled products”或“chimeric reads”被丢弃,直到2012年被有心人Salzman等研究者坚持研究才让环状RNA开云见日,从此一路生花!

 

mRNA-seq、全转录组RNA-seq以及circRNA-seq的不同建库方式

2-1 环状RNA的检测

如上图所示,目前常用于检测环状RNA的二代测序建库方法主要包含两种:

• rRNA-deleted library

能够同时检测mRNA,lncRNA等线性RNA以及circRNA。

• rRNA-deleted, RNase R + library

虽然只能检测circRNAs,但通常能够检测到更多circRNA,特别是一些表达丰度较低的circRNA。如果想同时研究circRNA与mRNA的关联,可以对同一批起始RNA进行mRNA-seq。

 

为了使circRNA更富集,我们也可以先通过加A的方式让线性RNA的3′ 末端更突出(RNase R只能结合到3’单链末端至少包含7个碱基的分子),从而让线性RNA被RNase R消化得更充分。

测序后我们可以开展一系列与circRNA相关的生物信息学分析,而这一切都要源于对back-spliced junction(BSJ)——RNA是否是环状的唯一标识——的理解和识别。

forward splicing(即Linear splicing) 与 back splicing(即circularization)

 

这张经典的图非常清楚地指明了什么是forward splicing,什么是back-splicing。back-splicing现象是通过生信比对过程中发现的:不同于能够用hisat2/bwa/STAR等比对到参考基因组上的reads(图中右上部分),back-spliced reads是无法正常比对到参考基因组的,通常被归纳到unmapped reads或chimeric reads,比对顺序是前后相反的(图中右下部分)。

识别BSJ是生信软件鉴定环状RNA的核心,然后不同软件会包含一些其他的设置来保证环状RNA的真实性,例如reads在back-spliced site前后最小长度、BSJ侧翼序列是否存在剪切位点、BSJ内部序列长度是否超过某个阈值等。

从2012年到现在,已经有许多经典的鉴定与定量软件被我们熟知,例如find_circ、CIRI、DCC、CIRCexplorer等,这些软件各有各的优点但也有不足(主要是假阳性与敏感性的权衡),因此研究者往往通过联合多款软件对环状RNA进行识别与表达定量。现在虽然已经过了环状RNA鉴定方法开发的喷涌期,但由于不同的实验和技术存在偏倚性,直到现在仍有一些新的软件涌现,例如CARP(Li et.al, 2022)、CiLiQuant(Celine et.al, 2022)。

 

2-2 环状RNA的多组学研究

过去十年,二代测序技术帮助研究者对环状 RNA 有了深刻的认识,涉及从合成到降解的整个生命周期。

下面简单阐述了不同的组学技术对环状 RNA 的研究。

• 在基因组层面,通过ATAC-seq和ChIP-seq我们不仅能够探索环状RNA的转录活性被哪些转录因子、表观修饰因子等调控子的影响,还能观察宿主线性RNA与环状RNA是否受到相同的转录调控。不过这方面的内容鲜有人涉足。

• 环状RNA转录组研究量在组学中是最多的。转录组测序除了检测到全转录水平的环状RNA表达,不同的建库方式所研究的内容也有差异:通过全转录组RNA-seq,我们不仅能够对线性RNA(例如mRNA与lncRNA)与环状RNA进行全面刻画,还能了解同一个基因转录剪切的多样性;而circRNA-seq则为我们提供了更全面更丰富的circRNA图谱,能够描述一些低表达的circRNA,并且能捕获到一些非经典的环状RNA(例如ciRNA)。

• 环状RNA的翻译是当下研究的热点,而我们需要首先知道哪些环状RNA能够被翻译。除了用生信方法来预测翻译潜能(例如ORF、IRES以及m6A位点),一些数据库(例如circBank/transCirc等)也对circBase中的~10万个人类circRNAs提供了翻译的线索。当然,相比间接的方法,我们更希望能够直接检测到正在翻译的环状RNA。本来这个活Ribo-seq是最得心应手的,但核糖体印记长度~30nt,想要BSJ恰好被核糖体包裹,概率委实有点低(大家可以查看riboCirc数据库)。而另一种测序策略RNC-seq弥补了Ribo-seq敏感性低的缺陷,它捕获的是新生态链复合物,所以检测到的是RNA全长,从而提高了对环状RNA检测的敏感性。

虽说翻译调控(translation regulation)所包含的程序超过了其他调控的总和(Schwanhausser et al., 2011),但我们仍困在哪些环状RNA能够翻译,环状RNA翻译的研究真的是“路漫漫其修远兮”。

• 环状RNA的修饰在生命活动中发挥着重要的功能,例如单个m6A位点就能诱导翻译(Yang et.al, 2017)、m6A水平影响circRNA表达(Tang et.al, 2020),一般我们可以通过meRIP-seq方法来检测全转录组的circRNA修饰。

• 环状RNA的生命活动离不开蛋白质的参与,我们可以通过RIP-seq研究某个RBP所结合的环状RNA分子,而有些研究者也能通过CLIP-seq观察到少量环状RNA分子(例如starbase与circInteractome)。

• 单细胞以及空间转录组测序让我们能够更精准的了解细胞分子活动的时空性,能够解析bulk RNA-seq无法触及的领域。虽然研究者已经对几乎所有能测的组织和细胞株进行了单细胞测序,然而环状RNA的单细胞研究却极少。其中一个主要原因是主流的单细胞测序技术只能通过poly(A) 的建库方式对RNA进行捕获,例如10X Genomics;而环状RNA的检测则需要full-length的建库方式,虽然也存在一些技术能够采用了这种建库方式(例如SMART-seq2),但每次检测的细胞数量较少(<1000 cells)且价格并不便宜,因此这类full-length的单细胞策略并没有普及起来(circSC数据库仅收集到171套数据)。

 

除了这些常见的二代测序技术能够为我们解答许多关于环状RNA身世之谜,还有许多其他较小众的策略也常常用于环状RNA的研究,例如DRIP-seq检测R-loop研究环状RNA的调控。

当然,现在的项目研究所用到的技术都不是孤立的,我们往往需要整合多组学的技术联合对所观察到的现象进行剖析,例如circRNA m6A研究往往都需要结合RNA-seq,scRNA-seq往往需bulk RNA-seq。只有掌握了这些测序技术的基本原理,我们才能在研究中更游刃有余。

 

2-3 二代测序的痛点

由于环状RNA除了BSJ与其他线性RNA别无二致,因此通过二代测序手段检测以及定量circRNA实际上一件比较困难的事。

虽然听起来让人诧异——不是已经有这么多软件能够分析circRNA了吗——这些环状RNA识别与定量也仅仅是通过算法推测,假阳性率甚至达到了45%(Dodbele et.al, 2021)。

为什么这么说呢?主要原因有两点:

• 二代测序固有的缺陷

二代测序由于DNA聚合酶活性等问题,只能检测较短的片段(例如最常用的PE150),因此需要事先对RNA分子进行片段化处理,这一措施很可能导致“circRNA唯一标识BSJ”丢失。

• 环状RNA自身的特征

绝大部分环状RNA表达丰度是极低,因此,在碎片化的RNA文库中circRNA的信号很容易就被掩盖了。

 

因此,二代测序对环状RNA进行检测一般都需要比mRNA更高的RNA建库起始量,从而保证BSJ分子能够被保留;同时,生信算法也需要足够敏感,但同时又要尽可能地排除假阳性。

二代测序研究环状RNA另一个缺陷是难以检测到环状RNA的中间序列,而大量研究都表明环状RNA存在着复杂的中间结构。为了缓解这一状况,许多根据RNA-seq数据预测环状RNA中间结构的算法被提出,例如CIRCexplorer2、CIRI-full、CircAST等等。

然而,尽管研究人员通过计算方法一定程度提高了二代测序检测环状RNA的准确性,但二代测序固有的局限性以及环状RNA结构的复杂性让我们需要更适合的技术对环状RNA更进一步的刻画。

 

03 三代测序

历史回顾

虽然二代测序极大地开拓了我们对RNA世界的认知,但二代测序将序列碎片化获得的信息存在许多噪音也丢失了许多重要信息(例如RNA复杂的可变剪切)。我们对测序最初的希望是直接得到全转录组RNA分子的完整序列并对其无偏定量,三代测序策略的让我们离这个愿望更接近了。

在2011年和2014年PacBio以及Oxford Nanopore分别发布了基于聚合酶和基于电信号的商用测序仪。随着技术的成熟和测序价格的下降,在2015年的时候You等研究者就开始使用PacBio检测环状RNA,虽然当时仅仅是12个二代测序来源的环状RNA进行了验证;在2017年Hirsch等人通过Nanopore对circNPM1的剪接异构体的序列组成进行解析;直到2019年,Rahimi等人才通过Nanopore对环状RNA进行了大规模的测序(发表在bioRxiv预印本),不过它采用片段化试剂盒“破环”的方式仍然可能导致环状RNA序列的不完整。

 

去年应该能算作circRNA三代高通量测序研究的元年,总共有四篇文章介绍了用Nanopore测序技术检测全长circRNA的不同策略,分别是:

isoCirc(2021年1月Nature Communicate)

宾夕法尼亚大学费城儿童医院的刑毅博士团队开发了纳米孔滚环扩展的环状RNA isoform全长测序策略(rolling circle amplification followed by nanopore long-read sequencing),对 12 个人类组织和一个人类细胞系开展了测序并收集于isoCirc。

isoCirc通过rRNA-deleted、RNase R对circRNA进行富集,随后用随机引物对circRNA进行反转录,如果反转录后的产物超出了环的长度就用酶进行消化,随后反转录产物被连接成环,最后进行滚环扩增(RCA)。

随后将RCA产物进行Nanopore测序。生信分析鉴别circRNA主要包括滚环一致序列(rolling consesus sequence)以及BSJ识别两个步骤。

 

CIRI-long(2021年3 月Nature Biotechnology)

中科院北京生命科学研究院的赵方庆教授团队对多种Nanopore环状RNA建库进行了测试,力求寻找目前对circRNA Nanopore测序的最优组合,并试图为Nanopore检测环状RNA提供best practices。

CIRI-long通过rRNA-deleted、poly(A) tailing和RNase R充分去除线性分子从而富集circRNA,随后用随机引物进行滚环反转录,再合成2nd链cDNA后进行了最优测序片段的筛选。

Nanopore测序后,用CIRI-long分析策略进行数据分析,分析的关键步骤包括滚环一致序列(cyclic consesus sequence)以及BSJ识别两个步骤。

 

circNick-LRS(2021年8月,Nature Communications)

丹麦奥胡斯大学的Rahimi等研究者在2019年已将circNick-LRS分享到了bioRxiv,他们没有像isoCirc和CIRI-long那样进行滚环扩增,而是采用“破环”的方式(作者描述为nick gently)使环状RNA线性化后测序。除此之外,他们还提供了针对circRNA panel三代测序circPanel-LRS。

circNick-LRS通过rRNA-deleted、poly(A) tailing和RNase R充分富集环状分子,随后通过“破环”将环状RNA线性化并添加 poly(A) 尾。

Nanopore 测序后通过pblat查看测得的序列是否包含BSJ位点。

 

circFL-seq(2021年10月,eLife)

北大医学部基础医学院的杨恩策研究员领导团队开发了自己的全长环状RNA测序,同样采取的是滚环的建库方式;另外,circFL-seq也配套了自己的生信分析工具包,除了对环状RNA进行检测还能识别融合circRNA(f-circRNA)。

circFL-seq采用的仍然是rRNA-deleted、poly(A) tailing和RNase R富集环状分子的方法,随后用滚环反转录将环状RNA线性化建库。

测序后生信分析方面,circFL-seq提供了包括序列直接进行参考基因组比对(RG)以及通过CCS进行参考基因组比对(cRG)两种方式寻找潜在circRNA。

 

三代测序技术能够轻松检测到二代测序难以捕获到的信息,不仅进一步支持了环状RNA种类的多样性(包括 ecircRNA/EIciRNA/ciRNA等),同时还揭露了BSJ内部序列的复杂性,并能够直接获取到融合环状RNA(f-circRNA)的信息。

 

近期资讯

去年国内首款自主研发实现量产的纳米孔基因测序仪QNome-3841发布,并于今年6月进行了升级发布QNome-3841hex。

Illumina在二代测序市场虽然占有绝对的统治地位,但面对测序市场向长读长测序的急速转变,它急需在该领域做出突破。另一方面,Illumina的一些核心专利(例如“修饰核苷酸”和“改良核苷酸”)到期或即将到期,早已被虎视眈眈的二代测序市场将被瓜分(例如华大制造已经发布了多款DNBSEQ产品在美上市的计划),这也迫使Illumina需要在新的领域有所作为。

因此,Illumina在2018年收购三代测序界的翘楚PacBio无果后,在今年1月推出了长读长技术Infinity。9月29日,首届Illumina基因组学论坛宣称Illumina三代测序产品Complete Long-Reads(曾用名Infinity)目前正处于抢先体验阶段,将于2023年正式推出。

 

最后

Illumina公司推出长读长产品意味着DNA测序市场已经开始转变。特别地,二代测序的市场几乎完全被国外技术钳制,三代测序技术应用场景非常广阔且市场仍有大片空白,这也给了中国企业“弯道超车”的机会。

当然,“尺有所短,寸有所长”,无论是一代、二代还是三代,它们都有着各自的优势领域,不同的科研问题用不同的技术,而我们只需要按需所取就可以了!

 

发表评论